




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第R語(yǔ)言使用cgdsr包獲取TCGA數(shù)據(jù)示例詳解目錄TCGA數(shù)據(jù)源TCGA數(shù)據(jù)庫(kù)探索工具查看任意數(shù)據(jù)集的樣本列表方式選定數(shù)據(jù)形式及樣本列表后獲取感興趣基因的信息,下載mRNA數(shù)據(jù)選定樣本列表獲取臨床信息綜合性獲取下載mRNA數(shù)據(jù)獲取病例列表的臨床數(shù)據(jù)從cBioPortal下載點(diǎn)突變信息從cBioPortal下載拷貝數(shù)變異數(shù)據(jù)把拷貝數(shù)及點(diǎn)突變信息結(jié)合畫(huà)熱圖
TCGA數(shù)據(jù)源
眾所周知,TCGA數(shù)據(jù)庫(kù)是目前最綜合全面的癌癥病人相關(guān)組學(xué)數(shù)據(jù)庫(kù),包括的測(cè)序數(shù)據(jù)有:
DNASequencing
miRNASequencing
ProteinExpression
mRNASequencing
TotalRNASequencing
Array-basedExpression
DNAMethylation
CopyNumber
TCGA數(shù)據(jù)庫(kù)探索工具
知名的腫瘤研究機(jī)構(gòu)都有著自己的TCGA數(shù)據(jù)庫(kù)探索工具,比如:
BroadInstituteFireBrowseportal,TheBroadInstitute
cBioPortalforCancerGenomics,MemorialSloan-KetteringCancerCenter
TCGABatchEffects,MDAndersonCancerCenter
RegulomeExplorer,InstituteforSystemsBiology
Next-GenerationClusteredHeatMaps,MDAndersonCancerCenter
其中cBioPortal更是被包裝到R包里面
這里介紹如何使用R語(yǔ)言的cgdsr包來(lái)獲取任意TCGA數(shù)據(jù)。
cgdsr包:R語(yǔ)言工具包,可以下載TCGA數(shù)據(jù)。
DT包:data.table包,簡(jiǎn)稱DT包,是R語(yǔ)言中的數(shù)據(jù)可視化工具包。DT包可以將Javascript中的方法運(yùn)用到R中,也能將矩陣或者數(shù)據(jù)表在網(wǎng)頁(yè)中可視化為表格,以及其它的一些功能。
setwd("C:/Users/YLAB/Documents/R/win-library/4.1/")
install.packages("R.methodsS3_1.8.1.zip",repos=NULL)#安裝
install.packages("R.oo_1.24.0.zip",repos=NULL)#安裝
install.packages("data.table")
BiocManager::install("cgdsr",force=TRUE)#安裝
library(cgdsr)
library(DT)
#創(chuàng)建一個(gè)cgdsr對(duì)象
mycgds-CGDS("/")
#檢查下載是否成功,如果是FAILED就是沒(méi)成功。
test(mycgds)
getCancerStudies...OK
getCaseLists(1/2)...OK
getCaseLists(2/2)...OK
getGeneticProfiles(1/2)...OK
getGeneticProfiles(2/2)...OK
getClinicalData(1/1)...OK
getProfileData(1/6)...OK
getProfileData(2/6)...OK
getProfileData(3/6)...OK
getProfileData(4/6)...OK
getProfileData(5/6)...OK
getProfileData(6/6)...OK
all_TCGA_studies-getCancerStudies(mycgds)
DT::datatable(all_TCGA_studies)
查看任意數(shù)據(jù)集的樣本列表方式
上表的cancer_study_id其實(shí)就是數(shù)據(jù)集的名字,我們?nèi)我膺x擇一個(gè)數(shù)據(jù)集,比如stad_tcga_pub,可以查看它里面有多少種樣本列表方式。
stad2014-"stad_tcga_pub"
##獲取在stad2014數(shù)據(jù)集中有哪些表格(每個(gè)表格都是一個(gè)樣本列表)
all_tables-getCaseLists(mycgds,stad2014)
dim(all_tables)##共6種樣本列表方式
[1]65
DT::datatable(all_tables[,1:3])
查看任意數(shù)據(jù)集的數(shù)據(jù)形式
##而后獲取可以下載哪幾種數(shù)據(jù),一般是mutation,CNV和表達(dá)量數(shù)據(jù)
all_dataset-getGeneticProfiles(mycgds,stad2014)
DT::datatable(all_dataset,
extensions='FixedColumns',
options=list(#dom='t',
scrollX=TRUE,
fixedColumns=TRUE
一般來(lái)說(shuō),TCGA的一個(gè)項(xiàng)目數(shù)據(jù)就幾種,如下:
選定數(shù)據(jù)形式及樣本列表后獲取感興趣基因的信息,下載mRNA數(shù)據(jù)
my_dataset-'stad_tcga_pub_rna_seq_v2_mrna'
my_table-"stad_tcga_pub_rna_seq_v2_mrna"
BRCA1-getProfileData(mycgds,"BRCA1",my_dataset,my_table)
dim(BRCA1)
[1]2651
樣本個(gè)數(shù)差異很大,不同癌癥熱度不一樣。
選定樣本列表獲取臨床信息
##如果我們需要繪制survivalcurve,那么需要獲取clinical數(shù)據(jù)
clinicaldata-getClinicalData(mycgds,my_table)
DT::datatable(clinicaldata,
extensions='FixedColumns',
options=list(#dom='t',
scrollX=TRUE,
fixedColumns=TRUE
綜合性獲取
只需要根據(jù)癌癥列表選擇自己感興趣的研究數(shù)據(jù)集即可,然后選擇好感興趣的數(shù)據(jù)形式及對(duì)應(yīng)的樣本量。就可以獲取對(duì)應(yīng)的信息:
library(cgdsr)
library(DT)
mycgds-CGDS("")
##mycancerstudy=getCancerStudies(mycgds)[25,1]
mycancerstudy='brca_tcga'getCaseLists(mycgds,mycancerstudy)[,1]
##[1]"brca_tcga_3way_complete""brca_tcga_all"
##[3]"brca_tcga_protein_quantification""brca_tcga_sequenced"
##[5]"brca_tcga_cna""brca_tcga_methylation_hm27"
##[7]"brca_tcga_methylation_hm450""brca_tcga_mrna"
##[9]"brca_tcga_rna_seq_v2_mrna""brca_tcga_rppa"
##[11]"brca_tcga_cnaseq"
getGeneticProfiles(mycgds,mycancerstudy)[,1]
##[1]"brca_tcga_rppa"
##[2]"brca_tcga_rppa_Zscores"
##[3]"brca_tcga_protein_quantification"
##[4]"brca_tcga_protein_quantification_zscores"
##[5]"brca_tcga_gistic"
##[6]"brca_tcga_mrna"
##[7]"brca_tcga_mrna_median_Zscores"
##[8]"brca_tcga_rna_seq_v2_mrna"
##[9]"brca_tcga_rna_seq_v2_mrna_median_Zscores"
##[10]"brca_tcga_linear_CNA"
##[11]"brca_tcga_methylation_hm450"
##[12]"brca_tcga_mutations"
下載mRNA數(shù)據(jù)
mycaselist='brca_tcga_rna_seq_v2_mrna'
mygeneticprofile='brca_tcga_rna_seq_v2_mrna'
#Getdataslicesforaspecifiedlistofgenes,geneticprofileandcaselist
expr=getProfileData(mycgds,c('BRCA1','BRCA2'),mygeneticprofile,mycaselist)
DT::datatable(expr)
很簡(jiǎn)單就得到了指定基因在指定癌癥的表達(dá)量
獲取病例列表的臨床數(shù)據(jù)
myclinicaldata=getClinicalData(mycgds,mycaselist)
DT::datatable(myclinicaldata,
extensions='FixedColumns',
options=list(#dom='t',
scrollX=TRUE,
fixedColumns=TRUE
##Warningininstance$preRenderHook(instance):Itseemsyourdataistoo
##bigforclient-sideDataTables.Youmayconsiderserver-sideprocessing:
##http://rstudio.github.io/DT/server.html
從cBioPortal下載點(diǎn)突變信息
#突變基因名稱集合
mutGene=c("EGFR","PTEN","TP53","ATRX")
#檢索基因和遺傳圖譜的基因組圖譜數(shù)據(jù)
mut_df-getProfileData(mycgds,
caseList="gbm_tcga_sequenced",
geneticProfile="gbm_tcga_mutations",
genes=mutGene
mut_df-apply(mut_df,2,as.factor)
mut_df[mut_df=="NaN"]=""
mut_df[is.na(mut_df)]=""
mut_df[mut_df!='']="MUT"
DT::datatable(mut_df)
從cBioPortal下載拷貝數(shù)變異數(shù)據(jù)
mutGene=c("TP53","UGT2B7","CYP3A4")
cna-getProfileData(mycgds,mutGene,"gbm_tcga_gistic","gbm_tcga_sequenced")
cna-apply(cna,2,function(x)as.character(factor(x,levels=c(-2:2),labels=c("HOMDEL","HETLOSS","DIPLOID","GAIN","AMP"))))
cna[is.na(cna)]=""
cna[cna=="DIPLOID"]=""
DT::datatable(cna)
把拷貝數(shù)及點(diǎn)突變信息結(jié)合畫(huà)熱圖
下面的函數(shù),主要是配色比較復(fù)雜,其實(shí)原理很簡(jiǎn)單,就是一個(gè)熱圖。
library(ComplexHeatmap)
library(grid)
conb-data.frame(matrix(paste(as.matrix(cna),as.matrix(mut_df),sep=";"),nrow=nrow(cna),ncol=ncol(cna),dimnames=list(s(mut_df),colnames(cna))))
mat-as.matrix(t(conb))
DT::datatable((mat))
alt-apply(mat,1,function(x)strsplit(x,";"))
alt-unique(unlist(alt))
alt-alt[which(alt!="")]
alt-c("background",alt)
alter_fun=list(background=function(x,y,w,h){grid.rect(x,y,w-unit(0.5,"mm"),h-unit(0.5,"mm"),gp=gpar(fill="#CCCCCC",col=NA))},HOMDEL=function(x,y,w,h){grid.rect(x,y,w-unit(0.5,"mm"),h-unit(0.5,"mm"),gp=gpar(fill="blue3",col=NA))},HETLOSS=function(x,y,w,h){grid.rect(x,y,w-unit(0.5,"mm"),h-unit(0.5,"mm"),gp=gpar(fill="cadetblue1",col=NA))},GAIN=f
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑工程造價(jià)控制管理辦法示范
- 青少年心理健康評(píng)估量表指南
- 第5課《國(guó)行公祭為佑世界和平》教學(xué)設(shè)計(jì)-統(tǒng)編版語(yǔ)文八年級(jí)上冊(cè)
- 2025-2030中國(guó)跨境飲料電商選品邏輯與物流成本測(cè)算報(bào)告
- 2025-2030中國(guó)藥物警戒體系構(gòu)建與風(fēng)險(xiǎn)管理報(bào)告
- 2025-2030中國(guó)肉制品加工助劑技術(shù)創(chuàng)新與下游應(yīng)用前景預(yù)測(cè)
- 2025-2030中國(guó)老年保健品市場(chǎng)銷售渠道與消費(fèi)者行為分析報(bào)告
- 2025-2030中國(guó)精釀啤酒市場(chǎng)進(jìn)入壁壘與差異化競(jìng)爭(zhēng)策略及盈利模式評(píng)估報(bào)告
- 2025-2030中國(guó)精神類藥物市場(chǎng)規(guī)模測(cè)算及政策導(dǎo)向影響研究報(bào)告
- 2025-2030中國(guó)管理咨詢行業(yè)技術(shù)標(biāo)準(zhǔn)與服務(wù)質(zhì)量評(píng)估體系報(bào)告
- 2025年上海市(秋季)高考語(yǔ)文真題詳解
- 水廠培訓(xùn)課件
- 類風(fēng)濕關(guān)節(jié)炎達(dá)標(biāo)治療
- 電力工程電纜設(shè)計(jì)課件
- 衢州學(xué)院十五五校園及校園文化建設(shè)規(guī)劃
- 葡萄田租賃合同協(xié)議書(shū)
- 哈爾濱工業(yè)大學(xué)介紹
- 醫(yī)療行業(yè)中的新檢驗(yàn)技術(shù)推廣與普及
- 貼磚包工協(xié)議書(shū)模板
- 三相電協(xié)議合同
- 2025年朝花夕拾考試題及答案
評(píng)論
0/150
提交評(píng)論