2019-12-23

12/2学习内容(TCGA)

整理了之前的笔记,然后再操作一下关于TCGA的数据下载,刚好用上次老师完成的对24篇文献的处理进行处理,通过看了健明老师发的视频。

TCGA数据下载

下载安装包
if (!requireNamespace("BiocManager", quietly = TRUE))    
install.packages("BiocManager") 
BiocManager::install("TCGAbiolinks")#下载关键包"TCGAbiolinks"
install.packages("GDCquery")

数据下载之前特意去看了关于GDCquery函数的参数

发现GDCquery函数一共有11个参数:
1.project;#可以使用TCGAbiolinks:::getGDCprojects()$project_id)得到各个癌种的项目id,总共有45个ID值。
2.data.category;
3.data.type;
4.workflow.type;
5.legacy = FALSE;
6.access;
7.platform;
8.file.type;
9.barcode;
10.experimental.strategy;
11.sample.type
关于参数
1.project

可以使用TCGAbiolinks:::getGDCprojects()$project_id)得到各个癌种的项目id,总共有45个ID值。

如:将要下载的肝癌项目编号为project="TCGA-LIHC"

TCGAbiolinks:::getGDCprojects()$project_id
[1] "TCGA-READ" "TARGET-CCSK" "TCGA-MESO" "TCGA-CHOL"
[5] "NCICCR-DLBCL" "TARGET-WT" "TCGA-TGCT" "TCGA-PRAD"
[9] "TCGA-LAML" "TCGA-ESCA" "TCGA-SARC" "TCGA-ACC"
[13] "TCGA-PAAD" "TCGA-BLCA" "TCGA-KICH" "FM-AD"
[17] "TCGA-LUSC" "TCGA-THYM" "TCGA-GBM" "TCGA-UCEC"
[21] "TCGA-COAD" "TCGA-LUAD" "TARGET-AML" "TARGET-NBL"
[25] "TCGA-DLBC" "TCGA-UVM" "TCGA-THCA" "TARGET-OS"
[29] "TCGA-LGG" "TCGA-STAD" "TCGA-LIHC" "TCGA-CESC"
[33] "TCGA-HNSC" "TCGA-KIRC" "VAREPOP-APOLLO" "TCGA-SKCM"
[37] "TCGA-BRCA" "TCGA-OV" "TCGA-PCPG" "CTSP-DLBCL1"
[41] "TCGA-UCS" "CPTAC-3" "TCGA-KIRP" "TARGET-RT"
[45] "TARGET-ALL-P3"

2.data.category

可以使用TCGAbiolinks:::getProjectSummary(project)查看project中有哪些数据类型,如查询"TCGA-LIHC",有7种数据类型(就是前面群主视频多次提到的数据类型),case_count为病人数,file_count为对应的文件数。小编要下载表达谱,所以设置data.category="Transcriptome Profiling"

TCGAbiolinks:::getProjectSummary("TCGA-LIHC")
$data_categories
case_count file_count data_category
1 376 2122 Transcriptome Profiling
2 376 1537 Copy Number Variation
3 375 3032 Simple Nucleotide Variation
4 377 430 DNA Methylation
5 377 423 Clinical
6 377 1637 Sequencing Reads
7 377 1634 Biospecimen

3.data.type

筛选要下载的文件的数据类型。没有命令可以查看data.type里都有哪些数据类型,但是根据官网连接,如下表图,和所查资料,我们可以总结出常用的data.type都有:

下载rna-seq的counts数据

data.type = "Gene Expression Quantification"

下载miRNA数据

data.type = "miRNA Expression Quantification"

下载Copy Number Variation数据

data.type = "Copy Number Segment"
这里下载表达谱为data.type = "Gene Expression Quantification"

1556293360665.png
1556293360665.png

4.workflow.type

不同的数据类型,有其对应的参数可供选择。

workflow.type 有三种类型分别为:

HTSeq - FPKM-UQ:FPKM上四分位数标准化值

HTSeq - FPKM:FPKM值/表达量值

HTSeq - Counts:原始count数

小编需要下载count数,所以workflow.type=“HTSeq - Counts”。

5.legacy = FALSE

这个参数主要是因为TCGA数据有两个入口可以下载,GDC Legacy Archive 和 GDC Data Portal,区别主要是注释参考基因组版本不同分别是:GDC Legacy Archive(hg19和GDC Data Portal(hg38)。参数默认为FALSE,下载GDC Data Portal(hg38)。这里小编的建议是,下载转录组层面的数据使用hg38,下载DNA层面的数据使用hg19,因为比如做SNP分析的时候很多数据库没有hg38版本的数据,都是hg19的。

1556293412665.png
1556293412665.png

6.access

数据开放和不开放,有两个参数:controlled, open。

我们这里使用:access=“open”

7.platform

这里涉及到的平台种类非常多,可以具体去官网看每种数据都有什么平台的可以下载。这个参数可以省略不设置。

1556293428897.png
1556293428897.png

8.file.type

主要是在GDC Legacy Archive下载数据的时候使用,可以参考官网说明。这里小编在GDC Data Portal下载数据,所以该参数省略不设置。

9.barcode

A list of barcodes to filter the files to download。可以根据这个参数设置只下载某个样本等。如:

barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01")

10.experimental.strategy

两个下载入口参数选择

GDC Data Portal:WXS, RNA-Seq, miRNA-Seq, Genotyping Array.

Legacy: WXS, RNA-Seq, miRNA-Seq, Genotyping Array, DNA-Seq, Methylation array, Protein expression array, WXS,CGH array, VALIDATION, Gene expression array,WGS, MSI-Mono-Dinucleotide Assay, miRNA expression array, Mixed strategies, AMPLICON, Exon array, Total RNA-Seq, Capillary sequencing, Bisulfite-Seq

11.sample.type

A sample type to filter the files to download,可以对样本类型进行过滤下载。这里我要下载所有样本类型数据,不设置。部分值选择如下(全部可以查看官网):如sample.type = "Recurrent Solid Tumor"

数据下载
#先从数据库里找到符合各项参数要求的数据
query <- GDCquery(project = "TCGA-LIHC", 
                 legacy = FALSE, 
                 experimental.strategy = "RNA-Seq", 
                 data.category = "Transcriptome Profiling", 
                 data.type = "Gene Expression Quantification", 
                 workflow.type = "HTSeq - Counts")

#再使用命令GDCdownload()下载
GDCdownload(query)
获取表达矩阵
dataAssay = GDCprepare(query.count, summarizedExperiment = F)
rownames(dataAssay) = as.character(dataAssay[,1])
# dataAssay就是矩阵了,它此时在R的环境变量里、也就是在计算机内存中。你可以在R中对它进行进一步的分析。
# 也可以用write.table或write.csv命令把它从R里保存出来到硬盘,并保存为csv的格式,就可以用excel打开了。
write.csv(dataAssay, "TCGA-matrix.csv")  # 此时,保存的文件名为“TCGA-matrix.csv”

再看视频当中结合晚上资料去理解

2019-12-23_第1张图片
image.png

你可能感兴趣的:(2019-12-23)