TCGA数据挖掘笔记1

生信技能树2021数据挖掘线上课笔记,需要结合课程讲解服用

  1. TCGA下载数据的方法
    -gdc-client(软件名):需要写命令运行,官方下载的数据,下载的数据是零散的,每个病人的每个样本单独组织


    GDC.png

xml:储存单个样本的临床信息,需整理为临床信息的表格
counts:储存单个样本表达数据,需整理为表达矩阵(RNA-seq)
json文件:出现样本文件的详细信息,含有样本ID和counts文件对应的信息

样本分组.png

分组信息,病人ID前12为ID,第14-15位,<10tumor,>=10normal

-xena(网页):在线工具,打包下载,可能会遇到网络问题;选GDC数据,可网页下载或者用R下载

-GDCRNAtools(R包):仅适用于GDC
http://bioconductor.org/packages/devel/bioc/vignettes/GDCRNATools/inst/doc/GDCRNATools.html

2.下载并整理数据后得到表达矩阵,后进行差异分析(转录组差异分析的3个金标准R包):
-edgeR
-DEseq2
-limma

3.转录组数据分析的起点:counts矩阵-reads计数数据


image.png

最优的选择是拿counts做分析

你可能感兴趣的:(TCGA数据挖掘笔记1)