套路分享:利用TCGA数据库进行免疫细胞浸润相关生信数据挖掘

本文作者毛细血管,研究方向肿瘤学,目前主要在学习生信数据挖掘和肿瘤免疫微环境等,在后面的分享过程中主要分享自己学到的生信方面操作以及肿瘤免疫微环境相关的文献解读,现已发表meta分析相关论文若干,欢迎大家与我进一步深入交流,微光会吸引微光。

这个月手上的事情有点多,分享更新的速度有点慢,希望大家理解一下!今天给大家分享的是免疫细胞浸润相关的生信数据挖掘,文末附有本人制作的PPT百度云链接,有需要的小伙伴可自行下载浏览,废话不多说,让我们来解读一下这种生信挖掘的套路吧!

整个套路的流程

image

TCGA数据下载和整理

TCGA数据下载一般有三种方式,(1)简单粗暴,直接在TCGA GDC官网上Cart 打包下载,亲自体验过,速度比较慢; (2)利用GDC提供的gdc-client.exe工具下载,在Powershell窗口(Windows系统)输入gdc-client.exe download -m gdc_manifest_20190122_150833.txt。ps: 后面的manifest文件还需要从TCGA GDC官网下载获得;(3)R语言下载,比较推荐,使用TCGAbiolinks包,例如输入命令

library(TCGAbiolinks)
query <- GDCquery(project = "TCGA-COAD",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts")
GDCdownload(query = query)

如果自己这边的网速可以的话下载会比较快,个人推荐第三种下载方式
image
image

TCGA数据的整理

因为前面下载的是转录组数据,里面内容比较复杂,有非编码RNA也有mRNA数据,这里只需要mRNA数据,其他数据应该剔除掉。这个时候就需要前往GENCODE官网https://www.gencodegenes.org/human/ 上下载gtf注释文件,一般会比较大,利用这个gtf文件和上面下载的TCGA表达谱数据获得mRNA表达矩阵。

image

mRNA表达矩阵的校正

利用limma包,对上面得到的mRNA表达矩阵进行校正,并且将多个同一基因的表达值取平均值,以获取唯一的mRNA, 这样就不会对后续的操作有干扰。

利用 CIBERSORT将mRNA表达谱转化为22种免疫细胞的所占比

利用 CIBERSORT工具里面提供的LM22文件,将mRNA表达谱转化为在对应组织中22种免疫细胞的所占比例,CIBERSORT可以通过网页进行转换(网址:https://cibersort.stanford.edu/runcibersort.php),当然了使用之前需要注册,需要机构的邮箱(一般是org结尾)或学校的邮箱(一般会有edu)进行注册。注册之后使用也比较简单,上传得到的mRNA表达矩阵,其他的都选择默认即可,然后选择Run CIBERSORT就可以,其他的就是等待。

image

image
image
image

等待结果运行结束就可以获取到22免疫细胞在组织中的所占比。然后里面会有P值已提供筛选,根据自己的结果选择P<0.05 或 P<0.01均可。

比较各组织中22种免疫细胞比例

通过箱式图、热图、相关性热图等比较各组织中的22种免疫细胞比例有无差异,
image
image
image

22种免疫细胞比例和TCGA临床数据相关联起来

(1) 生存分析,将22种免疫细胞分成高表达和低表达两组,分析这22种免疫细胞的比例高低是否和生存相关联。
image

(2)和临床分期(clinical stage)相关关联, 分析这22种免疫细胞是否和病人的分期有关系
image

思考和感悟部分

  1. CIBERSORT工具里面提供的LM22文件和癌种没有关系,各种癌种都认为是可以使用该文件的,癌种的不同是否会影响这22种免疫细胞的组成比?

  2. 以上套路只能发现这22种免疫细胞在数量上有无差别,是否会影响生存,和临床分期相关联与否,但是忽略了单个免疫细胞的作用。可能有些免疫细胞数量比较少,但单个免疫细胞的作用很强,发挥的作用可能也会很大。

PPT百度云链接

百度云链接:https://pan.baidu.com/s/10MIv3YxtvGjkpJwRE7M_3A 提取码:hivt

你可能感兴趣的:(套路分享:利用TCGA数据库进行免疫细胞浸润相关生信数据挖掘)