零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)

前面的分析中,整理好的关键基因集表达谱矩阵,接下来就准备分子亚型的相关分析。

六、一致性聚类构建分子亚型

在6.TCGA和GEO差异基因获取和预后数据的整理\TCGA文件中获取文件
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第1张图片
准备一个生存数据和表达谱矩阵,这里需要注意的是,修改tcga.merge.cli.txt文件,为了区分,我们改一下名字cli.txt
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第2张图片
打开文件tcga.T.dat.txt,转置这个很重要,未来区分,我们改一下名字tcga.T.dat1.txt
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第3张图片
使用一致性聚类工具进行分析(http://www.sxdyc.com/clusterConsistentAnalyse)
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第4张图片
提交后,如果这里出现报错,我们需要查看一下样本的对应关系,在前面的分析过程中,表达谱矩阵的样本有重复,所以出现部分样本没有在生存时间中出现,所以这里我们可以对生存数据的样本重新整理。(首先、对tcga.T.dat.txt按照样本使用去重工具去一下重复,对去重后的表达谱样本和生存数据重新取交集)
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第5张图片
去重(http://www.sxdyc.com/removeweight)
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第6张图片
运行成功后,下载数据,打开文件,转置(行列交换),并改名为tcga.T.dat1.txt
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第7张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第8张图片
在生存数据中去重在表达谱中不存在的样本,重新提交进行一致性聚类
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第9张图片
这里粗略的介绍一下,我们可以选择不同的计算度量聚类方法,聚类的方法和数据标准化的方法(raw:原始,scale:scale标准化,center:中心化)

运行成功后,下载相关的结果即可,查看KM曲线,如果预后无意义(p>0.05),这时候可以换一个度量聚类方法/聚类的方法/数据标准化的方法继续往下走,直到能得到预后有意义的分子亚型为止。

零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第10张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第11张图片
当然如果这里我们想显示,生存时间为年的,就在cli.txt文件中,修改生存时间,将天改为年即可。

七、ESTIMATE预测免疫浸润和差异分析

使用EStimate的方法计算免疫浸润的相关情况(http://www.sxdyc.com/immuneEstimateScore),使用文件(1.TCGA.pre/dat.process.txt.gz)

运行成功后,下载即可
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第12张图片
打开dat.extimate.txt的文件,首先提取14-15位的字符串,保留01的样本,然后在取1-14位的字符串,最终做成一下结果
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第13张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第14张图片
最后做成这个样子,然后zhendui
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第15张图片
先去重(http://www.sxdyc.com/removeweight),运行成功后,改名为dat.estimate.process.txt
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第16张图片
提取共有的样本,做一个箱线图,需要分型的文件

(http://www.sxdyc.com/geneExpression),运行成功后,改名为dat.estiamte.select.txt
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第17张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第18张图片
绘制箱线图(http://www.sxdyc.com/immuneAbundanceCompar)

记得cluster2.txt的文件删掉生存时间和生存状态
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第19张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第20张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第21张图片
运行成功后
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第22张图片
当然也可以换其他的箱线图(http://www.sxdyc.com/singleCollectionTool)
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第23张图片
八、mcpcounter免疫细胞浸润+免疫差异分析+热图

使用mcpcounter的方法计算免疫浸润的相关情况(http://www.sxdyc.com/immuneInfiltration),使用文件(1.TCGA.pre/dat.process.txt.gz)
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第24张图片
运行完成后,下载即可
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第25张图片
打开data.pre.txt的文件,去除肿瘤组织,只留1-12位的字符串(和ESTIAMTE一样的处理)
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第26张图片
将列名中_mcpcounter去掉,当然,也可以不去
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第27张图片
去重(http://www.sxdyc.com/removeweight),运行完成后下载,并改名为dat.mcp.process.txt,复制8.ESTIMATE预测免疫浸润中的cluster2.txt的文件
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第28张图片
提取共同的样本,运行完成后,下载并改名为dat.mcp.select.txt
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第29张图片
绘制箱线图(http://www.sxdyc.com/visualsBoxplot)
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第30张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第31张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第32张图片
热图(http://www.sxdyc.com/visualsClusterHeat)

打开dat.mcp.select.txt文件,转置,并改名为dat.mcp.select.T.txt
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第33张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第34张图片
零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路(三)_第35张图片
如果想把列注释(样本分组)排序,就只需要打开cluster.2.txt文件,按照分组的名称进行排序,重新绘制此图即可
#################################
如果有兴趣可以关注公众号(豆芽数据分析)
有零代码复现相关问题,可以付费进入零代码答疑群和大家一起交流,群费为9.9元,拒绝白嫖党(添加微信:ShenxinBS003或者ShenxinBS001)

你可能感兴趣的:(r语言,数据挖掘,数据分析,机器学习)