今天介绍一篇纯生信分析文章,影响因子现在是27.4分。
结果包含6个主图和8个附图,以及9个附表,原文和参考文献等资料已经上传到交流qq群:963621121
建此群旨在提供学术交流平台,大家可进行学术互助,学术交流。
背景知识和展望
m6A RNA甲基化广泛存在于mRNA、lncRNA和miRNA中,且m6 A 修饰是哺乳动物细胞中一种动态可逆过程,受甲基转移酶、去甲基化酶和结合蛋白的调控。m6A 调节因子的表达失调和遗传变化与细胞死亡和增殖失调、发育缺陷、肿瘤恶性进展、自我更新能力受损和免疫调节异常有关。
肿瘤细胞生长和存活所依赖的微环境在肿瘤进展、免疫逃逸及其对免疫治疗反应的影响中的关键作用。肿瘤微环境 (TME) 不仅包含癌细胞,还包含基质细胞,巨噬细胞,浸润性免疫细胞,骨髓源性细胞 (BMDC),分泌因子等。癌细胞通过与其他 TME 成分的直接和间接相互作用引起多种生物学行为变化,诱导增殖和血管生成、抑制细胞凋亡、避免缺氧以及诱导免疫耐受。
目前以免疫检查点阻断(ICB、PD-1/L1 和 CTLA-4)为代表的免疫疗法远未满足临床需求。根据 TME 细胞浸润的特征预测对 ICB 的反应是提高现有 ICB 成功率和开发新型免疫治疗策略的关键程序。因此,通过综合解析TME景观异质性和复杂性,有可能识别出不同的肿瘤免疫表型,指导和预测免疫治疗反应的能力也将得到提高。
由于过往研究仅限于一种或两种 m6 A 调节剂和细胞类型,缺少全面认识由多个 m6A 调节剂介导的 TME 细胞浸润特征对 TME 免疫调节的理解。
这项研究通过挖掘1938 例胃癌样本,揭示了三种不同的 m6 A 修饰模式,这三种模式下的 TME 特征分别与免疫排斥表型、免疫炎症表型和免疫沙漠表型高度一致,阐述了m6A 调节剂介导的TME特征。并建立了一套评分系统来量化个体患者的 m6 A 修饰模式。
文章思路
主要结果
首先作者做了胃癌中m6 A调节器的遗传变异和拷贝数变异情况的分析,得到结论:确定了几个突变频率比较高的基因,并发现它们的突变具有共现性。其次与正常胃组织相比,CNV扩增的m6 A调节器在GC组织中表现出明显的高表达,m6 A 调节器的表达失衡在 GC 的发生和进展中起着至关重要的作用。
作者将1938个胃癌样本根据21个m6A调节器的基因表达水平分成了三个cluster,并进行了生存分析,基因集富集分析,免疫细胞丰度比较,结果发现:这三个cluster分别对应三种免疫亚型(免疫沙漠型,免疫炎症型,免疫排斥型),并揭示了其分别对应的通路和免疫细胞情况。
紧接着,作者对三组cluster样本进行差异分析,得到共同的差异基因,根据这些m6A调节器相关的表型差异基因的表达量再次进行了无监督聚类,把样本重新分成了3个cluster,并和之前得到的三个cluster进行比较。后续有做了一些基因集富集分析。以及根据这些交集差异基因构建了m6Ascore,可以用预测免疫治疗的效果。并且被证实效果很好,且可能是比TMB和MSI更有效预测免疫治疗效果的生物标志物。
分析方法
一、胃癌数据集来源及预处理
1.表达数据和临床信息
GSE15459、GSE34942、GSE57303、GSE62254/ACRG、GSE84437、GSE26253 和 TCGA-STAD没有生存信息的患者被排除在外。
2.突变数据 体细胞突变数据来自TCGA数据库。
3.拷贝数变异数据 ACRG 队列的 GSE62717 数据集。
4.数据预处理
(1)对于来自 Affymetrix® 的微阵列数据,通过下载了原始“CEL”文件并采用多阵列平均方法以及 affy 和 simpleaffy 包来执行背景调整和分位数归一化。(2)对于来自其他平台的微阵列数据,直接下载归一化矩阵文件。
(3)对于 TCGA 中的数据集,使用 R 包 TCGAbiolinks 下载基因表达的 RNA 测序数据(FPKM 值)。然后将 FPKM 值转换为TPM值。
(4)使用 sva 包的ComBat算法校正非生物技术偏差的批次矫正。
二、21个m6A 调节因子的无监督聚类
1.相关基因
(1)甲基转移酶相关基因:
RBM15、ZC3H13、METTL3、METTL14、WTAP 和 KIAA1429
(2)去甲基化酶相关基因:
FTO 、ALKBH5
(3)结合蛋白相关基因:
YTHDF1/2/3、YTHDC1/2、HNRNPA2B1、LRPPRC、FMR1
2.数据分析
(1)由于 Illumina HumanRef-8 WG-DASL v3.0 平台检测到的 m6 A 调节因子很少,GSE26253 被排除在外。
(2)从五个集成的 GEO 数据集中提取了总共 21 个调节器,基于 21个m6 A 调节剂的表达,使用ConsensuClusterPlus包进行无监督聚类分析,并进行了1000次重复以保证分类的稳定性。
三、基因集变异分析 (GSVA) 和功能注释
1.使用GSVA R 包进行了 GSVA 富集分析。从 MSigDB 数据库下载“c2.cp.kegg.v6.2.symbol”基因集用于运行 GSVA 分析。显著性阈值为矫正后P 值小于 0.05 。
2.clusterProfiler R包用于对m6 A相关基因进行功能注释,显著性阈值为FDR < 0.05。
四、TME 细胞浸润的估计
通过 ssGSEA 分析计算的富集分数用于表示每个样品中每个 TME 浸润细胞的相对丰度。TME浸润免疫细胞类型包括活化的CD8 T细胞、活化的树突状细胞、巨噬细胞、自然杀伤T细胞、调节性T细胞等。
五、鉴定 m6 A 不同表型之间的差异表达基因 (DEG)
根据21个m6A基因表达的无监督聚类结果将患者分为三种不同的 m6 A 修饰模式。使用limma R 包的经验贝叶斯方法确定不同修改模式之间的差异基因。显著性筛选阈值为调整后的 P 值 < 0.001。
六、m6 A 基因signatrue构建
1.首先在所有ACRG队列样本中对从不同m6Aclusters鉴定的DEGs进行归一化,并提取重叠基因。
2.通过采用无监督聚类方法分析重叠DEG,将患者分为几组进行更深入的分析。
3.使用单因素 Cox 回归模型对每个基因进行了预后分析。提取具有显着预后的基因.
4.使用主成分分析 (PCA) 以构建 m6 A 相关基因signatrue,其中 i 是 m6A 表型相关基因的表达。
7.m6A 基因signatrue与其他相关生物过程的相关性
相关生物过程包含
1.免疫检查点
2.抗原处理machinery
3. CD8 T-效应器signatrue
4.上皮间质转化(EMT)标志物,包括EMT1、EMT2和EMT3
5.血管生成signatrue
6.泛成纤维细胞TGFb反应signatrue(Pan-F-TBRS)
7. WNT target
8.DNA损伤修复
9.错配修复
10核苷酸切除修复
11.DNA复制
12. 抗原处理和递呈
8.免疫检查点阻断治疗的基因表达数据和临床信息的收集
1.使用atezolizumab(一种抗 PD-L1 抗体)干预的晚期尿路上皮癌患者数据,(IMvigor210 队列)。counts数据通过 DEseq2 R 包进行归一化处理,然后将计数值转化为 TPM 值。
2.使用pembrolizumab(一种抗 PD-1 抗体)干预的转移性黑色素瘤患者数据GSE78220。使用 limma 包进行标准化后,基因表达谱的 FPKM 数据也转换为样本间更具可比性的 TPM 值。
9.统计分析
1.TME 浸润免疫细胞与 m6A 调节因子表达之间的相关系数通过 Spearman 和距离相关分析计算。
2.使用One-way ANOVA和 Kruskal-Wallis 检验对三个或更多组进行差异比较 。
3.基于m6Ascore与患者生存率的相关性,使用survminer R包确定每个数据集亚组的分界点。应用“surv-cutpoint”函数重复测试所有潜在的切点以寻找最大秩统计量,将m6Ascore二分,然后根据最大选择的log-rank将患者分为高m6Ascore组和低m6Ascore组统计以减少计算的批处理效果。
4.预后分析的生存曲线通过 Kaplan-Meier 方法生成,对数秩检验用于识别差异的显着性。
5.采用单变量 Coxregression 模型来计算 6A 调节因子和 m6A 表型相关基因的风险比 (HR)。
6.通过多变量Cox回归模型确定独立的预后因素。具有详细临床数据的患者有资格进行最终的多变量预后分析。
7.森林图 R 包用于可视化 ACRG 队列和 Zhangetal 中 m6Ascore 的多变量预后分析结果。TCGA-STAD 队列。
8.m6Ascore的特异性和敏感性通过受试者工作特征(ROC)曲线进行评估,曲线下面积(AUC)使用pROC R包进行量化。
9.使用maftools包的瀑布函数呈现TCGA-STAD队列中m6Ascore高低亚型患者的突变情况。
10.采用 RCircos 的 R 包绘制了 23 对染色体中 21 个 m6A 调节因子的拷贝数变异图谱
11.所有统计 P 值都是两侧的,p < 0.05 为统计学显着性。