组织的多维组学分析见多了,那细胞系的呢

TCGA中肿瘤数据的多维组学分析见多了,那细胞系的多维组学分析你见过吗?今天小编想跟大家分享的是一篇发表在Molecular Systems Biology(IF: 8.991)上的文章,研究者通过对12个研究中53个组学研究的2018个细胞系进行整合以及荟萃分析,对细胞系的9维组学数据进行系统分析。为解决某些数据模式在不同数据集中一致性相对较低的问题,研究者开发出一种可靠的数据集成方法,该方法可识别出在多种数据模式和不同研究之间共享的可重复特征。

Multi-modal meta-analysis of cancer cell line omics profiles identifies ECHDC1 as a novel breast tumor suppressor

基于细胞系的多维组学荟萃分析识别出一个新的乳腺癌抑制基因ECHDC1

1.细胞系多维组学数据

本研究数据来自于12个实验室的53个组学研究,共包括2018个细胞系的9维组学数据,包括表达,甲基化,突变,拷贝数,蛋白质表达,蛋白质磷酸化,基因依赖,药物敏感性和蛋白质成瘾这9个维度(图1A-C)。

2.细胞系多维组学数据之间的一致性

研究者首先基于斯皮尔曼相关分析对来自于不同实验室研究,不同细胞系多维组学数据之间的一致性进行评估(图1D)。其中彩色条代表来自于不同研究的相同细胞系之间各个数据维度的一致性,灰色条代表来自于不同研究的不同细胞系之间各个数据维度的一致性。从图中可以看出,不同研究之间的一致性程度相差较大,其中相同细胞系的拷贝数改变和转录组数据一致性较高,而突变数据的一致性则较差。

生信分析需求 填写生信分析意向表获取更多疾病相关思路

图1.细胞系多维组学数据的整理以及一致性评估

3.不同实验技术以及数据标化方法对数据可重复性的影响

接着,研究者对细胞系多维组学数据间一致性较差的原因进行探究。对于来自于不同基因靶向技术RNAi和CRISPR的基因依赖性数据而言,同来自于CRISPR数据之间的一致性明显高于RNAi技术和CRISPR技术之间的一致性(图2A-B)。另外,对于蛋白质组学数据而言,不同制备方法以及不同数据的标准化方法同样会对不同细胞系数据之间的一致性造成影响(图2C-E)。

图2. 实验技术以及标准化方法对数据可重复性的影响

4.基于不同来源的细胞系多维组学数据构造癌细胞系特异打分(CLIP)

由于不同数据之间的一致性较差,研究者无法通过对不同维度数据进行简单分析获得可靠的细胞系特异性基因。因此研究者对来源不同,维度不同的细胞系数据进行整合(图3A-B),通过细胞系特异性打分获得较为可靠的癌症细胞系特异基因。细胞系特异性打分主要包括两个方法,对于基因表达等连续数据,研究者计算在不同来源(D)的细胞系(j)中基因(Xi)的离群分数;对于拷贝数改变等分类数据,研究者计算不同来源(D)的细胞系(j)中基因(Xi)发生某事件的比例(图3C)。接着,基于离群分数和比例分数分别构造不同维度数据在不同数据集中的非参数矩阵,通过RankProduct包识别出在细胞系中特异性上调的和特异性下调的基因(图3D)。研究者对不同维度中识别出的特异性基因进行整合,将至少在两个维度中被识别为癌细胞系特异性基因的基因作为可靠的癌细胞系特异性基因,并纳入下一步分析(图3E)。图3F展示出在不同维度数据中的HER2+细胞系特异性基因。

图3.癌细胞系特异性打分流程

5.CLIP识别出已经明确的乳腺癌细胞系和亚型特异的驱动基因

研究者以乳腺癌细胞系为例,对CLIP识别出特异性基因的可靠性进行评估。研究结果表明,CLIP可以识别出多个已经被大量研究证实为乳腺癌驱动因素的细胞系特异基因(图4A),在不同维度数据中识别出的乳腺癌细胞系特异性基因比例如图4B所示。除癌细胞系特异性基因外,CLIP在识别亚型特异基因方面也具有一定可靠性。与ER-细胞系比较,在更多的ER+细胞系中把ESR1识别为癌细胞系特异基因(图4C-D)。与HER2-细胞系比较,在更多的HER2+细胞系中把ERBB2识别为癌细胞系特异基因(图4E-F)。与单独分析每个数据维度和另外一种多组学分析方法MOFA+相比,CLIP能够系统识别出更大比例的已经确定的癌症驱动基因(图4G)。

图4.CLIP在乳腺癌细胞系中的效能评估

6.乳腺癌抑癌基因ECHDC1的识别

ECHDC1在多个维度,多个乳腺癌细胞系中被识别为癌细胞系特异性基因,且在超过85%的细胞系中呈现高甲基化,低表达模式,符合抑癌基因的表达特征(图5A)。在随后的预后分析中也发现,ECHDC1高表达乳腺癌患者的预后明显优于低表达患者(图5B)。分别在良性乳腺上皮细胞和乳腺癌细胞系中敲除ECHDC1基因,在良性乳腺上皮细胞中发生增殖,而在乳腺癌细胞系中没有明显变化,进一步证明ECHDC1有可能为潜在的乳腺癌抑癌基因(图5C)。为进一步阐明ECHDC1的抑癌机制,研究者进一步对ECHDC1参与的代谢途径进行研究(图5D),在ECHDC1为特异性基因的乳腺癌细胞株中,琥珀酸和2OH-3MBA显著上调(图5E)。

图5.乳腺癌抑癌基因ECHDC1的识别

7.癌细胞系特异性基因和遗传互作

癌细胞系特异基因有助于遗传互作关系的识别,在包含KRAS、PIK3CA和BRAF致癌驱动突变的特定细胞系中能识别出已知的原癌基因成瘾(图6A-D)。另外,已知的原癌基因更有可能被CLIP识别为癌细胞系特异性基因(图6E)。研究者还识别出PTEN的一个伙伴基因DDX27,在PTEN突变细胞系中,有更大比例的细胞系把DDX27(低表达状态)识别为癌细胞系特异基因(图6F-G)。进一步生存分析也表明,DDX27低表达的子宫内膜癌患者预后明显优于高表达患者(图6H)且PTEN突变细胞系中DDX27表达更低(图6I)。以上证据表明DDX27可以作为可靠的PTEN联合致死伙伴基因。

图6.联合致死互作关系的识别

这篇文章的内容大概就是这些,不知道大家掌握的怎么样呢?如果觉得TCGA的多维组学分析过于普通,那就试试细胞系的多维组学分析吧,或者在TCGA多维组学数据分析的基础上添加细胞系数据分析,相信一定可以给你的研究锦上添花,增色不少哦!

生信分析需求 填写生信分析意向表获取更多疾病相关思路

你可能感兴趣的:(组织的多维组学分析见多了,那细胞系的呢)