文献翻译A 15-gene signature for prediction of colon cancer recurrence and prognosis based on SVM(1)

Abstract

目的:

筛选用来区分高风险复发和低风险复发结肠癌患者并预测其预后。

方法:

从Gene Expression Omnibus数据中收集5个结肠癌样本微阵列数据和癌症基因组图谱(TCGA)。在预处理之后,GSE17537中的数据是使用用于微阵列数据的线性模型(LIMMA)方法鉴定差异表达基因(DEGs)。 DEG进一步进行了基于PPI网络的社区评分和支持向量机(SVM)。然后使用SVM和Cox回归分析通过四个数据集GSE38832,GSE17538,GSE28814和TCGA验证。

结果:

复发和非复发样本共鉴定出1207个基因,包括726下调和481上调基因。使用SVM分析和五基因表达谱确认15基因(HES5,ZNF417,GLRA2,OR8D2,HOXA7,FABP6,MUSK,HTR6,GRIP2,KLRK1,VEGFA,AKAP12,RHEB,NCRNA00152和PMEPA1)被确定为结肠癌患者复发风险和预后的预测因子。

结论:

我们鉴定的15个基因特征可用于对结肠癌患者进行不同的预后分类。以及这其中的的一些基因可能代表新的治疗目标

Materials and methods

Microarray data

为了研究复发相关基因,微阵列数据结肠癌是从GEO数据库 GSE17537,其中19例复发和36例无复发样本。 此外,其他临床特征,包括年龄,性别,阶段,死亡状态,随访时间,生存时间,也被利用预测预后值。 此外,为了确保GSE17537分析的预后相关基因的可靠性,还获得了四个验证数据集,包括三个GEO [GSE38832(122个样本中有99个具有存活时间数据),GSE17538(68例复发和109例无复发样本)GSE28814(126个具有存活时间数据的样本)]和TCGA(275个样本有生存时间数据)。

Data normalization

通过RMA将下载的原始数据(CEL文件)已转换为表达矩阵(Irizarry等,
2003)在R统计软件包(www.r-project.org)中实施。通过Z分数变换对预处理的数据进行归一化
根据平均值和平均值调整每个基因的表达水平标准偏差(Z =(x-μ)/σ,其中x是原始表达式
值,μ是平均值,σ是标准偏差。 基因的最终表达水平平均值为零和标准偏差为1,具有正态分布。

鉴定差异表达基因(DEGs)

复发与不复发之间的DEG分析使用线性模型于微阵列数据进行(LIMMA)方法(Smyth,2005)在R统计包中。 鉴定DEGs的门槛是设为p<0.05和| logFC(RC)| > 0.7。

Protein-protein interaction (PPI) network construction

为了筛选与复发显着相关的基因,DEG被映射到从确认下载的PPI数据中HPRD(人类蛋白质参考数据库; http:// www。hprd.org)数据库(Periet al。,2004)。 没有差异的蛋白质也被包含在PPI网络中_______如果与至少20个DEG蛋白质相互作用。 PPI网络是使用Cytoscape软件(www.cytoscape.org/)可视化(Kohl等al。,2011)。

Network-based neighborhood scoring analysis

Neighborhood scoring是基于每个差异表达的基因(i)和的表达它的所有直接相邻基因[N(i)]在网络中(Yang等,2014)。得分0被分配给既不差异的基因在其直接表达或具有任何差异表达的基因邻里。基因按其计算得分进行排名然后选择100个基因作为根据得分。

无监督的层次聚类分析

使用无监督的层次聚类分析进行研究 -提高特征基因在区分复发方面的有效性和不复发的样本。使用Cluster执行群集基于平均连锁和Pearson相关距离的软件度量[6]。聚类结果通过热图可视化。

支持向量机(SVM) - 递归特征消除分析

获得合适的用于临床诊断的最佳特征基因集合,递归特征消除(RFE)算法,它进行了基于SVM技术的迭代方法(Guyon etal。,2002)。 最佳基因子集由留一法产生交叉验证方法。评估这些选定的最佳特征基因组合的复发和非复发的预测准确性。通过SVM构建了一个SVM分类器的e1071软件包中运行并使用5倍交叉验证,然后建立接收器操作特征(ROC)曲线。 接收器操作下的区域估计曲线(AUC)以指示预测性能。 同时更详细地确认SVM分类器模型的预测值,构造了具有混淆矩阵的SVM。

Result

DEG的鉴定

基于p <0.05和| logFC |> 0.7,共计1207基因被鉴定为结肠癌复发和非复发样本之间的DEG,包括726个下调基因和481个上调基因。

基于网络的网络评分分析

将1207个差异基因导入PPI数据中以构建PPI网络,得到1085个节点(蛋白质)和46,365个edge(相互作用)组成。 如图1所示,一些DEG电子表格是一个孤立的特征,只有一个或多个交互关系,但有些DEG是聚类的,与其他节点有几种交互关系。 可能影响其他多个节点的DEG(即是,高度)可能更重要的是促进结肠癌的复发。因此,考虑到每个DEG及其在网络中的所有相邻基因的表达,通过邻域评分进一步选择前100°(表1)。
为了证明100°的差异有效性,进行了无监督的层次聚类分析。如图2所示,具有相似临床表现的样品倾向于聚集,表明这些100°的优异区分能力。

SVM分析

为了获得诊断复发的最佳特征基因,使用基因作为特征并将其表达水平作为特征值来进行SVMRFE算法。结果,使用15基因组合发现85%的预测准确度(图3A和表2)。随后,使用5倍交叉验证程序的SVM分析表明使用该15基因组合具有87%的预测准确度(图3B)。此外,具有混淆矩阵分析的SVM还表明复发样本的预测准确率为88%,非复发样本的预测准确率为90%(图3C)。这些发现都证明了这种15基因组合的出色预测价值。
除基因外,临床特征,包括年龄,性别,分期,死亡状态,随访时间和生存时间,也可能在预后中发挥重要作用。因此,我们还将这15个基因的表达水平和上述临床特征整合为一个特征集来研究它们的预测值。正如预期的那样,预测准确度从87%提高到92%(图4A),同时复发样本的预测准确率为90%,非复发样本的预测准确率为94%(图4B)。

验证分析

为了进一步证实上述选定特征基因的分类可靠性,收集另一个数据集GSE17538并进行SVM模型分析。正如所料,这15个基因可以为复发样本提供77%的预测准确度,并为GSE17538数据集中的非复发样本提供84%的预测准确度。考虑到177个GSE17538数据集样本中的不同干预手段(如手术或放化疗),预测准确度可能低于期望值。 为了更全面地估计预后效率,我们使用三个数据集(GSE38832,GSE28814和TCGA)组合了生存分析。 结果表明,具有不同复发风险的患者在两个数据集中可能表现出显着不同的预后(GSE38832,p = 0.04,图5A; GSE28814,p = 0.0578,图5B;和TCGA,p = 0.0162,图5C) 使用这15个基因,证明我们的分类模型可能对临床预后和治疗指导有效。

我的博客即将搬运同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=bbwfm32s0s7b

你可能感兴趣的:(文献翻译A 15-gene signature for prediction of colon cancer recurrence and prognosis based on SVM(1))