胃肠胰(GEP)神经内分泌肿瘤(NENs)的诊断模型



工作中遇到的文献,反正都要看,顺便做个笔记,文章影响因子不高,重点是思路和方法,文章方法上用了支持向量机(SVM),线性判别分析(LDA),KNN临近法,贝叶斯法(Bayes)。(深感排版难用,大概是我不会用吧~)

摘要:

胃肠胰神经内分泌瘤的发病率和患病率在增加。此类病的延迟确诊很常见,CgA单一指标诊断是不准确的。文章中通过三个微阵列数据集的计算分析来鉴定NEN,样本包括NEN组织15例,NEN外周血7例,腺癌363例。在130份血液样本(NENS63例),中检测候选基因,在两个独立组中验证,第一组n=115,NENs=72,第二组n=120,NENs=58。对176份样本进行了CgA比较。基因分类其在独立的集合中检测到NENs,具有高度敏感性(85-98%),特异性(93-97%),PPV(95-96%)和NPV(87-98%)。比较来说分类器的AUC为0.95-0.98,CgA为0.64,分类器比CgA更准确。在亚组分析中,胰腺和肠胃中具有相似的效果(79-88%敏感性,94%的特异性)。


材料:

人类癌症和正常微阵列数据集:数据库地址为http://www.ebi.ac.uk/arrayexpress

延伸:数据库文献:Parkinson H, Kapushesky M, Kolesnikov N, Rustici G, Shojatalab M, et al.(2009) ArrayExpress update–from an archive of functional genomics experiments to the atlas of gene expression. Nucleic Acids Res 37: D868–872.doi:10.1093/nar/gkn889

GEP-NEN数据1:包括小肠组织3例,原发性GEP-NEN6例和转移性GEP-NENs3例。

GEP-NEN数据2:包括正常回肠粘膜6例,原发性中肠3例,肝转移3例。

公共癌症微阵列数据集:三个肝癌细胞癌数据集:酒精性HCC(n=65),病毒性HCC(n=124),进展性HCC(n=75);乳腺癌(n=86),结肠癌(n=47),前列腺癌(n=154),正常人体组织(n=158)。

此外还检测了外周血基因表达,为此检查了14个样本(对照7个,GEP-NENs7个)。

分析方法:

训练组:130份血液样本,对照组67例,GEP-NENs63例

独立验证集:第一组:115例样本。对照组43例,GEP-NENs72例;第二组:120例样本,对照组49例,GEP-NENs71例。

(实验中的方法不是我关注的点,我就一个数据分析的娃,真的不懂也不care那些,担心翻译错了,觉得有用或者感兴趣的娃,可以自己看)

分类算法:基因表达值log转换到1-100之间。采用10折交叉验证设计,在训练数据集上进行建模。在内部训练集中,差异表达基因用t检验。利用上调特征(ps:此部分不知道为什么选择上调的基因)对四种不同的学习算法包括支持向量机(SVM),线性判别分析(LDA),K临近分析和朴素贝叶斯(Bayes)进行内部训练。为了控制过拟合,在2个验证集中进行验证。对照样本和GEP-NEN的一致性标签是通过多数票方法产生。

详细介绍:

1.候选基因的选择

1.1基因共表达网络: 比较GEP-NEN和其他癌症数据集之间的共表达网络分析,此外还用GEP-NEN和正常人体数据集(79种不同的的健康组织和细胞类型,共计158个阵列)比较,以消除由于健康组织可能发生的共表达。GEP-NEN基因共表达网络:1)保留GEP-NEN数据集中重复的共表达对,2)从GEP-NEN网络中消除其他癌症和正常组织的基因共表达,3)消除GEP-NEN-A,GEP-NEN-B网络不同变化的基因。

    该分析产生了2892个基因和30444个共表达,我们关注的是这个网络中最大的连接组件(2545个基因的30249个连接),其中包含了99%的共表达信息。重要的是基因共表达网络不试图识别“直接基因相互作用”,二是包含“基因邻域关系”,这在传统的微阵列分析中常被忽略,并用来识别在共同途径或生物过程中发挥不同作用的基因。因此,共表达网络的功能表征应该被视为一种描述性分析,旨在产生附加的假设检验。

1.2GEP-NEN基因共表达网络功能分析:为了深入了解GEP-NEN网络部获得分子通路,使用DAVID富集相关通路。Integration of energy metabolism富集到58个基因,p=4.2*10^(-5);Diabetes pathway富集到68个基因,p=2.7*10^(-4);Pathways in cancer富集到72个基因,p=0.003,其他途径包括免疫反应,神经系统发育和代谢。之后使用Louvain算法,通过模块化最大化将阶段迭代分组区域中,将GEP-NEN网络划分为62个簇,分别在最大和最小的簇中有800个和3个基因。

补充:Louvain算法

1.3Marker基因的选择:我们产生了三个推测的标记基因面板,通过RT-PCR进一步检测:1)组织,2)外周血,3)文献,此处要看补充方法了。后边有时间加上。为了生成给予组织的基因面板,我们在GEP-NEN-A和GEP-NEN-B数据集中发现了显著上调的基因,摒弃保留了GEP-NEN基因表达网络中也存在的基因。随后,我们保留了具有高网络聚类系数的基因,基于他们与肿瘤发生关联的可能性增加。最后,查找了一组369个基因,这些基因通过阈值过滤,和文献手动搜索,搜索标准:A)神经内分泌瘤,B)肿瘤形成,C)转移。369个基因中21个被选择用于PCR。14个外周血样本(n=7个对照组,n=7个GEP-NEN组成),1382个上调基因,仅保留GEP_NEN-A,GEP_NEN-B阳性的,产生306个假定的标记基因。手动文献搜索,查找与内分泌生物学或者是内分泌肿瘤相关的基因,确定了32/306个PCR验证的靶点。

    文献中查到的基因共22个,13个标记基因在之前报道中与GEP-NEN相关,另外9个和肿瘤的发生和转移相关。在这些分析的基础上,选择了75个假定基因,做PCR分析。

2.在测试集和独立集中验证GEP-NEN标记的基因

    为了验证“假定”标记面板,测量了从训练子集(对照49个,GEP_NEN28个)中分离出的mRNA的转录水平。这表明75个候选标记中有51个在血液中能产生可检产物。使用51个标记基因识别GEP-NEN,将GEP-NEN分类器建立在训练集(对照67个,GEP63个),用t检验计算对照组和肿瘤病理的显著性,采用四种分类算法(SVM,LDA,KNN,Bayes)和10倍交叉验证设计,建立了GEP-NEN诊断分类器。支持向量机的精度为0.89(0.85-1.0),LDA算法0.89(0.86-0.93),KNN精度0.88(0.85-0.93),Bayes精度0.86(0.85-0.93)。3中分类器的投票组合准确率为0.88。为了控制过度拟合和评估分类器的性能,我们检查了两个验证集,验证集敏感性为85%-98%,特异性为93%-97%,PPV为95-96%,NPVs87-98%,第一和第二个验证集测试AUC分别是0.98,0.95。

    51个标记基因和Chromogranin A对GEP_NEN的识别比较。为了检查外周血PCR特征的效用,我们将其与一组176个样本的组中CgA的测量结果进行比较,与对照组相比,GEP-NEN中CgA升高P=0.002。采用19Units/L作为临界值,敏感性为32%,特异性99%,PPV96%,NPV63%。正确率为68%。PCR的方法比CgA的方法更准确。特异性相似(94%vs99%),敏感性高于CgA(85%vs32%)。

3.GEP_NEN标记基因的额外作用

    为了进一步评估标记基因的潜在作用,检查前神经基因和胃肠道神经基因的敏感性和特异性是否存在差异。以及是否可以检测到非转移性肿瘤。此外我们还想测试在低CgA表达患者中表达如何。我们分别见擦了每个验证集以及两个集的组合。识别P-NENs性能指标:敏感性为64-100%,特异性为92%=95%。43个胰腺癌种特异性为94%,95例胃肠道肿瘤中特异性为94%。两者没有显著性差异,表明PCR检测在两种癌种中结果相似。

    对转移瘤的评估发现,中的敏感性和特异性85%,11例无转移瘤患者中91%为阳性,特异性94%,不论是否转移,PCR都能很好的鉴别出患者。

    176个CgA样本数据集使用19U/L为临界值,确定了55名低CgA患者,50例患者的PCR评分为0.2分(91%)。在26例CgA升高的患者中22例(85%)PCR评分升高。PCR评分显著高于CgA。

搞完了,都没看懂他的样本到底怎么用的

你可能感兴趣的:(胃肠胰(GEP)神经内分泌肿瘤(NENs)的诊断模型)