图1

文章是Clinical Cancer Research的分数在8-10分，本研究其实是建立在以前卵巢癌分型基础上展开的，弥补了之前一些研究的缺陷，严格了入组标准和研究方法。第一，再过去的几十年中HGSOC诊断标准已经有了显著的改变，所以现有的公共数据库中的数据极有可能混杂了其他类型的样本，对于这一点，本研究对样本做了严格的筛选，包括公共数据库和自有数据。第二，在过去的研究中主要用的都是无监督聚类，而且各个研究的方法不用，得到的特定基因不同，本研究是从无监督聚类转到有监督分类模型。第三，本研究使用的NanoString平台，在很多医院的病理实验室中已经使用，对卵巢癌分型进入到临床阶段又近了一步。

（有个别翻译有问题的地方请见谅~写不是为了翻译，一是为了把自己看过的东西记录下来，二是如果文章中有其他人需要的内容可以去翻查，三是为了把自己的理解写下来有问题的地方可以有人提问，多交流学习）

一、背景

基于以前研究过，高级别浆液性卵巢癌分型包括：

C1/Mesenchymal (C1.MES)：主要表现为间质纤维化，细胞质基质的成分高表达，其预后效果差。

C2/Immunoreactive (C2.IMM) ：瘤内CD3+/CD8+细胞浸润，炎症因子高表达，预后较好。

C4/Differentiated (C4.DIF)：瘤内CA125/MUC16高表达，临床表征与C2.IMM无区别。

C5/Proliferative (C5.PRO)：瘤体通常耗尽基质和免疫组分，癌胚胎和干细胞基因高表达，预后不佳。

基因表达层面的HGSOC分子亚型在临床上还没有统一的分型标准，今年6月加拿大温哥华总医院，英国哥伦比亚大学卵巢癌研究中心联合美国多所大学和研究机构尝试突破现有临床局限性和基因分子优势性，提出PrOTYPE – 最小基因集HGSOC预测器。

二、前期工作

这部分不是我的研究重点，只是大概写几点。关于样本如何筛选，病理检查的标准和实验详细流程，看补充文件比较好。非专业人员也不敢保证翻译的全部正确，有兴趣仔细研究，看原文。我在这里提一下只是说明文章补充文件详细写了这部分内容。

1.样本来源：来自英国，欧洲，澳大利亚，加拿大和美国的卵巢肿瘤组织分析联合会的20项研究提供了4071例用Nanostring分析的高级别浆液性输卵管卵巢癌样本（GSE135820）

2.样本筛选和病理检查：（1）至少一张有代表性的H&E玻片和福尔马林固定的石蜡包埋组织（2）纳入排除标准：排除复发，新辅助化疗样本，远端转移和腹水。（3）在三个病理学中心进行了病理学回顾：不列颠哥伦比亚癌症研究中心，美国洛杉矶的南加州大学，澳大利亚墨尔本彼得麦卡伦癌症中心，在每个中心安排妇科病理专家进行病理检查

3.额外的临床数据：年龄，分期，肿瘤细胞和坏死，BRCA1/BRCA2有害突变状况，种族，肿瘤浸润淋巴细胞(TIL)计数等

4.NanoString 基因选择：NanoString CodeSte包含的513个基因来源：1.根据以前报道的排名靠前的差异基因；2.以前亚型分类的监督学习分类亚型特异基因；3.手动回顾文献确定的与亚型相关的常见分子途径中的基因；4.在meta分析与预后价值和其他特定假设选择基因；5.为确保转录组表达，我们标记并包含了来自之前报道中99%相关基因表达簇的其他基因；6.五个管家基因，是指所有细胞中均要稳定表达的一类基因，其产物是对维持细胞基本生命活动所必需的（RPL19，ACTB，PGK1，SDHA，POLR1B）。

5.RNA提取

6.NanoString过程

三、分析流程

图2

大致讲一下分析流程，后边补充详细一些的。分析包括了两个独立流程，图2 A中两组样本array data是公共数据库中样本，按照入组条件过滤，然后进行聚类，聚类分析用了九种，之后通过K-mode方法将聚类结果合成一个结果。做分类模型，array数据集中的分类模型用了9种，TCGA分类模型用了5中，在验证集中验证选择最好的模型，array data和TCGA两组数据分别形成两个模型。从array数据中到Nanostring数据需要验证可移植性，实验设计中有两组数据可以验证。之后将两个模型同时对Nanostring数据进行分类，选择相同分类结果的样本。对相同结果的样本重新做分类模型，筛选最小预测样本集。基本思路是这个样子。

四、详细流程

1.1Array data和TCGA data分类模型

图3

Array data有四种来源，在49个项目中的3437个样本。排除：92个重复或者非标准治疗样本，1121例诊断为非HGSOC样本，475个研究大小不符合（在样本入组要求中，有提到入组研究样本量大于40）。剩余14个studies，1650个样本，Training1 1322例，confirmation1 328例；Confirmation2 98例样本。不同样本集的批次校正选择了XPN和EB两种方法，检验批次校正结果的方法采用了主成分分析（PCA）和主方差分析（PVCA，这个我没查到，觉得是不是就是传统方差分析）。之后对数据进行标准化，之后是聚类分析，聚类分析包括Kullback-Leibler散度的非负矩阵因子分解（NMF-LEE）；欧几里距离的Kmeans；Spearman距离的Kmeans聚类；Manhattan距离的Kmeans聚类；Euclidean距离的Kmeans聚类；欧几里距离的medoids聚类；Spearman距离的medoids聚类；manhattan距离的medoids聚类；隐模式的块聚类。最后通过K-mode方法把九种聚类方法结果聚类成一种。批次效应的检验结果显示XPN的结果更好（图4）。

图4

图5

分类模型因为要在Nanostring中应用，所以按照Nanostring中的513个基因进行筛选。array中共有12536个基因通过，通过过滤条件删除样本最终剩余454个基因。TCGA数据集中的12042个基因过滤完剩余438个基因在Nanostring基因集中。

图6

通过将其他基因减去关机基因的平均值进行标准化，之后的基因表达量不再是绝对值，而是相对于管家基因的相对量，方便移植到Nanostring平台中。array data中分类模型用的是线性判别分析(LDA)、随机森林(RF)、微阵列预测分析(PAM)、多元lasso回归（MLR_lasso），多元岭回归（MLR_ridge），K临近分类（KNN），自适应提升树（adaboost），贝叶斯（nbayes），支持向量机模型（SVM）模型。TCGA数据中的分类模型为对角线线性判别分析(DLDA)、随机森林(RF)、K临近分类（KNN），支持向量机（SVM），逐步提升（GBM）。

1.2模型验证

Array data内部验证是Trainning，外部验证两个数据集是图3中的confirmation1 328例；Confirmation2 98例样本。在Traning数据中top5的模型如图7

图7

挑选了top5算法在confirmation1中测试，首先使用ssGSEA在CLOVAR（高级别浆液性卵巢癌的预后相关基因特征）中公开的基因集和澳大利亚卵巢癌研究（AOCS）数据集对样本进行分类。ssGSEA定义的CLOVAR、AOCS定义一致的样本占241/328。在一致的241个样本中进行分类。五个模型的准确度在0.747到0.784之间。（这一步操作有疑问，猜测是通过CLOVAR中的和AOCS中关于每个亚型的特有基因，用ssGSEA分别计算每个样本的亚型赋分，怎么做的分型真的是没get到，有兴趣看看图8）在confirmation2中验证，各模型的准确率为adaboost：0.91；lasso：0.89，ridge：0.89；randomforest：0.88，SVM：0.93，在预处理的NanoString data数据集中adaboost：0.79；lasso：0.81,；ridge：0.81；randomforest:0.74;SVM:0.26。

图8

TCGA样本集验证，由于TCGA下载到的数据就是归一化和批次校正过的。所以不需要这些处理。亚型分类标签是从TCGA中获得的。内部验证结果，如图9所示。外部验证使用来自Tothill等人的数据集。使用已发表的子类型标签作为外部数据集来评估分类器的准确性。从GEO(GSE9899)下载RMA归一化数据和log2转换表达式数据)。然后对基因表达数据进行标准化，使其具有零均值单位方差。然后将转换后的数据作为输入，以获得样本的子类型标签。然后利用样本的已发表标签来计算分类器的精度。外部验证的准确性如图10所示。

图9

图10

1.3可移植性

confirmation2样本集验证，all array model在98个样本中比较，预测一致的有70个，TCGA model在85个样本中比较，预测一致的有65个。两个模型分别的预测性能都不高。将两个模型同时对一个数据集验证，统计得到相同结果的样本数量。按照kappa一致性检验的结果0.92，可以认为公布的标签和两个模型预测的标签的准确性的一致性基本可以认为是几乎完全一致。（Kappa检验：0.0~0.20极低的一致性；0.21~0.40一般的一致性；0.41~0.60 中等的一致性；0.61~0.80 高度的一致性；0.81~1几乎完全一致）.作者还分析了一致样本和不一致样本的技术差异和生物差异，诊断年龄，细胞数量，坏死率，RNA吸光度，信噪比这些。

图11

文献分享时有人问怎么判断阳性阴性？这种数据分析和实验设计这么问问题，我真的当下捯饬不出来啊。简单说一下事后的想法，1.样本标签来源于聚类分析，众所周知聚类分析就是把相似的样本放到一起，在类中心的样本肯定是符合类的特性，在类边缘的样本很可能就偏离较远，无法确定样本分类，就比如一个色谱，你告诉我蓝色和红色中间的颜色是属于蓝色还是红色。样本亚型本就是聚类概念，哪来的准确的阴性阳性。2.作者用的公布的标签我认为是在临床研究中生存率或者其他临床指标能确定小于0.05有显著性，用这些结果的分类标签应该还是有意义的。3.我们数据分析在确定聚类的类的个数的时候，是按照组内组间差异大小确定的，所以不可能让组内完全没有差异，只能是让差异最小（完全没差异，直接个性化治疗不完了么，分什么型）。这件事让我想到的问题就是，我们永远带着质疑站在对立面，去看东西接受东西，从不曾融入文献去学东西，学佛和修佛的区别。站在对立面永远不知道里边怎么回事，我更喜欢站在作者角度想，作者为什么认为可以这么做。而不是这人这么做肯定不对嘛。

1.4Nanostring数据最小预测模型的开发

图12

图13

终于把作者自己的样本们放出来了，上边的分类模型两个一起用，我们能得到Kappa=0.92的结果，所以我们用上边两个模型分别对作者自己的Nanostring样本做分类得到一致性的样本标签作为标准。重新做分类模型。找到最小的基因集。一致的样本共3030个。

在Trainning set中1487个样本中来自于8个study，8个study做n-fold交叉验证。1.我们使用booststrap方法重新取样500次，2.在每500个重采样中，我们使用所有基因和三种不同的模型（Randomforest,Lasso,Adaboost）3.在每一中算法和500次重采样中，我们通过随机森林和adaboost的基尼特征重要性排序，以及对lasso的非0系数的基因进行计数，计算基因的重要性4.考虑每个基因在前100个重要基因中的比例，得到最终排名，共三组5.按照前100重要基因，从第四个基因开始，按照步长为5，逐步加入基因。中间还有详细的熵计算，这个建议看原文，我只是把过程搞出来了。

图14

1.第一个表是训练集包含1135个样本,准确率100%

2.第二个表格确认集1，共817个样本，准确率96%

3.第三个表格验证集1，共719个样本，准确率95%

4.第四个表格验证集2，共283个样本，准确率94%

5.第五个表格overlap集共76个样本，准确率100%

图15

原谅后边的潦草，有问题我们交流啊~十一假期写到18:00，也是够够的了哈哈哈哈~下班喽~~~~给祖国母亲庆生去啦~

中秋佳节快乐~

PrOTYPE高级别浆液性卵巢癌分类器