表型不同的炎症性乳腺癌的全基因组测序揭示了与非炎症性乳腺癌相似的基因组改变


摘要

背景炎症性乳腺癌(IBC)具有高度侵袭性和转移性表型。然而,对其基因驱动因素知之甚少。为了解决这一问题,我们报告了IBC病例全基因组测序(WGS)的最大队列。

方法:我们对20例IBC样本和配对的正常血液DNA进行WGS,以确定基因组改变。为了进行比较,我们使用了来自癌症基因组图谱计划(TCGA)的23个匹配的非IBC样本。我们还使用来自国际癌症基因组联盟(ICGC)和全基因组泛癌分析(PCAWG)联盟的WGS数据验证了我们的发现。我们研究了广泛选择的基因组特征,以寻找IBC和传统乳腺癌之间的差异。这些包括:
(i)编码区和非编码区的体细胞和种系单核苷酸变异(SNV);
(ii)来自这些SNV的突变特征和克隆结构;
(iii)拷贝数和结构变体(CNV和SVs);
(iv)肿瘤中的非人类序列(即细菌来源的外源序列)。

结果:总体而言,IBC具有与非IBC相似的基因组特征,包括特异性改变、整体突变负荷和特征以及肿瘤异质性。特别是,我们观察到IBC和非IBC之间,每个基因和大多数癌症相关途径的突变频率相似。此外,我们没有发现IBC样本特有的外源性传染源序列。尽管我们无法在这两组人群中找到任何在统计学上有明显区别的基因组特征,但我们确实在IBC中发现了一些提示性的差异:
(i)大多数MAST2基因更频繁地发生突变(20%的IBC与0%的非IBC)。
(ii)TGF-β途径更频繁地被种系SNV破坏(50%对13%)。
(iii)在几个含有癌症基因的基因组区域中观察到不同的拷贝数谱。
(iv)复杂SVs更为频繁。
(v) 克隆结构更简单,提示更同质的肿瘤进化谱系。

结论:IBC的全基因组测序显示出与非IBC相似的基因组结构。我们没有发现仅在IBCs中有独特的基因组改变;然而,观察到细微的基因组差异,包括TGF-β途径基因的种系改变和可能代表潜在治疗靶点的MAST2K酶的体细胞突变。


介绍

炎症性乳腺癌(IBC)是一种罕见的乳腺癌,其分子病因学知之甚少,这是其侵袭性临床病程的原因。IBC占美国所有乳腺癌的2-4%,并导致西方国家乳腺癌相关死亡的7-10%。IBC包括所有已知的乳腺癌分子亚型,但它们比非IBC更具侵袭性,无病生存期和总生存期较差。这种疾病通常表现为快速进展的症状,乳房肿胀、红肿和乳房皮肤增厚,这类似于一个活跃的炎症过程,这导致了本病的名称。然而,这些症状不是由炎症细胞引起的,而是由癌细胞阻塞皮肤和乳腺实质的淋巴管引起的。IBC也有快速传播和远处转移扩散的倾向。基因表达谱研究没有发现任何一致的IBC特异性基因表达模式; 因此,没有分子诊断检测来定义这种疾病。诊断是基于独特的和快速进展的临床特征的癌症。对IBC中约200个肿瘤相关基因进行靶向测序,结果显示TP53基因改变频率最高,报道频率在43 ~ 75%之间。目前,尚无关于IBC的全外显子组或全基因组序列数据,其DNA水平的改变也尚未被表征。我们推测,基因组编码区或非编码区特定的DNA序列改变可能是IBC独特表型的原因。该项目的目标是对IBC标本的完整基因组特征进行深入表征,以识别IBC特异性序列改变,从而可能解释其病因,并提供新的诊断标记。


结果

体细胞突变负荷与功能注释

WGS在20个IBC样本中鉴定出114,563个体细胞SNV(每个肿瘤范围为424-16,662个; 中位数3789),编码区变异1282个(1.12%)。IBC和非IBC的每百万碱基(MB)突变率相似(图1a)。IBC组和非IBC组的体细胞编码和非编码SNVs数量相似(图1b)。非编码体细胞SNV用FunSeq2注释到20个不同的、不重叠的功能类别中。两个队列中每个注释类别内的体细胞SNV数量相似(图1c, d)。

图1 突变负荷和功能注释。a、IBC和非IBC队列中体细胞SNV的比率,所有样本,ER+和ER-病例分别。p值来自Wilcoxon秩和检验。b、编码和非编码体细胞SNV数目。每个点代表一个用ER状态颜色编码的样本。p值来自Wilcoxon秩和检验。c、不同编码类型突变的体细胞SNV的中位数。d、在IBC和非IBC中按功能类别划分的非编码SNV的中位数。c和d图中的亮条和暗条分别对应所有突变和有害突变的数。通过Wilcoxon秩和检验比较两个队列中各注释类别的突变数,p值范围为0.14 ~ 0.63。仅对每个注释类别的有害变体实施了类似的测试,p值为0.10-0.93。对部分有害突变进行双侧z检验并进行Yates连续性校正,结果显示每个独特注释类别的所有p值均 > 0.05。“NS”代表所有p值不显著(p> 0.05)

突变谱和突变特征

IBC与非IBC具有相似的碱基变化比例,对于所有单核苷酸突变上下文(C>A, C>G, C>T, T>A, T>C和T>G) (Wilcoxon检验,通过Bonferroni方法矫正后的p值>0.05),以及三核苷酸突变context(Wilcoxon检验,Bonferroni方法矫正的p值>0.05)。利用DeconstructSig将每个样本的突变谱解构为COSMIC数据库中的30个参考突变谱。IBC和非IBC样本在突变特征分布上没有差异(Wilcoxon检验,Bonferroni方法矫正的p值>0.05)。特别是与乳腺癌中同源重组缺陷(homologous recombination defect, HRD)相关的3号特征没有差异。signatures 3的权重统计学比较表明,IBC样本的HRD程度与非IBC样本相似(Wilcoxon检验,p=0.85)。

拷贝数变化和结构变异

拷贝数丢失或增加事件被映射到整个基因组中1MB大小的bin中(图2a)。对于每个bin,分别总结拷贝数丢失或增加事件的频率,然后在IBC和非IBC队列之间进行比较。对于拷贝数增加事件(定义为log2(observed tumor/expected) ratio > 0.2),108个峰值显示两个队列之间显着不同的频率,位于染色体1、3、6、16、17、19,和20(Fisher精确检验,p值<0.05),与随机试验报告的34个显著peaks值形成对比(中位数,34;最小值,16;最大值,62)。另一方面,对于拷贝数丢失(定义为log2(observed tumor/expected) ratio < −0.2),221个peaks在两个队列之间显示出显著不同的频率,位于染色体1、2、4、5、9、10、11、12、15、16和17,与随机试验报告的57个显著peaks形成对比。在这些差异受影响的基因组区域中有26个癌症相关基因,包括LRP1BAS一个假定的肿瘤抑制基因,ERBB4是受体酪氨酸激酶EGFR亚家族的成员。

图2 Somatic拷贝数变异和结构变异。a、IBC队列的somatic拷贝数分布图。X轴表示按染色体排序的基因组坐标。Y轴表示IBC基因组中的每1Mb长度拷贝数增加(红色)和拷贝数丢失(蓝色)的频率。b、IBC和非IBC队列间拷贝数分布差异的显著性。X轴显示染色体的基因组协调性,X轴显示Fisher精确检验的对数转换P值,该值通过拷贝数增加(粉红色)和拷贝数丢失频率的比较获得(浅蓝色)两组之间的事件。虚线代表P值=0.01。所有显著峰值(Bonferroni调整后的P值<0.01)在IBC中,拷贝数丢失和增加事件的频率都较低。c、个体IBC和非IBC样本中的somatic SV数。阴影表示体SV的类型。d、IBC和非IBC队列中每种类型的躯体SVs的分数。每个点代表一个样本,颜色代表ER状态,p值用Wilcoxon检验计算,用Bonferroni法校正

大的结构变异分为五类:缺失、插入、倒置、串联重复和染色体间易位(图2c)。在IBC和非IBC人群中,比较了每类大型somatic SV的比例。IBC显示复杂事件的比例明显高于非IBC,包括串联重复(中位数0.093 vs. 0.045)(Wilcoxon检验,Bonferroni调整后的P=5.5e−04)和反演(中位数0.154对0.088)(Wilcoxon检验,Bonferroni调整后的P=5.5e−04)(图2d)。相反,IBC的大缺失率(Wilcoxon检验,Bonferroni Adjusted p=0.004)和插入率(Wilcoxon检验,p=3.4e−06)明显较低,与非IBC样品进行比较。此外,对每个类别中的体细胞SV绝对数量的比较也显示出显著差异。对于小插入和缺失(INDEL),IBC和非IBC队列中的两类突变报告的数量相似。

高功能影响突变和受影响基因

高功能影响(HFI)体细胞SNV的选择是基于PredictSNP2报道的有害预测,包括编码和非编码SNV。然后提取每个样本的受影响基因,并比较它们在两个队列之间的突变频率。我们的分析显示,在IBC队列中,所有至少具有一个高功能影响的体细胞SNVs基因在IBC和非IBC队列中同样受到影响(Fisher检验,Bonferroni调整p值>0.05)。对于IBC,最常受有害的躯体SNVs影响的前20个基因包括LSAMP、GPC6和TP53等(图3a)。此外,在IBC队列中,ActiveDriverWGS检测到13个候选驱动基因(FDR < 0.05)(图3b)。然而,所有IBC组和非IBC组的突变频率相似(Fisher’s test, Bonferroni校正p值> 0.05)(图3b)。

图3 有害体细胞SNV影响基因。a、IBC队列中最常受影响的20个基因。b、ActiveDriverWGS识别的候选驱动基因(FDR < 0.05)。基因的编码区和非编码区都显示了突变。每一列表示一种情况(IBC或Non-IBC)。每一行显示一个基因。在IBC组和非IBC组中,a组和b组的所有基因具有相似的突变频率(Fisher检验,bonferroni调整p值> 0.05)

值得注意的是,我们发现20例(20%)IBC中有4例在MAST2(微管相关丝氨酸/苏氨酸蛋白激酶2)的非编码(启动子和内含子)区域具有独特的预测有害突变,而在我们队列中的23例非IBC病例中均未检测到有害突变。在PCAWG乳腺癌队列中,我们发现198份样本中只有1份(0.5%)存在该基因突变。在最大的WGS乳腺癌研究中(来自ICGC乳腺癌项目的BRCA-EU),MAST2的突变频率为1/569(0.18%),明显低于我们的IBC队列(Fisher检验,Bonferroni调整后的P=0.024)。

肿瘤相关信号通路的改变

我们研究了14条与癌症相关的生物途径中的途径水平畸变。对于体细胞SNV,在IBC和非IBC队列之间,这些途径中没有一条具有显著不同的突变频率(Fisher检验验,Bonferroni调整后的p>0.05)(图4a)。对于SNVs,IBC队列显示免疫调节途径中的畸变频率明显低于非IBC(Fisher检验,Bonferroni调整后的P=0.009)(图4b)。随机试验(N=10000)表明,观察到免疫调节途径显著差异的概率为21/10000=0.0021,这是显著的。

图4 癌症途径中的有害突变。a、IBC和非IBC中癌症途径中的有害的体细胞SNV。b、IBC和非IBC中癌症途径中的有害的生殖系SNV。c、IBC和非IBC中TGF-β信号途径中的有害的生殖系SNV。在a和b中,每列代表一种情况(IBC或非IBC)。每行显示一个给定的癌症途径。每列代表一个病例(IBC或非IBC)。每行显示一个基因。
TGF-β通路有87个基因参与发挥作用

以前的研究已经确定TGF-β通路是IBC的潜在治疗靶点。在本研究中,我们观察到IBCs中TGF-β通路中预测有害种系SNVs的突变频率较高(但在多次检测校正后无统计学意义)(50% vs 13%, Fisher test,Bonferroni校正p = 0.25)(图4b)。7例(35%)IBC患者在SMAD4或USP9X中存在有害的种系SNVs,两者均参与TGFβ信号转导; 其中一种情况在编码和非编码区域都有变体,其他情况只有非编码变体。然而,没有一个非IBC病例在编码区或非编码区这两个基因中有任何有害的种系SNV(图4c)。我们没有在肿瘤DNA中相应的基因组位置观察到任何LOH事件。值得注意的是,在ICGC乳腺癌队列中没有检测到这些有害的种系SNVs (n = 1970),它们在一般人群中也非常罕见,在基因组聚合数据库(n = 141456)中变异等位基因频率(VAF) < 0.007。

克隆结构与进化树

IBC具有与非IBC病例相似的突变等位基因肿瘤异质性(MATH)(图5a)。对于每个样本,SciClone根据变异等位基因频率分布的模型拟合程序估计克隆数量。结果显示,6/20(30%)的IBC癌是克隆性的(仅由一个克隆组成),而所有非IBC病例至少有两个克隆(Fisher检验,p=0.006)(图5b)。然后我们为每个病例构建进化树,以进一步探索先前描述的突变过程异质性。这些树源自全基因组突变调用,其拓扑结构表明突变的时间顺序。我们可以根据树的拓扑结构将树分为两组:分支树或线性树(图5c)。20例IBC癌中有9例(45%)为线性的,显著高于非IBC病例(3/23,13%)(Fisher检验,p=0.039)(图5d)。我们的结果表明,IBC在进化上比非IBC更同质,具有较少的个性和较不复杂的进化特征。这些发现可能是由于IBC肿瘤比非IBC肿瘤增长更快。

图5 克隆结构和进化树。a、IBC和非IBC MATH分数。每个点代表一个样本,用它的ER状态用颜色编码。b、IBC组和非IBC组中有1个、2个和3个克隆的样本的比例。c、两个独立的进化树显示分支和线性模式(所有样本的结果显示在附加文件4:图S4)。d、样本分为分支组和线性组

微生物序列的检测与富集

由于IBC在临床上类似于乳房和/或皮肤的细菌感染,因此,我们也在IBC肿瘤组织中寻找感染因子。我们应用改良的exceRpt pipeline检测未与人类参考基因组相匹配的序列reads,以检测IBC DNA中的微生物序列并与正常样本相匹配。在所有样本中,包括癌症和正常样本中,前100个最频繁的微生物序列在丙酸杆菌痤疮中高度富集。痤疮无处不在的皮肤细菌,是测序研究中常见的污染源,可能来自于患者或在组织处理过程中获得的。我们在IBC肿瘤样本中未发现特异性感染因子DNA,降低了IBC由细菌感染引起的可能性。


讨论

我们的研究是第一次对IBC进行WGS分析。我们无法识别所有样本共有的单一基因组异常,因此可以从分子上定义IBC。IBC组织显示出与非IBC相似的突变负荷、突变谱和突变特征,并且大多数体细胞突变在两组队列中发生频率相似。在从IBC组织提取的DNA中,我们没有检测到任何癌症特异性传染源。然而,我们确实在我们的研究中发现了几个细微的基因组差异,将IBC与非IBC区分开来。MAST2基因的非编码区突变频率高于此前WGS乳腺癌分析报告的频率。在我们的IBC研究中,20%的病例发生了突变,而在PCAWG和ICGC乳腺癌WGS数据集中,编码或非编码调控区中该基因的突变频率在非IBC病例中为0.18%至0.5%。MAST2是一种与原钙粘蛋白LKC相互作用的微管相关丝氨酸/苏氨酸激酶,最近提出的一种结肠癌和肝癌抑癌基因,它介导细胞增殖的接触抑制。MAST2还通过与TRAF6形成复合物并抑制NF-κB激活来调节多糖诱导的巨噬细胞中IL-12的合成。MAST2基因重排以前曾在一些乳腺癌中被发现,乳腺上皮细胞中MAST2(或MAST1)基因融合的过度表达导致其在体内以及体外环境下增殖增加。在我们的研究中,我们发现MAST2的非编码区存在有害突变;然而,这些变体的功能影响尚未被研究。由于先前的任何IBC靶向测序研究中均未包括MAST2,因此需要IBC的未来数据集来验证这一发现。

复杂的结构变异在IBC中似乎更为常见,包括串联重复和倒位,这表明基因组比非IBC更为复杂。几个基因组区域显示了包含癌症生物学相关基因的显著不同拷贝数谱。然而,不同覆盖范围和深度的测序平台在调用大型结构变体时可能会引入偏差。由于我们的IBC和非IBC队列是分别测序的,一些观察到的差异可能来自不同的测序数据来源。

与预期相反的结果解释,抛出假设,给其他研究者一个“思路”,本质上还是没有很好从基因突变层面阐明IBC发生发展的关键变化?
我们研究的一个令人惊讶的发现是在诊断时IBC的低克隆性。相当少数的IBC只有一个可检测的克隆,而所有非IBC病例都有一个以上的克隆。当我们研究肿瘤细胞种群的进化树时,我们观察到两个不同的群体,我们称之为分支和线性进化。IBC比非IBC显示更多的线性进化模式(45% vs 13% ,p = 0.039)。这些结果表明,与非IBC癌细胞相比,IBC细胞在进化过程中更加均匀,克隆性更低,因此提出了一个假设,即高增殖率和单个侵袭性克隆的快速扩增可能是导致该疾病迅速发展的最初临床病程的原因。相比之下,非IBC常常生长数年才能被发现,这可能使诊断时发生更大的克隆异质性。未来的工作将需要验证这些观察,通过对亚克隆实体的高深度靶向测序和后续特性分析。

我们还检查了宿主基因组中可能与IBC有关的生殖系变异。目前还不知道IBC的遗传易感因素,但是已经报道了一些常见的发病情况,而且IBC在某些地理区域更为普遍,这表明遗传因素对其病因有影响。我们发现在IBC中TGF-β途径中的杂合性种系改变似乎比非IBC更频繁(50%对13%)。由于IBC的罕见性(占所有乳腺癌的0.5-2%) ,我们的样本量非常小,这一观察结果需要在更大的独立IBC数据集中进行确认。然而,TGF-β1与IBC的生物学行为有关。USP9X是一种去泛素化酶,控制SMAD4单泛素化,因此影响TGF-β信号转导,20个病例中有4个病例受到生殖系突变的影响。以前的一项研究表明,TGF-β信号通路成分在IBC中的表达低于非IBC,这可能有助于肿瘤栓子的形成和促进IBC细胞的淋巴浸润。另一项关于头颈部癌症的研究报告,SMAD4的缺失与TGF-β1活性的增加有关。综上所述,这些结果提示宿主TGF-β信号异常可能促进IBC生理和倾向。

作者阐述了本研究的局限,但是用转折提出创新之处,这种写法似乎让人觉得局限也不那么大
我们认识到,我们的结果是描述性的和假设产生的方面的生物学重要性的发现。然而,从我们的分析中可以清楚地看到,IBC中没有共同的DNA水平的特异基因改变。我们研究的样本量较小;然而,这是迄今为止对IBC全基因组进行的最大的研究。之前的基因组分析只包括了几百个使用靶向测序平台测序的基因。我们在我们的IBC队列中观察到PIK3CA的突变频率比以前的低,这可能是由于样本量小导致的取样偏倚,因为PIK3CA在激素受体阳性(HR+)癌症中更频繁地发生突变,而我们的研究中HR+病例的比例更低。

IBC队列患者存在的非遗传因素,这些环境因素也可能是重要因素,因为它们不仅仅会改变基因序列,还可能影响表观等
除了本研究中讨论的各种遗传特征外,还表明IBC与非IBC在几个非遗传因素上有显著不同,包括怀孕妇女的患病率较低,口服避孕药的使用率较高,以及定期饮酒的频率较高。

总的来说,我们的结果表明,就其分子组成而言,IBC属于乳腺癌的连续体。其特别具有攻击性的表型可能是由于宿主生殖系杂合多态性的独特共存,并对TGF-β信号和体细胞突变产生微妙的影响,这些影响共同促进了恶性细胞克隆的快速生长和扩展。


结论

在这里,我们通过对肿瘤及其匹配的正常样本进行全基因组测序,首次展示了IBC的完整基因组景观。尽管在IBC中没有独特的、共享的基因组改变,但我们在IBC和非IBC之间发现了一些微妙但有趣的基因组差异,这些差异可能解释其病因,并产生新的诊断标记,但在未来的研究中需要在独立的数据集进行验证。


数据和资料

文章作者给出了原始数据,研究方法也比较详细,感兴趣的可以重复实验结果
本次研究中生成和分析的数据集已提交给欧洲基因组-表型档案库(EGA),登录号为EGAS00001004117 (https://wwwdev.ebi.ac.uk/ega/studies/EGAS00001004117)。



方法

组织

根据IRB批准的研究,从MD安德森癌症中心的Morgan Welch炎性乳腺癌研究项目和临床中获得了20个IBC组织和配对的正常血液DNA。乳腺病理学家(Savitri K.)和临床研究人员(N.U.)分别对所有IBC组织进行了检查,以确保诊断的准确性和肿瘤细胞数>60%。所有患者都提供了对其癌症和生殖系DNA进行基因组分析的知情同意书。从乳腺癌队列的癌症基因组图谱(TCGA)研究中选择23例非IBC样本,这些样本按分子亚型、临床分期、年龄和种族比例匹配。这样做是为了确保本项目中研究的IBC和非IBC样本之间的各种协变量分布相似。

DNA提取

使用QiAamp DNA微型试剂盒(Qiagen)从乳腺肿瘤的快速冷冻核心针活检和外周血中提取DNA。在缓冲液ATL中破坏组织,均质,然后使用蛋白酶K进行裂解。然后将缓冲液AL和乙醇添加到裂解液中,创造条件,促进DNA与QIAamp自旋柱的选择性结合。然后将样品应用于微型旋转柱。结合到膜上的DNA在pH为8.0的缓冲液TE中洗脱。

全基因组测序

根据耶鲁IRB批准的方案(HIC#1406014226),将一微克种系和肿瘤DNA用于WGS。在Macrogen的Illumina HiSeq 2500测序平台上进行。根据Illumina TruSeq DNA文库制备指南制备样品。对150个碱基对(bp)配对末端文库进行测序,肿瘤样本的中位覆盖深度为60×,匹配正常样本的中位覆盖深度为40×。

序列比对与质量控制

我们使用BWA-MEM算法和默认参数映射肿瘤的原始FASTQ文件,并将20个IBC样本的正常样本与hg19参考基因组进行匹配。随后,使用Samtools和Picard工具(http://broadinstitute.github.io/picard)对读取进行排序、标记重复读取并获取所有变量调用的最终的BAM文件。BAM文件已保存在欧洲基因组酚组档案(EGA)中,EGA编号为EGAS0001004117(https://wwwdev.ebi.ac.uk/ega/studies/EGAS0001004117)。对于非IBC样本,我们遵循相同的程序处理。

种系SNV和INDELs

对于来自TCGA的IBC和非IBC队列,我们使用GATK工具生成了种系SNV和INDEL调用集。简单地说,我们遵循GATK的最佳实践来命名种系变体。我们使用GTAK中的IndelRealigner和基于模块recalibrator重新校准了原始BAM。随后,使用GATK HaplotypeCaller算法调用变体。使用GATK中的变量recalibration模块过滤原始变量。简单地说,变量recalibration方法使用了一个连续自适应误差模型,同时考虑了变量之间的关系以及它是真阳性而不是测序伪影的概率。

体细胞SNV和INDELs呼叫

我们使用MuTect和Strelka工具,对TCGA中的IBC和非IBC样本称为体细胞变异。简而言之,这些工具将肿瘤和匹配的正常BAM文件作为输入,以识别最小读取次数支持的体细胞变异。本研究中的体细胞SNV基于MuTect和Strelka,而体细胞INDELs则使用Strelka进行调用。从MuTect和Strelka获得的初始PASS调用集通过删除1000基因组项目中定义的常见变体,进一步过滤潜在的种系污染调用。此外,我们还去除了Genome in a Bottle Consortium(GIAB)基因组定义的基因组高可映射区域之外的体细胞SNV和INDELs。最后,我们取MuTect和Strelka调用集的交集,并删除出现在生殖系调用集中的体细胞SNV和INDELs。

肿瘤DNA杂合性缺失(LOH)的检测

对于从正常血液样本中鉴定出的种系SNV的每个位点,我们使用Samtools和Bcftools确定了肿瘤DNA中相应的体细胞基因型,其中报告了参考等位基因、变异等位基因、等位基因计数和等位基因频率的信息。当该位点满足这两个标准时,即确认为LOH事件:
(i)在正常血液DNA中称为杂合变异体(变异等位基因频率=0.5)
(ii)在肿瘤DNA中显示为纯合(变异等位基因频率=0或1)。

体细胞SV calling

我们应用Meerkat来识别来自TCGA的IBC和非IBC队列中的体细胞结构变异。简单地说,Meerkat从BAM文件中提取soft-clipped和未映射的读取。随后使用BLAT将这些读取重新映射到参考基因组,以确定SV发现的不一致读取对。Meerkat还描述了SVs周围的断点,以指定生成SVs的底层机制。Meerkat生成的SV根据可映射性准则进行进一步过滤,并支持读取对>2。

体细胞CNVs的鉴定

我们实现了BIC-Seq2,使用默认参数调用体细胞CNV。在SeqNorm步骤中,我们将读取长度设置为151 bp,将存储单元大小设置为1000 bp。片段大小是使用BAM文件中第一个100万个映射质量至少为20的正确映射读取来计算的。

在最后一步中,我们还使用信号处理方法过滤BIC-Seq2识别的体细胞拷贝数片段(sCNSs)。在本分析中,我们将重点放在长度大于100 kB的大型事件上。具体程序如下:
1.对于每个样本,使用映射读取计算读取深度(RD)信号水平。这是通过计算与每个碱基重叠的读取次数来完成的。对于每个患者,我们计算肿瘤和匹配正常组织的RD信号。
2.接下来,我们使用每百万次读取标准化来标准化正常组织轮廓。给定ith为样本i位置的肿瘤和正常信号剖面,我们将正常信号剖面乘以肿瘤中总RD信号与正常中总RD信号的比率。

上式得到的值表示基因组中碱基位置i的标准化正常RD信号。

3.接下来,我们将基因组划分为3000 bp的区域,并计算每个区域中的总肿瘤信号和正常样本的标准化RD信号。

4.接下来,我们通过将总肿瘤RD信号除以每个bin中的正常样本RD信号并计算该比率的log2来计算对数比率(LR)曲线。该轮廓表示删除(LR<0)和扩增(LR>0)的度量。

式中cb=[(b−1)×lbin,b×lbin]表示bth bin的基本位置。

5.LR剖面通常非常嘈杂。我们使用基于中值的平滑来平滑信号。我们使用滑动窗口方法,将窗口大小设置为1000个bin,并将每个bin的LR值替换为1000个bin附近LR值的中值。平滑操作从LR信号中去除大量噪声。

6.接下来,我们通过评估平滑LR恒定的区域来识别sCNS。在每个SCN上,我们通过计算总肿瘤与总正常RD信号的比率来分配肿瘤与正常对数比率信号。LR<0的片段被指定为删除片段和LR>0扩增片段。我们用LRks表示分段子样本的LR值。最后,在通过上面介绍的信号处理方法进行过滤后,我们只从BIC-Seq2中获取最强的调用作为最终调用集。拷贝数增益定义为log2(tumor/expected) ratio > 0.2。拷贝数丢失定义为log2(tumor/expected) ratio < −0.2。

功能注释和影响预测

体细胞SNVs和种系SNVs均被FunSeq2注释。由于调控元件(启动子、增强子等)的非编码变异可能与潜在的靶基因相关,这个管道有助于识别给定基因的编码变异和非编码变异。此外,每个变体的功能影响由PredictSNP2预测,这可能是中性的,有害的,或未知的。仅选择有害(高功能影响)变异进行基因和通路水平分析。

候选驱动基因的鉴定

IBC队列中的候选驱动基因由具有默认参数的ActiveDriverWGS检测。在IBC样本中所有体细胞snv的最终调用集被用作输入。利用biomaRt软件包从Ensemble数据库中提取hg19参考基因组下的基因坐标。FDR < 0.05的基因被确定为候选驱动因子。

突变谱和突变特征

在单核苷酸和三核苷酸环境下分别分析了整个基因组的体细胞snv。使用DeconstructSig将每个样本的突变谱(96种可能的三核苷酸组合)解构为COSMIC数据库中的30个参考突变signatures,以计算每个参考signatures的权重。

估计克隆的数量

我们实现了SciClone来估计每个IBC和非IBC样本的克隆数量。首先,所有等位基因频率高于0.6的体细胞snv被从输入文件中删除,因为它们可能受到拷贝数丢失事件的影响。接下来,调用函数“sciClone”,将“minimumDepth”设置为14,将“clusterMethod”设置为“binomian.bmm”。最后,该函数的输出报告了在给定样本中检测到的克隆的预测数量。对所有IBC和非IBC样本重复上述步骤后,用Fisher精确检验对两个队列间的预测克隆数进行比较。

使用PhyloWGS构建进化树

我们使用PhylowWGS来推断每个个体样本的进化树。我们遵循类似于前面描述的的工作流。体细胞SNVs来自Strelka和Mutect的一致呼叫。观察到的替代等位基因和参考等位基因计数均来自Strelka。为了删除拷贝数的影响,我们删除了具有绝对“log2”的区域中的snv。copyRatio”(BIC-Seq2报告的log2肿瘤与正常拷贝数之比)高于0.2, p-value低于0.01。然后,我们使用默认参数运行PhyloWGS,并将性别全部设置为女性。我们只绘制和分析了PhyloWGS报告的可能性最高的树。

肿瘤纯度测定

为了估计每个IBC肿瘤样本的肿瘤纯度,使用默认参数实现了一个称为PurBayes的计算管道。

微生物序列检测与富集

为了识别可能是外源性来源而不是宿主基因组产生的序列,我们修改了一部分为鉴定内源性和外源性细胞外RNA而开发的摘录管道。在读取的片段与宿主基因组对齐后,我们对宿主基因组进行了第二次比对,以删除可能来自宿主人类基因组的序列。然后,我们删除了与大量错配(每100 bp 5个错配)对齐的读数。我们还过滤掉了与人类基因组中重复序列相匹配的数据,读取了人类基因组中200个位置的多图谱。虽然我们不能自信地将这些读号分配给人类基因组,但我们的目标是过滤掉它们,以便获得一组我们确信不是来自宿主人类基因组的读号。

然后将这些数据与所有已测序的细菌、病毒、植物、真菌、原生生物、后生动物以及以下12种脊椎动物基因组的一组完整基因组的索引进行比对:鸡、鳕鱼、牛、狗、鸭、青蛙、马、兔子、猪、羊、罗非鱼和火鸡。由于许多外源基因组基于进化具有高度的序列相似性,我们发现许多对齐到一个外源基因组的reads对齐到多个基因组。默认情况下,管道在此步骤中不允许不匹配(为了在识别可能的外生序列时尽可能保守)。我们将与外源性基因组对齐的reads分配到系统发育分类树中的位置,该位置基于读取比对的不同基因组最吝啬的节点。

验证组

为了验证从IBC队列中确定的关键基因组发现,我们将分析扩展到多个其他队列,包括乳腺癌和其他类型的癌症,以及普通人群。更具体地说,我们调查了
(1) PCAWG乳腺癌队列的基因和通路的高功能影响突变频率,
(2) 来自ICGC的23种原发癌症(https://dcc.icgc.org/)
(3) 来自The Genome Aggregation Database的一般人群数据

统计分析

本研究使用了两种统计检验方法:
(1)Wilcoxon秩和检验
(2)Fisher精确检验。
采用Wilcoxon检验比较IBC和非IBC样本的中位数。用Fisher精确检验法比较各分类中IBC和非IBC样品的比例。以上测试的所有原始值都通过非常保守的Bonferroni校正进行调整。校正值<0.05认为有统计学意义。此外,我们通过三个步骤进行随机化检验,验证统计意义:
(1)混合IBC和非IBC样本,随机分为两组,
(2)检验新样本标签下的显著性,
(3)重复分析1000次,总结统计数据。
所有统计分析均使用R软件(https://www.r-project.org/)进行。R包ggplot2 (http://ggplot2.org)、ComplexHeatmap和RCircos用于可视化结果。


Notes

炎性乳腺癌是一种罕见的特殊类型乳腺癌,肿瘤特点酷似急性炎症改变,乳腺弥漫性增大,乳腺皮肤红、肿、热、痛,易误诊为急性乳腺炎。约50%的炎性乳腺癌摸不到肿块,经病理诊断为乳腺癌。多数患者在诊断时就发现腋窝和/或锁骨上淋巴结转移。炎性乳腺癌发病率约占全部乳腺癌的2.0%,发病的平均年龄为52岁,病程进展快、预后差,转移发生率高达30%~40%,5年生存率仅为25%~48%。

癌症基因组图谱(the cancer genome atlas,TCGA)计划是由美国国家癌症研究所和美国国家人类基因组研究所于2005年提出的一项系统工程,旨在联合全球科学家通过网络研究找到所有癌症基因与普通基因的微小变异,这些差异可以为癌症检测提供新的方法,帮助我们了解癌细胞发生、发展的机制,并在此基础上取得新的治疗方法,最后勾画出一个全新而完整的“预防癌症的策略”。在TCGA中,科研人员可以共享研究获得的数据资料,包括某一特殊基因的突变、染色体重组、转位缺陷等。绘制癌症基因图谱有助于把研究人员从目前逐个追踪基因的大量劳动中解放出来,便于迅速设计和找到针对性的抗癌药物。美国国家癌症研究所副所长安娜•巴克认为,这项计划“是生物医学研究中的一大转折点,也是药物治疗的一大转折点”。绘制癌症基因图谱计划的实施,将有助于癌症生物学、基因组学、生物样本库和生物信息学领域的最新成果在共享平台上得到协调发展和最佳应用。

国际癌症基因组联盟:ICGC(International Cancer Genome Consortium),主要目标是全面阐明导致全球人类疾病负担的多种癌症中存在的基因组变化。ICGC收集了50种不同癌症类型(或亚型)的肿瘤数据,其中包括基因异常表达,体细胞突变,表观遗传修饰,临床数据等。ICGC包括亚洲、澳大利亚、欧洲、北美和南美17个行政区的89项目,包括25000个癌症基因组。

soft-clipped reads:当基因组发生某一段的缺失(或转录组的剪接),在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

ER+/-:ER阳性和阴性
ER为雌激素受体,乳腺癌免疫组化里面比较重要的指标,决定着患者是否为激素依赖性乳腺癌,是否可以进行内分泌治疗。ER阳性的患者一线应用内分泌药物有效率为50-60%,阴性者为5-10%,二线有效率为20-40%,阴性者很少有效;(一线用药和二线用药区别:1、使用范围不同:一线用药,是根据患者病情可以首先选择或者标准选择的药物,这些一线用药耐药以后再选择二线的药。2、使用对象不同:二线用药是临床使用频率没有一线多或者效果没有一线明显以及不良反应多的药物。二线用药主要选用对一线药物产生耐药性的复治病例。3、价格不同:一线药的价格普遍要比二线药要贵(不同病症对应二线药的价格也不相同),二线药的副作用要大一些,开始治疗时一般情况下会选择先用一线药。)

相关资料ER、PR分别代表雌激素受体和孕激素受体。检测乳腺癌细胞的ER和PR,可以帮助判定该肿瘤是否对内分泌治疗敏感。ER、PR均为阳性的乳腺癌内分泌治疗的敏感性最高可达70%; 而ER、PR均为阴性的乳腺癌对内分泌治疗的敏感性则低于10%。换句话说ER、PR的状况是决定乳腺癌患者是否可以进行内分泌治疗的指标乳腺癌Her-2是表皮生长因子受体家族的一员,此家族在细胞信号转导中发挥重要作用,是细胞生长、分化及存活的重要调节者。正常情况下,Her-2只在胎儿期表达,到成年后,只在极少数组织内有低表达。在乳腺癌的发病因素中,Her-2的致癌基因起了主要的作用,而Her-2的过度表达是乳腺癌预后不良的指征。


end

你可能感兴趣的:(表型不同的炎症性乳腺癌的全基因组测序揭示了与非炎症性乳腺癌相似的基因组改变)