这次分享的是来自瑞士苏黎世联邦理工学院计算机科学系Valentina Boeva教授于2011年发表在BIOINFORMATICS(IF:6.937, 2020)上的文章Control-free calling of copy number alterations in deep-sequencing data using GC-content normalization。
简要
我们提出了一种利用深度测序数据进行无对照拷贝数变化(CNA)检测的工具,对癌症研究特别有用。该工具解决了在癌症深度测序数据分析中两个经常出现的问题:缺少对照样本和可能的癌细胞多倍体。FREEC (controlfree Copy number caller)自动规范和分段拷贝数轮廓文件(CNP)并调用CNAs。如果已知倍性,FREEC会给每个预测的CNA分配绝对拷贝数。为了对原始CNP进行归一化,用户可以提供可用的控制数据集;否则使用GC内容。我们证明,对于Illumina单端测序、配对测序或配对测序,GC含量标准化提供了平滑的图谱,可以进一步进行分段和分析,以预测CNAs。
简介
在许多对癌症基因组进行深度测序的研究中,人们必须计算拷贝数谱(CNPs)并预测得失区域。在癌症基因组分析中存在两个常见的障碍: 缺乏正常组织的适当对照样本和可能的多倍体。目前的大多数工具都没有考虑到这些要点(补充表1)。由于各种原因,适当的对照样本的排序并不总是可能的。因此,需要一种能够自动检测拷贝数变化(CNAs)的生物信息学工具,而无需使用控制数据集。一些程序已经发表,允许CNP的自动计算和分析。然而,CNV-seq和SegSeq都需要给定肿瘤及其配对的正常DNA的数据集。此外,这两个程序都预测CNAs,但没有提供丢失或获得多少副本的信息。Yoonet等人提出了一种预测拷贝数变异的有趣方法,其中GC内容用于数据的标准化。
然而,为了估计“正常”的复制数量,他们依靠的假设是,增加区域和缺失区域的比例相似,这在一般情况下对癌症细胞来说是不正确的。此外,他们的工具是用来分析正常人类基因组的,无法考虑到可能的多倍性。
在这里,我们提出了一种算法来调用CNAs,无论是否有控制样本。该算法在c++程序FREEC (controlfree Copy number caller)中实现。FREEC使用滑动窗口方法来计算非重叠窗口中的读计数(RC) (raw CNP)。然后,如果对照样本是可用的,程序使用对照样本的轮廓来标准化原始CNP。否则,程序在同一组窗口中计算GC含量,并根据GC内容执行标准化。因为这消除了原始CNP中可变性的一个主要来源,得到的标准化轮廓足够光滑,可以用于分割。然后分析预测的增加和缺失区域,以便为这些区域分配拷贝数。
注:CNV指种系事件,是种群中的变体。 CNA通常指的是体细胞事件,就像在肿瘤中发现的那样。 它们有时可以互换使用。
方法
该算法包括几个步骤。首先,它通过计数非重叠窗口中的读来计算原始CNP(拷贝数变化轮廓)。如果用户不提供窗口大小,可以通过覆盖深度信息自动选择窗口大小,优化CNA预测的准确性。第二步是轮廓标准化。如果用户没有提供控件,则计算GC-content配置文件。以下描述了按GC含量(或按对照RC)测定RC的归一化过程。第三步是正则化CNP的分割。为此,我们实现了Harchaoui和Lévy-Leduc提出的基于lasso的算法。该算法提供的分割对离群值具有较强的鲁棒性,适用于深度测序CNP的分割。最后一步涉及到分段配置文件的分析。这包括对基因组得失区域的识别和对这些区域拷贝数变化的预测。
为了使原始CNP标准化,我们通过GC含量拟合观察到的RC(或对照RC,如果可用)。我们的拟合模型基于几个假设:(i)提供的样本主倍体P,(ii)在P拷贝区域(即拷贝数等于P的区域)中观察到的RC可以建模为GC含量(或对照 RC)的多项式,(iii)拷贝数改变的区域中观察到的RC与P拷贝区域中的RC成线性比例,并且(iv)主要倍体区域中测量的GC含量间隔(当控制数据集可用时,分别控制RCs)必须包括所有测量的GC含量间隔(分别控制RC)。多项式次数是用户定义的参数,默认值为3。我们提供多项式参数的初始估计值,然后通过迭代选择与P拷贝区域相关的数据点并仅对这些点进行最小二乘拟合来优化这些参数。
然后使用得到的多项式对CNP进行归一化(图1)。用户可以选择将可映射性信息包括到规范化过程中(参见补充方法)。
结果
我们应用该方法预测黑色素瘤细胞系COLO-829和匹配正常细胞系COLO829BL、小细胞肺癌细胞系NCI-H2171的配对数据集和乳腺癌细胞系HCC1143的单端数据集中的CNA。使用Illumina基因组分析仪平台对所有四个样本进行测序。样本中的读取次数从1400万到2000万不等。
GC含量的多项式拟合很好地解释了观察到的RC(图1A-D)。使用GC含量标准化的CNP,我们确定了四个样本中的增益和损耗区域(图1E-H,补充图1-4)。我们还评估了正常二倍体样本NA18507的真阳性和假阳性率
图1 | 仅使用窗口中关于平均GC含量的信息对CNP进行规范化。(A–D)COLO829BL(正常二倍体基因组)、COLO-829、NCI-H2171和HCC1143的GC含量与50 kb窗口中RC的比较。
P拷贝区域的最小二乘拟合结果以黑色显示。与其他频繁复制编号对应的曲线以灰色显示。副本编号的V值在每个面板的右侧给出。染色体X和Y不包括在内。(E–H)分别针对COLO-829BL、COLO-829、NCI-H2171和HCC1143的1号染色体的GC含量标准化CNP。自动预测的拷贝数以黑色显示。
我们将FREEC与其他三种现有工具进行了比较:CNV-seq、SegSeq和RDXplorer。除了提供其他附加功能外,FREEC比任何其他工具都能理解更多的输入格式。它可以用来分析任何生物和多倍体基因组产生的数据。FREEC是用C实现的,它表现出了优异的性能和操作系统的可移植性。
结论
我们提出了一种自动检测CNA和计算CNA频率的工具。FREEC提供了更多的功能
比现有的工具; 特别是,在没有对照实验和基因组是多倍体的情况下,它可以处理癌症研究中经常出现的问题。主要步骤是(i)使用GC含量对CNP进行标准化(或控制CNP,如果可用),(ii)对标准化剖面进行分割,以及(iii)分配loss和gain的拷贝数变化。该程序快速、准确且免费提供。
参考文献
Alkan,C.et al. (2009) Personalized copy number and segmental duplication maps using
next-generation sequencing.Nat. Genet.,41, 1061–1067.
Bentley,D.R.et al. (2008) Accurate whole human genome sequencing using reversible
terminator chemistry.Nature, 456, 53–59.
Campbell,P .J.et al. (2008) Identification of somatically acquired rearrangements in
cancer using genome-wide massively parallel paired-end sequencing.Nat. Genet.,
40, 722–729.
Chiang,D.Y .et al.(2009) High-resolution mapping of copy-number alterations with
massively parallel sequencing.Nat. Methods,6, 99–103.
Harchaoui,Z. and Lévy-Leduc,C. (2008) Catching change-points with lasso.Adv. Neural
Inform. Process. Syst.,20, 617–624.
Pleasance,E.D.et al. (2010) A comprehensive catalogue of somatic mutations from a
human cancer genome.Nature,463, 191–196.
Xie,C. and Tammi,M.T. (2009) CNV-seq, a new method to detect copy number variation
using high-throughput sequencing.BMC Bioinformatics,10, 80.
Yoon,S.et al. (2009) Sensitive and accurate detection of copy number variants using
read depth of coverage.Genome Res.,19, 1586–1592.