STAR: ultrafast universal RNA-seq aligner

Dobin A , Davis C A , Schlesinger F , et al. STAR: ultrafast universal RNA-seq aligner[J]. Bioinformatics, 2012, 29(1).

ABSTRACT

Motivation:高通量RNA-seq数据的准确比对是一个具有挑战性但尚未解决的问题,因为转录结构不连续,读取长度相对较短且测序技术的通量不断提高。当前可用的RNA-seq比对仪遭受高定位错误率,低定位速度,读取长度限制和定位偏差的困扰。

Results: 为了对齐我们的大型(超过80个Billon读数)ENCODE Transcriptome RNA-seq数据集,我们基于先前未描述的RNA seq对齐算法,开发了拼接转录物比对(STAR)软件,该算法利用未压缩后缀中的顺序最大可映射种子搜索阵列(sequential maximum mappable seed search in uncompressed suffix arrays),然后进行 seed 聚类和缝合程序

STAR在制图速度方面比其他比对剂高50倍以上,可在中等的12核服务器上每小时以5.5亿个2x76bp配对末端读数与人类基因组比对,同时提高了比对灵敏度和精度。除了对标准连接的无偏从头检测之外,STAR还可以发现非经典剪接和嵌合(融合)转录本,并且还能够定位全长RNA序列。使用RT-PCR扩增子的Roche 454测序,我们通过实验验证了1,960个新的基因间剪接点,成功率为80-90%,从而证实了STAR定位策略的高精度。实现和可用性:STAR作为独立的C ++代码实现。 STAR是根据GPLv3许可分发的免费开源软件,可以从以下网站下载 http://code.google.com/p/rna-star/

1 INTRODUCTION

测序技术的最新进展已使单核苷酸水平的转录组分析几乎成为常规方法,然而,通过这种高通量测序实验产生的数亿短(36nt)至中(200nt)长序列(读段)对剪接转录本的检测和表征提出了独特的挑战。第一项任务是对包含基因组变异和测序错误引起的错配,插入和缺失的读段进行精确比对。第二项任务涉及定位来自非连续基因组区域的序列,该非连续基因组区域包含连接在一起以形成剪接RNA的剪接序列模块。尽管第一个任务与DNA重测序工作分担,但第二个任务对RNA序列是特定且至关重要的,因为它提供了重建完整范围的剪接RNA分子所需的连接性信息。这些比对的挑战由于自身被转录的相同或相关基因组序列的多个拷贝的存在而变得更加复杂,从而使得精确作图变得困难。

随着测序技术的最新发展,计算组件正日益成为吞吐量瓶颈。高映射速度对于诸如ENCODE之类的大型项目而言尤其重要,因为它们会不断生成大量测序数据;此外,大多数引用的算法都设计为处理相对较短的读取(通常少于或少于200个碱基),并且不适合比对新兴的第三代测序技术产生的较长读取序列;通过提供更完整的RNA连接信息,更长的阅读序列(理想情况下达到RNA分子的全长)具有增强转录组研究的巨大潜力。

本报告介绍了一种比对算法,该比对算法名为“参照的剪接转录本比对”(STAR),旨在专门解决RNA-seq数据作图的许多挑战,并采用了一种新颖的剪接比对策略。我们进行了高通量验证实验,证实了STAR检测新型接头的精度。 STAR的高定位速度和准确性对于分析大型ENCODE转录组(Djebali等,2012)(超过800亿个Illumina读数)至关重要。我们还证明了STAR有潜力准确地比对第三代测序技术中出现的长(几千碱基)读数。

2 ALGORITHM

许多先前描述的RNA-seq aligners 被开发为连续(DNA)short read mappers 的延伸,用于将短读序列与剪接点数据库对齐,或将拆分的读段与参考基因组连续对齐,或其组合。与这些方法相反,STAR被设计为将非连续序列直接与参考基因组进行比对。 STAR算法包括两个主要步骤:seed searching step 和 clustering/stitching/scoring step.。

2.1 seed searching step

① STAR seed finding phase 的中心思想是顺序搜索最大可映射前缀(Maximal Mappable Prefix,MMP);

② 在第一步中,算法从读取的第一个碱基开始查找MMP。由于该实例中的读段包含剪接点,因此无法将其连续定位到基因组,因此第一个种子将被定位到供体剪接位点。接下来,对读取的未映射部分重复进行MMP搜索,在这种情况下,该映射将映射到受体剪接位点。

③ 请注意,这种仅对读取的未映射部分进行MMP搜索的顺序应用使STAR算法非常快,并将其与找到所有可能的最大精确匹配项的Mummer和MAUVE区别开来

④ 这种方法代表了在读取序列中找到拼接连接点精确位置的自然方法,并且比在拆分读取方法中使用的读取序列的任意拆分更具优势。

⑤ STAR搜索中的MMP通过未压缩的后缀数组实现(Manber和Myers,1993)。 值得注意的是,找到MMP是标准二进制字符串搜索在未压缩后缀数组(SA)中的固有结果,并且与全长精确匹配搜索相比,不需要任何额外的计算工作。 SA搜索的二进制性质导致搜索时间与参考基因组长度的对数比例有利,即使是针对大型基因组,也可以非常快速地进行搜索。 有利地,对于每个MMP,SA搜索可以以很少的计算开销找到所有不同的精确基因组匹配,这有助于映射到多个基因组基因座的读段(“多重映射”读段)的精确对齐。

⑥ 如图1b所示,除了检测拼接结之外,以STAR实施的MMP搜索还可以查找多个不匹配和插入/缺失。 如果由于存在一个或多个错配而导致MMP搜索未达到读取末尾,则MMP将充当基因组中的锚,可以扩展为允许错配进行比对。 在某些情况下,延伸程序无法产生良好的基因组比对,从而无法鉴定多聚A尾部,文库衔接子序列或测序质量较差的尾部(图1c)。 MMP搜索在读取序列的正向和反向方向上进行,并且可以在整个读取序列中从用户定义的搜索起始点开始,这有助于在末端附近出现错误的情况下查找定位锚,并提高对高测序的映射敏感性 错误率条件。

⑦ 除了高效的MMP搜索算法外,未压缩的后缀数组还显示出比许多流行的短读对齐器中实现的压缩后缀数组(参见SM-1.8)更显着的速度优势。这种速度优势可以与未压缩阵列增加的内存使用量进行权衡,这将在第3.3节中进一步评估。

2.2 Clustering, stitching and scoring

① 在算法的第二阶段,STAR通过将在第一阶段与基因组比对的所有 seeds 缝合在一起,建立了整个读取序列的比对。

② 首先,通过邻近选定的一组“锚”种子将种子聚集在一起。我们发现,选择锚的最佳方法是通过限制锚对齐的基因组位点的数量。假定局部线性转录模型,将所有在锚点周围的用户定义的基因组窗口内映射的种子缝合在一起。基因组窗口的大小决定了剪接比对的最大内含子大小。节俭的动态编程算法(有关详细信息,请参阅SM-1.5)用于缝合每对种子,从而允许任何数量的不匹配,但只有一个插入或删除(间隙)。

③ 重要的是,成对配对的RNA-seq读段配对的种子会同时聚簇和缝合,每个成对配对的读段均表示为单个序列,从而在配对的内端之间存在可能的基因组缺口或重叠。这是利用配对末端信息的一种原则方法,因为它更好地反映了配对末端读段的性质,即配偶是相同序列的片段(末端)。这种方法提高了算法的灵敏度,因为只有一个配偶中的一个正确的锚点就足以准确地对齐整个读数。

④ 如果一个基因组窗口中的比对不能覆盖整个读取序列,STAR将尝试找到两个或多个窗口来覆盖整个读取,导致与读取部分不同的嵌合比对,从而映射到远端基因组位点或不同的染色体或不同的链(请参见图S-1)。 STAR可以找到嵌合比对,其中配偶彼此嵌合,并且嵌合交界处在两个配偶之间的RNA分子的未测序部分。 STAR还可以找到一个或两个配偶在内部进行嵌合比对的嵌合比对,从而查明了嵌合连接在基因组中的精确位置。补充材料SM-1.7中给出了从K562红白血病细胞系中检测BCR-ABL融合转录本的示例(图S-2)。

⑤ 拼接由局部比对计分方案指导,用户可以为匹配,错配,插入,缺失和接头连接间隙定义分数(罚分),从而可以定量评估比对质量和等级(有关SM-1.4的信息,请参见SM-1.4)。细节)。选择得分最高的缝合组合作为读取的最佳对齐方式。对于多图谱读取,将报告分数在最高分数以下的用户定义范围内的所有比对。

⑥ 尽管顺序MMP搜索只能找到与基因组完全匹配的种子,但随后的拼接程序能够将读数与较大的,可扩展的序列进行比对,并具有读数长度上的错配,插入缺失和剪接连接。随着第三代测序技术(例如Pacific Biosciences或Ion Torrent)的出现,这种特性变得越来越重要,该技术可以产生更长的读数,并且出错率更高。

3 RESULTS

3.1 Performance on simulated RNA-seq data

3.2 Performance on experimental RNA-seq data

3.3 Speed benchmarks

3.4 Experimental validation

你可能感兴趣的:(STAR: ultrafast universal RNA-seq aligner)