新算法快速定位基因异常

一种新研发的快速算法,能够有效定位核苷酸短串联重复信息来处理基因测序数据。

基因测序技术发展到今天,对测序数据的后续处理已经日益取代测序本身成为业界关注的焦点。大体上说,在测序完成后都要将测得的基因序列数据,与人类基因组工程(Human Genome Project)的标准参照作比照。目前,在研究领域中,常用的方法是比较单核苷酸多态性(SNPs)差异,这种方法能够有效鉴别出等位基因上的转换和颠换变异,由于SNPs通常只涉及到两种碱基,在筛选处理中往往不用分析片段的长度,有利于数据处理的快速化和规模化。

而另一种形式德基因信息差异---短串联重复(Short Tandem Repeats,STR)尽管在族谱学和法医学中应用广泛,在基因测序数据处理中却有意无意地为研究人员所忽视了。STR是指两个到多个核苷酸的重复排列,且不同的重复序列相邻的形式。这种重复与亨廷顿舞蹈症(Huntington's disease)和X染色体易裂症(fragile X syndrome)有关。而目前,大多数STR信息图已经通过毛细管电泳法完成。

麻省理工学院的研究人员开发出一种名为lobSTR的新算法,将STR信息对基因测序信息进行数据处理。而由于目前大多数常用高通量下一代全基因组测序法都无法解读出STR的排布信息。研究人员自己开发出了一套新方法来对STR进行校准。反映这一团队研究成果的论文的第一作者是梅丽莎·吉姆莱克(Melissa Gymrek),文章发表在《基因组研究》杂志上。

这一算法首先通过傅立叶变换法(Fourier transform)从序列库中寻找并标示出STR的序列,然后对序列信息进行快速校准,同时使用非重复序列的接合部份作为向导,向参照系基因组序列发出信号,从而确定STR的发生位置和长度。最后,通过统计学习方法来最大限度地扫描出对PCR将DNA放大所产生的无用数据。

麻省理工学院的雅尼夫·厄里奇(Yaniv Erlich)表示,这种lobSTR算法对于Illumina测序机生成的的数据效果最好。STR可以产生更长的同聚物序列,而这用Ion Torrent和454公司的测序机很难检测到。

lobSTR算法的速度也是其优势所在。它运行时间大概仅需几个小时,比BWA的比对算法快20倍,比Bowtie的算法也快了2.5倍。厄里奇希望这种快速的算法能够作为目前主流校准方法的一个重要补充。

“人们之前总有些忽视STR,而现在开始逐步意识到能够利用STR的方式有很多。”厄里奇说,“这一算法开启了基因组信息的全新层面。”

你可能感兴趣的:(算法)