将转座子鉴别和注释的方法分为3大类:
①从头算法;
②基于同源性的方法 ;
③联合算法。
其中,从头算法又包括基于基因组序列比对的方法、K—mer方法和基于结构特征的方法 ;
基于同源性的方法包括基于同源序列比对的方法和基于隐马尔柯夫模型(HMM)的方法。
不同的算法实现的目标有所不同,如从头算法主要是为了发现新的转座子 ,因此常用来在新测序的基因组中鉴别新的转座子 ,而多数基于同源性算法的软件主要被用来注释基因组中的转座子。
从头算法鉴别转座子的原理是基于转座子的重复特征,该算法可在不借助任何转座子数据库的情况下查找到几乎所有类型的转座子。优点:算法主要用于发现新的、未注释的转座子家族, 对于高频出现的转座子鉴别尤其有效。缺点:计算量大。另外, 由于从头算法是基于用一个转座子的拷贝数来定义重复家族, 这样低拷贝数的转座子可能被忽略掉。根据算法原理的不同, 从头算法又包括基于基因组序列比对的方法、K-mer 方法和基于结构特征的方法。
基于基因组序列比对的方法。基于序列相似性,该方法利用 BLAST 等软件将基因组与基因组进行比对, 然后将双序列比对的结果转换成多序列比对, 最后用聚类方法将相关序列聚成家族,从而得到重复序列( 包括转座子) 家族。代表:RECON
K-mer 方法。 该类从头算法检索重复出现的定长 Kmer 种子( 序列短串) , 然后再将它扩展为更长的序列。代表:RepeatScout。软件首先在未知的基因组序列中计算出所有定长 K-mer 种子出现的频率, 再选择出最高频率的 K-mer 种子及其周围区域的序列, 一次一个碱基向两边扩展, 每次生成一条具有代表性 K-mer 重复家族的共有序列。然后调整已出现过的 K-mer 频率数, 再选择出包括调整过的最高频率 K-mer 及其周围区域序列, 扩展并产生共有序列,直到最高频率到达所设定的最小阈值结束, 这样就得到了这一基因组的转座子家族。RepeatScout与 RECON 相比, 所得到结果更加准确,而且敏感度和运行速度都有很大的提高。其他使用 K-mer 方法的软件还有RepeatFinder等。
基于结构特征的算法。 转座子中 LTR 逆转录转座子、SINE、微型反向重复转座元件( MITE) 、Helitron 等都具有较明显的特征, 基于结构特征的算法可根据这些特征对这些转座子进行鉴别。代表:LTR_STRUC,LTR_FINDER,LTRharvest ,LTRdigest。LTR_finder 和 LTRharvest 是目前为止鉴定 LTR 最敏感的程序,但假阳性依然很高。
RepeatModeler 利用全基因组序列从头预测(de novo),训练重复序列集构建本地 repeat library。
RepeatModeler1.0 核心组件是 RECON(de novo,基于基因组序列比对)和 RepatScout (de novo,基于 K-mer)。RepeatModeler2.0更新后加入了 LtrHarvest(de novo,基于结构),LTR_retriever(主要有LTR_FINDER,LTRharvest,都是 de novo 基于结构) 等,可以识别LTR的结构。
公司的重复序列注释流程:使用RepeatModeler从头鉴定(都是 de novo,1.0基于基因组序列比对,基于 K-mer;2.0 基于基因组序列比对,基于 K-mer,基于结构)重复区域家族,生成repeat library。然后再用RepeatMasker(基于同源性)鉴别基因组上的重复区域。
用 LTRharvest 和 LTRdigest 进行 LTR 基于结构 的从头预测( de novo,基于结构 )
2017 年密歇根州立大学园艺系的 Shujun Ou 团队开发 LTR_retriever 平台用于 LTR 的鉴定,文章发表在 Plant Physiology 上。这是一款整合软件,以一或多个 LTR 预测软件鉴定 LTR 的结果作为输入文件,通过不同模块对 LTR 进行过滤和修正来对预测软件的预测结果进行整合和调整,得到非冗余精准且完整的物种特异 LTR 库,再使用 RepeatMasker 进行预测。
LTR_retriever不是一个独立的工具,他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的结果,过滤其中的假阳性LTR-RT,得到高质量的LTR-RT库。尽管LTR_retriever支持多个LTR工具的输入,但其实上LTRharverst和LTR_FINDER的结果就已经很不错了。目前推荐的是LTR_Finder(de novo,基于结构)和LTR_harvest(de novo,基于结构)组合鉴定,之后使用LTR_retreiver整合两者的结果。
EDTA, 全称是 Extensive de-novo TE Annotator, 一个综合性的流程工具,它整合了目前LTR预测工具结果(LTR_retriever,基于结构),TIR预测工具结果,MITE预测工具结果,Helitrons预测工具结果,从而构建出一高可信,非冗余的TE数据库,再通过 RepeatMasker(基于同源性) 注释重复序列。
EDTA的下载安装及使用方法参考 EDTA-github
常用的软件TEclass(Institute of Bioinformatics WWU Münster)、REPCLASS(http://wweb.uta.edu/faculty/cedric/repclass.htm)等
重复序列库经过校正和分类以后, 就可以用于全基因组重复序列注释。这个过程被称为重复序列屏蔽, 鉴定为重复序列的核苷酸区域常用N或者X替 代。常用的软件有RepeatMakser(RepeatMasker Home Page)和CENSOR(Submit sequence to CENSOR - GIRI)等, 详细的使用说明请参考。此过程在很大程度上依赖于重复序列库的质量 , 例如一致序列的准确性及分类的准确性等。
参考:
TE的鉴定 - 简书
GitHub - oushujun/EDTA: Extensive de-novo TE Annotator
基因组转座子鉴别与注释方法研究进展 - 中国知网
真核生物转座子的鉴定与分类