LTR组装指数(LAI)评估基因组

基因组组装完成后,可通过查看contig的N50或者BUSCO,以及LAI评估组装质量。本文就LAI方法做一简单介绍。

基因组中的重复序列大体分为两类:

  • 串联重复(Tandem repeats)(TRF可预测)
  • 散在重复(Dispersed repeats)

其中串联重复含有:简单重复序列,卫星序列等;
散在重复包括:转座子(TE,transposons,elements)

TE又可细分为两类:

  • DNA transposons: 由DNA介导
  • RNA transposons: 由RNA介导,通过RNA的反转录获得DNA,从而转移到其他基因组位置。

目前主要存在两种类型的RNA转座子:

  • 1 LTR (long terminal repeats)双末端都是长的重复序列
  • 2 non-LTR TEs,双末端缺乏重复序列。 LINE1和SINE(short interspersed transposable element)长/短穿插转座元件

结构如下(来源https://www.jianshu.com/p/7d794d22e0a0)

LTR Assembly Index (LAI) ,LAI指数就是完整LTR反转座子序列占总LTR序列长度的比值。在基因组组装过程中,LTR较为难组装,因此被用来检测组装质量。

软件安装

  • makeblastdb, blastn, blastx
  • cd-hit-est
  • hmmserch
  • RepeatMasker

上述软件自行下载,或者使用conda进行安装即可

安装LTR_retriever

git clone https://github.com/oushujun/LTR_retriever.git

进入paths文件,修改各个软件所在路径

BLAST+=/data/pub/liuzy/software/ncbi-blast-2.8.1+/bin/  #a path that contains makeblastdb, blastn, blastx
RepeatMasker=/data/pub/liuzy/software/repeatmask/RepeatMasker/RepeatMasker      #a path that contains RepeatMasker
HMMER=/usr/local/bin/           #a path that contains hmmsearch
CDHIT=/data/pub/liuzy/software/cdhit-4.8.1

安装LRT_finder

git clone https://github.com/xzhub/LTR_Finder.git
cd LTR_Finder/source/
make

简单使用

LTR_finder 鉴定LTR序列
~/software/LTR_Finder/source/ltr_finder   ../groups.asm.fasta > groups.asm.finder.scn

这里的-D表示5'和3'LTR之间的最大距离,-d表示5'和3'LTR之间的最小距离,-L表示5'和3'LTR序列的最大长度,-l表示5'和3'LTR序列的最小长度,-p表示完全匹配配对的最小长度,-C表示检测中心粒(centriole)删除高度重复区域,-M表示最小的LTR相似度。如果不怎么该怎么设置就用默认值。

LTR_retriever根据LTR_FINDER的输出识别LTR-RT,生成非冗余LTR-RT文库,可用于基因组注释
/data/pub/liuzy/software/LTR_retriever/LTR_retriever -threads 4 -genome groups.asm.fasta -infinder groups.asm.finder.scn

这里的-infinder表示输入来自于LTR_FINDER,它支持同时输入LTRharvest的输出(-inharvest)和 MGEScan-LTR 的输出(-inmgescan). 嫌速度太慢,可以用-threads增加线程数

计算LAI值
/opt/biosoft/LTR_retriever/LAI -t 10 -genome groups.asm.fasta -intact groups.asm.fasta.pass.list -all groups.asm.fasta .out

结果文件Athaliana.fa.out.LAI,第二行最后一个值就是LAI值

LAI值的评估标准

Category    LAI Examples
Draft   0 ≤ LAI < 10    Apple (v1.0), Cacao (v1.0)
Reference   10 ≤ LAI < 20   Arabidopsis (TAIR10), Grape (12X)
Gold    20 ≤ LAI    Rice (MSUv7), Maize (B73 v4)

参考

  • LAI: 评估基因组质量一个标准
  • 转座子的基本概念了解
  • 利用LTR_retriever整合LTR数据集
  • [Assessing genome assembly quality using the LTR Assembly Index (LAI). Nucleic Acids Res. gky730]( https://doi.org/10.1093/nar/gky730

你可能感兴趣的:(LTR组装指数(LAI)评估基因组)