生信 | 基因组组装实战(六):基因组质量、一致性、保守性、LAI等评估

写在前面

  • 以下内容均来自我在菲沙基因(Frasergen)暑期生信培训班上记录的课堂笔记

1.基因组组装指标评估

  • 为什么要进行质量评估?
    答:动植物基因组de novo工作,其组装指标的好坏直接影响着整个基因组的质量。
  • 最主要的指标是什么?
    答:基因组组装结果评估,contigN50和scaffoldN50是第一指标。
    contig/ scaffoldN50:将contig/scaffold长度从长到短迚行排序并累加,当累加和达contig/scaffold总长度的50%的时候,最后参不加和的那一条contig/scaffold长度即为contig/ scaffoldN50的长度。一般来说,contig/scaffoldN50越长,表示组装结果越好
  • N50指标高就意味着组装结果就一定可靠吗?
    答: 不一定!将一些不相关的reads或者contig错误的连接为scaffold,一样可以达到很高 scaffold N50
  • N50统计软件gnx下载与编译
#Download git repository 
git clone https://github.com/mh11/gnx-tools.git
cd gnx-tools
mkdir bin 
javac -d bin/ src/uk/ac/ebi/gnx/* 
# 没装ant,请安装,链接:https://downloads.apache.org/ant/binaries/
# wget https://downloads.apache.org/ant/binaries/apache-ant-1.10.10-bin.tar.gz
# tar -zvxf apache-ant-1.10.10-bin.tar.gz
# ant程序 在/apache-ant-1.10.10/bin里面
ant -f package.xml
#使用方法
java -jar gnx.jar 基因组名
  • 软件使用
java -jar /gnx-tools/gnx-tools-master/gnx.jar -nx 25,50,75 contigs.fasta
#-nx 50表示统计N50

2.序列一致性评估

  • 序列一致性:是指将reads比到基因组上,验证reads对基因组的覆盖情况,用于评估组装的完整性以及测序的均匀性。较高的mapping rate(90%以上)以及coverage(95%以上)认为组装结果和reads有比较好的一致性。
  • 为了评估组装的完整性和测序覆盖的均匀性,使用比对工具minimap2(默认参数)比对回组装好的基因组,统计reads的比对率、覆盖基因组的程度以及深度的分布情况,由此评估组装的完整性和测序覆盖的均匀性。
  • 软件:minimap2
  • 使用conda安装
conda install -c bioconda samtools -y
conda install -c bioconda minimap2 -y
  • 第一步:使用比对工具minimap2(默认参数)比对回组装好的基因组
Genome=$PATH/genome.fasta
SubreadsFa=$PATH/*bam.fasta
minimap2 -ax map-pb ${genome} ${SubreadsFa} -t 10 > aln.sam
samtool view -bS aln.sam > aln.bam
samtools sort aln.bam -o minimap.merged.bam --output-fmt BAM
  • 第二步:基于比对结果统计reads的比对率、基因组的覆盖度以及深度
samtools flagstat minimap.merged.bam > minimap.merged.bam.flagstat
samtools depth -aa minimap.merged.bam > depth.info

3.保守性基因评估

  • BUSCO ( Benchmarking Universal Single-Copy Orthologs )是指利用OrthoDB直系同源数据库构建主要的系统迚化分枝(Bacteria、Eukaryota、Protists、Metazoa、Fungi、Plants)的基因集,通过同源基因数据库从基因完整度层面上评估基因组的组装质量。
  • BUSCO根据OrthoDB数据库,针对几个大的迚化分支分别构建了单拷贝基因集。在得到某物种组装后的基因组戒者转录本序列后,可以将组装结果不该物种所属迚化分支的基因集中的保守序列迚行比对,鉴定组装的结果是否包含这些序列,包含单条、多条还是部分戒者丌包含等情况给出结果。
  • 对于基因组,BUSCO首先调用Augustus软件迚行基因结构预测,再使用HMMER3比对参考基因集;对于转录本,则在鉴定出最长读码框架之后,再使用HMMER3比对参考基因集。最终根据比对上的序列比例、完整性等,评估组装结果的准确性和完整性。
  • BUSCO官网:https://busco.ezlab.org 文档:https://busco.ezlab.org/busco_userguide.html
  • OrthoDB数据库官网:https://www.orthodb.org/
  • 保守性基因评估软件安装
#需要构建conda的python3环境
conda install -c conda-forge -c bioconda busco=5.3.2 -y
  • 如果使用conda安装成功(安装不成功考虑使用git下载,上方文档中有),那么就执行下载数据库文件。例如下载植物的BUSCO的数据库(对着需要下载的类群的图片右键->复制链接地址,之后就得到了下载链接,然后在命令行使用wget之类的下载命令下载),比如下面我下载的是植物相关的,我就下载的植物类群。
    2022年5月22日更新:现在数据集在该链接下载:https://busco-data.ezlab.org/v4/data/lineages/
mkdir -p ~/database/BUSCO/ 
cd ~/database/BUSCO/
# 下载,增加--no-check-certificate,否则可能下载不了
wget -c --no-check-certificate https://busco-data.ezlab.org/v4/data/lineages/embryophyta_odb10.2020-09-10.tar.gz
# 解压文件
tar -xzvf embryophyta_odb10.2020-09-10.tar.gz
  • 在安装好软件之后$PATH/busco/config/之中并没有config.ini文件,只有一个config.ini_default文件,可以把里面的内容复制下来
cp config.ini_default config.ini
  • 将config.ini文件中的out_path = ./workdir 前面加上,因为这个工具的输出路径有时候会出错,所以干脆将它注释掉,之后假如运行busco之后,输出的路径就是你之前cd到的路径
  • BUSCO的使用
busco -i [组装的文件.fasta] -l [数据库文件夹] -o [输出文件名] -m [评估模式] [其他一些选项]
参数说明

4.其他评估方法

准确性评估
完整性评估
长末端重复序列评估基因组完整度

你可能感兴趣的:(生信 | 基因组组装实战(六):基因组质量、一致性、保守性、LAI等评估)