基因组的从头组装

  • 基因组组装一般分为三个层次,contig, scaffold和chromosomes.

contig表示从大规模测序得到的短读(reads)中找到的一致性序列。组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,这一步会得到scaffolds。最后基于遗传图谱或光学图谱将scaffold合并调整,形成染色体级别的组装(chromosome)

一. 短序列拼接

SPAdes

  • SPAdes 主要用于进行单细胞测序的细菌与基因组拼接,也能用于非单细胞测序数据。
安装
#下载SPAdes
wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0/SPAdes-3.12.0-Linux.tar.gz      

#解压压缩包,路径为SPAdes压缩包的位置,解压到家目录下
tar zvxf [路径] /SPAdes-3.12.0-Linux.tar.gz -C 

#配置环境变量
echo 'export PATH =~SPAdes-3.12.0-Linux/bin:$PATH'
#使配置生效
source ~/.bashrc

#查看结果
spades.py -h

结果


1.PNG
拼接基因组
#将结果保存到SPAdes文件夹中
#同一个基因组分别拼接一个优化过和没优化过的
spades.py --careful -1 test_7942raw_1.fq -2 test_7942raw_2.fq.gz -o ./SAPAdes
spades.py --only-assembler --careful -1 test_7942raw_1.fq -2 test_7942raw_2.fq.gz -o ./SPAdes_without_correction

ps:这里因为没有设置K值,所以会运行较长时间来寻找合适的K值,当知道K值时可以加上合适的K值,会缩短运行时间
结果

2.PNG

二. 序列拼接结果评价

Quast

安装

ps:已经提前把下载好的压缩包传到虚拟机上了,因为直接用sudo apt install命令下载太慢

tar zvxf quast-5.0.0.tar.gz    ##解压压缩包
cd quast-5.0.0
./quast.py                            ##查看是否能运行
echo 'export PATH=~/quast-5.0.0:$PATH' >> ~/.bashrc   ##配置环境变量
source ~/.bashrc
序列拼接结果评价
#对SPAdes的拼接结果进行评价
quast.py ~/SPAdes/contigs.fasta -o ~/SPAdes quast_out
#比较with和without error correction的拼接结果
quast.py -o compare_correction ./SPAdes/contigs.fasta ./SPAdes_without_correction/contigs.fasta

结果


4.PNG

5.PNG

你可能感兴趣的:(基因组的从头组装)