基因组从头组装

基因组组装

基因组组装一般分为三个层次,contig, scaffold和chromosomes. contig表示从大规模测序得到的短读(reads)中找到的一致性序列。组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,其中会调整contig方向以及contig可能会存在开口(gap,用N表示),这一步会得到scaffolds,就相当于supercontigs和meatacontigs。最后基于遗传图谱或光学图谱将scaffold合并调整,形成染色体级别的组装(chromosome).【转载】

具体详细可以仔细阅读https://www.jianshu.com/p/f1ba7c96160f

里面写了很多软件以及练习数据,软件的安装,进行多次试探以及看了多篇文章,最终发现用SPAdes 组装 ,QUAST评估用的比较好。

SPAdes 安装比较简单(http://spades.bioinf.spbau.ru/release3.10.1/manual.html)

 wget http://cab.spbu.ru/files/release3.10.1/SPAdes-3.10.1.tar.gz
tar -xzf SPAdes-3.10.1.tar.gz
cd SPAdes-3.10.1/bin/

运行脚本(我的数据是单端测序,选择 -s,根据数据,有多种参数选择 )

sudo python spades.py -k 55 -s /media/gsadmin/vd2/fastq/x'x.fastq -o /media/gsadmin/vd2/fastq/x'x.results (在此之前,k值未定,自动运行有21,33,55,77,99,127)

未选择K值时,运行时间太久,选择其中一个,后面根据评估值,会再进行调整。

QUASTA安装(http://quast.bioinf.spbau.ru/manual.html)

安装过程很曲折,不知道为什么一直报错,说是操作不支持,后面就根据官网提示的邮箱联系对方,先是怀疑系统问题,知道用ubuntu系统没问题,后面说他们解决symlink issue 一般就是从版本3.0换到4.6.3 ,换个版本还是不行后,对方怀疑是不是安装在虚拟机上,想起来我的服务器进行了mount(可能mount后就不行了),所以换了一个服务器后再次下载4.6.3,终于安装完成。

wget https://downloads.sourceforge.net/project/quast/quast-4.6.3.tar.gz

tar -xzf quast-4.6.3.tar.gz

cd quast-4.6.3

遇到权限问题时,可以在前面加上sudo

 sudo python quast.py ../fastq/xx.results/contigs.fasta --gene-finding -o ../fastq/output
结果在report.txt中。

后面其他相关软件会持续更新。。。

 



 

 

 

你可能感兴趣的:(生物信息分析)