基因组的重头组装

1. de novo assembly

De Bruijn 图是目前二代测序序列最常用的拼接算法,该算法将已经非常短的reads再分割成更多个kmer短序列(k 小于reads 序列的长度),相邻的kmers序列通过(k-1)个碱基连接到一起(即每次只移动一个位置),进而降低算法计算重叠区域的复杂度,降低内存消耗。
常用的短序列拼接软件有:SPAdes、Velvet、SOAPdenovo、Abyss、MasuRCA

SPAdes的安装

python环境的安装,推荐安装Anoconda,可以根据需要,配置切换不同的python环境。

wget https://repo.anaconda.com/archive/Anaconda3-5.3.1-Linux-x86_64.sh 
bash Anaconda3-5.3.1-Linux-x86_64.sh 

创建python2的环境

conda create --name python27 python=2.7 -y

创建python3的环境

conda create --name python34 python=3.4 -y

激活python3 or python2

conda activate python=3.4/2.7
激活python环境.png

安装SPAdes软件

wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz
mkdir ~/BioSofts/spades
tar -zvxf ~/SPAdes-3.12.0-Linux.tar.gz -C ~/BioSofts/spades/
~/BioSofts/spades/SPAdes-3.12.0-Linux/bin/spades.py -h
echo 'export PATH=~/BioSofts/spades/SPAdes-3.12.0-Linux/bin:$PATH'>> ~/.bashrc
source ~/.bashrc
spades.py -h
SPAdes

拼接基因组数据的情况

– 仅有一个 library 数据 (SE、PE、ME)
– 有多个 paired-end library 数据
– 有多个 mate-paired library 数据
– 有PACBIO 数据
– 有已拼接的Contig数据

仅有一个 library 数据 (SE、PE、ME)

--12 file_name:12 表示后面接的文件是交叉融合的 paired 数据。
-1 file_name:1 表示 forward 数据
-2 file_name:2 表示 reverse数据
-s file_name:s 表示 single 数据, 也用于输入 PacBio CCS reads

有多个 paired-end library 数据的情况

--pe{int}-12 编号为 int 的 library 的交叉融合后的paired 数据。int 取值只能是 1,2,3,4,5 ,下同。
--pe{int}-1 编号为 int 的 library 的 forward 数据
--pe{int}-2 编号为 int 的 library 的 reverse 数据
--pe{int}-s 编号为 int 的 PE 的 unpaired数据
--pe{int}-{fr|rf|ff} 编号为 int 的 PE数据的方向,默认为 --pe{int}-fr

有多个 mate-paired library 数据

--mp{int}-12 编号为 int 的 library 的交叉融合后的paired 数据
--mp{int}-1 编号为 int 的 library 的 forward 数据
--mp{int}-2 编号为 int 的 library 的 reverse 数据
--mp{int}-{fr|rf|ff} 编号为 int 的 library 的数据的方向,默认为 --mp{int}-rf

有PacBio 数据

选用--pacbio 参数

有已拼接contig的情况

--trusted-contigs:– 输入可信度高的 contigs,用于 graph construction,
gap closure 和 repeat resolution
--untrusted-contigs:– 输入可信度较低的 contigs, 用于gap closure 和
repeat resolution

运行测试代码

spades.py --careful --pe1-1 ~/Seqs/test_7942raw_1.fq.gz --pe1-2 ~/Seqs/test_7942raw_2.fq.gz -o ./SPAdesout_7942_new
2018-11-26 20-24-58屏幕截图.png

2.序列拼接评价软件QUAST

安装quast

tar -zvxf quast-5.0.0.tar.gz -C ~/BioSofts/
echo 'export PATH=$PATH:~/BioSofts/quast-5.0.0/'>>~/.bashrc
source ~/.bashrc

使用quast

quast.py ~/Seqs/SPAdesout_7942_new/contigs.fasta -o ~/Seqs/SPAdesout_7942/quast_out

quast报告

2018-11-26 22-11-04屏幕截图.png

report.png

你可能感兴趣的:(基因组的重头组装)