1. de novo assembly
De Bruijn 图是目前二代测序序列最常用的拼接算法,该算法将已经非常短的reads再分割成更多个kmer短序列(k 小于reads 序列的长度),相邻的kmers序列通过(k-1)个碱基连接到一起(即每次只移动一个位置),进而降低算法计算重叠区域的复杂度,降低内存消耗。
常用的短序列拼接软件有:SPAdes、Velvet、SOAPdenovo、Abyss、MasuRCA
SPAdes的安装
python环境的安装,推荐安装Anoconda,可以根据需要,配置切换不同的python环境。
wget https://repo.anaconda.com/archive/Anaconda3-5.3.1-Linux-x86_64.sh
bash Anaconda3-5.3.1-Linux-x86_64.sh
创建python2的环境
conda create --name python27 python=2.7 -y
创建python3的环境
conda create --name python34 python=3.4 -y
激活python3 or python2
conda activate python=3.4/2.7
安装SPAdes软件
wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz
mkdir ~/BioSofts/spades
tar -zvxf ~/SPAdes-3.12.0-Linux.tar.gz -C ~/BioSofts/spades/
~/BioSofts/spades/SPAdes-3.12.0-Linux/bin/spades.py -h
echo 'export PATH=~/BioSofts/spades/SPAdes-3.12.0-Linux/bin:$PATH'>> ~/.bashrc
source ~/.bashrc
spades.py -h
拼接基因组数据的情况
– 仅有一个 library 数据 (SE、PE、ME)
– 有多个 paired-end library 数据
– 有多个 mate-paired library 数据
– 有PACBIO 数据
– 有已拼接的Contig数据
仅有一个 library 数据 (SE、PE、ME)
--12 file_name:12 表示后面接的文件是交叉融合的 paired 数据。
-1 file_name:1 表示 forward 数据
-2 file_name:2 表示 reverse数据
-s file_name:s 表示 single 数据, 也用于输入 PacBio CCS reads
有多个 paired-end library 数据的情况
--pe{int}-12 编号为 int 的 library 的交叉融合后的paired 数据。int 取值只能是 1,2,3,4,5 ,下同。
--pe{int}-1 编号为 int 的 library 的 forward 数据
--pe{int}-2 编号为 int 的 library 的 reverse 数据
--pe{int}-s 编号为 int 的 PE 的 unpaired数据
--pe{int}-{fr|rf|ff} 编号为 int 的 PE数据的方向,默认为 --pe{int}-fr
有多个 mate-paired library 数据
--mp{int}-12 编号为 int 的 library 的交叉融合后的paired 数据
--mp{int}-1 编号为 int 的 library 的 forward 数据
--mp{int}-2 编号为 int 的 library 的 reverse 数据
--mp{int}-{fr|rf|ff} 编号为 int 的 library 的数据的方向,默认为 --mp{int}-rf
有PacBio 数据
选用--pacbio 参数
有已拼接contig的情况
--trusted-contigs:– 输入可信度高的 contigs,用于 graph construction,
gap closure 和 repeat resolution
--untrusted-contigs:– 输入可信度较低的 contigs, 用于gap closure 和
repeat resolution
运行测试代码
spades.py --careful --pe1-1 ~/Seqs/test_7942raw_1.fq.gz --pe1-2 ~/Seqs/test_7942raw_2.fq.gz -o ./SPAdesout_7942_new
2.序列拼接评价软件QUAST
安装quast
tar -zvxf quast-5.0.0.tar.gz -C ~/BioSofts/
echo 'export PATH=$PATH:~/BioSofts/quast-5.0.0/'>>~/.bashrc
source ~/.bashrc
使用quast
quast.py ~/Seqs/SPAdesout_7942_new/contigs.fasta -o ~/Seqs/SPAdesout_7942/quast_out