Biostar_handbook||charpter 13. 短序列比对BWA/Bowtie

Charpter_13 Short Read Aligners

背景

定义:Short read Aligners are commonly used software tools in bioinformatics, designed to align a very large number of short reads(billions).

短序列比对是以2005年二代测序革命所带来的一系列需求性软件,过去测序是一项比较昂贵的事情,所以那时候的比对软件都会以高精度准确性(near-optimal alignments)为准则。二代高通量测序革命以来,生物数据量开始以指数形式开始爆炸性增长,面对这种短读长(50-300),超高通量的数据,科学家开始研究能够将短reads快速准确回帖上基因组数据的算法,并开发相应的软件。高通量数据比对软件雨后春笋般开始出现。

Mapping和Alignment区别

Mapping:

  • A mapping is a region where a read sequence is placed
  • A mapping is regarded to be correct if it overlaps the true region

Alignment:

  • An alignment is the detailed placement of each base in a read.
  • An alignment is regarded to be correct if each base is placed correctly.

Mapping强调将短reads快速准确的回帖到基因组上的某一位置上,强调的是具体的位置,而不强调序列的完全一致;而Alignment联配强调检索序列和目标序列的每个碱基base都能有最佳匹配。比如SNP,基因结构(indel等)变异检测就强调Alignment,而RNA-seq是比对上基因的定量(相对宏观),强调MAPPPING。

如何选择比对软件

看具体应用场景,比如重测序大多用bwa,转录组用Hisat2,bowtie,Star等。

BWA和Bowtie

BWA由Li Heng大神所开发,运用最为广泛的比对软件。最新的比对算法为mem(maximally exact matches)。aln处理小于100bp的reads,mem处理大于70bp的reads

Bowtie第一个Burrows-Wheeler算法的短读长比对软件。分为bowtie和bowtie2,分别对处理50bp以下,和50bp以上的数据。

比对的基本步骤就是两步:

  • 对参考序列构建索引index
  • 对fasta或fastq文件比对索引
###获取EBOLA参考基因组
efetch -db nuccore -id AF086833 -format fasta > ebola.fa

### 构建索引
bwa index ebola.fa
bowtie2-build ebola.fa ebola.fa

###下载实验组sra序列
esearch -db sra -query PRJNA257197 |efetch -format runinfo >runinfo.csv
fastq-dump.2 -X 10000 --split-files SRR1972739

###比对,默认参数
REF=ebola.fa
R1=SRR1972739_1.fq
R2=SRR1972739_2.fq

bwa mem $REF $R1 $R2 > output.sam
bowtie2 -x $REF -1 $R1 -2 $R2 >bowtie_out.sam

bowtie2 --very-sensitive-local -x $REF -1 $R1 -2 $R2 >bowtie_out2.sam
bowtie2 -D 20 -R 3 -N 1 -L 20 -x $REF -1 $R1 -2 $R2 >bowtie_out3.sam

## 加上samtools 直接快速sort,多线程-@
bowtie2 -x $REF -1 $R1 -2 $R2 |samtools sort > bowtie_out.sorted.bam
samtools index bowtie_out.sorted.bam
  • 注意bwa mem里的 scoring matrix的参数为比对的打分矩阵设置。对于三代数据可用-x ont2d/pacbio
  • bowtie2里的参数--very-sensitive-loacl.
    最后,选择比对软件得看具体使用场景了。看大家用的多的啊就是了。

你可能感兴趣的:(Biostar_handbook||charpter 13. 短序列比对BWA/Bowtie)