BWA 及 Bowtie 配置及简单使用

  • BWA下载安装
    $ wget https://sourceforge.net/projects/bio-bwa/files/bwa-0.7.17.tar.bz2 
    $ tar xvfj bwa-0.7.17.tar.bz2 
    $ cd bwa-0.7.17
    $ make
    $./bwa
  • BWA简单比对
    # 建立索引
    # 建立索引可以通过子命令调用两种算法
    # -is IS线性时间算法,无法处理2GB以上文件
    # -Bwtsw BWT-SW中使用的算法,对于短的参考序列不工作,必须大于10Mb
    $ bwa index ref.fa
    
    # aln 算法
    # 建立 .sai 文件 寻找 SA corrdinates
    # pair-end 两个文件分别处理;single-end 直接处理 -t 多线程
    $ bwa aln ref.fa read.fq > aln_sa.sai
    # 单末端测序结果比对 
    $ bwa samse ref.fa aln_sa.sai read.fq > aln_se.sam
    # 双末端测序结果比対
    $ bwa sampe ref.fa aln_sa1.sai aln_sa2.sai read1.fq read2.fq > aln_pe.sam
    
    # mem 算法
    $ bwa mem ref.fa reads.fq > mem_se.sam
    $ bwa mem ref.fa read1.fq read2.fq > mem_pe.sam
  • BWA 参数说明
    # 建立索引
    -o int:允许出现的最大gap数。
    
    -e int:每个gap允许的最大长度。
    
    -d int:不允许在3’端出现大于多少bp的deletion。
    
    -i int:不允许在reads两端出现大于多少bp的indel。
    
    -l int:Read前多少个碱基作为seed,如果设置的seed大于read长度,将无法继续,最好设置在25-35,与-k 2 配合使用。
    
    -k int:在seed中的最大编辑距离,使用默认2,与-l配合使用。
    
    -t int:要使用的线程数。
    
    -R int:此参数只应用于pair end中,当没有出现大于此值的最佳比对结果时,将会降低标准再次进行比对。增加这个值可以提高配对比对的准确率,但是同时会消耗更长的时间,默认是32。
    
    -I int:表示输入的文件格式为Illumina 1.3+数据格式。
    
    -B int:设置标记序列。从5’端开始多少个碱基作为标记序列,当-B为正值时,在比对之前会将每个read的标记序列剪切,并将此标记序列表示在BC SAM 标签里,对于pair end数据,两端的标记序列会被连接。
    
    -b :指定输入格式为bam格式。
  • Bowtie下载安装
    $ wget https://sourceforge.net/projects/bowtie-bio/files/bowtie2/2.2.9/bowtie2-2.2.9-linux-x86_64.zip/download
    $ unzip bowtie2-2.2.9-linux-x86_64.zip
    $ cd bowtie2-2.2.9
    $ make
    $ ./bowtie
  • Bowtie 简单比对
    # 建立索引 red_bowtie 为索引前缀
    $ bowtie2-build ref.fa output_dir/ref_bowtie
    # 单末端测序结果序列比对
    $ bowtie2 ref_bowtie read.fastq -S result.sam
    # 双末端测序结果序列比对
    $ bowtie2 -x ref_bowtie -1 read1.fastq -2 read2.fastq -S result.sam

你可能感兴趣的:(BWA 及 Bowtie 配置及简单使用)