BWA MEM比对人类参考基因组详解

        在获得下机数据后,做的第一步是质控。质控工具有很多,这里就不做一一介绍了。这里讲如何使用BWA MEM将质控合格的数据比对到参考基因组上。

        BWA是一款基于BWT的快速比对工具,其由三个算法组成。这三个算法分别是:BWA backtrack, BWA SW and BWA MEM。其中,BWA MEM是最新的,其更快更准确,更适合用于人重数据分析。对于上述三种算法,首先需要使用索引命令构建参考基因组的索引,用于后面的比对。所以,使用BWA整个比对过程主要分为两步,第一步建索引,第二步使用BWA MEM进行比对。BWA命令中参数众多,这里不一一讲解,只讲解最常用的几个,具体命令如下:

        建立索引:bwa index [-p prefix] [-a algoType]

        参数详解:ref.fa——参加基因组文件,作为输入文件;

                            p——输出文件前缀;

                            a——构建索引的算法;包括两个算法,分别是is和bwtsw。对于参考基因组文件大于2G的使用bwtsw算法,使用bwtsw算法必须保证参考基因组文件大小大于10M。

        比对:bwa mem -R '@RG\tID:foo\tSM:bar\tLB:library1'  >  lane.sam

        参数详解:R——设置reads标头,“\t”分割。 例如:’@RG\tID:foo\tSM:bar’;

                           t——设置线程数;

                           M——将较短的split hits标记为secondary,与picard兼容。

       下面是实现这些功能的代码:

        shell文件用于创建参考基因组的索引:

#! /bin/bash
echo "bwa index starts@"`date` && \
cd ref && \
bwa index -a bwtsw hg38.fa && \
echo "bwa index ends@"`date`

        shell文件用于比对:

#! /bin/bash
echo "bwa mem starts@"`date` && \
cd ref && \
bwa -t 12 -M -R '@RG\tID:foo\tSM:bar\tLB:library1' hg38.fa  reads1.fq reads2.fq > lane.sam && \
echo "bwa mem ends@"`date`



      

      

     







    

你可能感兴趣的:(生物信息)