生信软件的使用:bwa-mem2小测试

写在前面

最近在利用小麦的重测序数据进行mapping,小麦是一个很奇特的物种,六倍体,有ABD三个基因组,基因组大小约为17Gb,因此,制约小麦重测序数据分析的一个很大的问题就是需要消耗大量的时间,进行index以及mapping。然后bwa最近进行了升级,升级为了bwa-mem2,因此我测试一下运行速度,非常快,但是也存在一些问题!


首先是bwa2的安装,貌似现在不能使用conda安装,官网给了详细的介绍,我捡重点的给大家看一下

官网介绍GitHub - bwa-mem2/bwa-mem2: The next version of bwa-mem (WIP; not recommended for production uses at the moment)

重点内容

两种安装方法

#第一种

curl -L https://github.com/bwa-mem2/bwa-mem2/releases/download/v2.0pre2/bwa-mem2-2.0pre2_x64-linux.tar.bz2 \ | tar jxf -

#第二种

git clone https://github.com/bwa-mem2/bwa-mem2 

cd bwa-mem2

make

. /bwa-mem2

对参考基因组建立索引

一共生成了7个文件,其中最大的是190G,

之后使用bwa-mem2测试了一下数据

#bwa比对命令 

bwa mem -t 4 -R '@RG\tID:SRR7478247\tPL:Illumina\tSM:SRR7478251' ~/bwa-v1-index/161010_Chinese_Spring_v1.0 SRR7478251.1.fastp.fq SRR7478251.2.fastp.fq > SRR7478251.sam &


#bwa-mem2比对命令

nohup bwa-mem2 mem -R '@RG\tID:SRR7478258\tPL:illumina\tSM:SRR7478251' ~/bwa2-v1-index/161010_Chinese_Spring_v1.0_pseudomolecules.fasta SRR7478251.1.fastp.fq SRR7478251.2.fastp.fq > SRR7478251.sam

运行速度第二个很快,大约8个小时的时间,bwa-mem2可以得到50G的比对结果,而bwa的结果是5.7Gb,真的是超级快了.


但是也存在一些问题,那就是在投任务的时候,bwa-mem2的第二个任务被kill了,看了一下报错结果,显示segmentation fault。但是使用bwa就不存在这个问题,个人更倾向于该版本的问题,但是还没有很好的解决方法。

你可能感兴趣的:(生信软件的使用:bwa-mem2小测试)