从BAM文件提取unmapped reads并转换成fastq格式

用到的程序,samtools和bedtools,都用conda安装。

目标是将第一次比对的bam中unmapped reads提取出来,并转换成fastq进行下次比对。

第一步:提取unmapped reads(格式bam)

用到samtools view

选项:-b #表示生成bam格式  

           -f  #“The -f options flags to keep the reads 'Only output alignments with all bits set in INT present in the FLAG field'”  保留你选择的reads 

           -F #"The -F option flags to remove the reads 'Only output alignments with all bits set in INT present in the FLAG field'"  去除你选择的reads

示例 

samtools view -b -F 4 -f 8 file.bam > onlyThisEndMapped.bam 

samtools view -b -F 8 -f 4 file.bam > onlyThatEndMapped.bam

samtools view -b -F12 file.bam > bothEndsMapped.bam 

4,8,12这些参数代表你选择的reads,具体参见 http://broadinstitute.github.io/picard/explain-flags.html

我是需要提取 unmapped reads,使用 -f 4可以保留所有的unmapped reads

samtools view -b -f 4 file.bam > file_unmapped.bam

但这里面包含的reads包括所有paired和 unpaired,如果只想要paired unmapped reads,可以使用 -f 13

提取出 unmapped.bam后,要把他转化为fastq,可使用bedtools的 “bamToFastq”实现

注意:bam要先排序!  不然会一直报错,错误的原因就是在read1附近找不到对应的read2.。我使用samtools以名称排序。

指令 : samtools sort -n input.bam output.bam

然后就是bamToFastq了 :bamToFastq -i < input.bam > -fq < file1.fq > -fq2 < file2.fq >



参考:https://www.biostars.org/p/56246/

你可能感兴趣的:(从BAM文件提取unmapped reads并转换成fastq格式)