我用到的Samtools介绍

记录一下我用到的samtools的用法。

samtools的说明文档:http://samtools.sourceforge.net/samtools.shtml

bam文件优点:bam文件为二进制文件,占用的磁盘空间比sam文本文件小;利用bam二进制文件的运算速度快。

首先需要意识到的是samtools是一个非常强大的工具,想要熟练的使用它,还需要不断的摸索。

samtools的用法

(1)View

samtools view -bS abc.sam > abc.bam    #将sam文件转换为bam文件

 参数:

-b bam 输出bam

-S sam 输入sam

-@ 线程

在比对完成的sam文件中,包含着mapped reads 和unmapped reads

$ samtools view -bF 4  abc.bam > abc.F.bam       #提取没有比对到参考序列上的比对结果,步包含标签

$ samtools view -bF 12 abc.bam > abc.F12.bam   #提取paired reads中两条reads都比对到参考序列上的比对结果,只需要把两个4+8的值12作为过滤参数即可

$ samtools view -bf 4 abc.bam > abc.f.bam    #提取没有比对到参考序列上的比对结果,包含标签

$ samtools view abc.bam scaffold1 > scaffold1.sam     #提取bam文件中比对到caffold1上的比对结果,并保存到sam文件格式

$ samtools view abc.bam scaffold1:30000-100000 $gt; scaffold1_30k-100k.sam    #提取scaffold1上能比对到30k到100k区域的比对结果

$ samtools view -T genome.fasta -h scaffold1.sam > scaffold1.h.sam    #根据fasta文件,将 header 加入到 sam 或 bam 文件中

samtools的view不就可以进行格式转换,还可以进行数据的提取

例:提取1号染色体上1234~123456区域的以对read

samtools view SRR3589957_sorted.bam chr1:1234-123456| head

 samtools view SRR3589957_sorted.bam chr1:1234-123456 > sub.bam 

使FLAG更具可读性

samtools view -X sample.sorted.bam | head -n 5

计算总的比对数量

samtools view sample.sorted.bam | wc -l

显示标题,-H选项

samtools view -H sample.sorted.bam

将bam文件转换为sam文件

samtools view -h abc.bam > abc.sam


(2)Sort

samtools sort对bam文件进行排序,不能对sam文件进行排序。

以leftmost coordinates的方式对比对结果进行排序,或者使用-n参数以read名称进行排序。将会添加适当的@HD-SO排序顺序标头标签或者如果有必要的话,将会更新现存的一个排序顺序标头标签。sort命令的输出默认是标准输出写入,或者使用-o参数时,指定bam文件输出名。sort命令还会在内存不足时创建临时文件tmpprefix.%d.bam。

也就是说:samtools的排序方式有两种(常用)

默认方式,按照染色体的位置进行排序

samtools sort test.bam default

参数-n则是根据read名进行排序。

samtools sort -n test.bam sort_left

usage: samtools sort [-l level] [-m maxMem] [-o out.bam] [-O format] [-n] [-T tmpprefix] [-@ threads] [in.sam|in.bam|in.cram]

例如:samtools sort abc.bam abc.sort

samtools sort -O bam -@ 2 SRR1909070.bam -o SRR1909070.sorted.bam

RNA-seq 的数据比对结果 BAM 文件使用 samtools 进行 sort 之后文件压缩比例变化会比DNA-seq 更甚。另外,samtools 对 BAM 文件进行排序之后那些没有比对上的 reads 会被放在文件的末尾。

 参数:

-l INT 设置输出文件压缩等级。0-9,0是不压缩,9是压缩等级最高。不设置此参数时,使用默认压缩等级;

-m INT 设置每个线程运行时的内存大小,可以使用K,M和G表示内存大小。

-n 设定排序方式按short reads的ID排序。默认下是按序列在fasta文件中的顺序(即header)和序列从左往右的位点排序。

-o FILE 设置最终排序后的输出文件名;

-O FORMAT 设置最终输出的文件格式,可以是bam,sam或者cram,默认为bam;

-T PREFIX 设置临时文件的前缀;

-@ INT 设置排序和压缩是的线程数量,默认是单线程。


(3)index

samtools index 建立索引,在建立索引之前应该先对bam文件进行排序。必须对bam文件进行默认情况下的排序后,才能进行index。否则会报错。

建立索引后将产生后缀为.bai的文件,用于快速的随机处理。很多情况下需要有bai文件的存在,特别是显示序列比对情况下。比如samtool的tview命令就需要;gbrowse2显示reads的比对图形的时候也需要。

samtools index abc.sort.bam

如果想要建立索引的,具体可以看看比对的内部的算法,链接具体是怎么建立索引的

建立索引的目的应该是为了提高比对的效率

以下两种命令结果一样

$ samtools index abc.sort.bam

$ samtools index abc.sort.bam abc.sort.bam.bai


(4)flagstat

samtools flagstat  给出BAM文件的比对结果

samtools flagstat [options]

-@ 线程

-O FORMAT 设置最终输出的文件格式,可以是txt,json或者tsv,默认为json,tsv;

samtools flagstat输出结果解释:

11945742 + 0 in total (QC-passed reads + QC-failed reads)

#总共的reads数

0 + 0 duplicates

7536364 + 0 mapped (63.09%:-nan%)

#总体上reads的匹配率

11945742 + 0 paired in sequencing

#有多少reads是属于paired reads

5972871 + 0 read1

#reads1中的reads数

5972871 + 0 read2

#reads2中的reads数

6412042 + 0 properly paired (53.68%:-nan%)

#完美匹配的reads数:比对到同一条参考序列,并且两条reads之间的距离符合设置的阈值

6899708 + 0 with itself and mate mapped

#paired reads中两条都比对到参考序列上的reads数

636656 + 0 singletons (5.33%:-nan%)

#单独一条匹配到参考序列上的reads数,和上一个相加,则是总的匹配上的reads数。

469868 + 0 with mate mapped to a different chr

#paired reads中两条分别比对到两条不同的参考序列的reads数

243047 + 0 with mate mapped to a different chr (mapQ>=5)

#paired reads中两条分别比对到两条不同的参考序列的reads数,并且其中比对质量>=5的reads的数量


(5)depth

得到每个碱基位点的测序深度,并输出到标准输出。

usage: samtools depth [options] in.bam [in.bam ...]

注意:做depth之前必须做samtools index;

示例:

samtools depth in.bam  >  out.depth.txt

注意: in.bam 必须经过了排序。


(6)samtools rmdup

NGS上机测序前需要进行PCR一步,使一个模板扩增出一簇,从而在上机测序的时候表现出为1个点,即一个reads。若一个模板扩增出了多簇,结果得到了多个reads,这些reads的坐标(coordinates)是相近的。在进行了reads比对后需要将这些由PCRduplicates获得的reads去掉,并只保留最高比对质量的read。使用rmdup命令即可完成.

Usage:

samtools rmdup[-sS]

-s对single-end reads。默认情况下,只对paired-endreads

-S将Paired-endreads作为single-endreads处理。

$samtools rmdup input.sorted.bam output.bam

(7)mpileup

samtools还有个非常重要的命令mpileup,以前为pileup。该命令用于生成bcf文件,再使用bcftools进行SNP和Indel的分析。bcftools是samtool中附带的软件,在samtools的安装文件夹中可以找到。

最常用的参数有2个:

-f来输入有索引文件的fasta参考序列;

-g输出到bcf格式。用法和最简单的例子如下

Usage:samtoolsmpileup[-EBug][-CcapQcoef][-rreg][-fin.fa][-llist][-McapMapQ][-QminBaseQ][-qminMapQ]in.bam[in2.bam[...]]

$samtoolsmpileup-fgenome.fastaabc.bam>abc.txt

$samtoolsmpileup-gSDfgenome.fastaabc.bam>abc.bcf

$samtoolsmpileup-guSDfgenome.fastaabc.bam|\bcftoolsview-cvNg->abc.vcf

mpileup不使用-u或-g参数时,则不生成二进制的bcf文件,而生成一个文本文件(输出到标准输出)。该文本文件统计了参考序列中每个碱基位点的比对情况;该文件每一行代表了参考序列中某一个碱基位点的比对结果。比如:

bcf文本文件格式的解释

(8)faidx

对fasta文件建立索引,比如基因组的文件,生成的索引文件以.fai后缀结尾。该命令也能依据索引文件快速提取fasta文件中的某一条(子)序列

Usage: samtools faidx [ [...]]

对基因组文件建立索引

$ samtools faidx genome.fasta

生成了索引文件genome.fasta.fai,是一个文本文件,分成了5列。

第一列是子序列的名称;

第二列是子序列的长度;

第三列是序列所在的位置,因为该数字从上往下逐渐变大,最后的数字是genome.fasta文件的大小;

第4和5列不知是啥意思。于是通过此文件,可以定

位子序列在fasta文件在磁盘上的存放位置,直接快速调出子序列。

由于有索引文件,可以使用以下命令很快从基因组中提取到fasta格式的子序列

$ samtools faidx genome.fasta scffold_10 > scaffold_10.fasta


拓展:bcftools软件

bcftools和samtools类似,用于处理vcf(variant call format)文件和bcf(binary call format)文件。前者为文本文件,后者为其二进制文件。

bcftools使用简单,最主要的命令是view命令,其次还有index和cat等命令。index和cat命令和samtools中类似。此处主讲使用view命令来进行SNP和Indel calling。该命令的使用方法和例子为:

$ bcftools view -cvNg abc.bcf > snp_indel.vcf

生成的结果文件为vcf格式,有10列,分别是:1 参考序列名;2 varianti所在的left-most位置;3 variant的ID(默认未设置,用’.'表示);4 参考序列的allele;5 variant的allele(有多个alleles,则用’,'分隔);6 variant/reference QUALity;7 FILTers applied;8 variant的信息,使用分号隔开;9 FORMAT of the genotype fields, separated by colon (optional); 10 SAMPLE genotypes and per-sample information (optional)。


参考链接:

原文链接:https://blog.csdn.net/u013553061/article/details/53179945

https://www.cnblogs.com/emanlee/p/4316581.html

http://events.jianshu.io/p/794d82bccf6c

http://blog.sina.com.cn/s/blog_13de3725c0102v7rd.html

https://www.cnblogs.com/shuaihe/articles/6802246.html

你可能感兴趣的:(我用到的Samtools介绍)