samtools

介绍
SAM(序列比对/图谱)格式是用于存储大核苷酸序列比对的通用格式。 SAM 旨在成为一种以下格式:

足够灵活,可以存储各种比对程序生成的所有比对信息;
足够简单,可以通过对齐程序轻松生成或从现有对齐格式转换;
文件大小紧凑;
允许对齐上的大部分操作在流上进行,而无需将整个对齐加载到内存中;
允许按基因组位置对文件进行索引,以有效检索与某个基因座对齐的所有读数。

SAM 工具提供了各种用于操作 SAM 格式的比对的实用程序,包括排序、合并、索引和生成每个位置格式的比对。

SAMtools 由 GitHub 托管。项目页面在这里。源代码版本可从下载页面获取。您可以通过以下方式查看最新的源代码:

  1. git clone git://github.com/samtools/samtools.git  

有关 SAMtools、BCFtools 和 HTSlib 的新 1.x 版本,请参阅 http://htslib.org/。该网站包含有关旧 0.1.19 samtools 版本的信息,因此很有用,但有些过时。如果时间允许,此信息将针对新的 samtools/bcftools 版本进行更新并移至新网站。

参考:SAMtools

最新下载地址:
Releases · samtools/samtools · GitHub

新增中文使用手册:Samtools-Manual-CN by CNCBI

命令和参数:

view

samtools view [options] in.bam|in.sam|in.cram [region...]

如果没有指定参数或者区域,这条命令会以SAM格式(不含头文件)打印输入文件(SAM,BAM或CRAM格式)里的所有比对到标准输出。

你可以在输入文件的文件名后面指定一个或多个以空格分隔的区域来限制输出,这样只会输出落在指定区域内的比对。要指定区域,需要一个对坐标排过序的并且建立了索引的输入文件(BAM或CRAM格式)。

-b, -C, -1, -u, -h, -H, 和 -c 参数会改变默认的没有头文件的SAM输出格式。 -o -U 参数可以设置输出文件的名字。

-t-T 参数用来提供额外的参考数据,当输入的SAM没有@SQ头文件的时候,必须需要提供这两个中的一个参数。无论何时,只要是输出CRAM格式,就必须提供 -T 参数。

-L, -r, -R, -q, -l, -m, -f, 和 -F 参数用来过滤比对,只有那些满足特定标准的比对会被输出。

-x, -B, 和 -s 参数用来修饰每个比对中的数据。

最后 -@ 参数可用来为压缩分配额外的线程,而 -? 参数可以得到一个很长的帮助信息。

REGIONS - 区域:

区域可以用如下方法制定:RNAME[:STARTPOS[-ENDPOS]] ,即:染色体名[:起始位点[-终止位点]],([ ] 中的内容表示为可选内容,可以指定,也可以不指定。译者注),并且,所有的坐标系统都是以1标记第一个碱基的(1-based)。

要非常注意的是:如果给定了多个区域,有些比对可能会被输出多次,因为它们和多个区域都匹配。

指定区域的例子:

`chr1'

把所有比对到参考序列中名为`chr1'(也就是头文件里标明的 @SQ SN:chr1)的比对全部输出。(chr一般为染色体的缩写,译者注)

`chr2:1000000'

chr2上从第1,000,000碱基开始的序列到这条染色体的结尾的区域。

`chr3:1000-2000'

chr3上从第1,000个碱基到第2,000个碱基之间的共1001bp的区域(包含两个端点)。

OPTIONS - 参数:

-b

以BAM格式输出。

-C

以CRAM格式输出(要求有 -T 参数)。

-1

启用快速BAM压缩(隐含 -b)。

-u

输出未压缩的BAM。这个参数省下了压缩/解压缩的时间,因此更适合在运用管道技术把另一个samtools命令结合在一起时使用。

-h

在输出中包含头文件。

-H

只输出头文件。

-c

与输出比对不同,只对它们计数,并且输出总数。所有的过滤参数,比如 -f, -F, 和 -q, 都可以被考虑进来。

-?

输出长篇帮助文档并且立即退出。

-o FILE

输出到 FILE [stdout] ([ ]中表示默认值,这里表示如果使用了-o参数,但没有提供文件名,输出到标准输出。译者注)。

-U FILE

把那些没有被各种过滤参数所选中的比对,输出到 FILE里面。 当这个参数被使用是,所有的比对(如果指定了区域,则是所有和指定区域相交的比对)要么被写进输出文件,要么被写进这个文件,但绝不会同时被写进两个文件。

-t FILE

一个以制表符(tab)分隔的文件 FILE。 每一行必须含有参考序列的名字,放在第一列,和这个参考序列的长度,放在第二列,每一行代表一个不同的参考序列。第二列后面的任何字段都会被忽略。这个文件同时也定义了在排序时的参考序列的顺序。如果你运行`samtools faidx ',那么它输出的索引文件 .fai 可以被用作这里的 FILE

-T FILE

一个FASTA格式的参考序列文件 FILE,可以是被 bgzip 压缩过的,并且最好是被 samtools faidx建立过索引的。 如果索引文件不存在,我们会为你生成一个。

-L FILE

只输出那些和输入的BEDFILE重合的比对 [null](默认为空)。

-r STR

只输出 STR 这个read group里面的比对 [null]。

-R FILE

输出文件 FILE 里面列出来的read groups里的比对 [null]。

-q INT

当比对的MAPQ小于 INT 时,忽略这个比对 [0]。

-l STR

只输出 STR 这个文库(library)里面的比对 [null]。

-m INT

Only output alignments with number of CIGAR bases consuming query sequence ≥ INT [0]

-f INT

Only output alignments with all bits set in INT present in the FLAG field. INT can be specified in hex by beginning with `0x' (i.e. /^0x[0-9A-F]+/) or in octal by beginning with `0' (i.e. /^0[0-7]+/) [0].

-F INT

Do not output alignments with any bits set in INT present in the FLAG field. INT can be specified in hex by beginning with `0x' (i.e. /^0x[0-9A-F]+/) or in octal by beginning with `0' (i.e. /^0[0-7]+/) [0].

-x STR

Read tag to exclude from output (repeatable) [null]

-B

Collapse the backward CIGAR operation.

-s FLOAT

Integer part is used to seed the random number generator [0]. Part after the decimal point sets the fraction of templates/pairs to subsample [no subsampling].

-@ INT

进行BAM压缩操作时,除了主线程之外,额外分配的线程数 [0]。

-S

这个参数会被忽略,它只是为了和旧版本的samtools相兼容。之前,如果输入文件是SAM格式的话,必须添加这个参数,但是现在,软件会侦测输入的前几个字符,自动确定正确的格式。

tview

samtools tview [-p chr:pos] [-s STR] [-d display] [ref.fasta]

文字版的reads和参考序列的比对情况的查看器(基于 ncurses library )。在这个查看器中,按下 `?' 来寻求帮助,按下 `g' 可以从某个区域开始查看比对,这个区域用如下格式来表示:`chr10:10,000,000',或者,当继续查看相同的参考序列时,可以使用 `=10,000,000'。

Options:

-d display

以Html格式(H)、Curses格式(C)或文本格式(T)输出。

-p chr:pos

直接到达这个位置。

-s STR

只显示 STR 这个样本或read group的比对。

mpileup

samtools mpileup [-EBugp] [-C capQcoef] [-r reg] [-f in.fa] [-l list] [-Q minBaseQ] [-q minMapQ] in.bam [in2.bam [...]]

对一个或多个BAM文件,生成VCF、BCF或者pileup(堆积文件)。比对记录会按照头文件中@RG行里面样本标识符(SM)来分组。如果样本标识符不存在,那么每一个输入文件都被视作一个独立的样本。

在(没有使用 -u -g 参数的)pileup格式中,每一行代表基因组上的一个位置,它由染色体名字,1-based坐标(该染色体的第一个碱基标为1),参考序列上的碱基,覆盖这个位点的reads数目,read上的碱基,碱基的质量和比对的质量构成。下列信息:匹配、不匹配、插入删除、正反向链、比对质量、是否是某read的起始或终止碱基,全部都编码在read上的碱基这里面了。在这一列中,一个点代表和参考序列正向链相同的一个匹配,一个逗号代表和反向链相同的一个匹配。一个 '>' 或 '<' 代表a reference skip(抱歉,译者还不确定含义,不知该如何翻译),`ACGTN'代表正向链上的一个mismatch(不匹配),`acgtn'代表反向链上的一个mismatch。这样的一个样式,`\\+[0-9]+[ACGTNacgtn]+',代表了在参考序列上这个位置和下个位置之间的一个insertion(插入)。Insertion的长度由样式中的数字给出,它后面是插入的序列。同样的,这个样式,`-[0-9]+[ACGTNacgtn]+',代表一个deletion(删除)。在之后的行中,被删除的碱基会用 `*' 来代表。同样在这一列中,一个 `^' 符号表示是某read的起始点。 `^'的ASCII码减去33给出了比对质量。一个 `$' 表示是某read的终止点。

Input Options - 输入参数:

-6, --illumina1.3+

假设质量是用Illumina 1.3+编码的话。

-A, --count-orphans

在识别变异时,不要跳过反常的read。

-b, --bam-list FILE

输入的BAM文件的地址的列表,一个文件一行。 [null]

-B, --no-BAQ

Disable probabilistic realignment for the computation of base alignment quality (BAQ). BAQ is the Phred-scaled probability of a read base being misaligned. Applying this option greatly helps to reduce false SNPs caused by misalignments.

-C, --adjust-MQ INT

Coefficient for downgrading mapping quality for reads containing excessive mismatches. Given a read with a phred-scaled probability q of being generated from the mapped position, the new mapping quality is about sqrt((INT-q)/INT)*INT. A zero value disables this functionality; if enabled, the recommended value for BWA is 50. [0]

-d, --max-depth INT

在一个位置上,对每个BAM输入文件,最多读取 INT 个reads。 [250]

-E, --redo-BAQ

在运行时重新计算BAQ,忽略存在的BQ标签。

-f, --fasta-ref FILE

faidx建立了索引的FASTA格式的参考序列文件,这个文件也可以是被bgzip压缩过的。 [null]

-G, --exclude-RG FILE

排除列在文件FILE里面的readgroups里面的reads。(每一个@RG-ID占一行)

-l, --positions FILE

BED或者是列了位置坐标的文件,这个文件含有一列区间或位点,这些地方是生产pileup或BCF的位置。如果是BED文件,坐标系统是0-based half-open(第一个碱基是0,区间是半开的)的。[null]

-q, -min-MQ INT

最小的比对质量,某个比对的质量超过该值时才会被使用。[0]

-Q, --min-BQ INT

最小的碱基质量,某个碱基的质量超过该值时才会被使用。[13]

-r, --region STR

只产生这个区域的pileup。需要建立了索引的BAM文件。如果和 -l 同时使用的话,会考虑两个要求的交集。STR[all sites]

-R, --ignore-RG

忽略RG标签,把一个BAM文件中所有的reads都视为一个样本。

--rf, --incl-flags STR|INT

需要的flag的标签:不在这里的mask bits(flag的值)的reads会被忽略 [null]

--ff, --excl-flags STR|INT

过滤flags:忽略有这些mask bits标记的reads [UNMAP,SECONDARY,QCFAIL,DUP]

-x, --ignore-overlaps

取消read-pair(双端测序的两个reads)的重叠的检查。

Output Options - 输出参数:

-o, --output FILE

把pileup或者VCF/BCF输出到FILE,而不是默认的标准输出里面。

(这个短参数同时被 --open-prob--output 使用。如果-o的参数含有任何非数字的字符,而不是由 + 或 - 符号开头,它会被视作是--output。通常文件的扩展名会考虑到这一点,但是如果要写入到一个完全由数字组成的文件名,使用 -o ./123--output 123 。)

-g, --BCF

计算基因型的概率,并输出到binary call format(BCF,二进制识别格式)。在v1.0版本的samtools中,它是BCF2,和BCF1格式是不兼容的,而以前的版本(0.1.x)输出的是BCF1。

-v, --VCF

计算基因型的概率,并输出到variant call format(VCF,变异识别格式)。输出是bgzip压缩后的VCF,除非设定了-u参数。

Output Options for mpileup format (without -g or -v) - mpileup格式的输出参数(没有 -g 或 -v):

-O, --output-BP

输出reads里面碱基的位置。

-s, --output-MQ

输出mapping的质量。

Output Options for VCF/BCF format (with -g or -v) - VCF/BCF格式的输出参数(有 -g 或 -v):

-D

输出每个样本的read depth(深度)[DEPRECATED - use -t DP instead](不再宜用,使用-t DP来替代它)

-S

输出每个样本的Phred标准的的链的bias(偏差)的P-value(不再宜用,使用-t SP来替代它)

-t, --output-tags LIST

输出逗号分隔的 FORMAT 和 INFO 标签的列表(大小写不敏感): DP (高质量碱基的数目,FORMAT), DV (高质量的非参考序列的碱基数,FORMAT), DPR (支持每个观察到的allele(等位基因)的高质量的碱基数,FORMAT), INFO/DPR (支持每个观察到的allele(等位基因)的高质量的碱基数,INFO), DP4 (高质量的 ref-forward, ref-reverse, alt-forward and alt-reverse (正向-参考序列,反向-参考序列,正向-突变序列,反向-突变序列)的碱基数目,FORMAT), SP (Phred标准的的链的bias(偏差)的P-value,FORMAT) [null]

-u, --uncompressed

输出未被压缩的VCF/BCF,在使用unix管道(pipe)时推荐这个参数。

-V

输出每个样本的非参考序列的reads数 (不再宜用,使用-t DV来替代它)

Options for SNP/INDEL Genotype Likelihood Computation (for -g or -v): 对SNP/INDEL基因型的概率计算的参数 (for -g or -v):

-e, --ext-prob INT

Phred标准的gap延伸的测序错误概率。降低INT值会产生更长的indels。 [20]

-F, --gap-frac FLOAT

最小的有gap的reads的比例。 [0.002]

-h, --tandem-qual INT

对同聚物错误建模的系数。考虑一个长度为 l 的同聚物而言,大小为 s 的indel的测序错误是如下建模的: INT * s / l. [100]

-I, --skip-indels

不进行INDEL的识别。

-L, --max-idepth INT

当每个样本的平均深度大于 INT 时,略过INDEL的识别。 [250]

-m, --min-ireads INT

识别候选indel时,最小的存在gap的reads数目 INT。 [1]

-o, --open-prob INT

由测序错误引入的gap的Phred-标准的概率。减少 INT 值会识别更多的indel。 [40]

(这个短参数同时被 --open-prob--output 使用。当 -o 的参数是可选的 + 或 - 号,跟随着数字0-9的话,它会被视作 --open-prob。)

-p, --per-sample-mF

Apply -m and -F thresholds per sample to increase sensitivity of calling. By default both options are applied to reads pooled from all samples.

-P, --platforms STR

逗号分隔的一列仪器平台(由@RG-PL决定的),候选indel会从这些reads中获取。我们建议从低indel错误率的测序平台,比如ILLUMINA,中去收集候选indel。 [all]

reheader

samtools reheader

in.header.sam 里面的头文件替换 in.bam 里的。这个命令比通过BAM→SAM→BAM转换来替换头文件要快很多。

cat

samtools cat [-h header.sam] [-o out.bam] [ ... ]

串连 BAM 文件。每一个输入的BAM里面的 sequence dictionary 必须相同,虽然这个命令并不检查这一点。这个命令使用了和 reheader 类似的小技巧来实现了快速的BAM串连。

sort

samtools sort [-l level] [-m maxMem] [-o out.bam] [-O format] [-n] -T out.prefix [-@ threads] [in.bam]

对序列进行排序。默认通过最左边的坐标排序;当使用 -n 时,通过read的名字排序。 一个相应的 @HD-SO 排序顺序标签会被添加在头文件里面,或者如果必要的话会更新已经存在的标签。

排好序后默认输出到标准输出,如果使用了 -o 的话,就输出到指定的文件里面 (out.bam) 。当整个的序列数据不能放入内存(可以通过 -m 参数来控制)的时候,这个命令也会产生一些临时文件 out.prefix.%d.bam

Options:

-l INT

为最终的输出文件设置想要的压缩程度,从0(不压缩)或1(最快但是压缩得最少)到9(最大程度压缩但是写得最慢),和 gzip(1) 的压缩程度设置相似。

如果 -l 没有被使用,会使用默认的压缩程度。

-m INT

每个线程的最大内存,以 bytes 为单位设定或者添加一个 K, M, 或 G 后缀。 [768 MiB]

-n

根据read的名字(也就是 QNAME 那一列)来排序,而不是染色体坐标。

-o FILE

最后排好序后输出到 FILE 中,而不是标准输出。

-O FORMAT

最终输出 sam, bam, 或 cram

默认地,samtools 会基于 -o 文件的扩展名尝试选择一个格式;如果是到标准输出或者格式不能被推测出, -O 必须要被指定。

-T PREFIX

把临时文件写到 PREFIX.nnnn.bam. 里面。这个参数是必须的。

-@ INT

设置排序和压缩的线程数,该操作默认是单线程的。

为了和之前的脚本兼容,samtools sort 也支持以前的不太灵活的方式去指定临时的和最终的输出文件名:

samtools sort [-nof] [-m maxMem] in.bam out.prefix

排好序的BAM会被输出到 out.prefix.bam中,(或者由下面提到的 -o-f 决定),而且,任何临时文件都会被写进out.prefix.%d.bam

-o

把最后比对的结果输出到标准输出。

-f

使用 out.prefix 作为输出的全路径,并且不要添加 .bam 后缀。

-l, -m, -n, -@

以上面提到的相同的含义被接收。

最终这个会被删除的,您应该改去使用新的更灵活的调用方法。

merge

samtools merge [-nur1f] [-h inh.sam] [-R reg] [-b ] [ ... ]

合并多个排好序的比对文件,产生一个排好序的输出文件,这个文件含有所有的输入记录,并且保留了他们原来的顺序。

如果 -h 被指定了的话,输入文件里的@SQ头文件将会被合并到指定的头中,否则的话,他们会被合并成由输入的头文件组成的复合的头中。如果在合并@SQ行的过程中,这些行体现了输入文件排好序的坐标,而在序列当中又出现了一个矛盾(比如说,input1.bam 有一个@SQ是 a,b,c 而input2.bam是 b,a,c),那么输出的结果文件需要被重新按照坐标序列排序。

除非指定了 -c-p 标志,在合并 @RG 和 @PG 记录到输出的头文件的时候,任何和现有 IDs 重复的 IDs 将会连接一个后缀把它们和其他头文件中相似的记录区分开来,并且read记录也会被更新来反映这一点。

OPTIONS:

-1

使用 zlib 压缩等级1来压缩输出文件。

-b FILE

输入 BAM 文件的列表,每行一个文件。

-f

如果输出文件存在的话,强制覆盖它。

-h FILE

FILE 的`@'头复制到 out.bam 中,如果不指定该参数的话,会复制 out.bam 的头。( FILE 实际是 SAM 格式的,但是它里面可能存在的任何比对记录都会被忽略。)

-n

使输入的比对序列按照read的名字来排序,而不是染色体坐标。

-R STR

在由 STR 指定的特定区域中合并文件。 [null]

-r

给每个比对添加一个 RG 标签,标签的值是通过文件名来推测的。

-u

输出未被压缩的 BAM 。

-c

把 RG 标签和 colliding IDs 结合,而不是添加一个后缀去区分它们。

-p

把 PG 标签和 colliding IDs 结合,而不是添加一个后缀去区分它们。

index

samtools index [-bc] [-m INT] aln.bam|aln.cram

为按坐标排好序的 BAM 或 CRAM 文件,用以快速随机访问。下列情况是需要这个索引的:用 region 参数限制了 samtools view , 和类似的针对特定感兴趣区域的命令。

对于一个 CRAM 文件, aln.cram ,名为 aln.cram.crai 的索引文件将会被创建。 对于一个 BAM 文件, aln.bam , 名为 aln.bam.baialn.bam.csi 的索引文件中的一个将会被创建,这由选择的索引格式决定。

Options:

-b

创建一个 BAI 索引,这是目前没用指定格式参数时的默认值。

-c

创建一个 CSI 索引。默认情况下,索引的最小间隔大小是 2^14 ,这和 BAI 使用的的固定值是一样的。

-m INT

创建一个 CSI 索引,使用 2^INT 作为最小间隔大小。

idxstats

samtools idxstats

获取并且打印索引文件的统计信息。输出文件是制表符分隔的,每一行含有参考序列名,序列长度,比对上去的read数和没有比对上去的read数。

faidx

samtools faidx [region1 [...]]

对FASTA格式的参考序列建立索引,或者从已建立索引的参考序列中获取子序列。 如果没有指定区间, faidx 会为这个文件在硬盘上创建索引文件 .fai 。如果指定了区间,相应的子序列会被获取并以FASTA格式打印到标准输出。输入文件可以是以 BGZF 格式的压缩文件。

fixmate

samtools fixmate [-rpc] [-O format] in.nameSrt.bam out.bam

从一个按照名字排序后的比对文件中,添加mate的坐标, ISIZE ,和mate相关的flag。

OPTIONS:

-r

删除次要的和没有比对上的reads。

-p

不使用 FR 匹配检查。

-c

添加模板 cigar ct 标签。

-O FORMAT

Write the final output as sam, bam, or cram.

默认地, samtools 会尝试基于输出文件的扩展名选择一个格式;如果是输出到标准输出或者格式不能被推出,就必须要指定 -O 参数。

rmdup

samtools rmdup [-sS]

去除可能的由PCR造成的重复序列:如果多个 read pair 有相同的坐标,只保留比对质量最高的那一对。在双端模式下,这个命令用于FR方向并且要求正确设置 ISIZE 。它不处理不配对的 reads (比如两端比对到不同的染色体上了或者孤reads(pair中只有一个read比对到基因组了))。

OPTIONS:

-s

去除重复的单端测序reads。默认地,这个命令只对双端测序reads工作。

-S

处理双端测序reads和单端测序reads。

calmd

samtools calmd [-EeubSr] [-C capQcoef]

产生 MD 标签。如果 MD 标签已经存在,并且新产生的MD标签和已有的不一样的话,这个命令会发出一个警告。默认输出成 SAM 。

OPTIONS:

-A

当和 -r 一起使用时,这个选项会重写原始的碱基质量。

-e

如果某个碱基和它比对上的参考序列是一致的,就把它转换成 = 。现在的插入删除的识别软件并不支持 = 的碱基。

-u

输出没有压缩的 BAM 文件。

-b

输出压缩的 BAM 文件。

-S

输入文件是带头文件的 SAM 。

-C INT

用来对低比对质量的reads加帽的系数。更多细节请查看 pileup 命令。 [0]

-r

计算 BQ 标签(没有 -A) 或者对碱基质量加帽(有 -A)。

-E

扩展版的 BAQ 计算,这个参数削弱了特异性而增加了敏感性,虽然只有小的影响。

targetcut

samtools targetcut [-Q minBaseQ] [-i inPenalty] [-0 em0] [-1 em1] [-2 em2] [-f ref]

这个命令鉴别目标区域,它通过检查 read 深度的连续性,来计算目标区域的单倍体的一致序列,并为每个相应目标区域输出一个序列到 SAM 文件中。当指定了参数 -f 时,会使用 BAQ 。这个命令的设计,只是为了 cutting fosmid clones from fosmid pool sequencing [Ref. Kitzman et al. (2010)].

phase

samtools phase [-AF] [-k len] [-b prefix] [-q minLOD] [-Q minBaseQ]

识别并且 phase (分相位)杂合SNPs。

OPTIONS:

-A

不处理那些 phase (相位)不清晰的 reads 。 Drop reads with ambiguous phase.

-b STR

Prefix of BAM output. When this option is in use, phase-0 reads will be saved in file STR.0.bam and phase-1 reads in STR.1.bam. Phase unknown reads will be randomly allocated to one of the two files. Chimeric reads with switch errors will be saved in STR.chimeric.bam. [null]

-F

不要尝试修复嵌合型的 reads 。

-k INT

局部 phasing 的最大长度。 [13]

-q INT

用以识别杂合子的最小的 Phred 标准的 LOD 值。 [40]

-Q INT

用于识别杂合的最小的碱基质量。 [13]

flags

samtools flags INT|STR[,...]

文本式和数字式的标志法之间的转换。

FLAGS:

0x1 PAIRED .. 双端(多段)测序技术
0x2 PROPER_PAIR .. 每短序列都被 aligner 合适的比对上了
0x4 UNMAP .. 片段未比对成功
0x8 MUNMAP .. 模板中的下一个片段没有被比对上
0x10 REVERSE .. SEQ序列是反向互补的
0x20 MREVERSE .. SEQ序列的下一段是反向互补的
0x40 READ1 .. 模板中的第一个片段
0x80 READ2 .. 模板中的最后一个片段
0x100 SECONDARY .. 次要比对
0x200 QCFAIL .. 没有通过质量控制
0x400 DUP .. PCR或者光学的重复
0x800 SUPPLEMENTARY .. 增补的比对

bam2fq

samtools bam2fq [-nO] [-s ]

把 bam 转换成 FASTQ 格式。

OPTIONS:

-n

默认情况下,根据 BAM_READ1 或 BAM_READ2 的标志,‘/1’ 或者 ‘/2’ 会被相应的添加在read名字的末尾。 使用 -n 会保留原有的read的名字。

-O

如果可行的话,同标准质量字符串相比,优先选择使用 OQ 标签里的质量值.

-s FILE

把单个的 reads 以 FASTQ 格式写入 FILE 中,而不是输出他们。

help, --help

列出samtools可用的命令,并显示他们的简要用法。 如果同时指定了某个命令,如 samtools help view ,那么这个命令的详细用法将会被展示出来。

--version

显示 samtools 的版本号和版权信息,同时也列出 samtools 所使用的重要的库。

--version-only

以机器可读的格式显示 samtools 的完整版本号。

你可能感兴趣的:(学习方法)