Pileup format is first used by Tony Cox and Zemin Ning at the Sanger Institute. It desribes the base-pair information at each chromosomal position. This format facilitates SNP/indel calling and brief alignment viewing by eyes.
Pileup 格式是桑格中心(Tony Cox and Zemin Ning)提出,描述可用肉眼观察的某一个区域所有reads匹配的情况.
pileup格式文件相当于把每条染色体都竖起来,展示染色体上每个位点碱基的比对情况。
pileup格式有许多变体,其中最常见的samtools pileup格式如下:
chr1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&
chr1 273 T 23 ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+
chr1 274 T 23 ,.$....,,.,.,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6
chr1 275 A 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<<
chr1 276 G 22 ...T,,.,.,...,,,.,.... 33;+<<7=7<<7<&<<1;<<6<
chr1 277 T 22 ....,,.,.,.C.,,,.,..G. +7<;<<<<<<<&<=<<:;<<&<
chr1 278 G 23 ....,,.,.,...,,,.,....^k. %38*<<;<7<<7<=<<<;<<<<<
chr1 279 C 23 A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<<
# 各列依次代表: 染色体 、染色体上面的碱基位置、该位点参考基因组的碱基、该位点覆盖深度、比对到该位点的每条reads的比对方式,比对质量值。
每一行都包括六个部分,从左到右依次为:染色体、染色体上碱基位置、该位点参考基因组的碱基、比对到该位点的reads数(即深度)、比对到该位点的每条read的比对方式(“,”表示匹配到负链,“.”表示匹配到正链,^表示该位点正好是一条reads的头部(第一个碱基),$表示匹配到reads最后一个碱基)、比对质量值。
第五列碱基的比对方式有多种:
-
.
表示匹配到正链; -
,
表示匹配到负链; -
ACGTN
表示与参考基因组序列正链不同的比对情况(也即错配或变异); -
acgtn
表示与参考基因组序列负链不同的比对情况; -
+[0-9]+[ACGTNacgtn]+
表示插入,如seq2 156 A 11 .$......+2AG.+2AG.+2AGGG <975;:<<<<<
表示在这个位点上有3个2bp(AG
)的插入,最后两个GG表示错配或变异; -
-[0-9]+[ACGTNacgtn]+
代表片段的缺失,如seq3 200 A 20 ,,,,,..,.-4CACC.-4CACC....,.,,.^~. ==<<<<<<<<<<<::<;2<<
表示两个4bp(CACC
)的删除 -
^
表示刚好是read的开头 -
$
表示刚好是read的结尾
参考:
PILEUP FORMAT 学习笔记
Pileup Format