pileup 格式

Pileup format is first used by Tony Cox and Zemin Ning at the Sanger Institute. It desribes the base-pair information at each chromosomal position. This format facilitates SNP/indel calling and brief alignment viewing by eyes.

Pileup 格式是桑格中心(Tony Cox and Zemin Ning)提出,描述可用肉眼观察的某一个区域所有reads匹配的情况.

pileup格式文件相当于把每条染色体都竖起来,展示染色体上每个位点碱基的比对情况。
pileup格式有许多变体,其中最常见的samtools pileup格式如下:

chr1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&
chr1 273 T 23 ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+
chr1 274 T 23 ,.$....,,.,.,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6
chr1 275 A 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<<
chr1 276 G 22 ...T,,.,.,...,,,.,.... 33;+<<7=7<<7<&<<1;<<6<
chr1 277 T 22 ....,,.,.,.C.,,,.,..G. +7<;<<<<<<<&<=<<:;<<&<
chr1 278 G 23 ....,,.,.,...,,,.,....^k. %38*<<;<7<<7<=<<<;<<<<<
chr1 279 C 23 A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<<
# 各列依次代表: 染色体 、染色体上面的碱基位置、该位点参考基因组的碱基、该位点覆盖深度、比对到该位点的每条reads的比对方式,比对质量值。

每一行都包括六个部分,从左到右依次为:染色体、染色体上碱基位置、该位点参考基因组的碱基、比对到该位点的reads数(即深度)、比对到该位点的每条read的比对方式(“,”表示匹配到负链,“.”表示匹配到正链,^表示该位点正好是一条reads的头部(第一个碱基),$表示匹配到reads最后一个碱基)、比对质量值。
第五列碱基的比对方式有多种:

  • .表示匹配到正链;
  • ,表示匹配到负链;
  • ACGTN表示与参考基因组序列正链不同的比对情况(也即错配或变异);
  • acgtn表示与参考基因组序列负链不同的比对情况;
  • +[0-9]+[ACGTNacgtn]+表示插入,如seq2 156 A 11 .$......+2AG.+2AG.+2AGGG <975;:<<<<<表示在这个位点上有3个2bp(AG)的插入,最后两个GG表示错配或变异;
  • -[0-9]+[ACGTNacgtn]+代表片段的缺失,如seq3 200 A 20 ,,,,,..,.-4CACC.-4CACC....,.,,.^~. ==<<<<<<<<<<<::<;2<<表示两个4bp(CACC)的删除
  • ^表示刚好是read的开头
  • $表示刚好是read的结尾

参考:
PILEUP FORMAT 学习笔记
Pileup Format

你可能感兴趣的:(pileup 格式)