生物信息学——文件格式 pileup详解
每一种生物软件都有固定的文件格式要求。了解文件格式才能快速分辨文件的功能。从某种意义上来说,生物信息分析的过程就是进行各种文件格式的转换过程。
samtools mpileup -f /ref.fa sample.sorted.bam -o sample.pileup
# -f 后面是参考序列或者基因组
pileup格式的文件通常由多行组成,每行对应于基因组上的一个位置。每行包含以下列,每列之间由tab分开:
染色体名称(Chromosome):表示该位置所在的染色体。
位置(Position):表示该碱基在染色体上的位置。
参考碱基(Reference base):表示该位置上的参考碱基。
覆盖度(Coverage):表示该位置上测序的碱基总数。
碱基序列(Read bases):表示该位置上每个碱基的序列。
碱基质量(Base qualities):表示该位置上每个碱基的质量值。
位点信息(Alignment information):表示该位置上每个碱基的对齐信息,如是否为反向互补链、是否为剪接位点等。
seq1 272 T 24 ,.$.....,,.,.,...,,,.,..^+. <<<+;<<<<<<<<<<<=<;<;7<&
seq1 273 T 23 ,.....,,.,.,...,,,.,..A <<<;<<<<<<<<<3<=<<<;<<+
seq1 274 T 23 ,.$....,,.,.,...,,,.,... 7<7;<;<<<<<<<<<=<;<;<<6
seq1 275 A 23 ,$....,,.,.,...,,,.,...^l. <+;9*<<<<<<<<<=<<:;<<<<
seq1 276 G 22 ...T,,.,.,...,,,.,.... 33;+<<7=7<<7<&<<1;<<6<
seq1 277 T 22 ....,,.,.,.C.,,,.,..G. +7<;<<<<<<<&<=<<:;<<&<
seq1 278 G 23 ....,,.,.,...,,,.,....^k. %38*<<;<7<<7<=<<<;<<<<<
seq1 279 C 23 A..T,,.,.,...,,,.,..... ;75&<<<<<<<<<=<<<9<<:<<
seq2 156 A 11 .$......+2AG.+2AG.+2AGGG <975;:<<<<<
seq3 200 A 20 ,,,,,..,.-4CACC.-4CACC....,.,,.^~. ==<<<<<<<<<<<::<;2<<