66.《Bioinformatics Data Skills》之比对结果可视化

数据地址:
NA12891_CEU_sample.bam
human_g1k_v37.fasta

命令行工具

使用samtools tview工具可以对bam文件在命令行进行可视化。需要输入已经排序与建立索引的BAM文件,这里以NA12891_CEU_sample.bam文件为例(其中human_g1k_v37.fasta文件为参考基因组):

$ samtools tview NA12891_CEU_sample.bam human_g1k_v37.fasta

因为默认展示开头部分,映入眼帘的是一串N,可以通过-p参数指定展示区域:

$ samtools tview -p 1:215906469-215906652 NA12891_CEU_sample.bam human_g1k_v37.fasta

结果如下,通过?键可以展示一系列交互命令(图1)。

图1 samtools tview 结果

IGV

如果需要长久细致地观察结果,可以使用IGV软件。其由java开发,具体安装方式参见官网。

在打开IGV后,首先导入参考基因组数据:点击 Genome Load Genome From Server ...,在弹出的列表中选择Human (1kg, b37+decoy)

接着,导入需要查看的BAM文件(通过选择File Load from file)。

输入要查看的位置1:215,906,528-215,906,567,结果如下(图2):

图2

整个窗口由以下部分组成:

  • 最上端窗口展示染色体标志与基因组位置
  • 中间窗口展示每个碱基的覆盖度与read分布
  • 最下面窗口展示序列与基因

发生碱基错配的区域会以鲜艳的颜色标注,可以看到215906547,215906548与215906555位点的错配碱基数目特别多,有可能为核苷酸多态。将鼠标悬停于read上可以观看其详细信息(例如测序质量)(图3):

图3

215906547-215906548两个位置的碱基存在3种形式:

  1. 两个碱基都与参考序列一致(CG)
  2. 两个碱基为GG,后者与参考序列一致
  3. 两个碱基为GC,两者都与参考序列不一致

由于人类基因组为二倍体,而这里出现了3种单体型,说明错配很可能由比对错误引起。另外这里的序列由低复杂度的CGGGGGGGCGGGGGG组成,也很容易发生错误比对。因此在突变识别之后进行人工检查非常常见,可以以此降低突变的假阳性率。

你可能感兴趣的:(66.《Bioinformatics Data Skills》之比对结果可视化)