生物信息学基本知识笔记


Bam文件

  • SAM(The Sequencing Alignment/Map Format)是bwa比对软件的标准输出文件,是纯文本文件,bwa的开发者设计了一种比gz更加高效的压缩算法,BAM的文件大小差不多只有原来的1/6。
  • header头文件
    @HD是必须的标准头文件;@SQ参考序列染色体信息,顺序必须和参考序列一致;@RG重要Read group信息,通常包含测序平台测序文库和样本id等信息;@PG有用的操作过程和参数信息。@RG在做后续数据分析时专门用于区分不同样本的重要信息。它的重要性还体现在,如果原来样本的测序深度比较深,一般会按照不同的lane分开比对,最后再合并在一起,那么这个时候你会在这个BAM文件中看到有多个RG,里面记录了不同的lane,甚至测序文库的信息,唯一不变的一定是SM的sample信息,这样合并后才能正确处理。
  • record
    生物信息学基本知识笔记_第1张图片
    CIGAR中的M,不能觉得它代表的是匹配就以为是百分百没有任何miss-match,多态性碱基或者单碱基错配也是用M标记!
    生物信息学基本知识笔记_第2张图片
    MAPQ(mapping quality)值大于30就意味着错比概率低于0.001.
    疑问 为什么自己做分析结果里MAPQ部分为0,mate信息第三个值为负?
MAPQ为0的multiple mapping由于其不可靠性都舍弃
在使用bwa这个软件来把测序数据比对到参考基因组的时候并没有加上-a这个参数,那么输出的sam文件里面,bwa会对每一个有multiple mapping情况的reads的MAPQ值设置为0,所以提multiple mapping的reads是非常容易的。
一些软件在根据bam文件来选择变异位点的时候会忽略掉这些mapping quality为0的reads。
也就是说对于这部分软件来说,这些mapping quality为0的reads是没有用的,相当于损失掉了,假设整体基因组的覆盖深度是很平均的,那这些MAPQ为0的位置的覆盖深度相当于降低了。这很有可能影响SNV位点的可信度。
那有multiple mapping情况的reads都集中在基因组的哪些区域呢?在哪些基因附近呢?
我们可以先用公司提供的bam文件提取出MAPQ为0的reads[里面包含大多数 multiple reads],看一下大致的分布,后面再用我自己比对得到的bam作进更加准确的分析。

Mateinfo:mate 序列所在参考序列的名称;mate 序列在参考序列上的位置;估计出的片段的长度,当mate 序列位于本序列上游时该值为负值。
在这里插入图片描述

samtools index in.bam  # 生成in.bam的索引文件in.bam.bai
samtools view in.bam chr22            # 跳转到chr22染色体
samtools view in.bam chr22:16050103   # 跳转到chr22:16050103位置
samtools view in.bam chr22:16050103-16050103  # 只查看该位置
samtools view -h in.bam chr22:16050103-16050203 | samtools view -Sb - > small.bam 
samtools tview --reference hg38.fa in.bam  #该模式下,按下键盘‘g’后,会跳出一个Goto框

你可能感兴趣的:(生物信息,大数据)