比对到hg19和hg38对somatic变异的寻找影响很大

我的bam文件如下:

4.0G Mar 29 06:18 B_marked_fixed.bam
3.8G Mar 29 13:22 D_marked_fixed.bam
4.5G Mar 29 07:26 T_marked_fixed.bam

其中B是正常组织的WES数据,使用varscan找somatic mutation的时候作为normal,然后对另外两个样本(D和T)计算。 从这个bam文件可以看到这个WES测序深度不够高,可能平均就 50X吧,如果是 200X的WES数据的bam应该是有20G左右文件大小。

了解hg19和hg38参考基因组异同

需要知道hg38这个新版参考基因组到底进步在哪里。

首先看somatic mutation个数

统计得到的统计学显著的somatic mutation个数如下:

  278 D_varscan.snp.Somatic.hc
  222 T_varscan.snp.Somatic.hc
  200 d_varscan.snp.Somatic.hc
  174 t_varscan.snp.Somatic.hc

如果只看有可能是somatic mutation个数如下:

  1426 D_varscan.snp.Somatic
  1375 T_varscan.snp.Somatic
  1071 d_varscan.snp.Somatic
  1001 t_varscan.snp.Somatic

其中大写字母的文件代表是比对到了hg19,小写字母的文件是我比对到hg38后跑varscan得到的。可以看到,如果是比对到hg38参考基因组的,那么找到的变异位点要稍微少一点点,不过我意识到参考基因组的有一些是非染色体的片段,所以我重新看了看染色体个数分布情况。

hg38 hg19 chr hg38 hg19 chr
10 18 1 8 16 1
8 12 2 8 14 2
5 9 3 4 7 3
7 20 4 8 22 4
6 7 5 6 9 5
4 7 6 10 19 6
5 6 7 2 13 7
4 5 8 2 4 8
2 8 9 1 12 9
7 15 10 3 14 10
6 10 11 4 5 11
7 10 12 9 10 12
1 5 13 0 1 13
1 4 14 2 7 14
2 6 15 2 4 15
9 7 16 4 15 16
2 16 17 9 13 17
2 5 18 1 3 18
1 6 19 16 18 19
2 7 20 7 6 20
7 10 21 1 14 21
1 2 22 3 2 22
1 3 X 22 28 X
4 17 Y 4 20 Y
104 215 sum 136 276 sum

左边的是T样本,右边的是D样本,可以看到,换成hg38这个新版人类的参考基因组之后,找到统计学显著的somatic mutation个数显著减少了。

当然了,仅仅是看个数,意义不大,我们需要仔细分析位点。

然后具体到位点

首先可以借用一系列网页工具:

  • 用Mutation-Assessor软件来看突变位点对基因或者蛋白功能的影响 比如输入 hg19,13,19447703,C,T 但是一般是看protein-coding基因上面的情况
  • snp-nexus 网页略微有点复杂
  • 或者把位点当做peaks来注释:http://52.32.26.75:3838/peaks_annotation/
  • 可以使用homer来进行注释

其实如果这个位点位于dbSNP数据库,那么接下来一切查询都可以基于rs ID号来进行关联,虽然 rs ID号 也会有些微变化。

因为具体到位点,就涉及到课题组信息了,不便公布,但是思路给大家了,可以是坐标转换,或者以 rs ID号 进行关联比较。最终其实要载入IGV去一对一比较,而且varscan软件给的high confidence的somatic mutation也需要注意,它默认P值卡的是0.05,其实一刀切并不好。

更多

以上我仅仅是比较了在50X这个测序深度下,VARSCAN软件基于不同参考基因组版本的表现问题。

还可以探索不同的软件,或者不同的测序深度。

我这里只是想说,对配对的WES数据来说,找somatic mutation这件事,值得仔细检查,假阳性问题比较严重。

你可能感兴趣的:(比对到hg19和hg38对somatic变异的寻找影响很大)