我的bam文件如下:
4.0G Mar 29 06:18 B_marked_fixed.bam
3.8G Mar 29 13:22 D_marked_fixed.bam
4.5G Mar 29 07:26 T_marked_fixed.bam
其中B是正常组织的WES数据,使用varscan找somatic mutation的时候作为normal,然后对另外两个样本(D和T)计算。 从这个bam文件可以看到这个WES测序深度不够高,可能平均就 50X吧,如果是 200X的WES数据的bam应该是有20G左右文件大小。
了解hg19和hg38参考基因组异同
需要知道hg38这个新版参考基因组到底进步在哪里。
首先看somatic mutation个数
统计得到的统计学显著的somatic mutation个数如下:
278 D_varscan.snp.Somatic.hc
222 T_varscan.snp.Somatic.hc
200 d_varscan.snp.Somatic.hc
174 t_varscan.snp.Somatic.hc
如果只看有可能是somatic mutation个数如下:
1426 D_varscan.snp.Somatic
1375 T_varscan.snp.Somatic
1071 d_varscan.snp.Somatic
1001 t_varscan.snp.Somatic
其中大写字母的文件代表是比对到了hg19,小写字母的文件是我比对到hg38后跑varscan得到的。可以看到,如果是比对到hg38参考基因组的,那么找到的变异位点要稍微少一点点,不过我意识到参考基因组的有一些是非染色体的片段,所以我重新看了看染色体个数分布情况。
hg38 | hg19 | chr | hg38 | hg19 | chr | |
---|---|---|---|---|---|---|
10 | 18 | 1 | 8 | 16 | 1 | |
8 | 12 | 2 | 8 | 14 | 2 | |
5 | 9 | 3 | 4 | 7 | 3 | |
7 | 20 | 4 | 8 | 22 | 4 | |
6 | 7 | 5 | 6 | 9 | 5 | |
4 | 7 | 6 | 10 | 19 | 6 | |
5 | 6 | 7 | 2 | 13 | 7 | |
4 | 5 | 8 | 2 | 4 | 8 | |
2 | 8 | 9 | 1 | 12 | 9 | |
7 | 15 | 10 | 3 | 14 | 10 | |
6 | 10 | 11 | 4 | 5 | 11 | |
7 | 10 | 12 | 9 | 10 | 12 | |
1 | 5 | 13 | 0 | 1 | 13 | |
1 | 4 | 14 | 2 | 7 | 14 | |
2 | 6 | 15 | 2 | 4 | 15 | |
9 | 7 | 16 | 4 | 15 | 16 | |
2 | 16 | 17 | 9 | 13 | 17 | |
2 | 5 | 18 | 1 | 3 | 18 | |
1 | 6 | 19 | 16 | 18 | 19 | |
2 | 7 | 20 | 7 | 6 | 20 | |
7 | 10 | 21 | 1 | 14 | 21 | |
1 | 2 | 22 | 3 | 2 | 22 | |
1 | 3 | X | 22 | 28 | X | |
4 | 17 | Y | 4 | 20 | Y | |
104 | 215 | sum | 136 | 276 | sum |
左边的是T样本,右边的是D样本,可以看到,换成hg38这个新版人类的参考基因组之后,找到统计学显著的somatic mutation个数显著减少了。
当然了,仅仅是看个数,意义不大,我们需要仔细分析位点。
然后具体到位点
首先可以借用一系列网页工具:
- 用Mutation-Assessor软件来看突变位点对基因或者蛋白功能的影响 比如输入
hg19,13,19447703,C,T
但是一般是看protein-coding基因上面的情况 - snp-nexus 网页略微有点复杂
- 或者把位点当做peaks来注释:http://52.32.26.75:3838/peaks_annotation/
- 可以使用homer来进行注释
其实如果这个位点位于dbSNP数据库,那么接下来一切查询都可以基于rs ID号来进行关联,虽然 rs ID号 也会有些微变化。
因为具体到位点,就涉及到课题组信息了,不便公布,但是思路给大家了,可以是坐标转换,或者以 rs ID号 进行关联比较。最终其实要载入IGV去一对一比较,而且varscan软件给的high confidence的somatic mutation也需要注意,它默认P值卡的是0.05,其实一刀切并不好。
更多
以上我仅仅是比较了在50X这个测序深度下,VARSCAN软件基于不同参考基因组版本的表现问题。
还可以探索不同的软件,或者不同的测序深度。
我这里只是想说,对配对的WES数据来说,找somatic mutation这件事,值得仔细检查,假阳性问题比较严重。