分析ABSOLUTE数据结果

在解析ABSOLUTE软件一文中我简单介绍了ABSOLUTE软件,因为ABSOLUTE解的多样性,这篇文章主要聚焦于ABSOLUTE结果的解读,对象是结果图。

主要的参考资料来源于ABSOLUTE官方文档:http://software.broadinstitute.org/cancer/software/genepattern/analyzing-absolute-data

纯度/倍性图以及模型打分

image
image

第一个图形展示了符合要求的多个解,因为纯度和倍性是关联的,所以每一个解可以看对一个纯度/倍性对。在第二个图形中展示了3个打分最高的解,每个解通过不同的模型进行评估,主要是SCNA,核型模型以及它们的整合模型。如果用户提供了突变数据,还有一个基于SSNV模型的评估。

第一个图形大致理解是很轻松的,但细看的话很多都很费解,比如的意思,图中虚线又是什么意思。我现在也没搞懂,所以就不误人了。

备选的拷贝轮廓

image

这个图显示了前面3个解对应的拷贝轮廓,像纯度,倍性,异质性片段的比例以及还有一些看不懂为什么是负数的参数值。其实有个参数跟我们输入时密切相关,就是,它标定了样本允许的最大的方差。

等位基因比例图

image

这个图如果输入了突变数据应该就会有。等位基因比例可以解释为每个cancer细胞平均的等位基因拷贝数,也称为多样性(multiplicity),它可以揭示亚克隆突变。这其实跟利用VCF文件计算vaf分布差不多,不过这里用copy number进行了校正!

这个图的解释可以参照【直播】我的基因组81:看看我的vcf文件的vaf分布情况这篇文章进行理解。

正常人的二倍体基因组位点只有杂合或者纯合两种情况,对于纯合那么vaf必然是1,对于杂合,必然是0.5。但是现实测序得到的结果远比这要复杂,尤其是测序深度不够的时候。因为测序本身具有随机性,而且还有很多系统误差。理想情况也只能像是扔硬币。

image

而文献里面对TCGA里面的癌症样本的somatic mutation的vaf

image

可以看出tumor里面的vaf分布其实已经不再是扔硬币那样的概率了,对于杂合位点来说。

原因很多,首先tumor不一定是单纯的二倍体了,其次tumor样品一般来说本身异质性高,而我们测序是混合多个细胞的,有一些突变有一些并不突变。而且纯合的somatic mutation几乎没有,因为somatic mutation是tumor过滤了normal后留下来的变异位点,不是遗传多样性,突变这个过程既然是后天产生的,就很难保证取样部分的几百万个细胞全部突变了。

选择解的一些建议

分析ABSOLUTE的结果高度依赖你的数据和你对你数据的理解。这里列出一些指南帮助你选择好的解:

  • 简单至上!在考虑所有的模型信息后,选择最简单的解。

    • 如果两个模型在拟合效果和其他标准上几乎一致,那么选择更简单的那个——例如,大多数正常的基因组是2倍体或3倍体(这里指的是癌症)
  • 每个拷贝数的峰值应该在一个整数下面。

    • 整数反映了基因组的状态。1是单倍体,2是双倍体,3是三倍体等

      image
  • 峰值通常为一个更容易得到的数值(例如1,2,4)

    • 相比于3倍体,4倍体更容易,因为生物学上基因组翻倍比扩增部分更容易。这并不是说3倍体不可能发生,只是说从生物学上理解应该更少见。
  • 拷贝数底部(左下角)的峰值应该接近0

    • 0显示了拷贝的缺失,它比一些中间值更简单

      image
  • SSNV等位基因比例图的线应该将最高的SSNV等位基因比例划分为两半

这些规则有时候是相互冲突的,所以读者在实际选择解时应该从自己理解的角度去判断。

你可能感兴趣的:(分析ABSOLUTE数据结果)