计算肿瘤突变负荷

基础概念

肿瘤突变负荷(TMB) 是指特定基因组区域内体细胞非同义突变的个数,通常用每兆碱基多少个突变表示(mut/Mb),在早期研究中也直接以突变数量表示。

TMB 可以间接反映肿瘤产生新抗原的能力和程度,预测多种肿瘤的免疫治疗疗效。

数学表达为:

:检测到的非同义突变的细胞变异个数
:有效覆盖区域

非同义突变:不导致氨基酸改变的核苷酸变异我们称为同义突变,反之则称为非同义突变。

对于TMB和DNA损伤修复的一篇文章中,提及到TMB等级划分
High tumor mutation burden is associated with DNA damage repair gene mutation in breast carcinomas
TMB levels are divided into three groups on FoundationOne CDx reports, including low TMB (1–5 muts/mb), intermediate TMB (6–19 muts/mb), and high TMB (≥ 20 muts/mb).

数据准备

使用从UCSC xena数据库下载的TCGA的相关数据进行计算,以膀胱癌数据突变数据为例,需要的数据如下:

sample chr     start       end reference alt     gene
1: TCGA-2F-A9KO-01  10 101715548 101715548         C   T    DNMBP
2: TCGA-2F-A9KO-01  10 102822569 102822569         G   A  KAZALD1
3: TCGA-2F-A9KO-01  10 103826020 103826020         C   T     HPS6
4: TCGA-2F-A9KO-01  10 104160055 104160055         G   C    NFKB2
5: TCGA-2F-A9KO-01  10 105200108 105200108         G   C   PDCD11
6: TCGA-2F-A9KO-01  10 118666167 118666167         C   T KIAA1598
              effect Amino_Acid_Change DNA_VAF              SIFT
1:            Silent           p.K561K    0.19                  
2: Missense_Mutation            p.D74N    0.10 deleterious(0.01)
3:            Silent           p.S263S    0.12                  
4:            Silent           p.V535V    0.19                  
5: Missense_Mutation          p.D1404H    0.17    deleterious(0)
6: Missense_Mutation           p.R484K    0.28    deleterious(0)
                   PolyPhen
1:                         
2: probably_damaging(0.999)
3:                         
4:                         
5: probably_damaging(0.993)
6: probably_damaging(0.993)

可以看一下都有什么数据

> colnames(mut_inf)
 [1] "sample"            "chr"               "start"            
 [4] "end"               "reference"         "alt"              
 [7] "gene"              "effect"            "Amino_Acid_Change"
[10] "DNA_VAF"           "SIFT"              "PolyPhen" 

计算TMB

TCGA用的是GRCh38参考基因组,长度约35Mb。

需要准备的数据样子


数据来源:UCSC xena

计算样本的突变数

mutect.dataframe <- function(x){
  cut_id <- x$effect == "Silent"  #删除Silent的行
  x <- x[!cut_id,]
  somatic_sum <- x %>% group_by(sample) %>% summarise(TCGA_sum = n())
}
variants_per_sample <- mutect.dataframe(mut_inf)

然后计算TMB

TMB_per_sample <- myMut
TMB_per_sample$TMB <- myMut$TCGA_sum %/% 35 #或38
#把TMB值保存到文件,自己设定阈值,就可以用高低TMB分组进行生存分析
write.csv(TMB_per_sample, "TMB_output.csv", quote = F, row.names = F)

后续根据个人的分组,进行相应的分析

参考文章
深度解读肿瘤突变负荷(TMB)
如何看懂基因检测报告之肿瘤突变负荷(TMB)? - 知乎 (zhihu.com)
肿瘤TMB的计算原理和数学模型
肿瘤突变负荷计算
下载TCGA所有癌症的maf文件计算TMB | 生信菜鸟团 (bio-info-trainee.com)

你可能感兴趣的:(计算肿瘤突变负荷)