生信分析 8+T细胞受体多样性分析

由于T细胞受体库的多样性反映了T细胞种群中克隆扩展的程度,是一个有价值的生物学以及疾病的潜在生物标志物。因此,T细胞受体库多样性评估十分重要,所以今天小编要和大家分享的就是今年一月发表在Cancer Immunology Research(IF:8.728 )杂志上关于评估T细胞受体多样性及研究其与生存和抗PD-1治疗应答关系的文章。

更多精彩文献解读与新思路获取,生信人https://biosxr.gaptools.cn/pc

更多生信分析意向http://gaptechsxr.mikecrm.com/1vdMmqy

Improved T cell receptor diversity estimates associate with survival and response to anti-PD-1 therapy

提高T细胞受体多样性评估与生存和抗PD-1治疗应答相关

一、研究背景

T细胞受体(TCRs)是alpha和beta或gamma和delta细胞表面蛋白的异二聚体,它们赋予了T细胞极高的敏感性和特异性。在癌症免疫和免疫治疗中,T细胞受体库的谱系分析对生物学发现和生物标志物发展至关重要,而这一分析的统计学关键是能概括混合群体中TCR的分布频率的多样性。此外,尽管在肿瘤学的临床试验研究中越来越多地使用TCR多样性指标,但其准确性尚未在已发表的一些真值数据集中验证。因此,今天小编分享一篇介绍RNA-seq数据TCR谱分析方法性能特点的文章,文章揭示了采样不足是多样性评估偏差的主要来源,文章也通过统计学习导出了一个模型,该模型可以衰减偏差产生校正的多样性评估。

二、研究的数据及方法

1.TCR库的产生:作者使用合成TCR信息生成器(STIG)产生一千个TCR库,用STIG从5000个多样的克隆类型中产生1亿个体(即虚拟细胞)。这些群体中的读数与TCGA匹配。同时对STIG提供基础质量分数,以匹配与TCGA数据相同的质量分数和错误率。中位插入长度和标准偏差也从TCGA样本亚抽样常见的范围中选择。TCR克隆型的分布采用自由度为2的STIG卡方分布设置。模型的多样性范围在99% TCGA样本的范围内。接着进行多样性和丰度分布匹配且需要几轮的库生成、库读取比对、模型生成和多样性计算。此外,Read的丰度也与TCGA数据分布相匹配,其中大约10%的STIG读取与CDR3区域对齐,其余未对齐的读取代表TCR的其他区域。

2.TCGA分析:研究分析TCGA中的原发肿瘤,并根据样本注释及重复对样本进行处理。最终使用的TCGA数据是批次矫正的RNA-seq表达数据和从MiXCR输出计算的TCR多样性指标。

3.亚抽样群体的多样性:最初的亚抽样是根据STIG在读数产生之前生成的真值计数进行的。接着作者使用R包vegan评估了Chao1和Shannon熵两个参数,接着用Shannon熵比上对数丰富度计算均匀度,均匀度产生了一个与“生产性克隆性”类似的结果,而克隆性是1减均匀度。此外,作者根据GitHub中VDJTools的描述计算d25, d50和 d75 (dXX) 指数。

4.MiXCR和TRUST的比较:MiXCR, TRUST和TRUST 3.0 Dockerfiles和示例命令能够在https://github.com/Benjamin-Vincent-Lab中找到。由于TRUST不能对齐序列,所以在对这些分析使用TRUST之前,作者使用Bowtie2对读取进行对齐。Morisita-Horn使用vegan R包装中的vegdist函数进行计算,并用相似指数表示。错配指数用映射到错配库的中位数除以正确库的映射数计算。这个指数大于1表示在错配文库中匹配CDR3比正确文库更常见。接着使用BLAST进行基本局部比对搜索,每个样本使用STIG真值库序列作为数据库。

5.模型的产生:作者采用蒙特卡罗交叉验证方法生成弹性网络模型。这1000个模拟TCR库被分成发现集和验证集。发现集被反复分割成三层,两层用于训练,一层用于测试。采用库特征(丰度、Chao1、d25指数、均匀度、inverse Simpson、丰富度、Shannon熵)作为预测变量,以真值Shannon熵作为应答变量,拟合弹性网络回归模型,最后使用交叉验证进行评估。

三、研究的主要结果及内容

1.多样性指标的保真度

在文章的第一部分作者首先对多样性指标的保真度进行了分析。TCR受体的多样性通常是通过组装和计数编码CDR3受体的序列来计算的(图1)。如今使用组织RNA-seq数据来评估这种多样性变得越来越普遍(图1B)。然而,RNA-seq数据集通常具有远低于TCR 扩增子数据集的CDR3计数,因此有更多的亚抽样。所以作者首先试图了解这种亚抽样对多样性指数的影响程度。作者从假设50个个体的种群开始,观察了使用Shannon熵和均匀度的多样性估计中的方差。两种方法显示亚抽样越严重,方差越大(图2A)。接着作者为了评估亚抽样是否只在较小的种群规模下影响多样性指数,作者从2 到1亿个体中模拟了1000个库并利用共同的多样性指标评估多样性估计的变化然后绘制了真值多样性指标值与各指数下亚抽样值的比值(图2B)。作者发现多样性的误差不局限于Shannon熵和均匀度,也不局限于采样不足的样本。也发现随着丰度的增加,计算的多样性指数最终收敛于对真实多样性的准确估计。此外,尽管先前研究发现在低丰度时均匀度往往会高估多样性,但作者发现,这种高估在初始多样性较低的样本中更为明显(图2C)。

图1 T细胞受体序列的生成和推断

图2 亚抽样对TCR多样性指标的影响

2.低丰度样本的熵建模

作者在对多样性指标的保真度进行分析之后,在文章的第二部分作者针对Shannon熵作为多样性指数的稳定性试图推导出一个模型预测当丰度较低时真正的TCR库的熵,为此作者使用弹性网络回归来建模真值Shannon熵,可以观察到直接计算Shannon熵展示出与真值适度的相关性但是方差较大(图3A)。此外,弹性网络模型的相关性更强方差更小(图3B), 图3C展示出在不同类型链中训练和检验的结果,而图3D展示在同一类型链中训练和测试的结果。作者也发现当丰度足够高时,通过直接计算能够准确估计熵值不需要基于模型修正。接着作者分析了亚抽样库对直接计算的根据测量值进行的熵计算的熵的准确性(图3E),发现确定丰度时需要测量的Shannon熵在真值Shannon熵的5%以内。

图3 在MiXCR输出的1000个STIG生成的RNA-seq样本中应用多样性指标

3.多样性指标的一致性

接着在文章的第三部分作者分析了多样性指标的一致性。在生物样本上验证基于模型的修正多样性测量值是一项艰巨的任务,因为在这一背景下没有真值参照。此外,有多个特征被认为与多样性相关可以测试与多样性估计的关联。先前研究发现TCR的多样性与年龄成反比,因为可供选择的TCR库随着时间的推移而逐渐丧失。同样多样性可能与肿瘤突变成反比,因为突变的数量与新抗原的数量相关,新抗原可以被T细胞靶向。因此,作者假设一个更准确的多样性指标会与年龄、SNV新抗原和InDel新抗原呈更强的负相关。所以接下来作者对TCGA数据进行分析,发现校正后的TCR链的多样性系数随年龄和新抗原的变化更接近于-1,且方差较低,显著性高于其他多样性指标(图4A)。相反的由于胸腺是T细胞产生的来源,作者认为胸腺的多样性比其他任何组织类型都要高,因此胸腺瘤观察到矫正后的多样性指标优于其他多样性指标方差低,系数接近1,显著性高于任何其他指标(图4A)。此外,对多样性的可靠估计也应该倾向内部一致,提供对一系列TCR丰度的相似预测。所以作者为了检验多样性指标的内部一致性,根据样本丰度将所有TCGA组织随机分为3个分位数,并使用Cox比例风险回归检验总生存率和TCR多样性指标之间的关联。作者也在3个丰度范围内进行平均抽样作为第四组。预测精度估计为每个组织的危险比的上置信区间和下置信区间之间的差值(图4B,C)。可以观察到一个内部一致的度量标准应该提供一个跨丰度范围一致的窄宽度,在均匀度和模型熵的丰度范围内,置信区间宽度没有显著差异,而Shannon熵预测在丰度组之间有显著差异。综上所述,这些结果表明基于模型的多样性估计与真实生物多样性的相关性提高且内部一致性增强。

图4 在TCGA肿瘤样本的每个TCR链上计算多样性指标并与建模的熵测度比较

4.使用TCR模型熵预测患者预后

由于上一部分作者发现基于模型的矫正的多样性比其他指标提供了更好的生物多样性相关性,所以在这一部分作者接着提出了这样一个问题:这种改进的多样性指标是否能够提高癌症患者的生存预测?作者发现即使是一个完美的多样性测度可能也不能预测癌症的生存率。也就是说,假设多样性的减少应该预示着更好的生存,因为它表明免疫系统正在增强对肿瘤的有效应答。但在TCGA数据中作者发现更高的校正多样性与更好的存活率相关。此外,作者测试了治疗前接受抑制PD-1的单克隆抗体治疗的黑色素瘤患者的肿瘤相关T细胞受体多样性与生存的关系。作者也在另一套与免疫检查点抑制试验相关的使用福尔马林固定石蜡包埋(FFPE)衍生的RNA生成的RNA-seq数据集上观察到TCR库多样性的增加与单抗治疗的黑色素瘤患者生存期的改善相关(图5A)。同样在TCGA样本和免疫检查点抑制试验相关数据集中观察到了类似的结果(图5B,C)。作者也观察到当α链和β链的模型熵都很高时,这种效应是最大的。当作者根据患者应答比较TCR多样性指标时,作者从模型熵来看观察到应答者表现出显著更高的多样性(图5D)。也可以观察到非进展组与有应答组表现出相似的差异,但不显著,非进展组显示出比进展组更高的TCR模型熵(图5E)。接下来作者分析TCGA及免疫检查点抑制试验相关数据集样本并量化表明高熵模型预测TCR预测生存的抽样百分比,结果如图5F所示。此外,作者计算了这些样本的中位危险比(图5G)。这两个结果都表明,较少的免疫检查点抑制剂处理的样本与未治疗的样本获得相同的预测能力。综上所述,这些结果表明文中的模型多样性测度改善了癌症基因组图谱数据集和PD-1抑制治疗的黑色素瘤患者的应答区别。

图5 使用TCR模型熵预测患者预后

到这里这篇文章的主要内容就介绍完了,文章作者将研究目光聚焦于T细胞受体库的多样性。作者利用模拟数据及TCGA数据对多样性的指标进行了多角度评估,并通过统计学习得到一个校正的多样性评估的模型,作者也分析了评估T细胞受体多样性与生存和抗PD-1治疗应答的关系。通过这篇文章我们可以学习到比起泛泛分析针对一个有价值的点进行细致深入的研究可能更会做出不错的工作。

更多精彩文献解读与新思路获取,生信人 https://biosxr.gaptools.cn/pc

更多生信分析意向http://gaptechsxr.mikecrm.com/1vdMmqy

你可能感兴趣的:(生信分析 8+T细胞受体多样性分析)