10X单细胞（10X空间转录组）转录组 & VDJ 联合分析（15）之CoNGA

hello,大家好，又是周五，一周的收官之战，今天我们需要复习一下CoNGA，实在是太重要了，我们今天也要详细复习一下，关于10X单细胞和10XVDJ的联合分析的分享文章，我都列在这里，供大家参考和借鉴

10X单细胞（10X空间转录组）TCR数据分析之TCRdist(1)

10X单细胞（10X空间转录组）TCR数据分析之TCRdist(2)

10X单细胞（10X空间转录组）TCR数据分析之TCRdist(3)

10X单细胞（10X空间转录组）TCR数据分析之TCRdist3(4)

10X单细胞（10X空间转录组）TCR数据分析之TCRdist3(5)

10X单细胞（10X空间转录组）TCR转录组联合数据分析之TCRdist3(6)neighbor graph analysis（CoNGA）

10X单细胞（10X空间转录组）TCR转录组联合数据分析之TCRdist3(7)neighbor graph analysis（CoNGA）

10X单细胞（10X空间转录组）TCR转录组联合数据分析之(8)neighbor graph analysis（CoNGA）

10X单细胞（10X空间转录组）BCR（TCR）数据分析之(9)changeo

10X单细胞（10X空间转录组）BCR（TCR）数据分析之(10)changeo

10X单细胞（10X空间转录组）BCR（TCR）数据分析之(11)dandelion

10X单细胞 & 10XVDJ 联合分析之PlatypusDB

10X单细胞（10X空间转录组）转录组 + VDJ联合分析（12）之scirpy

10X单细胞（10X空间转录组）转录组 + VDJ联合分析（13）之基础术语

10X单细胞（10X空间转录组）转录组 & VDJ 联合分析（14）之CoNGA

10X单细胞和10XVDJ的联合分析实在是太重要了，文章在Integrating T cell receptor sequences and transcriptional profiles by clonotype neighbor graph analysis (CoNGA),IF54分，太重要了，重要是的事情不止要说三遍，我们今天要详细回顾于一下。

图片.png

Abstract

由 T 细胞受体 (TCR) 序列定义的 T 细胞克隆型和表型（表型就指表达谱）之间的联系，反映在基因表达 (GEX) 谱、表面蛋白表达和肽：主要组织相容性复合体结合中，可以揭示功能关系beyond the features shared by clonally related cells。在这里，作者提出了克隆型邻居图分析 (CoNGA)，这是一种图论方法，通过对 GEX 和 TCR 相似图的统计分析来识别 GEX profile和 TCR 序列之间的相关性。使用 CoNGA，发现了 TCR 序列和 GEX 谱之间的关联，其中包括以前未描述的人类循环 CD8⁺ T 细胞的“天然淋巴细胞”群和一组胸腺细胞分化的 TCR 序列决定因素。这些例子表明，CoNGA 可能有助于阐明大型、异质、单细胞数据集中的 TCR 序列和 T 细胞表型之间的复杂关系。

Intoduction

先前配对 GEX 和 TCR 序列的研究集中在 TCR 序列作为识别克隆相关细胞的独特“Barcode”上。这种方法产生了对癌症、传染病和体内平衡背景下不同 T 细胞亚群的发展和相互关联的见解。这项研究表明，源自共同克隆祖先的 T 细胞克隆倾向于表达相似的转录谱。然而，大型单细胞测序数据集的可用性提供了丰富的数据pool来揭示 TCR 序列相似性和细胞表型之间的关系。研究人员已经绘制了先前确定的 T 细胞亚群的 TCR 序列特性，但尚未研究指出可以通过关联 GEX 和 TCR 序列来识别先前未知的群体或亚群的系统方法。还缺乏用于识别 TCR 序列和 GEX 之间相关性的方法，这些相关性不会扩展到全局相似性或与定义的细胞群相关（例如，特定 TCR 序列特性与可能跨越多个细胞子集的表达基因之间的相关性）。
在单细胞分析发展的同时，量化 TCR repertoire特征和识别其中模式的方法已经成熟，有助于扩展对 T 细胞生物学的理解。之前，作者介绍了 TCRdist（关于TCRdist，大家可以查阅我上面列举的文章），这是一种评估 TCR 间相似性的方法，能够根据共享序列特征识别密切相关的克隆型。基于这项工作和其他工作，很明显，靶向相同病原体衍生表位的 T 细胞使用具有一致、可定义氨基酸基序的 TCR。除了这些传统的 T 细胞反应外，某些非常规 T 细胞群，例如粘膜相关不变 T (MAIT) 细胞和不变自然杀伤 T (iNKT) 细胞，以保守的 TCR 序列特征和 GEX 谱为特征。已经描述了几个不同的 T 细胞亚群，它们具有适合其富集的标记，但由 TCR 和 GEX 连接的其他亚群很可能仍未被发现。假设，通过确定由共享序列特征定义的“TCR 邻域”和 GEX 之间的相关性，可以超越简单地测量单个克隆家族内的 GEX 变异，并可能确定 T 细胞抗原特异性和表型之间的关联。（TCR和表型的关联分析，非常重要）
为此，作者开发了一种用于克隆型邻居图分析的图论方法，称为 CoNGA，它通过分析在一组 T 细胞克隆型上定义的相似性图来识别 GEX 谱和 TCR 序列特征之间的相关性。 CoNGA 在公开可用的 T 细胞数据集上的应用确定了 GEX:TCR 相关性的多个例子，包括 MAIT、iNKT 和表位特异性 T 细胞群；胸腺发育过程中 T 细胞命运的 TCR 序列决定因素；以前未描述的 ZNF683⁺IKZF2⁺（也称为 HOBIT⁺HELIOS⁺）CD8⁺T 细胞群，具有长且偏向的 CDR3 区域； EPHB6 基因表达与特定人类 TCR V 基因片段 TRBV30 的使用之间存在显着相关性。将 CoNGA 应用于包括肽主要组织相容性复合体 (pMHC) 结合谱的四个数据集，这些数据来源于细胞表面结合、DNA Barcode pMHC 多聚体的测序，揭示了 pMHC 结合与 TCR 序列和 GEX 之间的强相关性。随着多模式、单细胞数据集的规模和复杂性不断增长，诸如 CoNGA 之类的系统方法将在解卷积方面发挥关键作用。

Results

CoNGA graph-versus-graph analysis

在graph-versus-graph相关性分析（下图）

图片.png

注：CoNGA identifies correlation between T cell GEX and TCR sequence by constructing a GEX similarity graph and a TCR sequence similarity graph and looking for statistically significant overlap between them. Overlap is assessed on a per-clonotype basis by counting the number of edges that originate at each clonotype and are shared between the two graphs or, equivalently, by measuring the overlap between each clonotype’s GEX graph neighbors and its TCR graph neighbors and assigning a score that reflects the likelihood of seeing equal or greater overlap by chance (the CoNGA score). Clonotypes with CoNGA scores below a threshold are grouped based on shared GEX and TCR cluster assignments into CoNGA clusters. Clonotypes within each CoNGA cluster carry their initial GEX and TCR cluster identities, which are combined together and used as a group ID for the CoNGA cluster.
CoNGA 识别 GEX 相似性图和 TCR 序列相似性图之间的统计显着重叠。 CoNGA 相似性图是在克隆型水平而不是单个细胞水平上定义的，因为同一克隆型内的细胞（推断为来自共同克隆祖先的细胞）将共享相同的 TCR 序列并倾向于具有相似的 GEX 谱。

图片.png

目标是识别在 GEX 空间中的邻居与其在 TCR 序列空间中的邻居显着重叠的 T 细胞克隆型。在这里，使用图邻域的数学概念对 GEX 或 TCR 空间中克隆型邻居的概念进行建模，该概念定义为在相应相似性图中直接连接到该克隆型vertex的一组vertex。简而言之，CoNGA 依次考虑每个克隆型，通过 TCR 相似性edges和 GEX 相似性edges计算有多少其他克隆型与其连接，并分配显着性分数（CoNGA 分数）。 CoNGA 分数是偶然观察到相等或更大重叠的概率，乘以克隆型总数以限制多重比较的错误发现率。 CoNGA 分数范围从 0 到克隆型的数量；接近 0 的分数是显著的，around 1 的分数是临界值，预计高于 1 的分数是偶然发生的。 CoNGA 分数低于显着性阈值（以下称为“CoNGA hit”）的 T 细胞克隆型被分组为由共享 GEX 和 TCR 簇分配定义的“CoNGA cluster”。分析足够大小的 CoNGA cluster以识别共享特征，包括差异表达基因 (DEG) 和 TCR 序列motif。
将 CoNGA 应用于具有单细胞 GEX profile和配对 TCRαβ 测序的公开可用 T 细胞数据集的集合，以无偏见地搜索由 TCR 序列和 GEX profile之间的协变定义的 T 细胞群。下图说明了应用于从外周血中分选的人类 CD8⁺ T 细胞数据集的 CoNGA 图对比图分析工作流程。

图片.png
注：Application of CoNGA on a dataset of human CD8+ T cells (10x_200k_donor2a). 2D UMAP projections of clonotypes in the dataset based on GEX similarity (b, left three panels) and TCR similarity (b, right three panels), colored from left to right by (I) GEX cluster assignment; (II) CoNGA score; (III) joint GEX:TCR cluster assignment for clonotypes with significant CoNGA scores, using a bi-colored disk whose left half indicates GEX cluster and whose right half indicates TCR cluster; (IV) TCR cluster; (V) CoNGA score; and (VI) GEX:TCR cluster assignments for CoNGA hits, as in III. In c, GEX and TCR sequence features of CoNGA hits in clusters with five or more hits are summarized by a series of logo-style visualizations, from left to right: cluster dendrogram based on graph connections; DEG and TCR sequence logos showing V and J gene usage and CDR3 sequences; and biased TCR sequence scores, with red indicating elevated scores and blue indicating decreased scores. DEG and TCR sequence logos are scaled by the adjusted P value of the associations, with full logo height requiring a top adjusted P value below 10⁻⁶. DEGs with fold-changes less than 2 are shown in gray.
首先，统一流形近似和投影 (UMAP) 算法应用于每个数据集的 GEX 和 TCR 距离矩阵，以生成 GEX 和 TCR landscapes的二维 (2D) 投影。接下来，将基于图的聚类算法应用于 GEX 矩阵以将数据集划分为具有相似转录谱的克隆型cluster，并应用于 TCR 距离矩阵以生成具有相似 TCR 序列的克隆型cluster。为了可视化 GEX 和 TCR UMAP 空间中得分最高的克隆型的相对位置，these projections are also colored by CoNGA score。最后，CoNGA hit 的 GEX 和 TCR 集群分配显示在使用双色圆盘的 2D 投影中，其左右半部分分别对应于 GEX 和 TCR cluster分配。这些cluster分配为识别 CoNGA hit提供了有用的handles，因为它们包含有关 GEX 和 TCR 的信息，使我们能够在不同的 2D landscapes之间进行映射。例如，在上图b中，GEX landscapes的顶部是一组 CoNGA hit，它们都属于 GEX cluster 4（disk左半部分的浅棕色）和 TCR cluster 5（右半部分的紫色）disk）或等效的 (GEX:TCR) 集群对 (4:5)；基于一致的 GEX:TCR disk着色，可以看到这些对应于 TCR landscapes中的克隆型组，也位于图的顶部附近，并且它们可能是 TRAV1（来自上图 b 中的 TCR cluster标识符）。每个 (GEX:TCR) 集群对包含最少数量的 CoNGA hit（此处为 5 个）的特征在于一行 CDR3 序列 logo-style可视化，这些可视化标识了这些 CoNGA hit的区别特征。
在该人类 CD8 T 细胞数据集中鉴定了 4 个≥5 克隆型的 CoNGA cluster（上图c）。两个最大的 (GEX:TCR) clusters - (4:11) 和 (4:5) - 显示了 MAIT 细胞的不变 TCR 链和独特的 GEX profiles。 Cluster (2:12) 的特征是强 TCRβ 序列基序和细胞毒性/激活标记物的高表达，包括 GNLY 和 CCL5。该cluster的 TCR 序列基序与对免疫显性 A02:01 限制性流感 M158 表位 (GILGFVFTL) 的反应一致。进一步证实了这一点，该cluster的顶部 DEG（‘A02_GILG9’）实际上是实验中包含的 DNA barcode A02:01-M158 多聚体的读取计数。将 CoNGA 应用于另外三个人和小鼠外周血单核细胞 (PBMC) 数据集，确定了 MAIT 和 iNKT 细胞簇以及 CD8⁺ T 细胞cluster，这些细胞cluster具有初始表型和 TCR 序列特征，这些特征似乎使胸腺发育偏向于 CD8 区室compartment(下图).

图片.png

图片.png

图片.png

CoNGA defines a HOBIT⁺HELIOS⁺ T cell population

接下来将 CoNGA 应用于外周血 CD8⁺ T 细胞的四个大型数据集，这些数据集经过分类以与 50 个 DNA barcode pMHC 多聚体中的至少一个阳性结合。下面描述的 TCR:pMHC 结合分析确定了panel中许多 pMHC 多聚体的强表位特异性反应。然而，对于几个多聚体，观察到显着水平的非特异性结合,for example, to MAIT cells

图片.png

因此，这些数据集还包括各种 T 细胞，其特异性超出了 pMHC 多聚体panel。 CoNGA 在这些数据集中检测到大量显着的 GEX:TCR 相关性，使用更严格的 0.1% 的数据集大小阈值识别出 62 个包含≥5 个克隆型的 CoNGA cluster和 42 个cluster。下图概述了 10x_200k_donor1 数据集中最大的 CoNGA clusters。进一步检查允许将下图中描绘的 CoNGA cluster分为三组：（1）流感 M158 响应克隆型； (2) MAIT 细胞； (3) 具有共享 GEX 谱（GEX cluster 2）、不同 TCR 基因使用和相当长的 CDR3 区域的克隆型群体。 GEX cluster 2 中的这些 CoNGA cluster显示转录因子 ZNF683（也称为 HOBIT）和 IKZF2（也称为 HELIOS）以及其他几种 NK 细胞相关受体，包括 KLRC2、KLRC3、几种 KIR 基因（用于例如，KIR2DL3) 和 NCR3（天然细胞毒性触发受体 3）。

图片.png

注：CoNGA identifies unconventional HOBIT+ CD8 T cells in blood. a, CoNGA analysis of 10x_200k_donor1. Only CoNGA clusters containing at least 40 hits are shown. b, 2D GEX projection of the 10x_200k_donor1 dataset colored by ‘is_hobit’ (an indicator variable for the HOBIT+ CoNGA population), iMHC score, CD45RA, CD45RO, CD8α surface protein, CCR7, ZNF683, IKZF2, KLRC2, KLRC3, KIR2DL3 and NCR3 expression, all averaged over GEX graph neighborhoods (with neighborhood size equal to 0.1% of the dataset). The is_hobit variable is 1 for all CoNGA hits in GEX cluster 2 and 0 otherwise
值得注意的是，它们的几个 DEG 与 HLA 相互作用基因组中的那些相匹配，表明这些 CoNGA cluster中包含的克隆型是通过非特异性 pMHC 结合富集的。对区分 10x_200k_donor1 中 HOBIT⁺ 群体的特征的分析表明，基于表面蛋白标记，它们可能是 CD8⁺CD45RA⁺CD45RO^dim/-，CCR7 表达阴性，KLRC2 和几个 KIR2 基因阳性。使用流式细胞术，能够确认在人类 PBMC 样本（CD8 T 细胞的 0.1-8.5%，n = 12 个供体）中存在表达 KIR2 和 KLRC2 不同组合的 CD8⁺CD45RA⁺CD45RO^-CCR7^-T 细胞，并发现 KLRC2⁺KIR2D^mix 和 KLRC2^-KIR2D⁺ 子集的 HELIOS⁺ 细胞频率高于 KLRC2^-KIR2D^-CD8 T 细胞。
在这些表达 HOBIT 的克隆型的 CDR3 loops中发现了显着的序列偏差。与数据集的其余部分相比，它们明显更长（P < 10^-300）；更多的正电荷（P < 10^-40）；芳香族、疏水性和庞大的残基含量更高，尤其是色氨酸（P < 10^-60）；和更高的半胱氨酸（> 100 倍富含 CDR3β，P < 10^-50）。这些序列特征与 MHC 基因敲除小鼠 TCR 库的实验研究中 MHC 非依赖性 TCR 序列与 MHC 限制性 TCR 序列的比较中发现的特征极为相似。在比较模拟和观察到的来自预选择和后选择库的 TCR 序列以及 CD8αα⁺ 上皮内淋巴细胞及其胸腺前体的比较中也发现了类似的趋势。基于这些趋势，假设这个 CoNGA 鉴定的群体代表了一个非规范的、自身特异性或 MHC 独立的 T 细胞群体。作者开发了一个数字评分，即 iMHC 评分（用于“独立于 pMHC”），它捕获了这种假定的 MHC 独立 T 细胞库的定义 CDR3 序列特征。

CoNGA identifies GEX:TCR correlation in thymic T cells.

接下来将 CoNGA 应用于最近发表的人类胸腺 T 细胞的单细胞图谱。该数据集结合了来自胚胎和胎儿阶段的胸腺组织以及来自儿童和成人的出生后胸腺，总共有 9,400 多个具有配对 TCRα 和 TCRβ 序列的克隆型。 CoNGA 在该数据集中发现了大量重要hit，主要在双阳性 (DP)、CD8 单阳性 (SP)、CD4 SP、Treg 和 CD8αα⁺ 胸腺群体中。在 TCR 序列空间中，看到 TRAV41 cluster（该 TRAV 基因富含 DP 细胞）、TRAV1 和 TRAV12 cluster（富含 CD8 细胞）和 TRAV14 cluster（富含 CD8αα 细胞）中的concentration of hits（下图）

图片.png

CoNGA 鉴定的 CD8⁺ cluster还显示出高 CD8 sequence scores and high scores，用于衡量纳入克隆型 TCRα 链的 TRAV 和 TRAJ 基因片段之间的基因组距离的测量值（‘alphadist’）。 DP CoNGA cluster显示出较低的 alphadist 分数，在基因座的 3' 末端偏爱 TRAV41 和其他 TRAV 基因，较长的 CDR3 loops（CDR3 长度已显示在胸腺选择期间减少）以及“边缘”和“边缘”的较高分数紊乱的氨基酸特性（以及较低的“强度”得分），这可能表明 CDR3 区域极性更大、体积更小、相互作用更弱，对 pMHC 的总体亲和力较低。与 Park 等人的发现一致，两个 CD8αα cluster都显示出较低的 alphadist 分数；然而，CoNGA 进一步将高 iMHC 分数和更长的 CDR3 环确定为这些cluster的 TCR 特征。有趣的是，CD8αα(II) cluster同时表达 ZNF683 和 IKZF2，连同与上述血液中 HOBIT⁺ T 细胞相似的 TCR 特征，表明这两个种群之间可能存在的precursor-product关系值得进一步investigation。

CoNGA graph-versus-feature analysis.(这个分析更为细致)

在 CoNGA graph-versus-feature分析（下图）中，基于一个细胞属性、GEX 或 TCR 序列计算的数值特征被映射到由另一个属性定义的相似性图上，以及每个属性的特征分数分布将图中的邻域与其背景分布进行比较，以识别具有偏斜分数的邻域(图邻域由单个中心顶点及其所有直接连接的邻居组成)。

图片.png

注：In graph-versus-feature analysis, a numerical feature defined by one property (here, GEX) is mapped onto a similarity graph defined by the other property (TCR sequence), and graph neighborhoods with skewed score distributions are identified using statistical tests that compare the scores for each neighborhood (including the center clonotype) with the scores of the remaining clonotypes (left). For example, the gene KLRB1 (CD161) shows a non-uniform distribution over the TCR sequence landscape—discrete regions of higher expression (red) against a background of lower expression (blue)—suggesting that a group of homologous clonotypes belongs to a T cell subtype characterized by KLRB1 expression. This is quantified for a single clonotype (green outline) and its TCR sequence neighbors (black outlines) in the violin plot (right), which shows the KLRB1 expression level for the clonotype and its neighbors on the right and for the remainder of the dataset on the left (boxes show quartiles with whiskers extending to 1.5× the interquartile range). The one-sided MWW P value for this expression difference is 1.5 × 10⁻⁴⁶ (n = 2,427 clonotypes)
作为 GEX 特征，考虑单个基因的表达水平，对于 TCR 序列特征，使用一组 CDR3 氨基酸属性值以及一些额外的基于序列的分数。首先使用graph-versus-feature分析，通过寻找具有较高 iMHC 分数的 GEX 图邻域来识别 HOBIT⁺HELIOS⁺ 非常规 T 细胞subsets的其他成员。尽管每个克隆型的 iMHC 评分变化很大(下图)

图片.png
注：2D GEX projection of the 10x_200k_donor1 dataset colored by iMHC score
通过计算 GEX 图邻域的平均值，可以识别具有增强分数的 GEX 空间子区域，其重要性可以使用标准统计测试进行评估

图片.png
注：c, Same projection as b, but each clonotype is colored by the average iMHC score in its GEX graph neighborhood. d, The same projection as in b and c but colored by P values for iMHC enrichment in each clonotype’s graph neighborhood (the set of iMHC scores in each clonotype’s neighborhood are compared to the remainder of the iMHC scores using an unpaired, one-sided MWW test).
四个 10x_200k 供体中的三个显示具有显着增强的 iMHC 评分的克隆型群体，其 DEG 彼此之间以及与原始 HOBIT⁺ CoNGA cluster的关键标记基因（ZNF683、CD7、CD99 和 DUSP1/2）相关性良好。

图片.png

接下来，反向应用graph-versus-feature分析来识别在特定 TCR 图邻域中差异表达的基因。值得注意的特征包括 MAIT 相关基因，例如 KLRB1和 SLC4A10；与 HOBIT⁺ 群体相关的基因，例如 ZNF683 和 KLRC3）；和基因在流感 M1₅₈ 反应中上调，包括 ITGB1 和 KLRC1

图片.png
注：Graph-versus-feature correlation analysis highlights TCR:GEX covariation in Flu-specific T cells. Correlation between a score derived from the TCR sequence (left panel), here defined by the surface counts for the multimerized A*02:M158 pMHC, and two scores derived from the GEX profile (right panels, ITGB1 and KLRC1), is illustrated by mapping the scores onto the 2D TCR landscape for the 10x_200k_donor2 dataset (after z-score normalization and averaging over graph neighborhoods). nbr, neighbor
还观察到 CD8A 和 CD8B 水平升高的 TCR 邻域（neighborhoods），它们似乎与早期graph-versus-graph相关分析中确定的群体重叠，并表明存在偏向 CD8⁺ compartment的 TCR 序列特征。这种 TCR 序列偏差先前已在大量repertoires的分析中报告过。
CoNGA graph-versus-feature分析确定的重复特征是基因 EPHB6 的表达与人类中 TRBV30 基因片段的使用之间的正相关（下图）。

图片.png
注：2D projections based on TCR sequence of a human dataset colored by TCR neighborhood-averaged TRBV30 (left) and EPHB6 (right) expression.
并且，类似地，小鼠中的 Ephb6 和 Trbv31

图片.png

TRBV30 片段在 TRBV 基因中是独一无二的，它单独位于 TRB 基因座末端的 TRBJ 和 TRBC 基因的下游。 EPHB6 位于 7 号染色体上的 TRBV30 附近，TRB 基因座下游约 40 kb，提供了有关该协变机制的潜在线索。

图片.png
注：Locus view of human TRBV30 and EPHB6.
在十个单独的数据集上对 TCR 基因片段使用和 DEG 之间的协变进行集中搜索，证实了在小鼠中包含 TRBV30 基因片段或 TRBV31的克隆型中更高的 EPHB6 表达。流式细胞术分析证实，这些趋势扩展到 EPHB6 蛋白的细胞表面水平。鉴于 EPHB6 已被证明在 T 细胞活化中起作用，TRBV30⁺ 克隆型可能由于其升高的 EPHB6 表面表达而具有独特的功能特性。

TCR and GEX similarity among epitope-specific clonotypes.

使用与 DNA barcode结合的 pMHC 多聚体作为细胞标记试剂，可以与其他单细胞分析并行地对 pMHC 结合进行高通量询问。应用 CoNGA 来研究 GEX 谱、TCR 序列和 pMHC 之间的相关性：在为 pMHC 多聚体结合（10x_200k_donor1-4）分类的人类 T 细胞的大型数据集中，TCR 相互作用。为此，使用 pMHC 结合信息，严格过滤并浓缩到克隆型级别，来定义邻居图结构，其中边连接与相同 pMHC 结合的克隆型。然后应用 CoNGAgraph-versus-graph分析来寻找该 pMHC 结合图与上面定义的 GEX 和 TCR 相似图之间的统计显着重叠。在每个 pMHC 的基础上测量了图重叠，作为 pMHC 阳性克隆型内 GEX（或 TCR）相似性图edges的富集.(下图)

图片.png

注：CoNGA identifies convergence of TCR sequence and GEX profile within pMHC-positive clonotype subsets. a,b, Each marker represents a population of pMHC-positive clonotypes in one of the four 10x_200k donors. Markers are labelled with the two-digit HLA allele and the first three amino acids of the peptide for the given pMHC ; colors indicate the source donor, and symbols are sized based on the number of pMHC+ clonotypes found as indicated in the legend. Markers are positioned based on the rate of intra-subset GEX (a) or TCR (b) graph edges relative to random expectation (x axis; >1 indicates enrichment, whereas <1 indicates depletion) and corresponding two-sided P value (y axis).
从这个分析中，可以看到，正如预期的那样，几乎所有 pMHC 阳性克隆型subsets都显示出大于预期的 TCR 序列相似性。有趣的是，还看到所有 pMHC 阳性群体显示出大于预期的 GEX 相似性，对于大多数具有足够数量分析克隆型的 pMHC，具有非常显着的 P 值和大的倍数富集。 这些结果表明，对于相同 pMHC 呈阳性的克隆型具有比偶然预期更相似的 GEX 谱。
接下来进行了全面的差异表达分析，以确定每个 pMHC 阳性子集中的上调基因（下图）

图片.png
注：Heat map of scaled DEGs and surface protein features across different pMHC-positive populations.
检查上图中的表达模式揭示了几个趋势：naive MART1 反应在右侧聚集在一起，显示出较高水平的 CD45RA 和较低水平的 PD-1 和 CD45RO；流感 M1₅₈ (A02_GIL_MP) 反应基于特定标记（包括 GNLY、ITGB1 和 IFITM2）的共享表达聚集在一起； EBV 特异性反应显示可能是基于抗原是“早期”还是“潜伏”基因的分区，与“早期”基因反应相比，潜伏基因反应显示更高的 GZMK、JUNB 和 CD45RO 和更低的 CD45RA。应用基因集变异分析以更好地表征 pMHC 表型显示，与naive T 细胞相关的基因富集了一些表位（例如，B*08 阴性供体 1 中的 MART1 和 B08_RAK），而其他表位（例如，BMLF1 和供体中的 BZLF1 2) 具有明确的激活/记忆特征.

Discussion

在这项研究中，引入并应用了一种分析工具 CoNGA，证明该工具能够揭示由大型单细胞数据集中的共享 TCR 序列和 GEX 特征定义的 T 细胞群。将 CoNGA 的graph-versus-graph分析应用于各种数据集，确定了表位特异性 T 细胞的不同 GEX 谱；幼稚 CD8⁺ 和 CD4⁺ T 细胞群的repertoire选择中的偏差；具有偏向 TCR 库的多个胸腺 T 细胞群；在胸腺和外周血中检测到一个推定的 MHC 独立的、表达 HOBIT/HELIOS 的 CD8⁺ T 细胞亚群，具有独特的 CDR3 序列特征。应用于由单细胞 pMHC 结合数据定义的图表的 CoNGA 分析确定了对不同 pMHC 具有特异性的 T 细胞群显示出独特的 GEX 谱。
此外，虽然识别与 GEX 空间中聚集的细胞相关的标记基因是单细胞分析的常规部分，但目前还没有可用的方法来系统地识别与定义 GEX cluster的 TCR cluster或 TCR 序列偏差相关的基因。 CoNGA 通过其graph-versus-feature分析解决了这一差距，其中 TCR 衍生的属性，如 CDR3 氨基酸组成或 V 基因使用，被映射到 GEX landscape上，以检测具有偏差特征分布的邻域；类似地分析 GEX 衍生的特性，例如单个基因的表达水平，以检测 TCR landscape的偏差区域。应用该分析揭示了 HOBIT⁺ 群体的长 CDR3 富含疏水性残基，并且在 EPHB6 基因的表达与 TRBV30 基因片段的使用之间存在先前未表征的且高度显着的相关性。这种分析模式不仅限于 TCR 特征，还可以利用已链接、量化和集成到数据集中的任何其他标记特征（例如，pMHC 和细胞表面标记）。
重要的下一步将是通过将 CoNGA 应用于其他具有 GEX 和 TCR（可能还有 pMHC 结合）信息的数据集来验证这些发现，因为它们可用。它还与实验表征由 CoNGA 鉴定的 T 细胞群有关，这应该可以使用流式细胞术和由 CoNGA 聚类突出显示的标记基因。此外，将 CoNGA 识别的 TCR 序列与大量 TCR 序列数据集进行匹配可能会为其功能提供额外的线索，同时也可以揭示匹配的repertoire sequences。
文章的分析有几个局限性，可以在未来的工作中加以解决。首先，在克隆型水平而不是单个细胞水平上操作的结果是属于扩增克隆型的细胞之间的变异变得模糊。同样重要的是要记住，CoNGA 的结果将严重依赖于用于定义克隆型相似性的距离度量以及为检测 GEX:TCR 相关性而选择的框架。根据验，成功应用 CoNGA 需要相对大量的独特克隆型（至少数百个），这取决于克隆扩增的程度，可能需要大量单个细胞。最后，在这里报告的生物学观察的一般性应该与检查的少数捐赠者进行权衡。未来有必要对更大的队列进行研究，以明确评估作者的一些观察结果（队列分析这是未来的分析趋势）。
据研究，以前没有任何算法能够系统地检测 GEX:TCR 相关性。在未来的工作中，有许多可能的 CoNGA 扩展需要探索。 CoNGA 与克隆型图的来源无关，因此，可以应用于由新的相似性度量（例如，基于表面蛋白表达）、新的 T 细胞聚类方法、表观遗传而非基因表达谱或新的免疫学定义的图和临床表型。 CoNGA 还可以通过合并类似于 TCRdist 的 B 细胞受体序列相似性评分应用于 B 细胞克隆型。探索使用在计算机科学和机器学习社区中开发的更复杂的图相关算法作为在此处应用的邻域重叠和邻域分数丰富的替代方法也可能是值得的。
文章的分析有几个更广泛的生物学意义，值得进一步考虑。首先，在不同表位特异性 T 细胞群中观察到的 GEX 谱的多样性证明了记忆 T 细胞表型的广泛连续性，而不是少数离散子集。事实上，记忆表型的定义似乎是由引发病原体决定的。这种多样性还表明，通过将 TCR 序列与 GEX 谱信息相结合，可以改进对 T 细胞目标 pMHC 表位的预测。由 CoNGA 鉴定的推定的 MHC 独立和幼稚 T 细胞群暗示 TCR 序列对 T 细胞命运的发育影响超出了不变和半不变 TCR 的充分表征的作用。作者乐观地认为，结合高通量单细胞实验的分析方法将在未来几年继续阐明适应性免疫学的各个方面。

Methods

CoNGA algorithm

CoNGA 的开发目的是在不了解这些相关性的确切性质的情况下，确定不同 T 细胞群中 GEX profiles和 TCR 序列之间的相关性。作者设想了两大类相关性：一种基于相似性，其中 GEX profiles相似的细胞在 TCR 序列方面也相似，另一种基于特征，其中 GEX 和 TCR 序列的特定方面相关两个属性的全局相似性。 CoNGA graph-versus-graph相关性被开发用于检测第一类相关性，使用图邻域的数学概念来形式化直观的全局相似性概念。相比之下，在没有相关特征的先验知识的情况下，从头发现基于特征的相关性更具挑战性，因为它需要枚举和测试所有可能的特征对。 CoNGA graph-versus-feature分析代表了一种折衷方法，假设，至少在相关性的一侧，存在一定程度的全局相似性（这是“图”侧）；然后，枚举由其他属性定义的可能特征，并测试具有偏置特征分布的图邻域。 CoNGA 相似性图是在克隆型水平而非单个细胞水平上定义的。在 TCR 相似性图中，根据 TCRdist 测量评估的 TCR 相似性，每个克隆型通过边连接到其 k 最近邻 (KNN) 克隆型，该测量对 TCRα 和 TCRβ 链的 pMHC 接触 CDR 环中的序列相似性进行评分（这里 k 是一个可调参数，指定为克隆型总数的一部分）。在 GEX 相似性图中，每个克隆型都基于 GEX profiles中的相似性通过边连接到其 KNN 克隆型。扩展的克隆型由与克隆家族其余部分的平均 GEX 距离最小的单个代表性细胞的 GEX 谱表示。

TCR analysis.

由 10x Genomics cellranger vdj 生成的 filters_contig_annotations.csv 输出文件中的 VDJ 序列数据首先使用 conga.tcrdist.make_10x_clones_file 函数解析为成对的克隆型。在这里，默认情况下，10x cellranger 克隆型定义被过滤以去除虚假链共享和合并分裂克隆型（例如，由于第二个 TCRα 转录本的部分恢复）。接下来，为了量化和评估数据集中 TCR 序列之间的相似性，计算来自这个cleaned克隆型表的每个唯一配对 TCR 之间的成对 TCRdist 距离矩阵。然后使用在 scikit-learn 的 KernelPCA 类中实现的内核主成分分析 (kPCA) 从这个距离矩阵中提取前 50 个变异分量。尽管原始 TCRdist 值可以直接用于降维和聚类（作为pipeline中的一个选项提供），但默认情况下使用内核主成分 (PC) 作为更节省内存的替代方案，因为它们可以直接合并到标准单细胞工作流程代替从 GEX 计数矩阵中提取的 PC。对于 2D landscape投影的生成，CoNGA 使用 UMAP 算法进行降维，如在 scanpy.tl.umap 中实现的。使用基于 Louvain 图的聚类算法 (scanpy.tl.louvain) 识别具有相似 TCR 序列的克隆型cluster。 UMAP 投影和聚类都依赖于使用 scanpy.pp.neighbors 例程进行的最近邻计算，其中包含 10 个邻居和 50 个 PC（从距离矩阵计算出的 50 个内核 PC）。为了在 CoNGA 可视化中注释 Louvain clusters，如果每个clusters中最常见的 V 段出现在至少 50% 的集群 TCR 中，则识别并附加到集群名称，如果出现在至少 75% 的 TCR 中，则大写（簇最初以连续整数命名，从 0 开始，最大的cluster）。

TCR sequence features

对于每个克隆型，CoNGA 计算一组基于 TCR 序列的分数，用于graph-versus-feature分析和注释图对图cluster。首先，一组 28 个不同的氨基酸特性在 α 和 β 链 CDR3 环（不包括每个 CDR3 的前四个和最后四个残基，其中完整的 CDR3 序列定义为从保守的半胱氨酸，并以 J 区中 GXG 基序之前的苯丙氨酸结尾并包括在内）。这些分数包括由 VDJtools 软件包的作者从原始来源汇编的一组分数以及五个 Atchley 因素。计算了七个额外的基于序列的分数：“alphadist”，当完整的基因片段集按基因组位置排序时，它测量 TRAV 和 TRAJ 基因之间的序数距离； ‘imhc’，iMHC 分数；'cd8'，一个简单的 CD8 对 CD4 偏好评分，根据流式排序的 CD8⁺ 和 CD4⁺ TCR 序列库之间的频率差异，从 TCR V 和 J 基因使用、CDR3 长度和 CDR3 氨基酸组成计算得出； ‘cdr3len’，CDR3总长度； 'mait'，它使用 TRAV1-2 和 TRAJ33/TRAJ20/TRAJ12 段（TRAV1
和 TRAJ33 在小鼠中）和 CDR3α 长度为 12 和 0 到所有其他 TCR； “inkt”，它为具有 TRAV10/TRAJ18/TRBV25 基因组合和 CDR3α 长度为 14、15 或16（TRAV11/TRAJ18 和长度为 15 的小鼠）的 TCR 分配 1 分；和‘nndists_tcr’，它通过计算与最近的 1% 克隆型的平均 TCR 距离来测量评分克隆型附近的 TCR 序列密度。 iMHC 分数是 TCR 序列特征的加权线性组合。通过使用 L1 正则化逻辑回归来拟合参数，以将数据集 10x_200k_donor1的 GEX 集群 2 中 HOBIT⁺ CoNGA hit（CoNGA 分数 <0.2）的 TCR 序列与其他 GEX 集群中克隆型的 TCR 序列区分开来。这里选择仅从其他 GEX cluster中提取背景克隆型，以避免在文章的阴性集中包含真正的 HOBIT+ TCR 序列。

GEX analysis.

读取计数矩阵形式的 GEX 数据根据在 scanpy 中实施的标准工作流程进行处理，以消除计数低和线粒体含量高的细胞和基因。识别可变基因，并使用 PCA 将高维 GEX 数据投影到每个细胞的较小components（默认为 40 个components）。这些 GEX PC 用于通过将 PC 空间中具有最小平均欧几里德距离的细胞与克隆型中的其他细胞相结合来为每个克隆型选择一个具有代表性的细胞。或者，可以平均每个克隆型中所有细胞的 PC 向量以生成单个伪细胞 GEX profiles（可使用 –average_clone_gex 命令行选项访问）。一旦数据集被缩减为每个克隆型的单个细胞，UMAP 和 Louvain 聚类工具将应用于 PCA 矩阵以生成 GEX landscape和一组 GEX 克隆型cluster。克隆型分组中的 DEG（例如，簇中的一组 CoNGA hits）使用 sc.tl.rank_genes_groups 例程和“wilcoxon”方法进行识别。
大型胸腺图谱 T 细胞数据集结合了一组异质的供体和样本；合并这些数据以生成集成投影和clusters需要原始作者执行迭代批量校正方案。由于如何从公开可用的数据中恢复处理过的 GEX 组件并不是很明显，并且作为对 CoNGA 对替代邻居图的鲁棒性的测试，我们选择使用提供的三维 UMAP 坐标代替 CoNGA GEX 的 GEX PC 下面描述邻居计算。我们还直接从原始出版物中借用了 GEX 集群，而不是重新reclustering数据集。

Graph-versus-graph correlation analysis.

在 CoNGA graph-versus-graph相关分析中，比较由 GEX 和 TCR 序列定义的相似图，以识别两个图中相邻集显着重叠的vertices（克隆型）。分配给克隆型的 CoNGA 分数等于偶然看到其 GEX 和 TCR 邻域之间相等或更大重叠的概率，乘以克隆型总数以校正多重测试。在 scipy.stats 模块中实现的超几何分布用于估计这种单边概率；这种概率分布模拟了从一组可互换的项目中独立和随机选择两个指定大小的子集时观察到的重叠。 CoNGA 中可以使用两种类型的相似图：KNN 图，其中每个克隆型都连接到 GEX 或 TCR 空间中的 KNN，以及聚类图，其中每个克隆型连接到相同（GEX 或 TCR 空间）中的所有克隆型） cluster。用于构建 KNN 图的邻居数 k 被指定为克隆型总数的一部分；对于此处报告的计算，使用了 0.01 和 0.1 的邻居分数。分配给克隆型的 CoNGA 分数是所有图形比较的最低分数，此处报告的计算中有六种组合（GEX_KNN 与 TCR_KNN、GEX_KNN 与 TCR_cluster 和 GEX_cluster 与 TCR_KNN，对于 0.01 和 0.1 KNN 邻居分数） .因为这些邻居图是相关的（例如，0.01 KNN 图中的邻域包含在 0.1 KNN 图中的邻域中），估计与使用多个图相关的多重测试负担并不完全简单。相反，转向改组实验来估计与我们使用 CoNGA 分数和cluster大小阈值选择 CoNGA cluster的过程相关的错误发现率。随机排列了相对于九个数据集的每个数据集的 GEX 信息的 TCR 序列分配，并运行了 CoNGA graph-versus-graph分析，计算了得分阈值为 1.0 的 CoNGA hit数和大小超过的 CoNGA cluster数我们的默认阈值（5 或 0.001 × num_clonotypes，以较大者为准）。对于每个数据集，此过程重复五次，产生 45 个混洗结果，观察到总共三个 CoNGA 集群，每次混洗运行的背景率为 3/45 = 0.067。
为了评估 CoNGA graph-versus-graph分析的敏感性，进行了子采样实验，其中改变了属于已知“真阳性”群体（人类数据集中的 MAIT 细胞和小鼠中的 iNKT 细胞）的克隆型的频率数据集）并记录报告为 CoNGA hit的分数作为子采样频率的函数。该分析表明，回收率更依赖于二次采样真阳性克隆型的绝对数量，而不是数据集中的分数：作为二次采样计数的函数绘制的恢复曲线之间的对齐比作为二次采样分数的函数更好 . 看到相对较高的恢复率下降到约 20 个真阳性克隆型的种群规模
出于注释目的，所有 CoNGA cluster中的 TCRβ 序列和 10x_200k 数据集中 pMHC 阳性库中的 TCRβ 序列与一组批量 TCRβ 库相匹配。首先使用氨基酸水平的精确匹配为每条 TCRβ 链分配一个“公开”分数，该分数等于在相对较深（约 200,000 个中值克隆型）库的大型（n = 666）数据集中包含该链的库的分数。使用 Murugan 等人提出的模型计算每个链的生成概率 (Pgen)。为了量化 CoNGA cluster或 pMHC 阳性子集中的 TCR 序列集与库中的序列集之间的重叠，作者开发了 Morisita-Horn (MH) 重叠测量的修改版本，它解释了序列相似性（而不是精确标识）使用高斯核：

图片.png

在计算中，忽略了克隆型大小（即每个克隆型中的细胞数），但这些可以作为指数项的乘法前置因子包含在上述匹配分数中，用库中克隆型大小的总和替换里。为了匹配配对repertoires，我们对高斯标准偏差项 σ 使用了更大的值 96。 n = 666 repertoires数据集的 MH 重叠用于计算每个 CoNGA 集群的年龄相关性，等于其 MH 重叠分数与样本供体年龄之间的线性相关系数。来自流动排序的 CD4⁺ 和 CD8⁺ 样本（n = 84）的 TCRβ 库的第二个数据集用于计算 CD4/CD8 库偏差分数等于 t 统计量，用于比较 CD4 库的 MH 分数与 MH CD8 repertoires的分数。这些样本的一个子集（n = 34）被另外分类为记忆（CD45RA^-CD45RO⁺）和初始（CD45RA⁺CD62L⁺）子集；这些被用来计算一个类似的记忆/朴素的repertoires bias score。

Graph-versus-feature correlation analysis.

在 CoNGA graph-versus-feature相关性分析中，基于一个属性（GEX 或 TCR）定义的数值特征被映射到由另一个属性定义的相似性图上，并识别具有偏向分数分布的图邻域。作为 GEX 属性，考虑了所有单个基因的表达水平以及一个特征（‘nndists_gex’），该特征通过计算 GEX 空间中与最近的 1% 克隆型的平均距离来捕获附近克隆型的密度。由于该分析涉及大量差异表达计算（大致是克隆型数量乘以不同相似图的数量乘以特征数量），使用两步程序，将预过滤器与随后的 t 检验相结合通过更耗时的 Mann-Whitney-Wilcoxon (MWW) 计算每个克隆型和图的前 100 个hit，通过比目标阈值高十倍的 t 检验显着性阈值。分配给检测到的关联的最终显着性分数等于原始 MWW P 值乘以克隆型数量和特征数量的乘积，以校正多重测试。

好书不厌百回读，好的文章也是如此，关于代码，前面的文章目录已经有了，这里再写一下，希望大家好好研读，运用到自己的数据里。

10X单细胞（10X空间转录组）TCR转录组联合数据分析之(8)neighbor graph analysis（CoNGA）

10X单细胞（10X空间转录组）转录组 & VDJ 联合分析（14）之CoNGA

生活很好，有你更好

10X单细胞（10X空间转录组）转录组 & VDJ 联合分析（15）之CoNGA

hello,大家好，又是周五，一周的收官之战，今天我们需要复习一下CoNGA，实在是太重要了，我们今天也要详细复习一下，关于10X单细胞和10XVDJ的联合分析的分享文章，我都列在这里，供大家参考和借鉴

10X单细胞（10X空间转录组）TCR数据分析之TCRdist(1)

10X单细胞（10X空间转录组）TCR数据分析之TCRdist(2)

10X单细胞（10X空间转录组）TCR数据分析之TCRdist(3)

10X单细胞（10X空间转录组）TCR数据分析之TCRdist3(4)

10X单细胞（10X空间转录组）TCR数据分析之TCRdist3(5)

10X单细胞（10X空间转录组）TCR转录组联合数据分析之TCRdist3(6)neighbor graph analysis（CoNGA）

10X单细胞（10X空间转录组）TCR转录组联合数据分析之TCRdist3(7)neighbor graph analysis（CoNGA）

10X单细胞（10X空间转录组）TCR转录组联合数据分析之(8)neighbor graph analysis（CoNGA）

10X单细胞（10X空间转录组）BCR（TCR）数据分析之(9)changeo

10X单细胞（10X空间转录组）BCR（TCR）数据分析之(10)changeo

10X单细胞（10X空间转录组）BCR（TCR）数据分析之(11)dandelion

10X单细胞 & 10XVDJ 联合分析之PlatypusDB

10X单细胞（10X空间转录组）转录组 + VDJ联合分析（12）之scirpy

10X单细胞（10X空间转录组）转录组 + VDJ联合分析（13）之基础术语

10X单细胞（10X空间转录组）转录组 & VDJ 联合分析（14）之CoNGA

10X单细胞和10XVDJ的联合分析实在是太重要了，文章在Integrating T cell receptor sequences and transcriptional profiles by clonotype neighbor graph analysis (CoNGA),IF54分，太重要了，重要是的事情不止要说三遍，我们今天要详细回顾于一下。

Abstract

Intoduction

Results

CoNGA graph-versus-graph analysis

CoNGA defines a HOBIT+HELIOS+ T cell population

CoNGA identifies GEX:TCR correlation in thymic T cells.

CoNGA graph-versus-feature analysis.(这个分析更为细致)

TCR and GEX similarity among epitope-specific clonotypes.

Discussion

Methods

CoNGA algorithm

TCR analysis.

TCR sequence features

GEX analysis.

Graph-versus-graph correlation analysis.

Graph-versus-feature correlation analysis.

好书不厌百回读，好的文章也是如此，关于代码，前面的文章目录已经有了，这里再写一下，希望大家好好研读，运用到自己的数据里。

10X单细胞（10X空间转录组）TCR转录组联合数据分析之(8)neighbor graph analysis（CoNGA）

10X单细胞（10X空间转录组）转录组 & VDJ 联合分析（14）之CoNGA

你可能感兴趣的:(10X单细胞（10X空间转录组）转录组 & VDJ 联合分析（15）之CoNGA)

CoNGA defines a HOBIT⁺HELIOS⁺ T cell population