利用10X单细胞eQTL定位确定自身免疫性疾病的细胞类型特异性基因控制

周二了,新的一周,虽然内心一直想躺平,一直想回家,但是最终还是屈服,坐起来好好工作,不知道30岁一事无成算不算就是失败的人生,人是不是总是在矛盾中前进,也不知道前面有什么,或许更差,或许有机遇。

今天要分享一个新的内容,文章在Single-cell eQTL mapping identifies cell type–specific genetic control of autoimmune disease,2022年4月8日发表在Science期刊,其中有一些新的内容,表达数量性状位点(eQTL),单细胞和eQTL的联合分析,非常值得一读和分享。

首先我们要先了解一下eQTL是什么

表达数量性状位点(expression quantitative trait locus, eQTL)是一类能够影响基因表达量的遗传位点(大部分都是单核苷酸多态性,SNP),具有一定的生物学意义。迄今为止最全的eQTL数据库是GTEx(https://www.gtexportal.org/home/),如今已更新到第八版了。

一般而言,eQTL主要分为两类:(1)顺式eQTL(cis-eQTL):它主要是指与所调控基因相距较近的eQTL,一般多位于所调控基因的上下游1Mb区域;(2)反式eQTL(trans-eQTL):与cis-eQTL恰恰相反,反式是指距离所调控基因位置比较远的eQTL,有时候距离甚至超过5Mb。因此,对于eQTL分析而言,我们通常需要考虑两点,SNP和基因表达水平的关联度以及SNP与基因的距离

还有一个概念,连锁不平衡

连锁不平衡 (linkage disequilibrium)是指分属两个或两个以上基因座位的等位基因同时出现在一条染色体上的几率,高于随机出现的频率。HLA 不同基因座位的各等位基因在人群中以一定的频率出现。简单地说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。这种情况就叫连锁不平衡。连锁不平衡可以是同一条染色体上的不同区域,也可以是不同染色体上的。

在这个基础上,我们要开始内容的解析了。

INTRODUCTION

人类的免疫系统已经进化到通过调节专门的细胞群体来维持组织稳态和靶向外源性病原体。它在不同个体之间显示出巨大的差异,决定了人们对疾病易感性和对病原体或癌症的反应是如何不同。

在单细胞分辨率的数据生成过程中,科学家们对遗传差异如何在细胞水平上促进免疫变异的认识受到两个主要挑战的限制。其中的一个挑战是对许多人进行测序,另一个挑战是对每个人的大量细胞进行测序。解决这些挑战对于剖析常见异质性疾病的遗传和分子基础是必要的

RATIONALE

对遗传差异如何导致细胞水平的免疫变异的了解受到单细胞分辨率数据生成中的两个主要挑战的限制。 这些挑战之一是对许多个体进行测序,另一个是对来自每个个体的a large number of cells进行测序。 解决这些挑战对于剖析常见的异质性疾病的遗传和分子基础是必要的。

RESULTS(杂志SCIENCE的排版还是很不一样的)

分析了 OneK1K 队列,该队列由来自 982 名供体的 127 万个外周血mononuclear cells (PMBC) 的单细胞 RNA 测序 (scRNAseq) 数据组成。作者开发了一个细胞分类框架,并通过结合scRNA-seq数据和基因型数据,绘制了14种免疫细胞类型中每种类型的基因表达的遗传效应,并确定了26597个独立的顺式表达数量性状基因座(eQTL)。发现其中的大多数eQTL对基因表达的等位基因效应是细胞类型特异的。结果在两个独立的队列中得到了重现,其中的一个队列由与他们的发现队列不同血统的个体组成。在所有的基因座上,发现队列和重现队列在不同免疫细胞类型中的等位基因方向的一致性在72.2至98.1%之间。

在主要组织相容性复合体 (MHC) 区域外的每个基因座上使用top相关的 eQTL 单核苷酸多态性 (eSNP),确定了 990 种反式作用效应,其中大多数 (63.6%) 是细胞类型特异性的。分析展示了 eQTL 如何在 B 细胞中具有动态等位基因效应,这些 B 细胞正在从幼稚状态过渡到记忆状态。总体而言,确定了一组 1988 个 eSNP-eGene(具有 eQTL 的基因)对在 B 细胞成熟环境中表达,其中 333 个在 B 细胞分化时的等位基因效应具有统计学意义的变化。其中,66% 仅通过动态 eQTL 分析确定,并且在独立测试细胞类型的影响时未观察到,这突出了研究作为免疫细胞功能基础的细胞状态特异性影响的重要性。这里研究了 eQTLs 如何影响特定细胞类型中必需免疫基因的表达变化,并为复杂自身免疫疾病中细胞机制的既定假设提供实验支持

最后,整合了七种常见自身免疫性疾病的遗传关联数据,并确定了以细胞类型特异性方式运作的遗传效应的显著富集。 通过单细胞 eQTL 和全基因组关联研究 (GWAS) 基因座的共定位,发现 19% 的 cis-eQTLs 与 GWAS 风险关联具有相同的因果基因座。 使用孟德尔随机化方法,揭示了 305 个基因座通过特定细胞类型和亚群中基因表达的变化导致自身免疫性疾病的因果途径。 在共享的因果位点中,38.4% 位于 MHC 区域之外,并表现出高度的细胞特异性效应。 突出多发性硬化症,确定了 57 个风险位点的因果途径。 例如,分析表明 3q12 的基因座通过 EAF2 表达的变化起作用,但仅在未成熟和幼稚 B (BIN) 和记忆 B (BMem) 细胞中起作用,尽管该基因在数据中的所有细胞类型中普遍表达。

CONCLUSION

这项工作汇集了群体遗传学和 scRNA-seq 数据,以揭示免疫系统个体间变异的驱动因素。 研究结果表明,分离的遗传变异如何影响以细胞类型特异性方式编码参与关键免疫调节和信号通路的蛋白质的基因的表达。 了解免疫系统调节的遗传基础将对自身免疫性疾病和感染、移植和癌症的治疗产生广泛影响。

图片.png

Introduction

免疫细胞中基因的表达在个体之间存在很大差异,这种差异既是免疫相关疾病易感性差异的原因也是结果。 对免疫调节和疾病发展的潜在遗传贡献的调查发现了许多相关的变异。 然而,循环免疫群体的复杂性使其作用机制难以剖析。

将转录谱与遗传变异结合可以直接识别基因表达的基因组调节因子。这很重要,因为通过全基因组关联研究 (GWAS) 确定的疾病相关遗传风险变异,包括与常见免疫介导疾病相关的变异,通常被映射到基因组的调控区域。实证结果和理论模型都提供了证据,表明大多数常见的疾病相关变异通过基因表达的变化而不是直接影响蛋白质结构或功能起作用。通过将遗传信息与bulk RNA 测序 (RNA-seq) 相结合,疾病相关遗传风险因素的下游影响与表达数量性状基因座 (eQTL) 相关联。 GTEx、eQTL-Gen、CAGE 和 ImmVar 等努力已经在各种细胞类型和组织中鉴定了 eQTL,但使用了bulk RNAseq 方法,其中基因表达水平代表bulk细胞的平均信号。这些集合分析的数据是有效的,但单个细胞之间的基因表达异质性在很大程度上仍未被探索。

一个重要的步骤是定义疾病风险单核苷酸多态性 (SNP) 影响基因表达水平的细胞和环境背景。这将有助于确定疾病发展的分子和细胞机制,并为治疗策略提供信息。除了注释个体疾病关联的能力外,细胞类型特异性 eQTL 还丰富了复杂性状的heritability。这很重要,因为许多 eQTL 效应是组织特异性的,并且荧光激活细胞分选 (FACS) 和bulk样本中细胞类型的计算去卷积都证明了细胞类型特异性 eQTL。尽管这些研究有助于证明遗传基因座在细胞亚群中的作用存在差异,但挑战依然存在。例如,FACS 细胞群的bulk RNA-seq 偏向于由一组有限的标记基因定义的已知细胞类型。它没有捕捉到分类群体中的异质性。同样,将bulk信号解卷积为细胞类型的计算方法难以识别不太丰富的细胞类型并依靠近似值来估计细胞比例。相比之下,单细胞 RNA 测序 (scRNA-seq) 能够同时、无偏见地确定细胞组成和细胞类型特异性基因表达,从而捕获个体细胞内的异质性

Results

The OneK1K cohort

分析表征了一个大型队列(OneK1K)的循环免疫细胞的转录变异,以探索等位基因变异如何以细胞类型特异性方式与基因表达变化相关联。 OneK1K 队列由 982 名北欧血统的个体组成,他们在样本收集时报告没有活动性感染。 研究生成了 759,993 个 SNP 的基因型数据,并根据 Haplotype Reference Consortium 小组估算了 SNP。 质量控制后,保留了 5,328,917 个 SNP,次要等位基因频率大于 0.05。 分析使用pooled multiplexing strategy.生成了 1,449,385 个外周血细胞 (PBMC) 的 scRNA-seq 数据。 在demultiplexing、去除双细胞和质量控制后,保留了 1,267,758 个细胞用于进一步分析。

Classification of individual cells

作者开发了一个框架,根据它们的转录谱将每个细胞独立地分类为跨越骨髓和淋巴谱系的 14 种不同免疫细胞类型之一。这个框架在 scPred 中实现,使用分层监督和非监督分类方法的组合,使用 FACS 排序的 PBMC scRNA-seq 数据作为参考。细胞组成范围从 0.7% 的树突状细胞 (DC) 到 36.6% 的 CD4+ 幼稚和中央记忆 T (CD4NC) 细胞,其平均比例和比例范围与其他地方报道的相匹配。使用统一流形近似和投影 (UMAP) 对细胞类型进行可视化反映了这些细胞类型之间的层次关系,前两个主要成分的细胞坐标也支持这种关系。使用其完整的转录谱对细胞进行分类。尽管如此,为了帮助对其他研究进行解释,我们与典型标记和其他单细胞测序研究的表达模式保持一致。

批次校正后,没有发现capture pools中细胞身份、转录特征或细胞比例发生变化的证据。 对每个供体平均测序了 1291 个细胞。 尽管大多数个体拥有所有 14 种细胞类型的 scRNA-seq 数据,但由于抽样差异,一些细胞类型 [主要是表达 SOX4 的 CD4+ T 细胞(CD4SOX4 细胞)、浆细胞和非经典单核细胞(MonoNC)] 在一些个体中没有被检测到。 因此,对于后续分析,eQTL 分析的样本量因细胞类型而异,尽管 14 个群体中有 12 个的 n>930。

图片.png

Single-cell eQTL analysis reveals cell-type specificity of transcriptional changes that occur because of common variants

为了了解个体之间的遗传变异如何以特定于细胞类型的方式影响基因表达,在 14 种细胞类型中的每一种中测试了基因任一端的 1-Mb 顺式区域内 SNP 基因型(包括基因体)与基因表达之间的关联。 这种方法可以识别每种细胞类型中的 eQTL,能够评估基因表达的遗传效应在 PBMC 之间共享的程度。 由于连锁不平衡诱导的基因型与与基因表达水平相关的众多独立基因座之间的相关性,顺式区域内的多个SNP可能与基因表达相关。 为了区分这些scenarios,对每个已识别的 eQTL 进行了条件分析,将识别的 eQTL SNP(s) [eSNP(s)] 拟合为随后几轮分析中的条件协变量。

总的来说,为 39.7% 的测试基因确定了 26,597 个 eQTL,其中 16,597 个(eSNP1)在第一轮分析中,另外 10,000 个(eSNP2 到 eSNP5)来自四轮条件测试。 independent eQTL 的数量因细胞类型而异,在 CD4NC 细胞中鉴定出 6473 个,在浆细胞中鉴定出 399 个。 每种细胞类型确定的 eQTL 数量的这种变化可能是统计功效的函数。 细胞比例与具有可识别细胞的个体数量之间存在密切关系。 conditional eQTL 分析确定了 8.1% 至 19.2% 的基因中影响表达的次要位点,其中 10.6% 至 40.6% 的基因具有初始 eQTL 和三个以上独立的 eQTL

这些条件性 eQTL 识别出顺式区域内存在多个独立基因座的实例,其基因型与基因的表达水平相关。例如,在 CD4NC 细胞中,确定了 PADI4 的主要 eQTL。该基因编码一种酶,该酶负责将精氨酸残基转化为瓜氨酸残基,从而调节组蛋白 H1 的活性,从而维持干细胞的维持。 PADI4 在遗传和细胞水平上都与类风湿性关节炎 (RA) 的发病机制有关。该 eQTL 的top eSNP1 是 rs10788663,其中每个 T 等位基因拷贝导致每个细胞平均减少 0.28 个 mRNA 转录分子。在随后的一轮条件分析中,将 rs10788663 拟合为协变量,并再次测试了跨 cis 区域的关联,确定了由top eSNP2 rs1612843 标记的次要独立 eQTL。平均而言,携带 rs1612843 的 C 等位基因的每个拷贝的个体每个细胞减少 0.24 个 mRNA 转录分子。 rs10788663 位于第一个内含子,而 rs1612843 位于 PADI4 外显子 15 和 16 之间的内含子,这表明独立的转录因子可能调节多个独立的位点,并且是调节 PADI4 表达所必需的。在 OneK1K 队列中,rs10788663 和 rs1612843 之间的连锁不平衡为 0.0678,进一步证明多个独立的 eQTL 影响 CD4NC 细胞中 PADI4 的表达

基因位点对基因表达的等位基因效应可能对特定细胞类型是独特的,而在其他细胞类型中不存在——我们将这种关系定义为“细胞类型特异性”。通过调查其他细胞类型中 cis-eQTLs 的零分布的测试统计偏差来探索其普遍性,这些细胞类型最初不符合研究范围的意义。在一种细胞类型中鉴定的 cis-eQTLs 在另一种细胞类型中显示其测试统计数据膨胀的平均比例为 Π1 = 0.53(0.19 至 0.96)。证据表明,随着样本量的增加,目前在单个细胞类型中鉴定的 cis-eQTL 应该在一种或多种其他细胞类型中达到研究范围的意义。然而,它们的等位基因效应的大小可能因细胞类型而异。对于仅在单个细胞类型中鉴定的具有 eQTL (eGenes) 的 3060 个基因,没有发现其他细胞类型中等位基因效应的任何证据,这表明这些确实是细胞类型特异性的。对细胞类型特异性 eQTL 的观察有多种可能的解释:该基因可能仅在一种细胞类型中可检测到表达,在多种细胞类型中检测 eQTL 的统计能力可能较低,或者跨细胞类型存在真正的调控异质性

为了评估这些不同的情况,对具有至少一个 eQTL (eGene n = 6469) 的每个基因进行了一系列分析。这些 eGene 中只有 43 个 (0.7%) 以单一细胞类型表达。剩下的 6426 个在多种细胞类型中表达,这些基因在平均 11 种细胞类型中表达,除了具有显著 eQTL 的一种。事实上,当测试这 6426 个 eGene 中每一个的表达水平在一对细胞类型之间的相关性时,发现共表达的总体一致性很高。几种细胞类型之间eGene表达水平的平均相关模式遵循造血谱系关系。例如,在仅在 CD4NC 细胞中发现的具有 eQTL 的 6473 个 eGene 中,1392 个在 CD8+ 幼稚和中央记忆 T (CD8NC) 细胞中表达,细胞之间基因表达的平均相关性为 0.97。相比之下,在经典单核细胞 (MonoC) 中,只有 168 个浆细胞 eGene 被表达,但表达与浆细胞的平均相关性为 0.79。从这些结果中,可以得出结论,在大多数情况下,仅在一种细胞类型中鉴定出的大多数具有 eQTL 的 eGene 不是由于 eGene 的细胞类型特异性表达,而是可能是由于调节因子的细胞类型特异性表达

对于剩余的 4102 个 eGene,在两种或多种细胞类型中总共鉴定了 14,230 个 eQTL,尽管对于其中的 1386 个 eGene,观察到细胞类型之间存在不同的前导 eSNP。在这种情况下,一个假设是相同的variant是多种细胞类型中 eQTL 的基础,而top eSNP 的差异是由于基因表达模式的变化。另一种假设是,eQTLs 是由影响不同细胞类型表达的独立variant产生的。为了在这些假设之间进行测试,执行了回归策略来评估在从另一种细胞类型中回归 eSNP 的影响后 eSNP 的测试统计量的变化。在此策略下,如果 eSNP 标记了该基因的相同因果变异或彼此处于连锁不平衡状态,则原始 eSNP 的等位基因效应大小将在条件分析中减小。同样,如果他们标记独立variant,等位基因效应将保持相对不变。对 eQTL 的每个成对组合执行了这种策略,其中在不同的细胞类型中鉴定了不同的top eSNP。

测试了每个 eGene 是否被两个不同的variant标记,方法是针对每对细胞类型(182 对)将来自第一种细胞类型的前导 eSNP 调节到来自第二种细胞类型的前导 eSNP 上。 来自共享 eGene 预处理和后处理的显著独立 eSNP 的相关系数如下图D 所示。 虽然大多数淋巴免疫细胞eQTL在调节后相关系数有相当大的变化,但在骨髓免疫细胞中,eQTL相关系数保持相似。 这一发现表明,淋巴样细胞类型更有可能
与骨髓细胞相比,共享细胞类型之间基因表达的遗传控制

图片.png

Evidence suggests that cell type–specific chromatin accessibility underlies a proportion of cell type–specific cis-eQTLs

为了探索 cis-eQTLs 的功能调控,测试了从 8876 个细胞的转座酶可及染色质测序 (scATACseq) 数据的单细胞测定中产生的 eSNP 位置和开放染色质区域的重叠。细胞被分为 14 种细胞类型中的每一种,对于具有超过 5 个分类细胞的每种细胞类型,都调用开放染色质峰。这种过滤保留了 11 种细胞类型,包括最丰富的细胞群 [除了具有效应记忆或中央记忆表型 (CD4ET) 的 CD4+T 细胞、CD4SOX4 和浆细胞]。平均而言,确定了每种细胞类型的 52,048 个峰,eSNP 与最近峰之间的平均距离范围为 7485 到 31,383 个碱基对为了确定 cis-eQTLs 的位置是否显著接近开放染色质区域,比较了 cis-eQTLs 之间的距离。我们随机抽样了 SNPs,这些 SNPs 是根据从转录物到每种细胞类型最近峰的相同距离分布选择的bootstrapping technique。观察到除 CD4SOX4 细胞以外的所有细胞类型的 cis-eQTL 距离之间存在显著差异[错误发现率 (FDR) < 0.05]。从这些结果中得出结论,细胞类型特异性染色质可及性可能导致等位基因对细胞类型之间基因表达的影响的变化

Single-cell eQTLs replicate in multiethnic cohorts and bulk eQTL studies

为了验证细胞特异性 eQTL 发现,我们在队列中复现了主要 eSNP 结果。 在 16,597 个 eSNP1-eGene 对中,有 10,071 个在两个队列中的次要等位基因频率均大于 0.05。Of these, 3198 (26%) in the European cohort and 2243 (22%) in the Asian cohort replicated at the FDR threshold of 5%, which is encouraging given the differences between the sample sizes of these cohorts and the sample size of the OneK1K discovery cohort

事实上,在发现队列和复现队列中样本量相等的假设下纠正 FDR 分布导致欧洲和亚洲队列中的复现率分别为 87% 和 78%。同样,所有测试基因座的等位基因方向的一致性在欧洲队列中为 76.0% 至 98.1%,在亚洲队列中为 72.2% 至 95.4%。对于以 FDR 小于 0.05 复现的 eQTL,这种一致性分别增加到 99.3 到 100% 和 96.9 到 99.8%。群组之间复现率的差异可能反映了人群之间 eSNP 等位基因频率的差异。然而,结果表明,细胞类型特异性 eQTL 很可能在人群中广泛共享。 OneK1K eQTLs 的发现在复现队列中的所有细胞类型中进行了复现测试。在 FDR 小于 0.05 时,复现的 eQTL 和 eGene 主要在单一细胞类型中鉴定,为基因座对 PBMC 中基因表达的细胞类型特异性影响提供了进一步的证据。对于欧洲和亚洲样本,OneK1K 和复现队列之间的相关系数的一致性如下图 E 所示。能够复现来自 eQTL-Gen 联盟和 GTEx 联盟的血液样本的bulk RNA-seq 研究中鉴定的 62.5% 和 40.4% 的 ciseQTL

图片.png

Identification of dynamic eQTL allelic effects across the B cell landscape

研究了 eQTL 在未成熟和幼稚 B (BIN) 细胞到记忆 B (BMem) 细胞的伪时间landscope中的动态影响。 根据它们在伪时间曲线上的相对位置,将细胞分为六个quantiles(Q1 到 Q6)。 叠加经典标记的表达揭示了从 BIN (Q1) 到 BMem细胞 (Q6) 的衍生轨迹的分级变化。 例如,TCL1A 和 IL4R 在幼稚 B 细胞中高度表达,并且被发现在向 BMem 细胞的过渡过程中被下调。 相反,CD27(一种典型的 BMem 细胞标记物)的表达随着细胞转变为记忆状态而增加。 IgJ 表达是免疫球蛋白 M (IgM) 和 IgA 产生的标志物,在较高的分位数中上调,表明它们含有准备成为浆细胞的细胞

分析试图确定 eQTL 等位基因效应在幼稚到记忆 B 细胞转变的轨迹上表现出线性或非线性变化的实例。动态 B 细胞 eQTL 是通过使用线性和二次模型测试基因型和分位数等级之间的相互作用来确定的。 在 BIN 和 BMem 细胞中鉴定的 3074 个 cis-eQTLs 中,1988 个在至少三个伪时间分位数中表达并测试了动态效应。 其中,确定了其中 333 个轨迹的等位基因效应发生了显著变化(FDR < 0.05)

许多具有动态 eQTL 效应的基因在微调 B 细胞迁移、激活、存活或功能方面发挥作用。例如,SELL 参与整合素介导的组织迁移。生发中心内 B 细胞的迁移和组织是产生适当的记忆和体液输出的关键组成部分。内含子variant rs4987360-G 对 SELL 表达的等位基因效应在未成熟细胞中最大,在随后的每个分位数上都降低。对于影响 Src 家族酪氨酸激酶 B 淋巴细胞激酶 (BLK) 表达的 SNP,发现了相反的趋势,该基因负责调节 B 细胞受体下游信号传导的幅度。 rs2736336 和 rs2409780 在 Q5 和 Q6 中显示出最大的等位基因效应。有趣的是,rs2736336 是 BLK 启动子的一个variant,与系统性红斑狼疮 (SLE) 相关,而 rs2409780 是一种内含子variant,与 SLE 和 RA 相关的变异体处于高度连锁不平衡[决定系数 (R2) = 0.99 , 和连锁不平衡系数 (D') = 0.99]。另一个负责解释 B 细胞表面受体下游信号传导并影响后续 B 细胞增殖和存活的基因是 c-Rel,由转录因子 REL 编码。 rs12989427 与与 SLE 相关的variant处于高度连锁不平衡状态(R2 = 0.88 和 D' = 0.98),并且等位基因效应遵循非线性关系,在 B 细胞轨迹的中点处达到峰值。 ORMDL3 通过抑制细胞凋亡和促进自噬来促进成熟 B 细胞的存活。 rs7359623 和 rs8067378 处于高度连锁不平衡状态,风险变异(R2 > 0.8 和 D' > 0.9)与一系列自身免疫性疾病有关,并且在整个轨迹上对 B 细胞中的 ORMDL3 具有动态 eQTL 效应。

图片.png

Genetic variation controls transcriptional regulation in a cell type–specific manner to regulate immune pathways

尽管普遍认为免疫调节在个体之间存在差异,但对导致这种差异的因素知之甚少。 通过选择文献中描述的影响免疫调节的基因,展示了遗传基因座如何以细胞类型特异性方式促成免疫调节基因表达的变化.

血液和淋巴结之间的白细胞再循环是免疫系统的基本特性。 它依赖于由 SELL 基因编码的淋巴结归巢受体 CD62L(L-选择素)。 分析观察到在 rs4987360 的影响下,先天免疫系统和适应性免疫系统之间 SELL mRNA 的相反调节,这是与单核细胞血细胞计数相关的与 rs4987353(R2 = 1 和 D' = 1)连锁不平衡中的常见多态性。 rs4987360-G 等位基因降低了 MonoC 中的 SELL mRNA,但增加了 BIN 细胞中的 SELL mRNA,说明了单个遗传等位基因如何通过不同的细胞类型发挥作用来影响基因表达。 动态 eQTL 分析确定 rs4987360 的等位基因效应在 B 细胞状态环境中有所不同。 rs4987360 关联在来自 eQTL-Gen 和 GTEx 的bulk RNA-seq eQTL 数据中复现,并且在bulk B 细胞和单核细胞中具有相反方向的等位基因效应(给定 rs2223286,R2 = 1 和 D' =1)。

CTLA4 是 T 细胞上一种基因剂量敏感的必需抑制性受体。 与 SELL 的例子相比,CTLA4 下游的 rs3087243-G 等位基因与对 1 型糖尿病 (T1DM) 和 RA 的易感性相关,通过在四个细胞中降低 CTLA4 mRNA 表达以相同等位基因方向作用于多种细胞类型 T 细胞亚群。 多态性 rs231770 距离 rs3087243 不到 10 kb,但处于连锁平衡(R2 = 0.5)。 rs231770-T 与 CD8+ T 细胞中 CTLA4 mRNA 表达降低与 S100B (CD8S100B) T 细胞表达相似,并且与自身免疫性疾病重症肌无力相关.

通过将等位基因效应与已知与自身免疫性疾病有关的基因表达变化联系起来,可以支持已建立的假设,并确定以前未表征的细胞机制的例子,这些细胞机制是疾病和控制免疫调节的基础。通过关注与自身免疫性疾病相关的基因,评估等位基因效应在不同细胞类型中的差异,突出编码膜、核、细胞质或内质网 (ER) 蛋白的基因。一个例子是 BACH2,一种参与区分记忆 B 和 T 细胞的重要转录因子。分析鉴定了 rs10944479,它以前与甲状腺过氧化物酶抗体阳性和甲状腺功能亢进有关,并且对 CD8NC 细胞中的 BACH2 具有 eQTL 作用。确定了 CD4NC、CD8NC 和 BMem细胞中 BACH2 的 eQTL,尽管每种细胞类型中控制表达的基因座相互独立。分析证明 rs60849819-T 与 BMem 细胞中 T 等位基因纯合的个体中 BACH2 的显著下调相关,并且 rs207253-A 在 CD4NC 细胞中具有类似的作用

另一个深入了解自身免疫性疾病的例子是 BLK。五个 eSNP 被确定为与 CD4NC、具有效应记忆表型 (CD8ET) 的 CD8+ T 细胞、CD8NC、BMem 和 BIN 细胞中的 BLK 表达相关,并且与 RA、SLE、干燥综合征和系统性硬皮病相关。这些基因座之一,rs2736336,导致 BLK 在 BMem 细胞中的差异表达。动态 eQTL 分析表明,等位基因效应在 B 细胞谱系中存在显著差异,在记忆 B 细胞的分位数中观察到最大的遗传效应。 rs2736336 与 SLE 相关,携带自身免疫风险等位基因的拷贝与 B 细胞的过度活化有关,具有增强的 T 细胞共刺激能力。这些结果表明,rs2736336 处的等位基因变异有助于维持 B 淋巴细胞耐受性的个体间变异。 Src 家族酪氨酸激酶,如 BLK,是信号通路的关键组成部分,作用于抗原受体的下游,并决定细胞因抗原参与而接收到的信号强度

最后,试图评估 eQTL 对 OneK1K 队列中细胞组成的影响。 对于每个 eSNP1,测试了个体基因型和细胞类型比例之间的关联。 在研究范围的显著性阈值(p < 3.0 × 10-6)下,确定了五个关联,所有这些关联都会影响 CD8S100B 细胞的比例。 eGene——LSS、S100B、PRMT2、DIP2A——和 PCNT 都位于染色体 21q22 上的 1-Mb 区域内,并且 SNP 彼此之间存在适度到高度连锁不平衡(R2 = 0.31 到 0.97),表明单个variant影响 CD8S100B 细胞的比例。

图片.png

Identification of cell type–specific trans-eQTLs suggests that distal genome regulation is highly cell type–specific

进行了 trans-eQTL 分析,针对所有其他基因的基因表达水平测试每个 cis-eQTL 的 top eSNP,不包括 cis-eGene 和主要组织相容性复合体 (MHC) 基因座的 ±2 Mb 范围内的那些。 在 0.01 的研究范围内,确定了 990 个反式 eQTL(每个 cis-eSNP 的中位数)。 在每种细胞类型中鉴定出的 trans-eGenes 的数量与 cis-eQTLs 的总数弱相关(Spearman 的 r = 0.37)。 与 cis-eGenes 相比,大多数 trans-eGenes 对一种细胞类型具有特异性,并且没有一种在细胞类型中普遍存在

共鉴定了 630 种细胞类型特异性 trans-eQTL 效应。例如,rs2077041 对 CD8ET 细胞中的 ERN1 表达具有顺式作用,C 等位基因降低表达。该基因座在七个反式基因中具有相同的等位基因作用方向。 ERN1 是一种未折叠的蛋白质反应应激传感器,具有蛋白激酶和核糖核酸酶的双重作用,可以以不依赖剪接体的方式催化 XBP1 的剪接。未折叠蛋白质反应的主要转录调节因子 XBP1 的上调可促进蛋白质成熟。携带 rs2077041 的 C 等位基因拷贝的个体具有 XBP1 和 SEC61G、SEC61B 和 SEC11C 的下调,它们参与跨 ER 膜的蛋白质易位、信号肽去除和整合。有趣的是,发现 rs74787440 对自然杀伤 (NK) 细胞中的 ERN1 表达也具有显著的顺式作用。然而,这个相同的variant对 SEC61G 和 SEC61B 有反式效应,但对与 rs2077041 相关的其他基因没有反式效应

当检查染色体 21q22 上包含与细胞组成相关的 eQTL 的基因座时,在该区域发现了许多反式 eQTL,并发现整个基因组中 118 个基因的表达水平与这些 eSNP 相关。 遗传变异影响CD8S100B频率的途径尚不清楚,没有发现反式eGenes的功能途径富集的证据。 在整个测试中,观察到基因组膨胀因子 (l) 为 1.05,表明单细胞 eQTL 对细胞组成的影响有限,尽管更大的样本量会发现其他重要的关联

在已建立的自身免疫风险基因座上鉴定了反式 eQTL,包括 rs7918084-T,这是 NK 细胞中 HHEX 的顺式 eQTL,与特应性哮喘和外周血中的嗜酸性粒细胞计数有关。 HHEX 结合并抑制促凋亡因子 BIM (70),增加 NK 细胞的数量。 在 NK 细胞中,rs7918084-T 在四个染色体上产生 transeQTL 效应,降低 CD160、CMC1、SORBS2、TMEM123 和 C1orf162 的表达。 CD160 是一种刺激性受体,对促进 NK 细胞干扰素-g (IFN-g) 的产生很重要,NK 细胞募集在哮喘动物模型中典型气道嗜酸性粒细胞增多的发展中起关键作用,而哮喘动物模型中 NK 细胞分泌的 IFN-g 与气道炎症减少有关.

气道炎症模型中 IFN-γ 的产生在调节炎症中起着复杂的作用,并且已经表明,作用于气道上皮的 IFN-γ 会限制炎症,因此较低的 IFN-γ 水平可能导致更多与哮喘相关的气道炎症 和阻碍。 从机制上讲,哮喘的 rs7918084-T 风险等位基因可能结合了 HHEX 依赖性顺式作用机制中 NK 细胞增殖的抑制与 NK 细胞通过 CD160 下调产生的 IFN-g 减少,从而产生哮喘的hallmarks。
图片.png

Colocalization of genetic risk variants and single-cell cis-eQTLs identified cell type–specific mechanisms for autoimmune diseases

应用了一种综合方法来确定细胞类型特异性 eQTL 与七种常见自身免疫性疾病的遗传风险位点之间的关系。使用共定位和孟德尔方法测试了每种细胞类型的 cis-eQTL(使用 eSNP1)在下图 C 和 D 中选择用于 cis-QTL 探索的七种自身免疫疾病的 2335 个性状相关 SNP 的富集程度随机化方法。共定位发现 19% 的 cis-eQTL 与 GWAS 风险变异具有相同的因果位点。 eQTL 与 GWAS 基因座的重叠显示出所有疾病(Bonferroni 调整后的 p < 5.1 × 10-4)和所有细胞类型的显著富集。 CD4NC 和 NK 细胞的重叠最高。同样,在 NK 募集 (NKR) 细胞中,炎症性肠病 (IBD)、RA、强直性脊柱炎 (AS) 和克罗恩病 (CD) 的重叠高度富集,而多发性硬化症 (MS)、SLE 的重叠度较低和 T1DM。这些结果突出了这些常见自身免疫性疾病的遗传风险的多遗传效应在细胞水平上的复杂性。

以 MS 为例,确定了 108 个风险基因的重叠 cis-eQTL。 共定位通过 eQTL 确定了 530 个具有共同因果效应的基因-细胞类型对。 MS 疾病风险位点的 eQTL 重叠具有高度细胞类型特异性:在 108 个基因中,69 个仅在单个细胞类型中显示 eQTL 重叠。 另外还有 20 个基因在两种细胞类型中鉴定出 eQTL,其中 10 个在三种细胞类型中具有 eQTL,在四种细胞类型中有 5 个具有 eQTL。 例如,对于在所有 PBMC 类型中表达的基因 RMI2,仅在 CD4NC 细胞中识别出重叠的 eQTL 和 MS 关联。

相比之下,对于 METTL21B,在 CD4NC、CD4ET 和 CD8NC 细胞中观察到重叠的 eQTL。 These results are concordant with our observations of cell type–specific eQTLs and provide further evidence for the genetic risk of common autoimmune diseases acting in a highly cell type–specific manner, where each locus contributes through changes to the function of a limited number of cell types。 尽管如此,总的来说,遗传风险是通过免疫系统赋予的

尽管重叠的 GWAS SNP 和 eQTL 暗示基因表达的改变与疾病发病机制有关,但有两种替代假设。一是GWAS基因座和eQTL具有相同的因果变异,但对这两种表型的影响是独立的——即多效性。第二种解释是有两个独立的因果位点,一个用于 GWAS 关联,另一个用于 eQTL。尽管如此,它们之间仍处于连锁不平衡状态。为了区分这两个假设,实施了孟德尔随机化方法来确定自身免疫性疾病风险位点起作用的因果关系方向的证据。使用来自先前介绍的七种自身免疫性疾病的 GWAS 数据测试了 14 种细胞类型中所有疾病相关variant (p < 1 × 10-8) 和 OneK1K eQTL 之间的因果关系。总共确定了 305 个基因座(研究范围的 FDR < 0.05),其中相关的风险基因座通过一种或多种细胞类型中特定基因表达的变化被确定为具有疾病风险的因果效应,范围从 4 个( T1DM) 至 47 (IBD)。在 305 个基因座中,有 188 个位于 MHC 区域,其中因果效应在细胞类型中表现出普遍存在的效应。其余 117 个位点显示出高度细胞类型特异性因果效应的模式,其中 76 个位点被确定为仅在一种细胞类型中具有因果效应.

同样,以 MS 为例,评估了 90 个风险位点的致病基因和它们作用的细胞类型。其中,能够根据 OneK1K 数据中一种或多种细胞类型中 eQTL 的重叠来测试 57 个风险位点的因果方向。分析确定了 39 个基因的显著(研究范围的 FDR < 0.05)效应。在 MHC 区域,确定了 73 个基因座,其对 MS 风险的因果影响主要通过多种细胞类型中基因表达的变化来起作用。例如,rs9264579 被确定为通过所有 14 种细胞类型中人淋巴细胞抗原 B 类 (HLA-B) 表达的变化起作用,而 rs9501393 仅通过改变 CD4NC 细胞中 SKIV2L 的表达水平而具有因果关系。在 MHC 区域之外,确定了另外 17 个具有因果效应的基因座,它们以更多细胞类型特异性方式起作用。例如,1q23 区域中的 SNP 先前已被确定为与 MS 相关,FCRL3 由位于启动子元件内的 rs7528684 (p = 8.9 × 10-9) 标记。分析将位于近端的 FCRL3 确定为 CD8ET (p = 5.0 × 10-7) 和 BIN (p = 6.6 × 10-7) 细胞中 MS 风险的因果基因.

另一个例子是 3q12 的 MS 风险基因座,它由前导 SNP rs9882971 (p = 6.5 × 10-9) 标记,其中孟德尔随机化分析将 EAF2 确定为 BIN (p = 1.7 × 10-8) 和 BMem ( p = 2.8×10-8) 个细胞。 因为 EAF2 是普遍表达的,我们的结果提供了一个明确的例子,说明了识别细胞类型遗传对基因表达的影响并确定遗传风险因素起作用的细胞的能力。 最后一个例子是 19p13 的风险位点,它由位于 PIK3R2 内含子区域的顶部 SNP rs12984330 (p = 2.8 × 10-9) 标记。 我分析将因果基因确定为 CD8ET 和 NK 细胞中的 MAST3,其位于距先导 SNP 约 65 kb 处。 MAST3 也普遍表达,尽管有已知证据表明风险位点与监管元素重叠,这为进一步探索提供了一个有趣的案例。
图片.png

Discussion

这项研究揭示了循环免疫细胞中细胞类型特异性 eQTL 的等位基因结构。绘制了 14 种细胞类型对基因表达的遗传影响,并在 MHC 基因座外鉴定了 26,000 多个独立的顺式作用 eQTL 和 990 个反式 eQTL。表明这些 eQTLs 中的大多数对基因表达具有等位基因影响,这主要是细胞类型特异性的,但可以复现在两个独立的队列中。确定了遗传基因座如何促成关键免疫功能途径的例子。应用于 B 细胞的谱系动态分析表明 B 细胞成熟标志物的预期变化。它们促进了动态 eQTL 的识别,其中许多尚未通过我们的主要 cis-eQTL 分析识别。通过将 scRNA-seq eQTL 数据与通过 GWAS 鉴定的自身免疫风险位点整合,我们发现了这些位点的致病基因,并解析了这些基因发挥致病作用的细胞。对我们的 eQTL 和疾病相关 SNP 进行了孟德尔随机化和共定位分析,为 eQTL 和疾病风险位点之间的关系提供了补充见解。共定位分析提供了 eQTL 和 GWAS 风险位点之间共享相同因果位点的证据。这种观察可以用因果效应或多效性来解释。孟德尔随机化更进一步,解决了这些替代假设,以提供因果效应方向的证据(即 DNA 到 RNA 到疾病)。

与用于绘制转录调控等位基因结构的替代方法相比,单细胞 eQTL 分析具有多个优势,例如来自bulk RNA-seq 数据的细胞去卷积。 例如,基于 scRNA-seq 的方法可以识别以前未表征和稀有的细胞类型,这些细胞类型很难使用反卷积方法检测。 scRNA-seq 还可以准确量化转录丰度,因为可以使用唯一分子标识符 (UMI) 条形码将扩增的文库折叠回单个转录分子的水平。 尽管如此,仍需要在单细胞分辨率下研究反式作用variant和基因环境相互作用,特别是在免疫系统中,其中暴露于抗原或细胞因子会引发细胞转录谱的变化。
This work brings together genetic epidemiology with scRNA-seq to uncover drivers of interindividual variation in the immune system. Our results demonstrate how segregating genetic variation influences the expression of genes that encode proteins involved in critical immune regulatory and signaling pathways in a cell type–specific manner. Understanding the genetic underpinnings of immune system regulation will have broad implications in the treatment of autoimmune diseases and infections, transplantation, and cancer.

生活很好,有你更好

你可能感兴趣的:(利用10X单细胞eQTL定位确定自身免疫性疾病的细胞类型特异性基因控制)