2022-07-17

Nat Biotech | 单细胞全长转录组分析新方法:实现廉价和高通量

原创 huacishu 图灵基因 2022-07-16 08:36 发表于江苏

收录于合集#前沿生物大数据分析

撰文:huacishu

IF=68.164

推荐度:⭐⭐⭐⭐⭐

亮点:

1、作者开发了VASA-seq程序,这是一种能够对单细胞的全长转录组进行测序的新技术,其在可扩展性、敏感性、基因组覆盖率检测方面具有明显的优势;

2、VASA-seq在基于平板(VASA-plate)和基于液滴微流控(VASA-drop)的流程中都保持了卓越性能,使得高通量单细胞全长转录组分析成为可能;

3、VASA-seq涉及的成本较低,这就使廉价、大规模、深入的单细胞转录组分析成为可能。


荷兰皇家艺术和科学院Alexander van Oudenaarden教授课题组在国际知名期刊Nat Biotechnol在线发表题为“High-throughput total RNA sequencing in single cells using VASA-seq”的论文。大多数单细胞转录组测序方法扩增多聚腺苷化转录物的末端,仅能捕获总细胞转录组的一小部分。这就忽略了许多长非编码、短非编码和非多聚腺苷化蛋白质编码转录本的检测,并阻碍了选择性剪接分析。因此,作者开发了VASA-seq来检测单个细胞中的总转录组,这是通过在细胞裂解后对所有RNA分子进行片段化来实现的。该方法与平板和液滴微流控兼容。在原肠胚形成和早期器官发生期间,将VASA-seq应用于发育中的小鼠胚胎中的30000多个单细胞。通过分析整个单细胞转录组的动态,作者发现了细胞类型标记,其中许多基于非编码RNA,并通过检测非多聚腺苷组蛋白基因进行了体内细胞周期分析。RNA速度表征得到改善,可以准确地追溯血液成熟轨迹。此外,VASA-seq数据对哺乳动物发育过程中的选择性剪接进行了全面分析,发现了血液发育和心脏形态发生过程中的大量重排。


在过去十年中,单细胞RNA测序(scRNA-seq)改变了对细胞复杂性的理解。最初的技术被应用于少量单个细胞,随后被应用于液滴微流控,从而对数千到数百万个单个细胞进行采样。虽然最先进的scRNA-seq方法足够敏感,可以高精度地量化和确定细胞状态,但大多数方法依赖于将寡核苷酸引物与多聚腺苷转录物的poly(A)序列杂交,以捕获RNA和合成互补DNA(cDNA)。这导致检测到紧邻poly(A)尾部或转录物5′端的短片段(约400-600碱基对),因此,未检测到多聚腺苷酸化RNA分子中的剩余序列和非多聚腺苷酸化转录物。这可以防止非编码RNA的差异表达和选择性剪接(AS)和选择性启动子(AP)使用分析。全长转录组测序方法可以在单细胞分辨率下对多聚腺苷化RNA物种进行分析,但由于整个基因体缺乏唯一分子标识符(UMI)信息,剪接事件的精确定量受到阻碍。

为了克服这些挑战,作者开发了VASA-seq,该分析以平板和液滴微流控格式捕获非多聚腺苷和多聚腺苷转录物。首先使用培养细胞对照最先进的方法对VASA-seq进行基准测试。接下来,使用VASA-seq从发育阶段的小鼠植入后胚胎中采集了30000多个单细胞样本。通过在单细胞分辨率下表征总转录组来提供哺乳动物植入后发育的全面分析。最后,使用全长覆盖率来确定细胞类型特异性剪接模式,重点是心脏形态发生和血液发育。综上所述,VASA-seq是一种敏感且可扩展的单细胞技术,它揭示了生物信息,而这些信息是依赖于当前以mRNA末端为中心的技术无法实现的。

VASA-seq能够使用平板或液滴检测单个细胞中的非多聚腺苷酸化和多聚腺苷酸化转录物

VASA-seq方案的第一步需要从单细胞裂解物中裂解RNA分子,然后进行末端修复,从而能够从条形码寡核苷酸探针合成cDNA。使用体外转录扩增条形码cDNA,随后耗尽扩增的核糖体RNA。VASA-seq的最后阶段类似于CEL-seq(图1a)。将VASA-seq流程调整为平板(VASA-plate)和液滴微流控(VASA-drop)格式。另一方面,VASA-seq可用于大规模细胞群表征,具有节约时间和节省试剂成本的优点。对于该工作流程,优化了三种微流控芯片设备,以便在高通量下运行反应(图1b-1c)。然后对液滴进行去乳化和处理,以进行下游文库制备。

VASA-seq的性能评估

为了验证在使用VASA-drop进行微流控处理的整个连续步骤中液滴室的完整性,用小鼠胚胎干细胞(mESCs)和人类HEK293T细胞进行了物种混合实验,结果显示异型双倍率为3.08%(图1d)。然后,将VASA-seq方法与广泛使用液滴平台以及使用HEK293T细胞的高灵敏度Smart-seq和total RNA-seq Smart-seq全平板工作流程进行了比较(图1e,f)。VASA-drop和VASA-plate在蛋白质编码基因的整个体内均表现出均匀的覆盖(图1e)。接下来,对每种方法的HEK293T数据集进行采样,以确定每种方法对所有注释基因的基因检测灵敏度和饱和率。VASA-drop显示出最高的灵敏度,其次是VASA平板,在每个细胞75000个修剪读取的测序深度下,每个细胞分别检测到9825±280和9480±1252个基因(图1f)。同样,两种VASA-seq工作流程均显示出对蛋白质编码基因的优越性。总的来说,VASA-seq将液滴微流控平台提供的数据处理量、Smart-seq3方法的高灵敏度以及Smart-seq total在单个实验工作流中提供的非编码RNA的广谱捕获结合在一起。

VASA-seq扩展了小鼠胚胎中细胞类型特异性标记基因

接下来,利用这些优势来扩展和改进当前的小鼠发育图谱。使用VASA-seq对小鼠胚胎植入后的E6.5, E7.5, E8.5和E9.5的33,662个单细胞进行了测序,扩展和改进了当前的小鼠发育图谱研究(图2a)。直接将植入后E6.5、E7.5和E8.5的VASA-seq数据集与使用10x Chromium平台生成的参考数据集进行比较。相应地,VASA-seq检测到的蛋白质编码转录物比例略低,但lncRNAs和转录因子(TFs)的检测水平约高出2-3倍,而sncRNAs仅在VASA-seq数据集中捕获(图2b)。总的来说,大多数基因在这两种方法中跨时间点进行了鉴定(70.8–76.2%)(图2c)。为了探索总scRNA序列图谱是否为不同的细胞类型提供了更多的标记基因,作者确定了存在于VASA-seq和10x Chromium中的一组等效细胞簇,并通过差异基因表达分析对其进行比较(图2d,e)。总的来说,VASA-seq检测到更多的差异上调(图2f,g)。这些结果表明,VASA-seq可以扩展已知标记基因的列表,尤其是对于未拼接的蛋白质编码和lncRNA基因。

组蛋白基因作为循环细胞的体内标记物

为了进一步识别VASA-seq固有的基因特征,通过比较等效聚类和时间点上所有基因的平均表达值来进行差异基因表达分析。该分析确定了在VASA-seq中表达较高的基因子集,其中许多是典型组蛋白基因(图3a)。作者推断组蛋白基因表达可以进一步用于确定细胞周期状态,因为大多数标准组蛋白基因在S期强烈上调。每个细胞的总组蛋白基因表达直方图显示VASA-seq呈双峰分布(图3b)。使用标准细胞周期基因表达检测S期与组蛋白含量测量不重叠,说明其有利于在总RNA序列数据集中分配细胞周期(图3c)。组蛋白表达在VASA-seq数据集中的双峰分布使细胞能够分类为S期(高总组蛋白表达)或非S期(低总组蛋白表达)(图3d)。使用Leiden算法对回归数据进行聚类,并根据差异基因表达获得的标记为每个聚类分配细胞类型注释(图3e)。小鼠胚胎中每种细胞类型的S期细胞比例为65±11%。然而,一些细胞类型的S期细胞比例较高,如晚期原始红细胞(84%),而结节细胞和原始心管(PHT)细胞的循环细胞比例较低,分别有20%和30%的细胞处于S期(图3f),这与使用细胞周期报告细胞系获得的结果一致。作者还探讨了在所探测的发育时间点上,特定细胞类型的S期细胞百分比是否发生变化。作者确定了在三个连续采样的时间点中每个时间点至少有30个细胞的七种细胞类型。在这个亚群中,只有外胚层的S期细胞比例从E6.5到E8.5没有变化(图3g)。其他六种细胞类型在不同时间点的S期细胞数量减少(图3g)。此外,还进行了不同细胞类型的组蛋白基因表达差异分析。作者发现10个单注释基因(图3h)和14个多注释基因在至少一种细胞类型中显著上调。一些组蛋白基因表现出生殖层或细胞类型特异性表达(图3i)。综上所述,VASA-seq检测到大量组蛋白基因,使整个数据集能够进行细胞周期和细胞类型特异性组蛋白测定。

VASA-seq允许改进RNA速度估计

使用VASA-seq检测到的大量未拼接转录物表明,使用每个基因的未拼接与拼接计数的比率计算的RNA速度谱可以使用该方法来增强。因此,在随机模式下计算了所有四个时间点(E6.5–E9.5)上所有细胞的速度和置信区间。速度矢量方向遵循UMAP中的连续时间点和细胞类型进展,重现了先前在发育中的小鼠胚胎中表征的轨迹(图4a)。使用E6.5、E7.5和E8.5时间点对这两个数据集重复分析,VASA-seq的RNA速度矢量总体上具有更高的置信度指标(0.84±0.12)(图4b)。接下来,提取了对RNA速度载体有显著贡献的基因数量。作者发现,大多数重要基因在方法之间是共享的(1492)。然而,VASA-seq检测到大量额外的基因(1069),这些基因对RNA速度载体有影响(图4c)。为了确定这些测量是否能够在地图集中实现更准确的轨迹预测,将数据集的速度向量投影到UMAP上,跨越开发时间点E6.5、E7.5和E8.5。该分析揭示了血液成熟过程中的不同轨迹(图4e),这在数据集(图4a)中没有观察到。使用血细胞类型的动力学建模进行的潜伏期预测进一步突出了数据集的轨迹不一致性(图4f,g)。VASA-seq没有重复这些观察结果,它准确地报告了物理采样时间点的血液成熟情况(图4h)。这些发现强调了使用VASA-seq进行更灵敏的RNA速度测量的好处,可以确定跨细胞类型的轨迹。因此,VASA-seq能够更好地重建指导分化轨迹和识别新基因表达动力学的RNA速度载体。

AS在小鼠原肠胚形成和早期器官发生中的综合分析

使用VASA-seq大规模分析全长转录的能力允许通过量化非重叠外显子部分(本文称为“剪接节点”)的包含率跨细胞类型识别AS模式。每个剪接节点与不同类型的AS、选择性转录起始位点或选择性多聚腺苷酸化事件相关,其包含率计算为(ψ)值中的剪接百分比,通过取支持包含给定剪接节点的读取比率来量化(图5)。作者发现45.8%的DISN是核心外显子(CE)节点,对应于参与外显子跳跃的盒式外显子,这是脊椎动物中最丰富的AS事件类型。与心脏形态发生、早期原肠胚形成、胚胎外组织和血液发育相关的细胞类型进行比较的比例过高,表明AS广泛参与这些过程。进一步的交叉分析表明,在不同的比较中反复检测到差异剪接节点。在共享细胞簇的比较中发现了一组最大的常见DISN,例如P1/P3/P6或P6/P13/P14,它们都对应于参与心脏发育的细胞类型(图5e)。为了进一步了解与细胞类型相关的全局剪接模式,作者确定了具有与其他细胞类型严重偏离的ψ值的剪接节点,并将其表示为剪接节点标记(SNM)(图5f)。总的来说,作者鉴定了996个单核苷酸多态性,其中27.7%也被检测到为非特异性单核苷酸多态性。综上所述,研究表明,使用VASA-seq对转录本进行跨长度测序,并具有较高的细胞覆盖率,能够在小鼠发育过程中识别广泛的AS模式。

AS对血液和心脏相关细胞类型的分析

在所有细胞类型中,与第一心脏区域(FHF)相比,PHT显示出相当大的AS特征。这些变化发生时,心脏经历广泛的形态变化,由E7.5处的FHF和第二心脏区域(SHF)组成,随后在E8.0处重新排列形成PHT(图6a)。除了RBP基因表达的变化外,Rbfox2的一对相互排斥的外显子是FHF与PHT比较中发现的最显著的DISN之一(图6b)。作者的结果表明,B40和M43分别优先包含在FHF和PHT细胞中,这与之前的发现一致。这些剪接事件是PTBP1和RBFOX2协调的平滑肌和横纹肌程序之间协调过渡的一部分。这种转变是沿着包括早期外胚层(ECE)、FHF和PHT(图6c)的分化轨迹捕获的,这也突出了调节蛋白质与肌动蛋白和肌钙蛋白相互作用的N-(Tpm1_14,外显子1b)和C-(Tpm1_32,外显子9b)末端的开关。由于Tpm1具有许多细胞类型特异性亚型,作者进一步在UMAP上可视化了上述剪接节点的单细胞ψ值,这显示了整个图谱中的细胞类型的特异性(图6d)。为了确定是否能够识别介导这种重排的DISN,在E7.5(早期祖细胞,原始红细胞)和E9.5(早期分化原红细胞,ProE)的红细胞之间进行了成对差异剪接分析。分析发现210个DISN,表明广泛的跨膜细胞骨架蛋白重排(图6f)。Epb41是红细胞细胞骨架的核心成员,在不同时间点逐渐排除外显子(Epb41_30)(图6g)。Add1与α-和β-血影蛋白结合并覆盖肌动蛋白以支持膜结合细胞骨架,显示在E9.5处包含过早终止密码子(Add1_37),因此排除了C末端钙调蛋白结合域,否则会在钙刺激下破坏其与血影蛋白和F-肌动蛋白的相互作用(图6h)。Ank1将膜连接到潜在的血影蛋白-肌动蛋白丝,直接影响其一个固有的无序区域(图6i),该区域主要包含翻译后修饰和蛋白质-蛋白质相互作用位点。已鉴定的细胞骨架剪接重排伴随着RBP中已知参与终末红细胞生成的AS基序的检测(图6g)。例如,Mbnl1显示了核定位信号的外显子(Mbnl1_37)编码(图6j)。该外显子的核定位信号跳过导致其定位在细胞核和细胞质中,而不是仅定位在细胞核中,可能影响早期红系祖细胞分化中描述的AS事件。这些结果表明,VASA-seq可以通过跨细胞类型测量AS来告知细胞类型特异性基因功能。

小结

VASA-seq是一种能够对单细胞的全长转录组进行测序的新技术,其在可扩展性、敏感性、基因组覆盖率检测方面具有明显的优势。此外,该方法在基于平板(VASA-plate)和基于液滴微流控(VASA-drop)的流程中都保持了卓越性能,使得高通量单细胞全长转录组分析成为可能。更为重要的是,VASA-seq方法涉及的试剂成本较低,不依赖其他商业试剂盒,使廉价、大规模、深入的单细胞转录组分析成为可能。

教授介绍


Alexander van Oudenaarden教授是Hubrecht研究所(KNAW)的主任和组长,也是乌得勒支大学科学院和医学院的基因调控定量生物学教授。他的研究小组使用先进的(光)显微镜和测序技术来研究单个细胞。他是麻省理工学院(MIT)物理学和生物学教授。他的团队结合了发展生物学、分子生物学、物理学、数学和计算机科学的技术,其中部分技术是由他们自己开发的。他于1998年获得博士学位,并获得荷兰凝聚态物理领域最佳博士研究奖。1998年至1999年,他在斯坦福大学担任博士后研究员。他于2000年加入麻省理工学院。2001年,他获得了美国国家科学基金会职业奖。他于2004年升任副教授,2008年升任麻省理工学院(MIT)正教授。2009年至2012年,他担任麻省理工学院NIH/NCI资助的物理科学肿瘤中心主任。2012年,他开始担任Hubrecht研究所所长。2014年,他成为荷兰皇家艺术与科学学院的成员。

参考文献

Salmen F, De Jonghe J, Kaminski TS, et al. High-throughput total RNA sequencing in single cells using VASA-seq. Nat Biotechnol. 2022;10.1038/s41587-022-01361-8. doi:10.1038/s41587-022-01361-8

你可能感兴趣的:(2022-07-17)