细胞注释三步走:1)自动注释、2)手动注释、3)验证
首先,自动注释目前分两大类,一类是用预定的‘marker gene’(比如:在某一种类型的细胞中表达某一种特定的基因),我们称marker-based annotation。
另一类是通过和一些已知的细胞类型比较细胞或cluster的基因表达模式来注释。我们称reference-based或Correlation-based annotation
自动注释是一种非常快速的有效的方法,它通过计算机算法或者先前的生物学知识去标记细胞或者细胞cluster。主要的原则就是在单个细胞或细胞cluster中识别与已知细胞类型或状态的特征基因表达信号(模式或信号)相匹配的基因表达信号;然后给细胞或细胞cluster分配相应的标签。标签通常有一个相应的confidence score。
marker-based方法一般会涉及到数据库:SCSig,PanglaoDB,CellMarker等都是常用的marker gene数据库。低reads数的就不适用与marker-based方法。注释成功的关键在于marker gene应该在一个给定的细胞、细胞群或细胞类(例如免疫细胞)中有明确和一致地表达。
注释单个细胞时,有个很可靠的基于marker-base的工具SCINA(semi-supervised category identification and assignment)。SCINA假设每个marker都遵循一个双峰基因表达分布,其中一个峰对应于相关的细胞细胞类型的细胞,而另一个峰包含实验中的其他细胞。假设特定类型的细胞在该分布的上部具有该细胞类型的所有marker的表达,因此需要将仅针对一种细胞类型的marker提供给SCINA作为输入参数。
AUCell是另一个很好的marker-based注释细胞和cluster,AUCell通过降低表达值对每个细胞中的基因进行排序,并根据最活跃(高表达)的标记基因组对细胞进行标记。AUCell最适合具有足够大的标记基因集的细胞类型,这样在每个细胞中可以检测到多个标记。它的优点是可以一次性对一组标记基因进行评分,这可能会比单独检查每个marker gene的方法更敏感。
注释整个cluster时,基因集变异分析(Gene Set Variation analysis, GSVA)是一个不错的工具。GSVA和AUCell工作原理相似,需要给定一个marker gene的数据库作为软件的输入,它可以识别富集在cluster中基因表达谱中的基因集。GSVA的实际优点是它可以在一个操作中注释所有cluster。
Marker-based 自动注释细胞方法的优点是,它们只将标签分配给已知marker相关的细胞,而其他细胞将保持未标记。然而这取决于使用的工具和参数;这些工具的缺点是标记并不适用于所有细胞类型。
另一种是Reference-based,它是基于基于一种“guilt by association”的概念,就是将reference中的细胞或cluster标签转移到query数据中具有类似基因表达谱的未标记细胞或cluster。因此,这种方法只有在高质量和相关注释的reference 细胞数据可用的情况下才可能实现。研究对reference数据执行的原始cluster和注释步骤可以帮助确定reference数据的质量,并确保reference中的错误不会传播到新的数据。特定组织的reference数据可以从公共数据库(如GEO或 the Expression Atlas)或大型细胞图谱项目(如人类细胞图谱 the Human Cell Atlas、the Tabula Muris 或小鼠细胞图谱或其他)中获得,尽管所需的相关细胞注释并不总是容易获得。这些数据库通常包含数十万个细胞和几十种不同的注释细胞类型。
scmap是reference-based的自动注释细胞和cluster的最佳工具之一,无论从注释的准确性还是避免对新细胞类型的错误标注来说都是如此。
Single-CellNet具有较高的准确性,当reference数据中所有的细胞类型都很好地表达时,但如果参考数据不完整或表达较差,则准确性较低。
SingleR的主要优点是工具中包含了一个合理的、通用的reference数据集,但这可能不会像专门匹配到查询数据集的reference那样执行得好。
使用特定软件包进行基于参考的细胞标注的另一种选择是,在选定的参考数据上训练机器学习工具,如支持向量机或随机森林分类器。然后,这些模型可以应用于分类细胞或cluster作为特定的细胞类型的新数据。这些方法的性能优于任何预先打包的自动标记软件工具,但需要大量的计算专业知识才能使用。
另一种reference-based细胞注释方法是使用集成算法(integration)将query数据集与reference数据集整合在一起,从而能够识别跨越两个数据集的cluster。然后,可以将reference标签转移到cluster内的query细胞数据。
这种方法支持识别新的细胞类型、不同的细胞类型和细胞状态的梯度(gradients in cell state),但运行时计算成本较高,并且可能会遇到其他问题,如过整合(overintegration)。
自动注释的方法都可以注释单个细胞(可以是在细胞聚类之前或聚类之后)或者细胞cluster,注释细胞cluster必须要聚类之后,而且每个cluster的基因表达谱是由该cluster内所有细胞的平均表达水平决定。当然能注释单个细胞是最理想的,因为这可以减少丢失细胞与细胞之间的重要的差异。然而,一些数据的细胞转录本reads数很低,因此就不适合用cell-based注释方法,而应该选择cluster-based方法。
基于cluster-based方法是比较容易的,毕竟聚类后的cluster数量要比细胞数少很多,而且基于cluster-based方法也更准确一些,因为它是基于cluster中所有细胞的平均表达水平的估值。但是,不是所有的细胞能够很好的group到相应的cluster中,尤其是对于像发育中的组织这样的动态系统,或者是一些有基因表达渐变(gene expression gradients)的组织。
自动注释的挑战是:很多细胞类型没有很好的基因表达特征,这就导致对细胞注释的不适用或不准确。总体上对于主要的细胞还是很好的,对于亚型可能不是很好鉴定。
自动注释的进一步完善(refine)
研究显示自动注释工具的结果千变万化,这取决于需要注释的细胞类型的数据集和基因表达谱的特殊性。例如,区分T细胞和B细胞相对简单,但自动工具有时无法准确区分CD8+毒性T细胞和NK自然杀伤细胞(图3)。因此,我们建议对单个数据集使用多个具有多个可用标记基因数据库的多个互补注释工具。
当对一个数据集应用多个细胞注释方法时,细胞或cluster将获得多个(有时相互冲突的)细胞类型标签。如果所有标签都一致,那么细胞或cluster上的一组注释可以很容易地解析为单个标签。如果存在冲突,大多数工具都提供标签confidence score,可用于识别单个高分标签。然而,不同工具之间的confidence score并不标准化,因此它们之间往往没有可比性。冲突也可以通过多数原则的方法来解决,就是选择最频繁的标签(图4),或者按照方法之间的一致性百分比。如果不能确定任何标签,则必须手动注释细胞或cluster。
cluster中的冲突注释可能反映有关该cluster的重要信息,例如它是否包含细胞亚型。但是,如果不能清楚地定义亚型,则更一般的细胞类型注释可能更合适。例如,如果一个cluster通过不同的方法被标注为调节性T细胞、naive T细胞和辅助T细胞,那么最合适的方法可能是将他们统统指定为“T细胞”。在这种情况下,应该改变原始的聚类参数,以便更好地捕获细胞亚型(后文会提到)。
如果相互冲突的注释不是同一细胞类型的子类型,则聚类可能代表中间细胞状态或基因表达梯度。因为许多自动注释工具都假定是离散的细胞类型,所以它们经常将梯度较大的cluster或细胞分配给明确的端点。然而,梯度往往包含各种表型的细胞;因此,多种方法可以将相同的细胞分配到梯度的不同端点。或者,细胞上的冲突标签也可以表示这个细胞实际上是一个doublet,这种情况可以用doublets检测工具检测出来。
大多数自动注释工具都是用来注释单个细胞的。这种方法的优点是能够识别模糊的细胞类型和细胞梯度,以及独立选择聚类分辨率、特征选择和降维参数。有趣的是,注释结果可以用来反馈这些分析选择。例如,细胞注释可以帮助优化聚类过程,从而为每个细胞类型生成一个cluster。
最后,一个cluster中也许可能有novel细胞,这在reference数据中是没有的。这通常会导致自动注释方法产生的结果差异很大,这就使自动工具注释时信心不足。在这种情况下,必须执行手动注释。
手动注释见下一篇文章