1.单细胞转录组主要应用于:
深入了解组织中的细胞异质性 。
鉴定未知的细胞类型 。
鉴定已知细胞类型的亚型 ,原理是在感兴趣的细胞群中寻找差异基因表达模式。
从稀有细胞群中分离出信号 ,这些信号在普通转录组中很难被分离出来。
给未知Maker的细胞类型推断可能的Maker ,如细胞表面蛋白等。 这个原理是由于单细胞转录组分析中会根据细胞间差异表达的基因进行聚类,这样就可以把对聚类影响最大的基因认为是感兴趣细胞群可能的Maker。
细胞谱系和分化调控的研究 ,例如可以诱导一组干细胞分化,并在不同时间点进行单细胞测序可得到分化各个阶段的“snapshot”。这些 snapshot 可用于推断细胞到达终末分化状态所遵循的轨迹和在每个分支点受到差异调控的关键基因。
2.单细胞的质控
基于液滴的实验可以视为对单个液滴内的单个细胞进行的成千上万次的独立实验,所以必须要对数据进行质量控制(QC)去除低质量数据。而QC是通过使用不同的指标来判断并过滤掉不合格(如技术问题或细胞质量问题等导致的)的数据。
1)为什么要做质控?
因为不同原因(例如细胞损伤,PCR扩增效率等)造成低质量的库(含有较低的counts,较少的表达基因以及高比例的线粒体或者核RNA)会导致下游分析结果不准确:
最常见的是会形成特有的簇(通常是线粒体或者核RNA高比例造成)
破坏种群间的异质性,导致分组不准确(通常是low counts)
正态化中,异常高表达(含有污染的转录本)
2)怎么做质控?
根据counts的总和(total sum)筛选低表达文库
所有细胞内的基因表达量都不为0
筛除高比例spike-in和线粒体的数据
所有筛选都是通过阈值来进行筛选
大致步骤:获取QC矩阵-根据自己的需求确定阈值-移除低质量数据
3)质控指标
QC指标—每个细胞检测到的转录本数量或测序序列比对到参考基因组的比例
QC参数的阈值在不同分析中不一定相同,阈值的设置取决于测序的细胞或组织。
常见的 QC指标是每个细胞的转录本数量或每个细胞能比对到参考基因组的测序序列的百分比。
若细胞的转录本数量低于或高于定义好的阈值,该细胞会被标记为异常细胞并从分析除去;阈值既可以由分析者自定义(例如,细胞的转录本少于20个或者超过5,000),也可以由程序自动判断(例如,转录本总数大于所有细胞平均转录本数目2倍标准差的细胞需要被移除, cells with a sum of trans larger than 2 SDs from the mean are removed )。
因为如果一个细胞包含大量的转录本,可能是由于doublets(即两个或两个以上的细胞悬浮在一个液滴中)造成,这种数据要从分析中除去;如果一个细胞的检测到的转录本数量很少,意味着捕获质量较差,这可能是因为细胞死亡、细胞过早破裂或者是捕获了从细胞中逸出并漂浮在细胞悬液中的随机mRNA。( 单细胞预测Doublets软件包汇总-过渡态细胞是真的吗? )
在确定QC阈值时,必须考虑所分析的组织的 多样性。例如,在设计实验研究血液中转移的癌细胞时,癌细胞的数量相较于正常血细胞的数量而言非常低,因此必须调整QC指标中的 转录本数量( counts of trans ) 。在该组织中血细胞是优势细胞,但与活跃的癌细胞相比,它们的表达却被认为处于相对静止状态,具有相对较低的RNA量。故而如果设置阈值为删除那些转录本数量高于平均值2倍标准差的细胞,癌细胞因为转录活性比较高,就可能会被误认为是 doublets ,并被全部移除。( 生信宝典注:相比于很多人生搬硬套Seurat示例数据中的200,2500的筛选标准,采用n倍标准差是适应性更广的方式,尤其是不关注稀有类型时。如果自己比较了解,还是需要好好看下数据分布再定标准。如果不了解,可以先松后紧,根据最后结果再回来看转录本数目异常的细胞聚类在什么地方再做评判。)
QC指标—线粒体基因的数量
另一个常见的QC参数是 线粒体基因的数量。高比例的线粒体基因表达细胞处于应激状态的指标之一,因此分析中通常需要移除线粒体基因表达占比较高的细胞,因为大多数实验不研究这一类特殊状态的细胞。
但是,与 转录本数量一样,此参数高度依赖于组织类型和所研究的问题。例如,由于心肌细胞的高能量需求,心脏中总mRNA的 30%是线粒体,而低能量需求的组织中占比则为 5%或更少。故而线粒体mRNA占30%在心肌细胞表示健康,但在淋巴细胞表示不正常。( 生信宝典注:这一步筛选也不要受Seurat文档影响太深,参数都是可以改的,只要有合适的原因。最近一期的单细胞培训,这个也是讨论的重点,国内外学者济济一堂讨论这个参数选择。)
QC指标—筛选基因
根据实验的目的,也可以添加 基因特异性的QC指标。在所有细胞内表达量都很低并在细胞类型之间无统计意义的基因,可以考虑设置阈值过滤掉,减少后期的计算量:设置 每个细胞内的基因count阈值 (例如,基因在在每个测序的细胞中,count值都小于5)或设置所有或一个细胞子集中该基因count总和的阈值(例如,所有测序细胞中的基因∑count<=300)。
虽然排除此类基因将加快计算过程,不过可能会丢失一些表达差异很小但对数据差异有贡献的基因。( 生信宝典注:不排除有一些基因表达量比较低,并且较小的变化幅度就可以带来有意义的生物效果。但表达低的基因本身检测的噪音也大,比较难区分哪些是生物差异,哪些是技术差异。私以为,原文这句描述有误。)
3-1.数据标准化和归一化
在分析测序数据时,如果要对多批测序数据进行相互比较,需要消除批次效应。这些批次效应可能是由不可避免的技术差异引起的,例如将样本冷冻存放时间、反复冻融的次数、提取RNA的方法、测序深度等。
研究人员应努力保持这些实验和测序过程中的变量恒定。但是基于液滴的测序还包含数千个单独的细胞实验,因此在标准化时还必须考虑细胞特异性偏差,以便能够将一个细胞与另一个细胞进行比较。
特异性偏差是由mRNA捕获效率引起的,在所有液滴中mRNA分子没有以相同比例被磁珠捕获,这被称为 “dropout events” ,它也是数据稀疏的主要原因,数据稀疏将在下一段深入讨论。
此外在bulk RNA测序中,需要被标准化的多批数据几乎来自相似的生物材料(例如将血细胞与血细胞进行比较),但是在单细胞测序中,单个细胞并不属于同一类型,这就需要调整标准化的参数以保留细胞间差异,同时还要消除技术差异带来的批次效应和细胞特异性偏差。( DESeq2差异基因分析和批次效应移除 )
mRNA捕获效率很低(例如,DropSeq被认为最多能捕获每个细胞 10%左右的mRNA),这是液滴型单细胞测序数据的分析面临的最大挑战。由于这些 “dropout events” ,DGE矩阵大部分数据都会是0,这就是数据稀疏了。因此在解释数据之前,标准化和归一化至关重要。不过,这需要假设细胞在生物学上不需要严格准确( Unfortunately, this requires making assumptions about the cells that can be biologically inaccurate )。
一种可接受的标准化测序数据的方法是利用管家基因进行比较。
首先基于文献资料和对测序的生物样品的了解,选择一个管家基因用于后续标准化。假定所选的管家基因在所有细胞中均以相同的水平表达,然后对测序数据进行归一化使所选的管家基因的表达水平在所有细胞中均相等。( 什么?你做的差异基因方法不合适? )
但是这个方法也可能不准确,因为这些持家基因在不同细胞中表达量并不总是一致的。另一个思路是基于在所有或一部分细胞中所有表达无差异的基因进行标准化。这一方法 基于所有细胞或部分细胞之间表达无差异的所有基因均在所有或部分细胞中均等表达的假设进行归一化,并推断出每个细胞的归一化因子来标准化转录本的计数。
3-2.正态化
为什么要做正态化数据?
因为技术原因(例如PCR扩增效率等)造成的数据偏差会导致下游分析结果不准确,所以需要进行正态化校正
正态化等于移除批次效应么?
答案是不,正态化只能考虑技术偏好性,而批次效应还需要考虑不同批次间生物样本的差异
怎么正态化数据?
通过每个细胞的size factor来处理数据
size factor:每个细胞都有自己的偏好性(例如PCR扩增效率不同),通过该细胞的均值比而等比例缩放所有基因。
选取什么软件?
不同的工具有不同的计算size factor的方法:
最简单的就是将所有细胞的基因表达量作为库的total counts,可以用scater包的librarySizeFactors
通过反卷积处理数据,可以用scran包的calculateSumFactors
通过spike-in处理数据,可以用scRNAseq包的computeSpikeFactors
最后通过scater包的logNormCounts来log+正态化数据
4.降维和可视化 PCA
对基因表达谱标准化后,应用无偏聚类的算法可以确定哪些细胞更为相似。
Principal component analysis(PCA) 通常是首选的聚类算法,因为它是一种相对简单的线性降维算法,可以预测多维数据的相关性,具体的在单细胞分析中指只需要依赖高可变基因的表达谱就可以预测细胞间的相似关系。
PCA把相关的基因合并到 “metagene” 或主成分(PC)中。PC1解释最大的数据差异,具有最大的标准差(例如对于一个实验,细胞之间30%的差异由定义了PC1的基因解释),PC2解释了数据的第二大部分差异(例如,细胞之间20%的差异可归因于PC2中的基因,而8%则归因于PC3中的基因),然后依此类推,简单来说PC的排名就是解释数据差异贡献的顺序,其中PC1是排名最高的PC,同时也说明PC排名越低,对解释数据差异的贡献就越小。
关于PCA的解释,还是推荐我们的文章:
使用排名较低的PC一般都没什么好处,因为它既增加了计算量,又几乎没有将任何信息添加到细胞间差异的展示中。因此,决定用于可视化的PC数非常重要。常用的判断方式就是绘制 knee 图或 elbow 图,如下图所示。
图中展示了每个主成分的标准差,代表每个PC对数据差异解释的贡献度。PC4、PC5和PC6都在拐点附近,说明推荐使用前四个、前五个和前六个主成分用于后续分析。
t-SNE
t-Distributed stochastic neighbor embedding(t-SNE) 是一种常见的可视化方法。
它使用机器学习的算法来降低维数,非常适合将高维数据放到二维或三维空间中可视化展示,并且不会丢失细胞之间的相对距离的信息。
例如,如果发现用七个PC可以很好地表示细胞的多样性,就得需要七个轴或维度来展示细胞的空间分布。t-SNE能维持细胞在七维空间的关系并在二维图上展示细胞,所以在七维图上相邻的细胞在二维图上仍然相邻。同时PCA分析是线性的,t-SNE是非线性降维方法。( 还在用PCA降维?快学学大牛最爱的t-SNE算法吧(附Python/R代码) )
注意事项:有关数据生成效率和可替代的单细胞平台
在本篇综述中讨论的计算方法主要是用于基于液滴的分离方法,例如DropSeq和Chromium 10X。
不过大多数单细胞测序平台都是用特异的DNA barcode标记每个细胞的mRNA,从而得到每个细胞的基因表达信息的,所以上述介绍的类似的原理和算法也可用于其他方法的数据集。但是要注意不同平台之间始终存在着技术的区别或仪器的差异。
例如,在SCI-Seq中,先使用酒精固定细胞,使其具有渗透性,再使用流式细胞仪对固定的细胞进行分选,最后将特定数量的细胞分配到多孔板的每个孔中(见表1)。
每个孔中细胞的mRNA均通过反转录结合了该孔特有的寡核苷酸,然后合并所有孔中的细胞,并以较低的密度对细胞进行另一轮荧光激活细胞分选(FACS),然后添加第二个独特的孔特异性barcode,为每个细胞创建唯一的 barcode组合。此过程可以再次重复,帮助降低同一barcode的组合标记两个细胞的可能性。
这种barcode组合标记单个细胞的方法需要专门的算法来得到DGE矩阵,因为与基于液滴的方法相比,单个细胞不是由单个barcode确定,而是由barcode的特定组合确定的。值得注意的是,由于这种方法至少需要两轮细胞分选,可能会对细胞产生更大的影响并且影响基因的表达。
另一个示例是设置转录本/细胞参数的数目以排除doublets,因为每种方法都会有不同的doublets比例。
在Fluidigm C1系统中,单个细胞被隔离在特定大小的区室捕获,在隔离的中等大小的96-区室中对细胞进行显微镜检查后,doublets的比例从7%下降至3%。这个比例没有为0是因为细胞有时会在隔离室中相互堆叠,使它们看起来像单个细胞,显微镜检查就无法发现这种堆叠的细胞。
如果经显微镜检查后还有3%以上的细胞或未经检查的数据中有7%的以上的细胞的转录本的数量显著更高(例如比转录本的平均值高2倍的标准差以上),这表明可能这批细胞是由少数的有转录活性细胞和大多数的无转录活性的细胞组成,或者可能是由于doublets的比例很高,如果是在这种情况,可能需要换更小的隔离室来选择细胞了。
当前主流的单细胞分析流程是以细胞之间表达差异最大的基因为基础。这有助于发现未知细胞类型的基因marker。但是如果研究人员打算研究非常相似的细胞类型,或想从一种主要细胞类型中找到亚型,则可以在分析之前对这些细胞进行分选和增加感兴趣的细胞数量,从而提高分析精度。( 单细胞分群后,怎么找到Marker基因定义每一类群? )
即使荧光激活细胞分选(FACS)被证明对基因表达的影响很小,分选仍延长了细胞不在最佳培养条件下而在单细胞悬浮液中的时间,这可能会对细胞造成影响并可能改变mRNA和线粒体mRNA的表达。此外,使细胞通过小区室、微流控分选仪或细胞分选仪会导致应激反应和影响对应激更敏感和更容易死亡的一些细胞类型。因此,在基于液滴的单细胞测序实验中,自身比较脆弱的细胞亚型等可能很难被发现,特别是如果在单细胞分离之前对细胞进行了分选。
5.结论
在本篇综述中讨论了一些重要概念,这些概念在单细胞基因表达数据分析和根据细胞类型或条件来选择参数非常重要。另外还提供了一些其他类型技术的示例,使得分析可以用于基于非液滴的单细胞测序数据。
分析流程首先从原始测序文件生成包含每个细胞的基因计数DGE矩阵开始;接下来通过QC除去可能由于doublets和细胞应激等产生的错误细胞;再进行标准化和归一化解决不可比的问题(由mRNA捕获率低导致);然后基于细胞间高可变的基因进行降维和聚类;最后在二维或三维空间上展示数据中每个细胞与其他细胞的相关性