十一月文献阅读报告

2019.11 蔡佺佑

文献阅读一

Batch effects in single-cell RNA -sequencing data are corrected by matching mutual nearest neighbors
 Laleh Haghverdi，Aaron T L Lun，Michael D Morgan，John C Marioni
 nature biotechnology

文章摘要

随着单细胞测序数据集规模增大，由于在不同实验室不同时间（指各种不一样的非处理效应的条件差异），产生了批次效应，会导致对数据的整合和解释产生了影响。现有的scRNA-seq分析方法假设批次之间的细胞群体是已知的或相同的，该处理是不准确的。文章提出了一种批次效应校正的策略，基于检测高维表达空间的互近邻（MNN）。该方法不依赖于批次之间预定义或相同的种群组成；相反，只需批次间共享的子集。文章通过模拟和实际的scRNA数据集对方法进行验证，结果表明MNN优于当时的其他算法。在多个基于液滴的单细胞数据集中使用MNN证实了该方法适用于细胞数大的数据集中。

介绍

目前单细胞测序分析价格下降，催生了很多大型的项目比如Human Cell Atlas。对于这些大规模的测序，不可避免的，数据是在不同时间不同操作下分批产生的（甚至于不同方法，不同平台等等）。因此产生的批次效应可能会对原本的生物学效应产生影响，因此在进行下游分析之前，必须进行批次效应校正。

现有的大部分方法都是基于线性回归的，比如limma包中的removeBatchEffect函数；主要用于bulk RNA-seq分析。因此，在scRNA-seq数据应用是基于每个批处理中的细胞种群组成相同的假设。；将批次间的平均基因表达的系统差异归结为技术差异，技术差异是可进行回归分析的。而这些假设在单细胞RNA数据中是有问题的，scRNA数据中心。种群构成并不一致；即使同一细胞类型在不同批次间由于不同的情况其丰度也不一致。因此，基于这些系数的批量校正将导致细胞表达谱的不准确表达，其结果可能比不进行校正更糟。

在批处理效果存在的情况下，数据合并和比较的另一种方法是使用参考数据集中的一组作为标记，将新数据投射到参考数据集上。这个方法的原理是给定参考数据集中一个细胞类型，在新批次的数据集中找到最相似的一个细胞。投影的策略可以通过几种降维的方法：如PCA、tSNE等等。该方法依赖于在参考数据聚中给定的标记点的细胞类型能够覆盖后续的批次中的所有细胞类型；如果后续批次中出现了新的细胞类型，这些新的将不会在新的空间中有投影。

文章提出了基于MNN的算法用于消除批次效应。

结果

匹配互近邻进行批次校正：

MNN的方法通过识别在不同的实验批次或重复之间具有相互相似表达谱的细胞。推断这些细胞在高维基因表达空间中的任何差异都是由批量效应驱动的。校正后多个批次可以合并为一个数据集。

MNN校正的过程通过下图展示出来：

[图片上传失败...(image-add83c-1575015802233)]

图a表示两个批次在高维空间中的批次效应差异；图b通过在两个批次中用MNN的方式构造MNN对；图c表示通过计算获得校正向量；再通过减去校正向量的方式将两个批次合并，得到图d；图e表示后续的新批次进行同样的重复处理直至合并所有批次。

具体步骤如下：

1.将数据按细胞进行余弦标准化；其表达式如下,其中为细胞的表达向量：

2.计算余弦标准化后不同批次细胞间的欧氏距离（等同于计算标准化前数据间的余弦距离，余弦距离由于其在不同批次间的技术差异如测序深度、捕获效率表现出好的稳健性，广泛使用于描述细胞相似性）；

3.找互近邻：这里举了一个简单的例子说明如何寻找互近邻；

假设实验有两个批次，设为1和2；

对于批次1中的细胞，在批次2中找到它的k个最近邻；同样地，对于批次2的细胞也做同样的处理，找到其在批次1中的k个最近邻；

如果来自不同批次的两个细胞互相都在各自的k个最近邻中，则这对细胞为互近邻。

4.利用MNN细胞对的表达信息，计算两两细胞间的基因表达差值，得到表达差异向量，也称为配对特异的批次效应校正向量（pair-specific batch convection vector）。同一种细胞，基因的表达模式应该相同或接近，那么这种表达差异向量就源于批次效应了。

5.计算出来的所有的pair-specific 批次效应校正向量，利用高斯核函数，计算它们的加权平均数作为最后的批次效应校正向量，该向量就是唯一一个，长度为基因的个数。最后将其应用到批次2的所有细胞（不管属不属于MNNs的细胞）中进行批次效应的校正。

关于MNN对有以下三个假定：

1.所有批次中至少都有一个细胞群；

2.批次效应几乎正交于生物子空间（相互独立的意思？）；

3.不同细胞类型之间批次效应的差异远小于生物学效应差异。

问题记录：三个假设意义是什么？生物子空间是如何描述的？如何确保MNN对的两个细胞就是来自于同个细胞群的？

MNN校正在模拟数据上优于现有方法

模拟数据：两个批次的细胞，每个批次包含不同比例的三种细胞类型；

对比：本文基于MNN的方法，limma，ComBat

评估方式：通过tSNE图

合理地去除批次效应应该会形成三个集群，每个集群对应一个细胞类型，这样每个集群都包含来自两个批次的混合细胞。结果表明：除了MNN，其他未校正或用其他方法校正的表达数据至少有一个簇包含来自单个批次的细胞，因此说明批次效应没有完全消除。

[图片上传失败...(image-2a70a5-1575015802233)]

MNN校正在真实数据（造血数据）上优于现有方法

真实数据：不同实验室的不同protocol产生的scRNA测序数据：

第一个采用SMART-seq2；对12周龄雌性小鼠的造血干细胞和祖细胞群中的单细胞进行了分析；使用来自荧光激活细胞分类(FACS)的标记表达谱，将已知的细胞类型标签分配给细胞。标签包括：多能祖细胞、淋巴诱导多能祖细胞、造血干细胞和祖细胞、造血干细胞、普通髓系祖细胞(CMPs)、粒细胞-单核细胞祖细胞(GMPs)、巨核细胞-红细胞祖细胞(MEPs)。
采用大规模并行单细胞测序(MARS-seq)，评估6- 8周龄雌性小鼠骨髓祖细胞的单细胞异质性；同样分配好标签(MEP、GMP、CMP)。

对比：本文基于MNN的方法，limma，ComBat

评估方法：对高变异基因的表达数据进行了t-SNE

只有MNN校正正确地合并了批次之间共享的细胞类型(下图a-d)，即、CMPs、MEPs和GMPs，同时保留底层的分化层次结构(下图e)。表现与模拟数据一致。

[图片上传失败...(image-965749-1575015802233)]

为了确保出现上述这些结果不是由于t-SNE方法的特性导致的，文中使用另一种降维方法重复了分析(PCA)，只使用两个批次之间共有的细胞类型作为分析，见下图f-i。

[图片上传失败...(image-1f70c4-1575015802233)]

补充材料中对这个结果进行了重复抽样分析，证实了该方法的稳健性。

MNN校正在真实数据（胰腺数据集）上优于现有方法

真实数据：人胰腺细胞的四个不同公共数据集的scRNA数据，由SMART2-seq和CEL-seq产生；标签数据来自元数据或者从原文描述中推导出。

对比：本文基于MNN的方法，limma，ComBat

评估方法：对整合的数据进行了t-SNE

由于细胞类型组成在这四个数据集中差异不大，三种方法在细胞类型分组均表现良好；如下图a-d；

[图片上传失败...(image-2dd27-1575015802233)]

然而即使是较小的组成差异，也导致后两者方法将dectal和acinar细胞分错，而MNN则没出现此错误。在补充材料中提供了更多的对于评价聚类及混合状况的方法（如计算细胞类型的平均轮廓宽度来评价聚类质量；用混合熵评价混合效果等等）。同样的，通过重复采样分析验证了方法的稳健性。

MNN校正改善了差异表达分析

通过对MNN校正后的数据进行差异表达分析，对比未校正的数据，可以表明合并数据集是有益的，因为它增加了细胞数量，提高了下游分析(如差异基因表达)的统计能力，从而提供了更多的生物学信息。

MNN校正适用于droplet-based的scRNA技术

数据集：10X平台产生的68000个PBMC细胞及来自4000个不同供体的T细胞；

[图片上传失败...(image-4c36a5-1575015802233)]

[图片上传失败...(image-bc58c2-1575015802233)]

a-b表明在不考虑批处理效应的情况下，对这两个数据集的简单合并说明了PBMC数据中对应的T细胞的分离； c-d说明校正没有对其他细胞造成影响。为了证明方法对于计算机运算需求的可扩展性，从68000个PBMC数据集中采样不同比例的细胞，然后校正每个子样本和4000个T细胞数据，对此进行回归分析(图e)，可以观测到在7000-70000个细胞时，CPU时间呈较好的线性关系。因此，文章方法既符合droplet技术产生的单细胞数据的性质，也符合当前和未来数据集的规模的增加需求。

总结

文章介绍了基于MNN的消除批次效应的方法；文章中对于该方法的几个不同数据集的验证可以借鉴。

文献阅读二

Integrating single-cell transcriptomic data across different conditions, technologies, and species
 Andrew Butler, Paul Hoffman, Peter Smibert, Efthymia Papalexi & Rahul Satija
 nature biotechnology

文献摘要

单细胞分析方法在单个数据集上的应用已经比较成熟；然而，在针对多个数据集的处理问题仍然存在较大挑战。文章介绍了一种基于常见变异源整合scRNA-seq数据集的分析策略，从而能够跨数据集识别共享种群并进行下游比较分析。为了验证新方法的整合能力，分别对两种不同方法下得到的PBMC数据进行整合；对来自人和小鼠的胰腺细胞数据进行处理。结果表明整合分析后统计能力得到增强。新方法促进了对scRNA-seq数据集的一般比较，加深了对不同的细胞状态如何应对扰动、疾病和进化的理解。

介绍

由于和上一篇MNN在同一期的nature biotechnology发表，介绍中同样讲了目前scRNA-seq的应用越来越广泛以及对应的数据整合的挑战。与前一篇有所不同的是，这里提到了对数据的比较，不仅仅是整合同源的，这里希望对健康和疾病来源的数据进行比较，对不同物种的数据进行比较等等。

问题记录：这里的比较是需要对数据进行整合后才能比较吗？有什么优势？

结果

Seurat比对流程概述

[图片上传失败...(image-4c9958-1575015802233)]

图a举了一个小例子说明数据有四种不同类型的细胞，经过加药/不加药两种处理后分别上机测序，得到的数据进行联合，可以看到未经过Seurat整合的数据有明显区分开；

[图片上传失败...(image-e3b672-1575015802233)]

图b描述了Seurat整合数据的大概过程：对两个数据集进行典型相关分析（CCA），可以学习到一个共有的相关结构，通过非线性的warping算法将数据进行低维嵌入，最后得到一个整合好的数据集以进行后续下游分析。

文章后续的验证和MNN大同小异，所以主要关注CCA的原理。

CCA是一类被广泛运用至图像分析、信号处理和基因组学等领域的经典统计学技术，基于凸优化和特征值分解方法，搜索高维度特征的线性组合以使两组或多组数据间具有最小的整体相关性从而实现数据降维和数据内涵结构的准确捕捉。对于CCA的原理，可以这样理解，处理一维数据时，我们经常采用相关系数进行相关性的判断，对于高维数据，这个标准则需要进行一些变动；CCA使用的方法是将多维的X和Y都用线性变换为1维的X'和Y'，然后再使用相关系数来看X'和Y'的相关性。将数据从多维变到1维，也可以理解为CCA是先进行降维，将高维数据降到1维，然后再用相关系数进行相关性的分析。

问题记录：这里也进行了降维操作，他的降维标准与常用的PCA是否有相同？

由文章附录的方法，CCA的算法如下：

输入：维的样本和

输出：的相关系数和的线性向量和

计算的方差,彼此的协方差;
计算矩阵；
采用SVD方法对M进行奇异值分解，得到最大的奇异值，即为相关系数,同时得到最大奇异值对应的左右奇异向量和；
计算线性向量：

在文章中，研究人员假设具有同样细胞类型的两个相互独立的不同sc-RNA-seq数据集可以看做是对同一个转录组的两次抽样，所以两个批次之间具有较高的数据整体相关性。因此，对其进行CCA分析可以使两组数据矩阵从对应于全基因组数千个基因的高维度数据被压缩至对应于前二十项典型关联组分的低维度；而且CCA去除了批次效应之后，对应于细胞状态的生物学特征信息能够特异性地保留。经过处理后的不同批次单细胞数据能够很好地混合在一起，其聚类特征仅由真实的生物学状态所决定。

总结

这篇文章的代码整合进了Seurat V2里面，在此之后，又发表了基于CCA和anchor方法的Seurat V3；文中使用的验证方法与MNN较为相似。对比MNN少了对于运行时间的一个评估。

问题记录：文中使用的CCA方法主要是将矩阵从多维投影到1维，但是这种分解是乘上了一个线性系数，如果是非线性的话，应该如何解决？（在参考文献中看到基于核函数的一些方法；猜测是否可以用核函数将非线性映射到高维线性空间再进行后续CCA？）

文献阅读三

A test metric for assessing single-cell RNA-seq batch correction
 Maren Büttner Zhichao Miao F. Alexander Wolf Sarah A. Teichmann and Fabian J. Theis
 nature methods

文献摘要

单细胞转录组学是研究异质细胞群的通用工具，但与所有基因组学实验一样，批次效应可能会妨碍数据的整合和解释。批次效应校正的成功与否通常是通过对低维嵌入的可视化检查来评估的，这种检查在本质上是不精确的。文章提出了一个用户友好的，鲁棒的和敏感的k近邻批次效应测试(kBET)，用于批次效应效果的量化。文章使用kBET来评估常用的批次回归和标准化方法，并量化它们在保留生物可变性的同时消除批次影响的程度。文章展示了kBET对来自健康供体的外周血单核细胞(PBMCs)数据中的应用，从细胞群体相对比例的变化区分细胞类型特异性的个体间变异。这对未来的数据集成工作具有重要意义，是诸如人类细胞图谱等项目的核心。

介绍

文中介绍了批次效应的产生，提到了如果实验设计得当，生物差异和技术差异是可以很好区分开的。相反的，实验混乱可能将相同条件的细胞分组到相同的测序中，从而将生物学上不同的细胞分离到不同的处理和测序实验中，混淆了生物学和技术差异。如果由于芯片设计的原因，无法进行平衡的实验设计，一种策略是根据每种生物条件生成多个技术重复。

在细胞和基因筛选之后，在scRNA-seq数据集中考虑技术因素是预处理工作流程中的一个关键步骤，并影响潜在感兴趣基因的选择。选择“感兴趣”基因可以消除数据中的噪音，但也决定了数据分析的潜在结果。（比如选择了HVG后的下游分析实际上是会遗漏一些潜在的数据？）此外，scRNA-seq数据中重复的差异可能来自于不同的测序深度:浅层测序深度检测到的基因较少。

结果

文章这部分内容是分别利用kBet在测试数据集和PMBC数据集上不同的批次效应校正软件做出评价并将结果展示说明不同软件的适用性。

总结

不当的批次效应处理可能会对下游产生重大影响；数据集中大量的随机噪声成分主要来自技术实验因素。 kBET引入了一种用于评估批处理校正方法的scRNA-seq批处理效果的非线性度量。在最简单的情况下（技术上的重复均匀），Combat纠正了数据并保留了潜在的生物学特性；在具有更大的批间变异的生物学重复中，例如相同细胞类型的两个独立培养样本，由于Combat对低样本数量的正则化，依然表现良好。许多方法，如ComBat和RUV，最初被设计用于校正bulkRNA数据，但也可以应用于scRNA-seq数据。虽然scRNA-seq数据反映了细胞间的差异性，但由于随机基因表达和数据缺失，这些数据更为稀疏，而批量数据的批次效应校正方法无法解释这一点；而平均位移和方差稳定没有考虑到批间的差异，仅仅解释了数据缺失。dropout和细胞检出率与库大小密切相关（相关性如何？原理是什么？）。由于单细胞数据基因表达中的零包括生物变异和技术变异，因此有几种方法试图通过引入缺失来保留生物信息。对于复杂的组织数据，前面提到的CCA和MNN提供了广义的非线性建模方法来对齐相似的种群。与传统的Combat相比，这两种方法不受种群密度变化的影响。虽然CCA和MNN在文章之前的测试数据（小规模数据集）中没有比线性方法评价好，但它们在未来的大规模数据集成中具有潜力。另外。对于现在数据集大小动辄成千上万个细胞来说，最佳内存使用和有效实现将与精确校正批次效应一样重要。kBET是比较批次处理效应校正方案的工具，不需要预先假设高维数据的统计特性来进行研究。在结论中，作者探讨了正确的实验设计对于数据的可分析性的重要影响。

备忘：正文的方法部分仅讨论了实验过程的分析的各个步骤，具体kBet的实现在文章的补充文件上，大致是先使用二分法对k的取值进行了一个最优化处理，然后利用假设检验的方法提出假设，使用卡方检验检验假设显著性做出判断，暂未具体阅读详细实现，码一下下次继续看

文献阅读四

Integrative single-cell analysis
 Tim Stuart, Rahul Satija
 nature review genetics

文献摘要

近年来，随着单细胞RNA测序技术的成熟，在单个细胞中对遗传、表观遗传、空间、蛋白质组和谱系信息进行分析的新方法也出现了变革。除了计算方面的挑战，这也为跨多种数据类型的整合方法提供了独特的挑战。数据的整合分析可以发现细胞间的模式关系，获取细胞的整体状态信息，产生不同样本不同实验手段整合的数据集。在这篇综述中，作者讨论了在单细胞分辨率下不同数据类型的收集和整合的最新进展，重点是基因表达数据与其他类型的单细胞分析的整合。

介绍

分子生物学、微流体学和纳米技术的最新进展促使了大量的单细胞测序技术的发展。最初的方法侧重于单一模态的测量（比如：DNA测序，RNA表达，染色质可及性）。尽管这些技术已经产生了对细胞多样性和发育的革命性见解，但这种分离是由方法学上的便利所驱动的，限制了深入了解单细胞内生物分子之间关系的能力（目前单一模态分析的一些局限性）。理解这些相互作用是深入理解细胞状态的关键，也是单细胞分析领域的一个挑战。此外，随着数据集的规模和可用性迅速增长，迫切需要能够有效处理显著的批处理效应或个体间差异的新的计算方法对样本进行归一化和联合分析。

[图片上传失败...(image-ed71ec-1575015802233)]

目前单细胞多模态分析的办法如上图所示，可以大致分为三个部分：细胞谱系；细胞状态；轨迹分析（拟时分析）。文章在一个表格中列出了目前单细胞一些单模态和多模态分析方法的汇总。

文章希望能够提出整合单细胞转录组学、基因组学、表观组学与蛋白组学的数据进行统一分析的方法，重点在结合其他数据类型分析scRNA-seq数据，尤其是整合来自于同一细胞的不同类型数据。

单细胞多模态测量方法

这个章节主要介绍了目前如何将scRNA-seq数据和其他手段相结合得到多模态数据的方法，主要分为四种方法进行讨论。

在破坏性分析之前收集细胞信息（与FACS结合）

由于多种scRNA- seq工作流程为了将单个细胞沉积到微滴板利用了荧光激活细胞分选(FACS)。将荧光所表示的蛋白质水平与转录组在同一细胞中关联，以便在测序前收集关于细胞的额外的计数数据。

细胞组分分离

针对上面提到的使用FACS无法分选的部分，需要物理分离或通过不同tag标签分选出不同组分。

文章介绍了G&T-seq的方法：通过加入oligo(dT)特异性分离mRNA同时保留基因组DNA从而实现了基因组转录组平行测序；DR-seq的方法：通过加入barcode特异扩增cDNA序列实现基因组转录组平行测序。这两种平行测序的方法使得单细胞基因表达水平与其对应基因型联系起来，从深层次揭示了单细胞间DNA拷贝数变异与染色体重排对下游mRNA丰度的具体影响。特别指出这些方法适用于研究体细胞基因高度变异的肿瘤组织（这里没有注明是否已有相关应用，可以查找具体应用）。

将细胞信息转换成共同的形式

文章这里的转换成统一形式是指将多种数据类型（蛋白数据/谱系数据/基因表达数据）整合为一个通用型的数据类型。

问题记录：这里提到了与CRISPR-Cas9技术结合的谱系追踪技术，后续可以多关注单细胞技术与其他技术的相结合在实际应用中能解决什么问题？以及有什么缺陷和未解决的问题

从scRNA- seq数据中提取额外信息

主要介绍了scRNA-seq流程除了可以做普通的转录本分析外，还可以进行如体细胞突变、遗传变异、RNA isoform等分析。

多模态数据分析

多模态测序策略正在催生与之相匹配的数据分析方法。多模数据集可以检测到细胞间的细微差异，而单模数据很可能无法做到这一点。由于scRNAseq数据存在dropout，故而它更容易忽略细胞间的细微差别；但与来自同一细胞的其他数据互补分析可以改善这一问题。例如，很难通过scRNA-seq数据区分不同的T细胞亚群，但联合膜蛋白分析则可以显著提高亚群分辨率，同样，RNA+chromatin、RNA+methylation联合可能揭示单个细胞间的调控异质性等等。单细胞多模态数据分析文章中提到了多视图机器学习和建立统计模型等方法进行分析（具体的方法还需参考文章引用到的相关文献）。

问题记录：需要查阅文献了解下联合其他方法进行分析目前提高亚群分辨率等指标有多大提升，是否有从试验技术角度解决单细胞dropout的可能性？

跨实验整合单细胞数据

多重数据集整合以及不同来源和类型的数据集整合部分主要引用了之前的MNN和作者本身开发的Seurat V2的CCA等方法；

空间数据与scRNA数据整合部分，作者主要提出了FISH和scRNA-seq整合：主要关注关键基因的空间分布，获取其空间表达模式，为单个基因建立对应表达模型，利用这些空间表达模型，实现单细胞数据和空间信息数据的整合。文章中提到有两种高分辨率的空间基因表达测定方法：osmFISH和STARmap；可以检测大范围2D或3D组织内单个细胞数十至数百基因表达情况，为研究组织构成与功能提供全新的手段。

记录：对于空间转录组信息等的概念还不是很清楚；码一下后续进行相关方面的阅读

展望

随着单细胞技术的不断发展和成熟，每个细胞可以测量的参数数量和检测到的细胞和分子数量都将不可避免地增加。因此，越来越多的人希望整合不同实验或模态的单细胞数据。作者预计在未来几年内，能够在单个细胞中测量的参数数量将继续增长。纳米孔测序由于能够直接对RNA和DNA进行长时间的测序，并能对核苷酸碱基修饰进行本地检测，因此在多模态单细胞应用中具有很大的前景（纳米孔测序有什么不同？）。进一步的发展可能会看到类似的技术出现，能够检测其他生物分子，如蛋白质。高分辨率空间细胞分析方法的不断改进将使细胞被置于其空间环境中，从而对细胞类型在组织中的排列方式有了重要的了解。最终，通过一系列的实验条件在单个细胞中收集许多不同的数据模式将使我们超越以转录组为中心的细胞视图，并学习细胞的整体表示。通过研究单细胞内多模态数据类型之间的关系，我们可以开始揭示细胞功能的潜在基础，并推断模式之间的因果关系。生物学中一个突出的科学和哲学问题是：什么是细胞类型?如果这个问题有答案，就需要通过对单个细胞进行细致入微的分析，考虑到不同的模式和条件，从而找到答案，就像古老的问题“什么是基因”必须通过跨物种的DNA序列比较分析和多模态生化分析来回答一样。

总结

文章系统地介绍了有关单细胞数据整合的内容；其中大量的单细胞技术由于仍没有深入了解，对其原理、数据类型、测序目的不是十分清晰，需要对文章提到的若干种技术选择重要的搜索相关阅读。

2019-11 文献阅读报告

十一月文献阅读报告

文献阅读一

文章摘要

介绍

结果

匹配互近邻进行批次校正：

MNN校正在模拟数据上优于现有方法

MNN校正在真实数据（造血数据）上优于现有方法

MNN校正在真实数据（胰腺数据集）上优于现有方法

MNN校正改善了差异表达分析

MNN校正适用于droplet-based的scRNA技术

总结

文献阅读二

文献摘要

介绍

结果

Seurat比对流程概述

总结

文献阅读三

文献摘要

介绍

结果

总结

文献阅读四

文献摘要

介绍

单细胞多模态测量方法

在破坏性分析之前收集细胞信息（与FACS结合）

细胞组分分离

将细胞信息转换成共同的形式

从scRNA- seq数据中提取额外信息

多模态数据分析

跨实验整合单细胞数据

展望

总结

你可能感兴趣的:(2019-11 文献阅读报告)