单细胞测序的设计与分析

http://dx.doi.org/10.1016/j.cell.2015.10.039

缩略词表：
fluorescence-activated cell sorting (FACS) —— 流式细胞荧光分选技术
whole-genome amplification (WGA)—— 全基因组扩增技术
multiple displacement amplification (MDA) —— 多重置换扩增
multiple annealing and looping-based amplification cycles（MALBAC）—— 多次退火环状循环扩增技术
micro-well displacement amplification system (MIDAS) —— 微孔置换扩增系统
UMI （Unique molecularidentifier)——特异性分子标签（UMI）

分离单细胞

FASC利用荧光抗体识别细胞表面标记，并且直接分选到96孔板中用于后续研究。
但是，需要的细胞量比较大，有些孔可能出现分选错误。
显微操作，劳动量巨大，不适合单细胞分析。
微流体装置，相比于流式所需的细胞数更少。但是由于微流控芯片的结构固定，将筛选细胞的范围限制在一定面积内。

对比全基因组扩增技术

由于哺乳动物单细胞DNA含量少于10pg，所以全基因组扩增技术对于单细胞测序和微阵列分析至关重要。
目前WGA有以下几种技术：
PCR、MDA、MALBAC

原理介绍
微信公众号：华大智造（WGA）
https://zhuanlan.zhihu.com/p/89776342
MDA采用具有链替代活性的f29 DNA聚合酶等温扩增，扩增子的3'末端与
合成过程中相邻扩增产物的5'端，后者被取代，释放链以进一步扩增。

但是所有方法都会引入基因组覆盖度不均造成的技术伪像。尤其是GC偏差、碱基错配、DNA嵌合体。所以我们应该根据所需的结果选择合适的方法。
例如，基于随机引物PCR的方法可实现高度均匀的扩增，但产量高
仅覆盖基因组的稀疏区域，因此非常适合长度少于长度60 kb的低分辨率拷贝数变异检测。
MDA具有更好的基因组覆盖度，适用于SNP的检测，但是由于MDA复制的高度不均匀性，做CNV检测则有很强的不确定性。
PCR和MDA都会产生嵌合DNA分子会被认为是插入或结构重排。

PCR中结构重排的发生

MDA中嵌合的发生机制
Lasken, R.S., Stockwell, T.B. Mechanism of chimera formation during the Multiple Displacement Amplification reaction. BMC Biotechnol 7, 19 (2007).

MALBAC复制均匀且覆盖度高

illumina的示意图

先进行预扩增，MALBAC引物随机退火至DNA模板。在高温下具有置换活性的聚合酶会放大模板，生成“半扩增子”。随着扩增和退火过程的重复，半扩增子被扩增为完整的扩增子，其3'端与5'端互补。结果，全扩增子末端杂交形成环状结构，抑制了环状扩增子的进一步扩增，而仅半扩增子和基因组DNA经历了扩增。经过5次的预扩增之后进入PCR流程。最终可获得93%的基因组覆盖度和平均25×的测序深度。
与MDA相比提高了复制的均一性，等位基因缺失率大大降低。 (1% for MALBAC versus 31%–65% for MDA )。MALBAC的假阳性率(4 ×10-5）这是由于聚合酶的忠实度较低，可以多用几个细胞做重复以降低假阳性率。MALBAC适用于同样表征的细胞的SNPs和CNVs检测。

MIDAS相比于MDA所需样本量减少1000倍，增加对模板的忠实度，减少污染。纳米孔反应也有这样的作用，假阳性率降低至4×10-9.

WGA之后的定量可由测序或者基因芯片完成。

单细胞基因组测序数据

首先要比对到参考基因组上，参考基因组可以从UCSC genome browser或者ensembl获得。
再比对之前需要检查reads的质量，切除低质量序列以及接头。长度过短的reads也应该舍弃以避免多重比对。之后比对到基因组上保留只比对到一个位置的reads，对于多重比对的reads有两种处理方法。一是舍弃，二是计算权重（每个reads的权重总和为1）。
对于拷贝数变异的检测，将肿瘤细胞和肺肿瘤细胞的拷贝数用归一化因子标准化之后进行比较，通常使用genome analysis toolkit （GATK）。为增加可信度一般会设置重复，另外细胞周期也会对CNV产生影响，应使用G1或G2/M期细胞，避免使用S期细胞。

对比单细胞转录测序技术

单细胞测序面临的主要问题就是获得的遗传物质的量很少，上面我们已经介绍了扩增方法，但是这些方法都存在扩增偏差，这会使不同基因的mRNA的丰度受到影响。
在过去，扩增的单细胞RNA用微阵列芯片检测（2002）。不过目前已经发展出一些灵敏度较高的单细胞测序技术，第一个单细胞测序方案发布于2009 Surani的实验室。最初的扩增方法是利用带有特殊锚定序列的poly(T)引物捕获以及反转录poly（A）RNA，获得的单链cDNA经过多聚腺苷酸化再结合带有特殊锚定序列的poly(T)引物，得到双链cDNA。cDNA通过针对锚定序列的引物进行PCR扩增，在建立文库之前将产物片段化。

三种常见的单细胞测序方式

A. CEL-seq
多聚腺苷酸mRNA被oligo dT引物反转录，该引物含有Illumina P1 接头，细胞条形码，T7启动子，通常还会含有一个UMI。紧接着进行第二条链合成，从T7启动子开始，之后双链cDNA进行片段化，连接上含有Illumina P2接头。对reads的测序开始于mRNA的3‘端。
B. STRT-seq
使用Oligo-dT引物对多聚腺苷酸RNA逆转录，该引物还包含Illumina P1 接头和Pvul 限制性酶切位点。用一段带有Illumina P1 接头、UMI和template switch oligo (TSO)的引物接在转录本的5’端，然后合成双链cDNA。双链cDNA通过与Illumina P1 接头互补的引物扩增，片段化产物，用Tn5转座酶在片段上链接Illumina P2接头以及细胞条形码。3‘端被Pvul限制酶消化，仅保留5’端进行测序。
C. Smart-seq2
使用含有Oligo-dT的PCR引物对多聚腺苷酸RNA逆转录，同样的引物作为TSO的一部分被添加在模板链5‘末端。PCR扩增后，产物片段化，由Tn5转座酶在3’和5‘末端分别加上不同的引物。新一轮的扩增使用Nextera sequencing primers ，这样可以实现全长覆盖，但是没有UMI定量。

此外还有：液滴测序（Drop-seq），可以快速低成本的测多个细胞，并且多个细胞同时出现在一个液滴中也避免了上样量过低对测序造成的影响。
http://www.merrybio.com.cn/blog/Drop-seq.html
https://www.jianshu.com/p/0800a07cfa37

名词解读
UMI
https://www.yunbios.net/UMI-RNA-seq.html
UMIs are stretches of four to ten random nucleotides integrated into a sequencing primer and serve as a random barcode for each mRNA molecule.After sequencing, the amplification bias can be eliminated by counting each label only once instead of the reads derived from all amplicons.
TSO
https://kb.10xgenomics.com/hc/en-us/articles/360001493051-What-is-a-template-switch-oligo-TSO-

为了量化敏感度，我们通常会采用已知浓度的外源spike-in RNA
https://www.youtube.com/watch?v=YVlrzKMJ2uc
加入spike-in的浓度通常为mRNA总数的1%~5%，通常会使用ERCC的产品，这些涉及的RNA比哺乳动物的RNA短，有较短的poly(A)尾，缺乏5’ 帽。

单细胞转录组数据的预处理和比对

单细胞实验的设计
单细胞测序的效力主要取决于2个参数：细胞的数量和测序文库的复杂度。
细胞的数量对高灵敏的分析细胞的组成很重要。尤其是，当我们想通过测几百个细胞去发现一些罕见的细胞类型的时候。此外，由于RNA降解或扩增效率低，许多单细胞样品可能仅产生很少或没有材料，因此应结合成功率的估计值。成功率可通过预实验确定。
第二个参数就是文库的复杂度。由于单细胞测序技术的限制，获得足够的测序深度至关重要。如果转录本通过UMI计数，那么每个转录本应当要至少测3~4次。这样可以确保即使是低表达的基因也可以被量化，并且不会因采样噪声而丢失。为确定一次可以测多少个细胞，我们应当记录在Illumina测序仪单通道上有多大比例的reads可以被比对到转录组上。实际上这个比例低于50%。例如，假设每个细胞已扩增10,000个转录本，且50％的读数可被映射到转录组，则可在Illumina NextSeq机器的单条泳道上以2亿个读数对约2,500个细胞进行测序。其中的一小部分（通常约为10％到20％）将无法通过质量过滤。
为避免批次效应，应遵循适用于批量测序的一般准则。例如，对应于不同条件的单细胞文库不应在独立的泳道上进行测序，而应以相同的比例分布在同一组泳道上。

分析的第一步就是进行质控（fastqc）并修剪(bwa)reads，对于人和鼠来说最终应保留长度>35bp的reads。
在比对到参考基因组之前，应确保barcode\UMI等primer来源的序列都被除去。不过对于1对reads来说，其中一条read保留索引信息，另一条read比对到参考基因组上[见前文图：三种测序方法]。通常，可以将读段映射到基因组，然后通过将基因组的读段与基因模型注释相交来进行表达定量。建议仅保留单一比对的reads。

由于单细胞测序对基因的覆盖度低，不同转录本的鉴定（Cufflinks）成为一个难题。如果异构体的信息对于你的研究不是必须的，你可以把这些异构体合并到同一个基因位点。
除了依照参考文献，更重要的是考虑实验策略。如果我们的测序方法回富集3‘或5’端的序列，那么基因注释的质量就会对实验的里灵敏度产生很大的影响。因为基因模型在转录本的两端可信度较低，改善3‘或5’端注释可能会更好，尤其是对于那些非标准的模式生物。例如，Junker等人运用一种修正的CEL-seq进行长读段低深度测序以精确检测斑马鱼胚胎的3’poly(A)位点。

表达定量和过滤

为得出所有基因的表达水平，PCR重复应当被抹除。细胞的来源取决于细胞条形码的序列，如果在reads中细胞条形码位置的检基读取质量不高，那么我们应该采取容错分配策略。通过汇集所有的条形码直到单个错配位点远离完美匹配的序列。为了应用这一策略，应该保证每个细胞条形码之间至少有2处差别。如果我们的序列含有UMIs那么每个细胞中每个基因的UMI数应该被用以矫正转录本的counts数。

量化

一旦细胞中的所有的reads或者转录本被计数，我们建议滤除reads含量低的细胞。这可能是样品准备过程造成的问题，比如细胞凋亡、应激、不当裂解、RNA降解或者扩增测序的效率较低。每个细胞中reads的总数或者UMIs代表的转录本的数量，最先预示着样本的质量。应该设置阈值以去除read counts分布左尾的细胞，防范由低质量细胞产生的伪像。
spike-in RNA 的表达可以用来鉴别和剔除测序效率不高的样本。由于所有样品的spike-in RNA数量应相同，因此鉴定低产量样品非常简单。

左图显示低样本质量，中间显示测序效率低（每个细胞的spike-in RNA理论上是一样的），右图显示上样量低（spike-inRNA/cellar gene，高比值说明cellar gene 少）

上述方法仅仅是对过滤数据的建议，确切的操作取决于你得到的数据集。例如，在一个数据集中细胞量变化大，那么就只能进行温和的过滤。

数据标准化

down sampling

多种标准化方法见：https://cloud.tencent.com/developer/article/1055911

单细胞测序的生物学应用

鉴别细胞类型

238个来自小鼠小肠的单细胞进行无监督学习，上图为K-means聚类，下图为分层聚类

principal component analysis (PCA)、t-distributed stochastic neighbor embedding (t-SNE)以及其他更复杂的聚类方法都被用来检验细胞类型。批次效应会对聚类产生影响，但是（不同文库的）批次效应可以通过如down sampling等标准化方法移除。

降维算法的应用：t-SNE方法（顶部）解析了数据的局部结构，但倾向于通过与较大聚类的相似性将离群值分组在一起。PCA使数据沿主要变异分散，但是当大量主成分变异较大就会造成使用困难。经典的多维缩放具有良好的点对点距离，可实现尺寸缩减。离群值被分开，但是密集值将会被进一步浓缩

目前对于任何细胞类型的鉴定我们的最大挑战就是对于少于1%的罕见细胞类型的鉴定，这些细胞通常作为离群值出现。目前有例如RaceID等算法应用于罕见细胞类型鉴定。先通过K-means聚类然后鉴定离群值，在这一步骤中，每个基因的细胞间差异会同背景进行比较，与背景相比p值低的视为离群值，再作为新的聚类中心。

RaceID
细胞标志物的鉴定
一旦我们描述了一种新的细胞类型，就可以对数据进一步挖掘找出标记基因以便更好的区别这种细胞，在细胞表面标记或者荧光报告基因的帮助下我们就可以纯化这种细胞。
分化动态的推断
关于单细胞转录组推断细胞类型还可以用于揭示分化轨迹。比较在线虫胚胎发育后续阶段收集的单胚转录组，已经揭示了对三个胚层出现的基因表达变化的见解。更一般而言，如果分析的样品包含所有
在给定细胞谱系的分化阶段，可以推断单细胞转录组的伪时间顺序。一种称为Monocle的现有方法结合了尺寸缩减
用最小的生成树的构造。Monocle采用一种非监督的途径可以推断分支成多个谱系并用于阐明人原代成纤维细胞分化过程中的基因表达动态。另一种更新的方法依赖于使用扩散图定义分化轨迹，并结合了细胞在转录环境中的运动遵循扩散样动力学的想法

扩散映射https://blog.csdn.net/zhouxinxin0202/article/details/79715352