单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(数据分析)

编者按:本文是Illumina团队出的NGS技术在单细胞研究中的应用,坊间以pdf的形式传阅,余以为多有不便,今摘抄于此。版权归原作者所有,侵删,内容仅供学习,更多详细信息请阅读原文。由于是综述文章,引用较多,这里为放方便阅读见,从略。

单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(应用篇一) 主要介绍单细胞技术在癌症、宏基因组学、干细胞、发育生物学、免疫学、神经生物学方面的应用。
单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(应用二),主要介绍单细胞技术在药物发现、生殖健康、微生物生态学和进化、植物生物学、法医学、等位基因 – 特定基因表达方面的应用。
单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(样本制备)

单细胞测序带来数据分析的独特挑战单个哺乳动物细胞包含50,000–300,000个转录本,且各个细胞间的基因表达值存在显著差异。虽然每个单个细胞可表达数十万个转录本,但高达85%的转录本仅有1–100个拷贝。因此,在 scRNA-Seq 中捕获低丰度mRNA转录本并扩增合成的cDNA以确保所有转录本最终在文库中均匀呈现至关重要。

已知丰度的外参定量标准可帮助区分具有生物学意义的基因表达改变导致的技术变异性/噪声。分子索引也可校正测序偏差,而近期对自动样本处理的改进可进一步降低技术变异性。

单细胞分析为生物信息学提供了新方法,因为大量细胞数据分析法可能 不能直接应用于单细胞数据 。——Yalcin等,2016 年

DNA扩增和单细胞DNA-Seq技术的杂峰可通过使用专为此目的设计的计算算法来减少。本节着重描述一些单细胞测序数据分析方法(表 2)。

表2. 单细胞测序数据分析方法总结

名称 算法 数据 描述
Daley 和 Smith 覆盖度 DNA-Seq 使用 Bayes Poisson 模型估计覆盖增益,
测序深度从最初的浅测序升高。
Varbin CNV DNA-Seq 使用可变的面元大小检出 CNV。
SNS CNV DNA-Seq 使用可变的面元大小检出拷贝数。
Xu 等 CNV DNA-Seq 使用简化的负二项分布检出 CNV。
siCHILD 单倍型和 CNV DNA-Seq 通过 haplarithmisis 确定单细胞全基因组的单倍型、CNV 和隔离起源单倍型。
Velvet-SC 组装 DNA-Seq 通过使用带动态阈值的 de Bruijn 图寻找低覆盖度区域。
SPAdes 组装 DNA-Seq 单细胞和多细胞的单细胞组装器
SmashCell 组装注释 DNA-Seq 使用分枝代表不同算法或参数选择的树图,多用于宏基因组学。
Kim 和 Simon 进化树 DNA-Seq 等位基因丢失、突变排序的贝叶斯方法、突变位点之间的时间关系的概似函数。
PyClone 克隆群体 DNA-Seq 在癌症中推论克隆群体结构的统计模型。
Subramanian 和 Schwartz 克隆群体 DNA-Seq 使用 k-mer 计数从单细胞测序数据中了解肿瘤进展的计算方法。
CheckM 基因组质量 DNA-Seq 使用参考基因组树中基因组推论谱系的特异性标记基因估计基因组完整度和污染。
Ji 等 等位基因丢失 DNA-Seq 控制从单细胞扩增数据中检出的由于等位基因丢失产生的假阴性的方法。
GRM 归一化 RNA-Seq 用多项式伽玛回归模型拟合自外参的每百万条映射片段中每千个碱基的转录本所包含的片段(FPKM)数据。
SAMstrt 归一化 RNA-Seq 利用内参对照归一化和估计每个细胞的转录本数量;容忍测序深度中的变异。
BASiCS 鉴定变异基因 RNA-Seq 一种贝叶斯方法,结合外参分子与目标细胞的基因建立模型。
Brennecke 等 鉴定变异基因 RNA-Seq 一种统计方法,可使用户评估所观察到的基因变异是否提供了高生物学变异性的证据。
Kim 等 鉴定变异基因 RNA-Seq 使用外参估计技术噪声相关参数,考虑细胞间变异的差异。
scLVMOEfinder 降噪 RNA-Seq 单细胞潜在变量模型可估计与隐藏因素相关的变异比例以鉴定亚群。
OEfinder 降噪 RNA-Seq 使用正交多项式回归在 Fluidigm C1 平台上鉴定特定位点表达杂峰显著升高的基因。
PCA/t-SNE 亚群 ID RNA-Seq 用于无监管细胞簇的线性 / 非线性降维方法。
ZIFA 亚群 ID RNA-Seq 针对丢失特性建模以改进模拟数据集和生物学数据集的降维方法。
Destiny 亚群 ID RNA-Seq 延伸扩散映射以处理单细胞数据中的零值以并解决采样数据的异质性问题。
SNN-Cliq 亚群 ID RNA-Seq 使用基于共享最近邻相似性图形。图形分割自动鉴定细胞亚组。
RaceID 亚群 ID RNA-Seq 两种技术噪声源:随机抽样(Poissonian)噪声和由于测序效率特性产生的噪声。
SCUBA 亚群 ID RNA-Seq 利用 k- 均值沿二叉树对时间过程数据进行详细分枝事件聚类。
BackSPIN 亚群 ID RNA-Seq 一种基于将点分选到邻域中的分裂双向聚类法。
PAGODA 亚群 ID RNA-Seq 基因集的主要成分分析(PCA)鉴定那些首次PCA 显著超出基因组范围背景预期的基因集。
MAST 差异检测 RNA-Seq 两部分广义线性模型通过参数化随机丢失和双峰表达分布鉴定表达异质性。
SCDE 差异检测 RNA-Seq 单细胞差异表达对丢失使用独立模型,并对差异表达使用贝叶斯模型。
scDD 差异检测 RNA-Seq 贝叶斯模型框架鉴定生物学条件下的表达,且在不同条件下差异分布。
Monocle 伪时间排序 RNA-Seq 使用对降维独立成分分析,并对细胞排序使用最小生成树。
Waterfall 伪时间排序 RNA-Seq 确定 RNA 测序测定的单个细胞表达谱时间顺序的聚类方法。
Sincell 伪时间排序 RNA-Seq 使用评估细胞间相似性的指标和图形构建算法从单细胞数据评估细胞状态分层的方法。
Oscope 伪时间排序 RNA-Seq 使用振荡子之间的共调控信息来确定假定振荡基因和每组样本的循环顺序。
Wanderlust 伪时间排序 RNA-Seq 一种基于图像的轨迹检测算法,基于细胞发育成熟度将其安排到统一轨迹。
Seurat 细胞定位 RNA-Seq 一种计算机策略,通过将 scRNA-Seq数据与原位 RNA 模式整合推断细胞定位。
Achim 等 细胞定位 RNA-Seq 比较细胞的完整特异性加权 mRNA 图谱与源自基因表达图谱的位置基因表达谱。
VDJPuzzle TCR重建 RNA-Seq 重构来自单个抗原特异性 T 细胞的天然 TCRαβ 并将其与单细胞基因表达谱相关联。

参考文献

  • Dong X, Zhang L, Milholland B, et al. Accurate identification of single-nucleotide variants in whole-genome-amplified single cells. Nat Methods. 2017;14:491-493

NGS常用于检测组织基因组DNA中的SNV,但是分析单细胞中的SNV易受到WGA相关杂峰的影响。为克服这一技术挑战,作者开发了单细胞多重置换扩增(SCMDA)以及相关的单细胞变异检出算法SCaller。在本研究中,作者从成纤维细胞克隆中分离了未扩增的基因组DNA。他们还从这些克隆中分离了单个细胞并使用 SCMDA 对单细胞基因组 DNA 进行了扩增。他们利用 HiSeq 2500 和 HiSeq X Ten 系统对经 SCMDA 扩增和未扩增的样本进行了全基因组测序,并使用SCaller对SNV进行了鉴定。通过比较来自单细胞和亲本克隆的SNV,作者证实他们的程序能准确分析单细胞基因组中的 SNV。

Illumina的技术:HiSeq 2500和 HiSeq X Ten 系统

  • Mende DR, Aylward FO, Eppley JM, Nielsen TN and DeLong EF. Improved Environmental Genomes via Integration of Metagenomic and Single-Cell Assemblies. Front Microbiol. 2016;7:143

单细胞基因组已为未培养微生物带来了大量单个基因组草图;但是,扩增步骤期间MDA杂峰导致覆盖不完整以及不均匀。元基因组学数据集不会发生相同序列偏移,但微生物群落的基因组复杂性妨碍了基因组草图的再现。在本研究中,作者研发了一种新的从元基因组学引导的、单细胞扩增基因组装数据生成种群基因组装的新方法。该研究通过完成海洋组1奇古菌门和SAR324类群浮游细菌的单细胞扩增基因组验证了该方法。SAR324类群基因组改进的方法组合揭示了存在多个单细胞扩增基因组中未发现的基因。

Illumina的技术:TruSeq LT Nano Kit、MiSeq系统

  • Fan J, Salathia N, Liu R, et al. Characterizing transcriptional heterogeneity through pathway and gene set overdispersion analysis. Nat Methods. 2016;13:241-244

scRNA-Seq法提供了研究复合组织和疾病的无偏倚方法。但是,数据会发生高水平的技术噪声,并强烈依赖于表达程度。当基于重要生物学差异聚类细胞时,细胞间差异具有挑战性。例如,分割方法(包括k 均值聚类和BackSPIN算法)基于细胞周期分离细胞,而不是组织特异性信号。作者引入通路和基因集过离散分析 (PAGODA) ,通过检测已测量细胞可分类的所有重要的和潜在的重叠通路克服了该挑战。

Illumina的技术:HiSeq 2000系统

  • Ilicic T, Kim JK, Kolodziejczyk AA, et al. Classification of low quality cells from single-cell RNA-seq data. Genome Biol. 2016;17:29

现代单细胞测序技术,尤其那些涉及大规模平行方法的技术,常会分离出受压、破碎或灭活细胞。这些低质量细胞可导致数据杂峰,且必须从分析中将其排除。在本研究中,作者提供了scRNA-Seq的首个工具,可以简单彻底的方式处理并移除低质量细胞。分析流程使用了 20 个高度组织的整合到机器学习算法中的生物学和技术功能集。作者在CD4+ T 细胞、骨髓树突状细胞和小鼠ESC上验证了该方法。方法还定义了视觉上无法检测的低质量细胞的新类型。

Illumina的技术:HiSeq 2000系统

  • Buettner F, Natarajan KN, Casale FP, et al. Computational analysis of cell-to-cell heterogeneity in single-cell RNA-sequencing data reveals hidden subpopulations of cells. Nat Biotechnol. 2015;33: 155-160

scRNA-Seq数据集受固有技术噪声影响,不利于对细胞亚群的鉴定。为克服该困难以及影响基因表达异质性的未知隐藏因素,作者研发了一种模型(scLVM) ,以说明RNA-Seq数据集中未观察到的因素并使用单个小鼠ESC验证其模型。研究还是用HiSeq 2000系统在初始T细胞分化为TH2细胞过程中执行单个T细胞的RNA-Seq。研究将scLVM模型应用到T细胞RNA-Seq数据集并校正细胞周期基因表达。该研究能鉴定通过仅使用非线性 PCA 或 k 均值聚类无法发现的分化中 T 细胞的 2 个亚群。

Illumina的技术:Nextera XT DNA Sample Preparation Kit、HiSeq 2000系统

  • Grun D, Lyubimova A, Kester L, et al. Single-cell messenger RNA sequencing reveals rare intestinal cell types. Nature. 2015;525:251-255

鉴定成分细胞类型对于了解给定器官或组织的功能至关重要。鉴定细胞类型的现有方法涉及基于特定标记成像和分离细胞,但是如果细胞类型稀有(如CSC或CTC)则该方法具有挑战性。在本研究中,作者使用HiSeq 2500 系统对数百个来自小鼠肠类器官的随机选定细胞执行 RNA-Seq。为鉴定类器官内的细胞亚群,研究研发了RaceID,一种在细胞符合群体中鉴定稀有细胞类型的计算方法。研究通过在取样的类器官细胞群鉴定单个激素生成细胞类型验证了该算法,并确定Reg4作为这些稀有肠道内分泌细胞的新标记。最后,研究使用 Reg4 捕获这些稀有细胞,以研究其遗传多样性,确定大量肠道内分泌细胞谱系。

Illumina的技术:HiSeq 2500系统

  • Leng N, Chu LF, Barry C, et al. Oscope identifies oscillatory genes in unsynchronized single-cell RNA-seq experiments. Nat Methods. 2015;12:947-950

scRNA-Seq可在单个细胞群中捕获振荡动力学,并可发现大量测序试验中缺失的振荡。但是,连续RNA-Seq时期数列试验不可行,且对于大多数振荡系统可能无法同步化。先前已研发了Monocle254计算算法来在scRNA-Seq数据中通过几个不同时间点的数据拟时间排序解决该挑战。在本研究中,作者研发了Oscope,一种使用来自非同步细胞的scRNA-Seq数据确定并鉴定振荡基因的转录动力学的计算算法。研究通过将该模型应用到多种 scRNA-SeqIllumina 数据集(包括人 ESC)对 Oscope 进行了验证,且研究发现了与 Fluidigm C1 芯片上的捕获位点和输出孔位置相关的振荡模式。

Illumina的技术:Nextera XT DNA Sample Preparation Kit、HiSeq 2500系统

  • Satija R, Farrell JA, Gennert D, Schier AF and Regev A. Spatial reconstruction of single-cell gene expression data. Nat Biotechnol. 2015;33:495-502

scRNA-Seq是一种发现新细胞类型、了解调控网络和重建发育过程的成熟方法。但是,scRNA-Seq通常涉及来自组织的分离细胞,因此破坏了其自然空间关系。为在scRNA-Seq数据中捕获空间关系,作者研发了Seurat,一种将较小的引导空间指定的“标志”基因集的scRNA-Seq与补充性原位杂交数据结合起来的计算策略。研究通过空间绘制从斑马鱼胚胎分离的851个单个细胞并创建空间模式的全转录组图对Seurat进行了验证。Seurat 可正确定位细胞的罕见亚群,并可绘制空间受限细胞以及表达模式更分散的细胞。

Illumina的技术:Nextera XT DNA Sample Preparation Kit、HiSeq 2500系统

  • Shin J, Berg DA, Zhu Y, et al. Single-Cell RNA-Seq with Waterfall Reveals Molecular Cascades underlying Adult Neurogenesis. Cell Stem Cell. 2015;17:360-372成体干细胞有助于组织发育和再生,但由于细胞异质性带来的挑战,干细胞行为的系统性分子分析仍步履维艰。在本研究中,作者使用scRNA-Seq鉴定成人海马体qNSC的发育动态。研究还研发了一种生物信息学流程,称之为“Waterfall”来沿重构发育轨迹定量单细胞表达数据。scRNA-Seq 和Waterfall的组合确定了成体qNSC 的分子标记,并定义了 qNSC活化和神经发生涉及的分子级联。

Illumina的技术:HiSeq 2500系统

  • Zamani Esteki M, Dimitriadou E, Mateiu L, Melotte C, Van der Aa N, et al. Concurrent whole-genome haplotyping and copy-number profiling of single cells. Am J Hum Genet. 2015;96:894-912

在分析单细胞DNA-Seq数据前,必须将DNA拷贝数异常与WGA杂峰区分开。该要求使得单细胞测序数据DNA拷贝数分析和单倍型分析有难度。在本研究中,作者研发了一种单细胞基因组分析法,可在单细胞全基因组确定单倍型和拷贝数——称为haplarithmisis的程序。方法解读单细胞的SNP等位基因片段,并将这些数据整合到计算工作流程中进行关联疾病变异的归因(siCHILD) 。作者通过对来自人体外受精胚胎的单个淋巴细胞和人分裂球确定单细胞基因组中带有疾病等位基因的单倍型验证了该方法。

Illumina的技术:TruSeq DNA LT Sample Preparation Kit、HumanCytoSNP-12v2.1 BeadChips、HiSeq 2000/2500系统

  • Zhang CZ, Adalsteinsson VA, Francis J, Cornils H, Jung J, et al. Calibrating genomic and allelic coverage bias in single-cell sequencing. Nat Commun. 2015;6:6822

在单细胞DNA-Seq中,序列杂峰由必要的DNA扩增法引入,如MDA255和 MALBAC。256在本研究中,作者开发了一种新的统计方法,用于定量评估由于WGA产生的单细胞DNA扩增偏差。通过比较MDA和MALBAC DNA文库,研究提供由MDA和MALBAC生成的单细胞文库的基准比较,并还确定了扩增水平下基因组范围偏差的普遍特征。该研究的统计模型可校正单细胞 WGA 数据中的等位基因偏差。

Illumina的技术:MiSeq 和 HiSeq 2500系统

你可能感兴趣的:(单细胞研究|| 利用 Illumina®技术的近期单细胞研究文献综述(数据分析))