硕士论文

硕士论文材料准备

  • 一、摘要
    • 1.Slingshot: cell lineage and pseudotime inference for single-cell transcriptomics
    • 2.SCOUT: A new algorithm for the inference of pseudo-time trajectory using single-cell data
  • scEpath: energy landscape-based inference of transition probabilities and cellular trajectories from single-cell transcriptomic data

一、摘要

1.Slingshot: cell lineage and pseudotime inference for single-cell transcriptomics

1.For many systems, there are not clear distinctions between cellular states, but instead a smooth transition, where individual cells represent points along a continuum or lineage. Cells in these systems change states by undergoing gradual transcriptional changes, with progress being driven by an underlying temporal variable or pseudotime. For example, [3] examined the differentiation pattern of skeletal myoblasts, showing that their development into myocytes and mature myotubes follows a continuous lineage, rather than discrete steps. Inference of lineage structure has been referred to as pseudotemporal reconstruction and it can help us understand how cells change state and how cell fate decisions are made [3, 4, 5]. Furthermore, many systems contain multiple lineages that share a common initial state but branch and terminate at different states. These complex lineage structures require additional analysis to distinguish between cells that fall along different lineages [6, 7, 8, 9, 10].
翻译:
对于许多系统,细胞状态之间没有明显的区别,而是平滑过渡,其中单个细胞表示沿连续体或谱系的点。这些系统中的细胞通过经历逐渐的转录变化来改变状态,其中进展由潜在的时间变量或伪时间驱动。例如,[3]检查了骨骼肌成肌细胞的分化模式,表明它们向肌细胞和成熟肌管的发育遵循连续谱系,而不是离散的步骤。谱系结构的推断被称为伪时间重建,它可以帮助我们理解细胞如何改变状态以及如何做出细胞命运决定[3,4,5]。此外,许多系统包含多个谱系,这些谱系共享一个共同的初始状态,但在不同的状态下分支和终止。这些复杂的谱系结构需要额外的分析来区分不同谱系的细胞[6,7,8,9,10]。

国内外研究方法
已经提出了几种用于伪时重建任务的方法,每种方法都有自己的一套优势和假设。我们在这里描述一些流行的方法;如需彻底审查,请参见[11,12]。

最着名的方法之一是Monocle [3],它在由独立分量分析(ICA)创建的降维空间中的单元上构建最小生成树(MST),并通过沿最长路径的PQ树对单元进行排序通过这棵树。该途径的方向和分支事件的数量留给用户,用户可以检查已知的一组标记基因或使用样品收集的时间作为初始和终止细胞状态的指示。最新的Monocle 2 [8]使用不同的方法,通过反向图嵌入(RGE)执行维数减少和排序,允许它以无人监督的方式检测分支事件。

Waterfall[10]和TSCAN [7]方法通过在低维空间中聚类单元并在聚类中心上绘制MST来确定谱系结构。谱系由树中的分段线性路径表示,提供了一种直观的,无监督的方法来识别分支事件。通过在这些路径上的正交投影来计算伪时间,其中方向和原点簇的识别再次留给用户。

其他方法使用平滑曲线来表示发展,但自然限于非分支谱系。例如,Embeddr [5]使用[13]的主曲线方法来推断由拉普拉斯特征映射[14]获得的低维空间中的谱系。

另一类方法使用稳健的细胞间距离和预先指定的起始细胞来确定伪时间。例如,扩散伪时间(DPT)[6]在单元上使用加权k最近邻(kNN)图,并使用任意长度随机游走的转移概率计算距离。类似地,Wishbone [9]是Wanderlust [4]的扩展,它使用了一组kNN图形和一组随机选择的航路点来迭代地改进稳定的距离估计。

最后,其他方法采用基于模型的方法来检测分支事件。 GPfates [15]使用高斯过程潜变量模型(GPLVM)和重叠的高斯过程混合(OMGP)来推断轨迹和伪时间。类似的方法,DeLorean [16],使用单个GPLVM来沿单个轨迹推断伪时间。并且因子分析器(MFA)方法[17]的混合采用分层贝叶斯方法,使用马尔可夫链蒙特卡罗(MCMC)从包括分支身份的完全生成模型的后验进行采样。

注意:
1有些方法推断单个路径或主干,并依赖用户分配其方向性

2不检测分支事件的方法需要手动将数据子集化为单个谱系

3Monocle不检测分支事件的数量,必须由用户提供谱系的数量

4Waterfall检测分支事件,但需要对单个谱系进行子集化以进行伪时间计算

5Wishbone只能检测到一个分支事件(两个谱系)
文章整理出来了一个图,很重要,记得去看。

2.SCOUT: A new algorithm for the inference of pseudo-time trajectory using single-cell data

文章链接

2.1 单细胞技术的进步改变了分子细胞生物学和医学科学的研究。对单细胞基因表达的研究已经产生了大量的快照数据。近年来,已经开发了许多计算技术和数学建模方法来分析这些数据集(Stegle等人,2015,Poirion等人,2016,Yuan等人,2017)。可以从静态单细胞基因表达数据推断遗传表达动力学和细胞进展过程。分析中的一个重要步骤是推断伪时间轨迹(也称为谱系轨迹),其使用单细胞数据排列单个细胞的顺序。通过沿着发育轨迹排序单个细胞,可以描述单个细胞逐渐转变的时间趋势。伪时间轨迹为理解动态细胞过程和发现基因调控机制提供了新的见解。

用于单细胞数据分析的伪时间推断方法通常包含两个主要步骤:即降维和轨迹建模。在这些步骤之前,需要一些预处理操作,例如基因选择和表达数据的标准化,本文将不再讨论。降维步骤将基因表达数据投射到低维空间中以表示内在的细胞分化状态。已经使用了许多方法来降低尺寸,例如主成分分析(PCA)(Shin等人,2015,Matsumoto和Kiryu,2016,Zeng等人,2017),独立成分分析(ICA)(Trapnell) et al。,2014),局部线性嵌入(LLE)(Welch等,2016),扩散图(Haghverdi等,2016,Ocone等,2015),拉普拉斯特征图(谱嵌入)(Campbell等) 。,2015),多维尺度(MDS)(Kouno等,2013)和t-随机邻域嵌入(tSNE)(Macaulay等,2016,Zeisel等,2015,Petropoulos等,2016) ,Qiu等,2017)。其中,PCA和ICA是矩阵分解算法,被认为是线性降维技术。非线性降维算法(称为流形学习)能够表示非线性高维数据空间,并且可以提供比线性方法更好的结果。在这些多种方法中,PCA和tSNE通常都是单细胞数据集降维的常用选择,并且已广泛用于单细胞分析。

在获得低维嵌入空间之后,轨迹建模将使用伪时间值来注释每个单元。 已经开发了许多方法来构建基础细胞状态转变轨迹。 概率模型,特别是高斯过程模型,是伪时间重建的一类主要方法。 已经开发出高斯过程潜变量模型(GPLVM)来量化伪时间不确定性(Macaulay等,2016,Campbell和Yau,2016)。 此外,MFA(Campbell和Yau,2017),GPfates(Lönnberg等,2017)和BGP(Boukouvalas等,2017)也使用概率模型来推断分叉状态。 还有其他方法使用微分方程进行单细胞排序(Marco等,2014,Matsumoto和Kiryu,2016,Fischer等,2017)。 基于概率模型或微分方程的方法通常缺乏灵活性并且具有高计算成本。

另一类流行的方法使用地标来表示细胞过渡。 Monocle(Trapnell等,2014)是使用单细胞数据进行轨迹推断的第一种方法。此方法使用最小生成树(MST)来连接和排序单个单元。按照这种方法,新版Monocle2(Qiu等,2017)通过构造具有大量质心的生成树来学习谱系树,并使用反向图嵌入为每个细胞分配伪时间。 Wanderlust(Bendall等,2014)首先为每个单元创建k-最近邻图,然后选择多个标志单元并计算从起始单元到通过附近单个单元的那些标记的最短路径,并最终获得加权订购时每个单元的平均得分。然后该算法演变为Wishbone(Setty等,2016),其可用于推断具有两个分叉分支的轨迹。由于地标选择的随机性,当单细胞数据的噪声非常高时,这些方法通常不能很好地执行。同时,Waterfall(Shin et al。,2015),TSCAN(Ji et al。,2016)和Mpath(Chen et al。,2016)使用聚类算法生成质心作为地标,然后将细胞投影到线性路径上(生成)通过MST)通过这些地标。然而,质心的数量通常很小,并且地标不能很好地代表发展趋势。

尽管取得了这些进展,但由于单细胞数据集中的不确定性和异质性,伪时间重建仍然需要更强大和有效的方法。

在这里,我们提出了一种新的算法SCOUT,用于构建非分支和多分支轨迹。该算法首先将高维基因表达数据投射到合理的下特征空间,然后利用基于细胞密度的固定半径近邻算法或高斯混合模型算法对细胞亚群进行聚类,然后构建最小生成树来确定细胞。发展部门。细胞的排序基于Apollonian圆的加权距离或投影的计算。该方法具有以下优点。首先,它使用改进的局部线性嵌入(MLLE)进行降维,从而保留了局部邻域内单个单元之间的距离。其次,该方法通过使用固定半径近邻算法产生比通常的聚类方法更多的界标。因此,地标可以更好地代表细胞的过渡。第三,我们的方法可以根据细胞的时间阶段自动选择起始点。除此之外,我们还为细胞的排序创建了新的投影算法。结果表明,该方法是一种稳健,准确的单细胞排序算法。

scEpath: energy landscape-based inference of transition probabilities and cellular trajectories from single-cell transcriptomic data

scEpath:基于能量景观的转移概率推断和单细胞转录组数据的细胞轨迹

由于它首次可以在许多单细胞中同时测量数千个基因(Islam等,2011),因此单细胞RNA测序(scRNA-seq)分析的技术发展得到了显着改善(Svensson等,2017)。同时,需要适合于分析这些数据的方法,这些数据本身具有非常大的维度,需要某种形式的计算分析来从中得出任何意义(Tanay和Regev,2017)。此类数据分析包括功能相关(亚)细胞群的鉴定,沿发育或其他轨迹的细胞状态转变,分层谱系关系(例如干细胞分化)和假时间排序。

已经开发了许多计算方法来解决这些任务。 Monocle是一系列伪时间排序算法中的第一个,并使用独立分量分析和最小生成树(MST)算法的组合来构建分化轨迹(Trapnell等,2014)。 Monocle 2最近发布,它使用反向图嵌入,产生比其前身更准确的轨迹(Qiu等,2017)。 TSCAN使用基于群集的MST,改进了原始的Monocle(Ji和Ji,2016)。其他工具包括DPT,它使用类似扩散的随机游走(Haghverdi等,2016),Mpath,它使用基于邻域的细胞状态转换(Chen et al。,2016)和TASIC,它使用概率图形模型(Rashid)等人,2017)。

Waddington构思的隐喻表观遗传景观经常用于描述或描述细胞命运决策过程(Mojtahedi等,2016; Moris等,2016)。然而,在细胞状态之间产生稳健的分层谱系图并确定它们相应的转变概率仍然具有挑战性。部分受到类似Waddington风景的启发,最近的研究试图通过使用来测量细胞的当前状态来量化细胞命运过程,例如分化:SCENT(Teschendorff和Enver,2017); StemID(Grun等,2016); SLICE(Guo et al。,2017); Dpath(Gong et al。,2017);或者通过将细胞映射到景观:HopLand(Guo和Zheng,2017); Topslam(Zwiessele和Lawrence,2017年)。这些方法提供了表征细胞命运景观的方法。例如,SLICE和SCENT都可以量化分化效力,并且能够先验地推断初始细胞状态而不需要特征选择。 SCENT在交互网络的背景下估计单个细胞的信号熵(Teschendorff和Enver,2017);这种方法的特殊优势,以及我们将在下面的方法开发中加入的方法。

你可能感兴趣的:(学习)