Deep Learning in Label-free Cell Classification

无标签细胞分类中的深度学习


无标记细胞分析对个性化基因组学,癌症诊断和药物开发至关重要,因为它避免了染色试剂对细胞活力和细胞信号传导的不利影响。然而,目前可用的无标记细胞测定主要仅依赖于单一特征并且缺乏足够的分化。而且,通过这些测定分析的样品大小由于其低通量而受到限制。在这里,我们将特征提取和深度学习与光子时间拉伸实现的高通量定量成像相结合,在无标记细胞分类中实现了创纪录的高精度。我们的系统捕获定量光学相位和强度图像,并提取单个细胞的多个生物物理特征。这些生物物理测量形成超维特征空间,其中执行监督学习以用于细胞分类。我们比较了各种学习算法,包括人工神经网络,支持向量机,逻辑回归,以及一种新的深度学习流水线,它采用接收机工作特性的全局优化。作为我们系统增强的灵敏度和特异性的验证,我们显示了针对结肠癌细胞的白血T细胞的分类,以及用于生物燃料生产的脂质积累藻类菌株。该系统为数据驱动的表型诊断和更好地理解细胞中异质基因表达开辟了一条新途径。


深度学习从丰富的多维数据集中提取模式和知识。虽然它广泛用于图像识别和语音处理,但其在无标记细胞分类中的应用尚未被开发。流式细胞仪是大规模细胞分析的有力工具,因为它能够测量数百万个细胞的各向异性弹性光散射以及与细胞结合的荧光标记物的发射1,2。然而,每个细胞用每个检测通道的单个值(前向散射,侧向散射和发射带)表示,并且通常需要用特定的生物标记物标记以获得可接受的分类准确度1,3。另一方面,成像流式细胞仪4,5捕获细胞图像,显示有关细胞的更多信息。例如,它可以区分群集和碎片,否则会导致基于光散射的传统流式细胞仪中的假阳性识别6。除了分类准确性之外,吞吐量是流式细胞仪的另一个关键规格。

实际上,需要高通量,通常每秒100,000个细胞,以筛选足够大的细胞群,以发现指示早期疾病的罕见异常细胞。然而,在任何测量系统7,8的吞吐量和准确度之间存在基本的权衡。例如,成像流式细胞仪面临由CCD或CMOS相机的速度施加的吞吐量限制,对于现有系统9的数量约为2000个细胞/秒。由于有限的相机快门速度,较高的流速导致细胞图像模糊。流式分析仪的许多应用,如癌症诊断,药物发现,生物燃料开发和乳液表征,都需要对大样本量进行分类,并具有高度的统计准确性10。这推动了用于表征流动中细胞和颗粒的替代光学诊断技术的研究。

最近,我们小组开发了一种基于光子时间拉伸概念11的相干光学实现的无标记成像流式细胞术技术。该仪器通过使用Amplified Time-stretch Dispersive Fourier Transform 12-15克服了灵敏度和速度之间的折衷。在时间拉伸成像16中,物体的空间信息在亚纳秒的脉冲持续时间内在激光脉冲的光谱中被编码(图1)。然后,表示相机的一帧的每个脉冲在时间上被拉伸,使得它可以由电子模数转换器(ADC)实时数字化。超快脉冲照明使流动中的高速细胞或粒子的运动冻结,以实现无模糊成像。在超短快门时间(光脉冲宽度)期间收集的光子数量少,以及由时间拉伸引起的峰值光功率下降,检测灵敏度受到挑战。通过在分散设备中实现低噪声系数拉曼放大器来执行时间拉伸8,11,16,可以在时间拉伸成像中解决这些问题。此外,翘曲拉伸变换17,18可用于时间拉伸成像,以实现光学图像压缩和视场19上的不均匀空间分辨率。在仪器的相干版本中,时间拉伸成像与光谱干涉测量相结合,以实时和高吞吐量测量定量相位和强度图像20。与微流体通道相结合,该工作中的相干时间拉伸成像系统测量定量光学相移和单个细胞的损失,作为高速成像流式细胞仪,以每秒高达10米的流速捕获每秒3600万幅图像,达到每秒100,000个单元的吞吐量。

Deep Learning in Label-free Cell Classification_第1张图片
Figure 1.png

锁模激光器接着是非线性光纤,掺铒光纤放大器(EDFA)和波分复用(WDM)滤波器,产生并形成一系列宽带光脉冲。 方框1:脉冲序列在空间上分散成一串彩虹闪光,在线扫描时照亮目标。目标的空间特征被编码到宽带光脉冲的频谱中,每个宽带光脉冲表示一维帧。超短光脉冲照明在高速流动期间冻结细胞的运动,以实现无模糊成像,吞吐量为100,000个细胞/秒。使用迈克尔逊干涉仪将视场内每个位置处的相移和强度损失嵌入光谱干涉图案中。方框2:然后及时拉伸干涉图脉冲,以便通过时间拉伸色散傅里叶变换(TS-DFT)将空间信息映射到时间,然后由单像素光电探测器和模数转换器捕获( ADC)。高快门速度下的灵敏度损失通过在时间拉伸期间的受激拉曼放大来补偿。方框3:(a)脉冲同步;携带连续捕获的彩虹脉冲的时域信号被转换成一系列一维空间图,用于形成线图像。 (b)细胞的生物量密度导致空间变化的光学相移。当彩虹闪光通过细胞时,不同位置的折射率变化将导致在询问波长处相位消失。利用希尔伯特变换和相位展开来提取空间相移。 (c)解码每个波长的每个脉冲的相移并将其重新映射到像素中揭示了细胞内的蛋白质浓度分布。嵌入脉冲强度变化中的由细胞诱导的光学损失是从光谱干涉图的缓慢变化的包络的幅度获得的。因此,同时捕获定量光学相移和强度损失图像。基于细胞不存在的区域校准两个图像。从图像中提取描述形态,粒度,生物量等的细胞特征。 (d)这些生物物理特征用于机器学习算法,用于细胞的高精度无标记分类。


另一方面,用于标记细胞的表面标记,例如EpCAM21,在某些应用中不可用;例如,黑色素瘤或胰腺循环肿瘤细胞(CTC)以及一些癌症干细胞是EpCAM阴性的并且将逃避基于EpCAM的检测平台22。此外,大量细胞分选为下游操作打开了大门,标签对细胞行为和生存能力的负面影响往往是不可接受的23。细胞标记可以引起激活/抑制信号转导,改变所需细胞亚型的行为,可能导致下游分析中的错误,例如DNA测序和亚群再生。以这种方式,需要定量相位成像(QPI)方法24-27,其以高精度对未标记的活细胞进行分类。相干时间拉伸成像是一种能够以超高通量进行定量相成像的方法,用于大量细胞的非侵入性无标记筛选。

在这项工作中,定量光学损失和相位图像的信息被融合到专家设计的特征中,当与深度学习相结合时,导致无记录标签的分类准确性。图像采集技术首次应用于时间拉伸定量相位成像,以超高流速和无标记方式测量单个细胞的蛋白质浓度,光学损失和形态特征等生物物理属性。这些属性在细胞中差异很大28-31,它们的变异反映了基因型和生理刺激的重要信息32。因此,多路复用的生物物理特征导致细胞的信息丰富的超维表示,用于具有高统计精度的无标记分类。

我们通过新型机器学习管道进一步提高了无标记细胞分类的准确性,可重复性和灵敏度与特异性之间的平衡,该管道利用了多变量监督学习的优势,以及通过接收器操作的进化全局优化进行的独特培训特征(ROC)。为了证明使用我们的技术的多特征无标记流式细胞仪的灵敏度,特异性和准确性,我们分类(1)OT-II杂交瘤T淋巴细胞和SW-480结肠癌上皮细胞,和(2)莱茵衣藻(Chlamydomonas reinhardtii)藻细胞(基本上称为衣藻属(Chlamydomonas))基于其脂质含量,其与生物燃料生产中的产率相关。我们的初步结果表明,与单个生物物理参数的分类相比,我们的无标记超维技术将检测准确度从77.8%提高到95.5%,换句话说,将分类不准确性降低了大约五倍。

时间拉伸定量相位成像(TS-QPI)在成像流式细胞仪中的应用最近已在我们的小组11中得到证实。来自锁模激光器的宽带光脉冲首先在光纤中进行调节,然后在空间上分散在自由空间光学系统中,其中一对反射衍射光栅产生一维“彩虹闪光”(图1)。每个彩虹闪光由在视场上横向分布的所有波长分量组成。这些闪光灯在传统摄影中照亮目标,但此外,彩虹闪光灯针对不同的空间点,具有不同的光线颜色,从而产生空间到光谱的编码。然后将彩虹脉冲分成迈克尔逊干涉仪的两个臂。彩虹闪光的不同波长分量彼此平行地行进,但是分别聚焦在参考臂中的镜子上或者样品臂中的微流体装置的反射基板上。在样品臂中,微流体通道中的细胞被流体动力学聚焦33,34进入彩虹的视野,并垂直于彩虹闪光流动。来自微流体装置和参考臂的反射脉冲重新组合并耦合回光纤,通过拉曼放大时间拉伸色散傅里叶变换(TS-DFT)系统进行光学放大和线性啁啾。放大时间拉伸系统利用色散光纤内的低噪声分布式拉曼放大器,净光学增益约为15 dB,可在高速下进行高灵敏度检测。超快速单像素光电探测器将瞬时光功率转换为电信号,随后,模数转换器(ADC)对信号进行采样和量化。获取的数据传递到处理阶段以进行大数据分析。时移线性啁啾脉冲之间的干扰产生节拍(条纹)频率,其可通过干涉仪臂长度不匹配来调节。演示系统的细节可以在方法:时间拉伸定量相位成像(TS-QPI)系统中找到。

使用希尔伯特变换35将光检测的时间拉伸脉冲(每个代表一行扫描)转换为分析信号,并提取强度和相位分量。相位分量是快速振荡条纹(载波频率),由来自迈克尔逊干涉仪中的参考臂和样本臂的线性啁啾脉冲的干扰引起。作为射频(RF)载波,其频率由用户调整的臂长度不匹配设定,当样本臂中的光路长度因单元的到达而改变时,调制条纹频率。该频移和伴随的相变用于测量电池的光程长度(参见章节方法:相干检测和相位提取)。由于相位在很宽的范围内变化(远大于2π弧度),因此使用展开算法来获得连续相位轮廓。相位轮廓包含由单元引起的相移和随时间增加的项,对应于条纹(拍频)频率。通过消除背景相组分,提取细胞诱导的相移。波形中的第二分量是对应于光脉冲的时间形状的较低频率包络。该包络的幅度提供了由透明度,表面粗糙度和内部细胞器复杂性引起的光学损失的信息(部分方法:细胞透射率提取)。

连续线扫描的分解成分形成成对的空间图,即光学相位和损耗图像,如图2所示(参见章节方法:图像重建)。这些图像用于获得细胞的生物物理指纹8,36。利用领域专业知识,将原始图像融合并转换为一组合适的生物物理特征,如表1所示,深度学习模型进一步转换为学习特征以改进分类。
特征提取同时对光学相位和损耗图像进行操作,包括物体检测,分割和特征测量,以及团块识别,噪声抑制等。作为专家设计的特征的一个例子,平均折射率,用作通过将光程长度的积分除以细胞体积来获得蛋白质浓度37的测量值。由于悬浮液中的细胞松弛成球形(由于表面张力)38,39,因此可以从其横向尺寸获得细胞直径的独立测量值以进行体积估计。

在特征提取中,光学损耗和相位融合的最重要优点之一是其对物镜的有限焦深和微流体通道中的细胞排列的变化引起的轴向散焦40的鲁棒性和不敏感性。衍射光子几乎没有机会影响相位图像。这使得光学相位图像中的尺寸测量相对准确且一致,比用于提取散射和吸收特征的光学损耗图像中的直接尺寸测量更合适。在不同的特征中,尺寸测量特别重要,因为它在许多技术中单独使用31,41-43。

TS-QPI捕获的大数据集为基于生物物理特征的细胞分析提供了足够的统计特征。由于来自相同线或组织的细胞在大小,结构和蛋白质表达水平上表现出变异44-46,因此只能通过耐受这些内在变异的模型来实现高精度分类。另一方面,特征提取器必须反映由外在变化引起的复杂和纠结的特征,例如。药物治疗32,细胞周期,稀有细胞类型,标记和转录率47。

在从每个单元的光学相位和损耗图像的融合中提取的特征中选择总共16个特征。 高度相关的功能不提供唯一信息。 这些特征中的成对相关矩阵在图3a中显示为热图。 矩阵的对角元素是每个特征与其自身的相关性,即自相关。 方框1中的特征子集显示了形态特征之间的高度相关性。 此外,方框2和方框3中的子集特征是相关的,因为它们分别主要与光学相移和光学损耗有关。

作为我们在分类中的生物物理特征的表示,图3b示出了基于按降序排列的每个单个特征的分类准确度。 这些特征被分为三类:形态,光学相位和光学损耗,以描述每种特征提供的主要信息类型。 该图提供了对每类细胞特征的相对重要性的宝贵见解,并表明形态特征携带有关细胞的最多信息,但同时,在光学相位和损耗测量中包含重要的附加信息。

你可能感兴趣的:(Deep Learning in Label-free Cell Classification)