(Research)深度迁移学习使循环肿瘤细胞的病变追踪成为可能

Tips:
深度迁移学习使循环肿瘤细胞的病变追踪成为可能
(Nat Commun),原文链接: https://pubmed.ncbi.nlm.nih.gov/36509761/
摘要:
CTC做为液体活检中最重要的一个目标,如果能够对 CTC 进行溯源那么就能够实现肿瘤的早期的精准筛查。单细胞测序技术,作为目前最强大的细胞表征鉴定技术,如果能够和 CTC 进行结合,那么就能够实现CTC 溯源。本文基于回顾性研究设计了一种 CTC-Tracer的深度学习模型,实现了对 CTC 进行精准分类,使得肿瘤早期筛查和诊断成为了可能。

CTC 和 CTC-Tracer

CTC 导读

循环肿瘤细胞 (CTC) 是从原发肿瘤和/或转移性病灶中分离出来的细胞,是肿瘤的转移性前体细胞。

CTC的脱落方式目前在主要认为有两种:

  • 主动脱落,肿瘤细胞在微环境和自身转录本变化引起的 EMT 转换或侵袭血管壁导致的脱落,并进入血液循环
  • 被动脱落,由于外科手术或者穿刺造成的细胞脱落,使得 CTC 迅速的浸润血液循环(这种被动脱落的肿瘤细胞大概率无法在血液免疫环境中长期存活,因此会出现术后短时间内 CTC 数量暴增,而在术后几天体后便无法检测到 CTC)

参考文献:Circulating tumor cell isolation for cancer diagnosis and prognosis

早期 CTC 的数量检测和定位是实现实现对肿瘤早期诊断、发展和转移的无创监测的基石。但是,由于不同肿瘤之间的异质性太强,以及 CTC 在血液中浓度实在太低,使得精准溯源这件事情变得难以实现。

令人感到遗憾的是,作为液体活检基石的 CTC。目前无论是在临床实践还是基础研究上,都仅限于 CTC 的检测、计数以及少数的特异性靶点上,这使得 CTC 的研究和临床应用举步维艰。因此,CTC 的鉴定、表征和大规模的分析是目前CTC 在临床应用上必须突破的技术难题。

单细胞 RNA 测序技术作为目前最强大的在细胞水平的异质性分析技术,已经被广泛的用于各种癌症研究。目前已经存在的大规模肿瘤单细胞测序数据,使CTC 鉴定和表征分析成为了可能。但是,由于缺乏 CTC scRNA-seq 分析领域的数据积累和先验知识,目前仍难以从 scRNA-seq 组学数据中获取 CTC 的组织发生信息。考虑到 CTCs 与原发性癌组织分离,将 CTCs 映射到原发性癌细胞图谱是基于 CTCs 的病灶追踪的替代策略。但是,尽管来自相同病灶的癌细胞具有相似的癌症特异性生物标志物,但患者之间始终存在异质性,并且主动脱落的 CTC 不同于原发性癌细胞。因此,CTC 和原发性癌细胞之间的各种差异带来了额外的技术问题。

但是,迁移学习给我们提供了一种新的视角,Domain Adaptation (DA) 方法能够帮助
将单细胞组织测序数据应用于 CTC 数据。本文基于Domain Adaptation构建了CTC-Tracer 的无监督深度迁移学习模型,实现 CTC 的精准分类。具体来说,CTC-Tracer 以从血液样本中分离出的 CTC 的 scRNA-seq 表达谱作为输入,旨在准确识别 CTC 并追踪其病变来源,还可以检测其相对于病变细胞的表达变化

模型架构很简单,首先将输入的数据(底部图 1)进行 embedding(底部图 2)。然后将 embedding vector 进行 align(底部图 3)。最后进行标签匹配(底部图 4)。

在实现 CTC 溯源之前,由于考虑到血液中的 CTC 数量太少。即便通过富集的方法,将血细胞浓缩到 1000个细胞,CTC 的数量仍然少的一匹。可想而知,CTC 的纯度是直接影响到溯源的准确率,甚至是可行性。因此,本文集成了一个背景去除器——即一个二元的分类器,主要的作用是将血细胞和 CTC 进行精准的分离,该分离器的准确率达到 100%,AUC 值接近 1。
(Research)深度迁移学习使循环肿瘤细胞的病变追踪成为可能_第1张图片
使用背景去除器将 CTC 从血液中分离出来后,导入CTC-Tracer实现细胞分类。
CTC-Tracer 对黑色素瘤 (Mel) 的平均准确率为 100% (SD = 0.00),对肝细胞癌 (HCC) 的准确率为 100% (SD = 0.00),对乳腺癌 (BRCA) 的平均准确率为 92% (SD = 0.00) ) ,对前列腺癌 (PC)的平均准确率为 95% (SD = 0.00) 。
(Research)深度迁移学习使循环肿瘤细胞的病变追踪成为可能_第2张图片

CTC-Tracer的局限性

文章提到的局限性

  • According to the sensitivity analysis, we may need to collect at least 30 cells per dataset for a relatively stable and accurate prediction
    根据敏感性分析,如果要进行溯源,CTC 的个数应该要超过 30个,模型才能稳定
    (Research)深度迁移学习使循环肿瘤细胞的病变追踪成为可能_第3张图片
  • based on the pre-trained model, the affection of the number of target-domain samples is relieved in CTC-Tracer, and reasonable accuracy (>90%) could be achieved with only a few cells (1–5 cells) in transductive learning mode
    但是呢,如果使用预训练模型的话,只需 1-5个细胞就能够进行 CTC 溯源
    (Research)深度迁移学习使循环肿瘤细胞的病变追踪成为可能_第4张图片

结语

这篇文章总体思路非常值得借鉴,并且作者并没有强调他的模型能够直接使用在 CTC 溯源,只是强调了使用单细胞测序和深度学习能够使得困扰精准肿瘤学已久的重要问题——CTC 溯源成为了可能。
但是,理论和实际相差甚远,这篇文章存在着两个极为致命的问题,使得我们虽然看见了 CTC 溯源的可能性,但是路途还是非常的遥远。在这项研究中,使用的数据都是经过高度浓缩提纯后的 CTC 数据,虽然模型中集成了背景去除器(准确率达到 100%)。这 100%的准确率并不能让读者非常激动的原因,在于背景数据是掺入的数据,数据的批次效应,必然使得准确率极高。此外,高度浓缩的 CTC 在临床实操上是不切实际的(实验室场景还是有可能的),因为 CTC 溯源的主要应用场景就是早期诊断(排除掉一些转移灶不知道原发灶的情况),早期诊断的样本,很大概率都是正常人,正常人的 CTC 个数少的可怜,这种高度浓缩的 CTC 很有可能根本就富集不出 CTC。此外,在本研究中,预训练的数据源过于的单一,且数据量真的太少了,难免会让人怀疑是否过拟合,理论上这么少的数据应该使用循环和交叉验证,只需证明这个流程没有问题即可,完全没有必要过度的强调准确率。
总之,这篇文章还是有改进的地方,但是整个大体方向和思路非常值得借鉴。

Others

Date: Dec. 29, 2022

please contact with me via the following ways:
E-mail :[email protected]

Best Regards,
Yuan Sh, MD (ORCID: 0000-0002-6028-0185)

Github: https://github.com/yuansh3354

1Fujian Medical University. No. 1 Xue Yuan Road,University Town, 350122 FuZhou Fujian, China
2National Center for Nanoscience and Technology (NCNST). No.11 ZhongGuanCun BeiYiTiao, 100190 Beijing, China

你可能感兴趣的:(文献导读,迁移学习,人工智能)