2022-10-20

Nat Methods | 单细胞分类比赛: 获奖模型可深入注释亚细胞组学

原创 存在一棵树 图灵基因 2022-10-20 13:23 发表于江苏

收录于合集#前沿分子生物学技术

撰文:存在一棵树

IF=47.990

推荐度:⭐⭐⭐⭐⭐

亮点:

本文介绍了 Kaggle 平台上的人类蛋白质图谱竞赛结果的设计和分析,并对获胜模型的解决方案和可视化进行统计分析,该模型是第一个可以注释单细胞位置的亚细胞组学工具,以阐明基于弱噪声训练数据设计多标签单细胞模式分类模型的目的。


2022年9月29日,KTH -瑞典斯德哥尔摩皇家理工学院Wei OuyangManuel D. Leonetti联合在Nature Methods上发表了Analysis of the Human Protein Atlas Weakly Supervised Single-Cell Classification competition 的文章。本文展示了在 Kaggle 平台上的人类蛋白质图谱——单细胞分类竞赛结果的设计和分析,其中获奖模型是第一个可以注释单细胞位置的亚细胞组学工具。


虽然荧光成像的空间蛋白质组学已迅速成为研究人员必不可少的发现工具,但缺乏快速且可扩展的方法来对此类图像中的单细胞蛋白质分布进行分类和嵌入。在这里,研究人员展示了 Kaggle 平台上托管的 Human Protein Atlas – Single-Cell Classification 竞赛结果的设计和分析,共在105天的时间里,991 名参与者组成了757个团队,共提交了19,157 份参赛作品。这代表一场众包比赛,以开发机器学习模型,该模型受过有限注释的训练,以标记荧光图像中的单细胞蛋白质模式。

本次比赛的目的是开发计算模型,以对显微镜图像中单细胞的亚细胞蛋白质定位模式进行分类。如图1所示,给定一个只有图像级标签的训练集;参赛团队需要通过图像级模型对图像进行提取并预测图像级标签,并结合不同类别的CAM和分割的细胞区域,给出最终的细胞级标签。


训练数据集中的图像使用标准 HPA 注释管道进行注释,其中通过评估所有细胞的定位模式为每个图像分配一个或多个标签。如图2所示,由于单细胞异质性,因此不能保证图像中每个细胞的标签是精确的,即在基因相同的群体的同一图像中,单个细胞可以具有不同的蛋白质定位模式。


所有参赛团队一般采用“细胞级模型”和“图像级模型”策略,其中细胞级模型需要分段的细胞输入来生成单细胞标签;图像级模型接收整个图像并预测图像级位置。为了获得单细胞标签,团队要么将单个类别的激活图与分割的细胞区域相结合,要么使用细胞袋方法,将单个细胞的增强连接到图像输入中。本次竞赛的前四名团队的方法涵盖了本次比赛的所有策略范围,因此选择了他们进行进一步的深入分析。

为了评估顶级模型在为各个类别分配概率时是否关注生物学相关的亚细胞位置,这里通过梯度加权CAM可视化重要预测区域的粗略热图。如图3所示是来自细胞级模型的 CAM和图像级模型;顶级模型产生的视觉注意力模式集中在与特定亚细胞结构染色相对应的区域,其中图像级和细胞级模型均反映了具有生物学意义的特征;与细胞级模型相比,来自图像级模型的多类 CAM相互重叠,大致描绘了整个细胞中不太精确的区域。


Uniform Manifold Approximation and Projection (UMAP)用于可视化由获胜的细胞级模型产生的单细胞特征。这里通过可视化特征集群,可以看到网络特征表示和分离细胞结构和隔间的程度。如图4所示,不同亚细胞模式和高分的簇,如微管、核膜和核仁都很好地分离,表明该模型考虑了模式物质的细胞位置进行分类;大多数具有多个标签的细胞(即当蛋白质定位于多个细胞区室时)自然地位于具有单一类别标签的细胞簇之间;囊泡和点状模式包括各种运输和信号细胞器,更多地分布在代表主要隔室的类别边界,反映了这些运输囊泡的高度动态特性。


组织一场旨在产生有用模型的公民科学竞赛需要深入了解数据、相关DNN的当前技术水平,以及对竞赛的预期目标有清晰的认识。这使精确的单细胞分类和多标签单细胞模式的良好局部关注,使探索单细胞中蛋白质定位的动力学成为可能。这里预计获胜模型产生的学习特征嵌入将能够阐明图像中的单细胞空间变异性、跨细胞的蛋白质空间表达异质性以及细胞周期或细胞迁移等生物过程,并提供更好的理解不同细胞器中的动态蛋白质功能。


教授介绍

Manuel D. Leonetti博士是陈扎克伯格生物枢纽的小组组长。Leonetti在巴黎高等师范学院完成了化学学士学位和跨学科生命科学硕士学位;后在罗德·麦金农博士的指导下继续在洛克菲勒大学攻读分子神经生物学研究生课程;2013年加入加州大学旧金山分校的乔纳森·魏斯曼博士的团队,在那里他开发了高通量CRISPR方法,用荧光标记来阐明人类基因的功能;2017年,Leonetti成为陈扎克伯格生物枢纽的团队负责人,开发多学科技术,以绘制人类细胞的内部结构。

参考文献

Le, T., Winsnes, C.F., Axelsson, U. et al. Analysis of the Human Protein Atlas Weakly Supervised Single-Cell Classification competition. Nat Methods 19, 1221–1229 (2022).

你可能感兴趣的:(2022-10-20)