2022-08-04

Nat Methods | 机器学习精准标注蛋白,细胞器和其他亚细胞结构

原创 存在一棵树 图灵基因 2022-08-04 09:41 发表于江苏

收录于合集#前沿分子生物学技术

撰文:存在一棵树

IF= 47.990

推荐度:⭐⭐⭐⭐⭐

亮点:

本文开发了一种完全自我监督的蛋白质定位分析和聚类的深度学习方法,Cytoself,可生成高分辨率的蛋白质亚细胞定位图谱。


2022年7月25日陈·扎克伯格生物中心的Loic A. RoyerManuel D. Leonetti联合在Nature Methods上发表了Self-supervised deep learning encodes high-resolution features of protein subcellular localization 的文章。该团队开发了一种完全自我监督的蛋白质定位分析和聚类的深度学习方法,Cytoself,并介绍了其开发、验证和使用。


基于显微镜的系统性大规模细胞分析正成为生物学发现的重要工具,其在药物筛选、药物分析和蛋白质亚细胞定位图谱中发挥着关键作用。特别是,基于免疫荧光或内源性荧光标记的大规模数据集辅助以计算机视觉和机器深度学习,从而全面捕获人类和酵母蛋白质组的定位模式。 计算机视觉和机器学习的最新进展表明摒弃手动标记是可能的,可通过监督方法改善其性能。自我监督模型的训练是通过制定一个辅助的借口任务,比如保留部分数据,指示模型预测其隐藏部分,而训练一个模型预测图像中的隐藏部分会迫使其识别该它们的重要特征,并可用于比较和分类。基于此,该团队开发了一种基于深度学习的完全自我监督的蛋白质定位分析和聚类方法,Cytoself。

深度学习方法的先决条件是收集在统一条件下获得的荧光标记蛋白质的高质量图像,OpenCell活细胞共聚焦图像数据集包含 1,311 种内源性标记蛋白质。该团队在18.59视野 (FOV) 中对给定蛋白质的定位进行了成像,然后从每个包含 1-3 个细胞的FOV中提取大约45个裁剪图像,每个蛋白质共有800个裁剪图像。如图1所示,Cytoself基于矢量量化变分自动编码器架构 (VQ-VAE),在经典的VQ-VAE中,图像被编码成一个量化的潜在表示,一个矢量,然后解码重建输入图像;而该团队开发了一种变体,它使用分裂向量量化方案来提高大空间尺度下的量化效果。将该模型应用于每个裁剪图像,自我监督模型训练包含两个借口任务:首先是像原始 VQ-VAE 模型一样对图像进行编码然后解码;其次是仅根据编码表示来预测与图像相关的蛋白质标识符,旨在预测每个图像对应于1,311 种蛋白质中的哪一种。


随后,该团队使用统一流形近似和投影(UMAP)算法对从所有图像获得的全局定位编码集进行降维。如图2所示,获得一个高分辨率蛋白质定位图谱,代表蛋白质亚细胞定位的全部多样性;其中央 UMAP 中的每个点都根据11个不同的蛋白质定位类别(线粒体、囊泡、核质、细胞质、核膜、ER、核仁、高尔基体、染色质结构域)进行着色。图中大量未标记点(灰点)则主要对应于表现出混合定位模式的蛋白质,其中较为明显的是散布在核区和非核区之间的蛋白质带。


为验证Cytoself的聚类性能,该团队对比了其与无监督 (CellProfiler) 或自我监督 (Cell inpainting) 图像特征化方法应用于 OpenCell 图像数据集的结果,验证Cytoself获得的分辨率优于另外两种方法。自我监督方法的主要优势在于它们不受人工注释的质量、完整性或粒度的限制,并且可以揭示现有数据库中未明确存在的蛋白质定位的细微差异。

为了能够剖析和理解构成这些表征的特征并解释它们的意义,该团队创建了有助于每种蛋白质定位编码的主要成分的特征谱。如图3所示,首先通过执行分层双聚类获得了特征的有意义的光谱排序进行定量分析;接下来使用特征光谱预测蛋白质亚细胞定位,且Cytoself 可以对来自 OpenCell 以外的数据集的图像进行合理的蛋白质定位预测。


综上所述,本文开发的Cytoself模型可生成高分辨率定位图谱,不仅能够描绘细胞器,还能够描绘蛋白质复合物;此外,还可以用特征谱表示每个图像,以更好地分析数据中存在的定位模式的全部内容。由于蛋白质的定位与其细胞功能高度相关,因此Cytoself将成为对未知或研究不足的蛋白质进行初步功能预测以及定量研究细胞扰动和细胞状态变化对蛋白质亚细胞定位影响的宝贵工具。

教授介绍

Loic Royer博士是陈·扎克伯格生物中心的小组负责人。Royer最初学习工程学,然后获得人工智能硕士学位,随后在德国德累斯顿理工大学获得生物信息学博士学位,后继续在Gene Myers博士的实验室接受博士后培训。Royer认为揭示生物体发育之谜需要计算机科学、先进显微镜和生物学方面的专业知识。为此,Royer的多学科团队设计和构建了新型最先进的光片显微镜,开发了基于深度学习的图像处理和分析算法,并利用这些技术构建了脊椎动物发育的时间分辨和多模态图谱,使用斑马鱼作为模式生物。

参考文献

Kobayashi, H., Cheveralls, K.C., Leonetti, M.D. et al. Self-supervised deep learning encodes high-resolution features of protein subcellular localization. Nat Methods (2022).

你可能感兴趣的:(2022-08-04)