施一公等团队登Science封面:AI与冷冻电镜揭示「原子级」NPC结构,生命科学突破
今日,《Science》杂志以封面专题的形式发表了 5 篇论文,共同展现了通过 AI 技术来揭示人类和非洲爪蟾的核孔复合体(NPC)结构。
开始正文之前,我们先来看一张图片,在下图中,很明显可以看出,图的右半部分所代表的信息更加丰富,结构也更清晰。而左半部分 2016 年的图,则结构较为单一,代表的信息比较少:
其实上面展示的是核孔复合体(NPC)图像。核孔复合体,由约 1000 个蛋白质亚基组成,担负着真核生物细胞核与细胞质之间繁忙的运输大分子的任务,也是其连接胞质和细胞核的唯一双向通道。除了协调运输外,NPC 还组织必要的转录、mRNA 成熟、剪接体和核糖体组装等重要生命活动。NPC 强大的作用,已然成为疾病突变和宿主 - 病原体相互作用的关键点。
得益于低分辨率下全核孔结构以及高分辨率下核孔组成结构技术的发展,细胞核孔受到越来越多的关注。然而,利用这些信息正确组装 30 多种不同蛋白质副本,并构建高分辨率的三维结构,一直是一项艰巨的挑战。
今天,《Science》杂志以封面专题形式发表了 5 篇论文,其中 3 篇论文共同揭开了人类核孔复合体的近原子分辨率冷冻电镜结构,另外两项研究通过非洲爪蟾呈现了脊椎动物核孔复合体的单颗粒冷冻电镜图像。这篇封面文章将多项研究成果拼接在一起,形成的人类 NPC 图像接近原子级。
论文地址:
https://www.science.org/doi/pdf/10.1126/science.add2210
自监督学习如何兼顾语义对齐与空间分辨能力?清华、商汤提出「SIM」方法
对于本文提出的全新自监督学习方法 Siamese Image Modeling 中,网络从同一图像的遮盖视图预测另一个增强视图的密集特征,使其兼顾 Instance Discrimination 方法的语义对齐能力和 Masked Image Modeling 方法的空间分辨能力。
论文链接:https://arxiv.org/abs/2206.01204
自监督学习长久以来都是视觉领域努力追求的目标,它能够帮助我们利用大量的无标注数据,并且推动了很多下游任务的进步。
为了有效地以自监督的方式训练网络,研究者们提出了各式各样的 “代理任务”(pretext task)来生成监督信号,其中最为典型的有两类框架:Instance Discrimination(ID)与 Masked Image Modeling(MIM)。
ID 方法希望拉近相同图像的不同增强视图,同时避免特征坍塌(包括 MoCo、BYOL、Barlow Twins 等方法)。这种方法学习到的特征往往具有很强的线性可分性,所以 ID 方法在线性分类任务上表现出色,但是近期的一些研究表明它在下游的检测任务上并不优于监督学习。另一方面,MIM 方法通过一张遮盖图像来重建原始图像(包括 BEiT、MAE 等方法),它通常在检测任务上表现优异,但是不能做好线性分类任务,而且在少样本场景下表现一般。
为了解决这些矛盾,来自清华和商汤的研究者们提出:这种差异是因为两种方法各自忽略了特征所需要的语义对齐和空间分辨能力。具体来说:
语义对齐能力要求语义相似的图像能被映射到邻近的特征表示,这可以通过对比相同图像的不同增强视图来达到;
空间分辨能力要求特征能够建模图像内部的空间结构,而通过遮盖图像去预测密集特征表示能够帮助达成这点,因为这种做法建模了图像内部的条件分布。
基于这些思考,研究者提出了 Siamese Image Modeling(SIM),该方法通过一张遮盖的增强视图来预测相同图像的另一张增强视图的密集特征表示。
为了达到这个目标,SIM 采用了孪生网络结构,该结构包含 online 和 target 两个分支。Online 分支首先将第一张遮盖视图映射到特征空间,然后基于第一张图的特征和第一、二张图的相对位置坐标来预测第二张图的特征;Target 分支则负责将第二张图映射到特征空间来获得目标特征。
通过这种方式,SIM 能够分别在线性分类任务上和 ID 方法持平,以及在检测任务上和 MIM 方法持平,研究者进一步发现即便没有全局的损失函数,SIM 也能给出很好的线性分类表现。
1. 内容更新
本周,AI观察室公众号更新了一篇深度学习100例、一篇深度学习基础篇内容。感兴趣的小伙伴快去试试吧!
Python 3.11 性能比 3.10 提升最高 60%
Python 3.11 上个月发布了首个 Beta 版本,预计在 7 月释出 RC 版本,10 月发布正式版本。Python 项目称,Python 3.11 的性能比 3.10 有显著提升,速度提高了 10-60%,在标准基准套件中平均增速达到 1.25 倍。Python 3.11 的新特性包括:语法特性有例外组(Exception Groups)和 except*,类型特性有可变泛型、Self 类型、任意文字字符串类型等等。Phoronix 在 AMD Ryzen 9 5950X 开发机上测试了 Python 3.11 Beta、Python 3.10.4,、Python 3.9.13 和 Python 3.8.13,结果显示 Python 3.11 Beta 在整体上比 Python 3.10 快 41%。
GitHub Atom将停用,6个月后完成归档
Atom是GitHub在2011年推出的可深度定制的编辑器,但目前,GitHub在官网宣布正式淘汰Atom,以便进一步致力于Microsoft Visual Studio Code和GitHub Codespaces将快速和可靠的软件开发带到云中。Atom 下的所有项目文档将在2022年12月15日完成归档。