目录
【SIMBA系列教程】回顾:
KDD2024 | HiGPT: 当大模型遇上图神经网络
Nat.Biotechnol 2023 | 利用MaxFuse整合空间和单细胞数据跨模态弱链接的特征
Nat.Commun 2024 | "单细胞蝴蝶":基于双对齐变分自编码器的通用单细胞跨模态翻译方法
Nat. Biotech.|LINGER从单细胞多组学数据推断基因调控网络
生信乐园 #scRNA-seq数据分析 #scATAC-seq数据分析
批次效应和缺失值下单细胞多组学整合scMaui
2024年8月,国际顶尖著名杂志 Nature Methods 发表特刊(Special issue),探讨人工智能如何在生物学中广泛使用并为生物学家带来巨大帮助。特刊通过评论文章(Comment)、观点综述文章(Perspective)、原创研究文章(Research Article)等,讨论了计算生物学领域的各方面话题。
文章标题:Focus on advanced AI in biology
期刊名称:Nature Methods
特刊链接:https://www.nature.com/collections/ahhdhbhgha
以下对第一篇社论(Editorial)文章的编译。
文章标题:Embedding AI in biology
文章来源:Nature Methods
文章链接:https://www.nature.com/articles/s41592-024-02391-7
AI应用在基因组学(如单细胞、空间转录组学)的经典例子
高级机器学习方法对数据的需求很大。随着高通量组学技术(特别是在单细胞水平)的快速发展,具有多模态的超大数据集(一般涵盖数百万细胞)为模型训练提供了理想的数据来源。在一篇观点文章中,Fabian Theis和他的同事们提供了一个全面的概述,介绍了Transformer(一种强大的深度学习架构)及其在单细胞分析中的应用。通过制定预训练策略并利用Transformer架构,擅长多种下游任务的大模型在许多领域越来越受欢迎[2]。
https://www.nature.com/articles/s41592-024-02353-z
遵循类似的方式,来自多伦多大学的Bo Wang团队,以及Jianzhu Ma、Xuegong Zhang和Le Song团队,分别介绍了两个单细胞基础模型(scGPT[3]和scFoundation[4]),并展示了它们在细胞类型注释、扰动预测和其他任务中的能力。在另一篇研究论文中,Wenpin Hou和Zhicheng Ji指出,GPT-4在使用单细胞RNA测序数据注释细胞类型方面可以实现最先进的性能[5]。Mohammad Lotfollahi的新闻稿[6]系统总结了并比较了这些工作,并讨论了这个领域的未来方向。
https://www.nature.com/articles/s41592-024-02305-7
同样在这期专刊中,Jure Leskovec和他的团队整合了来自不同物种的单细胞RNA测序数据集,通过使用大型蛋白质语言模型,从而学习到蛋白质低维表示,这朝着构建通用细胞低维表示迈出了一步[7]。此外,Lior Pachter和他的同事们提出了一个基于变分自编码器的框架,用于模拟转录和剪接动力学过程[8]。
https://www.nature.com/articles/s41592-024-02191-z
机器学习方法在基因组学中产生影响的另一个领域是将序列映射到表型,Alexander Sasse、Maria Chikina和Sara Mostafavi在评论文章中讨论了这一点[9]。通过利用从许多不同的细胞类型和条件下收集的多模态数据,这些从序列映射到功能的模型旨在揭示不同遗传和环境因素影响下各种分子层面相互作用和调控的机制。