计算科学与生物学:一种伙伴关系

计算科学与生物学:一种伙伴关系
 

编译  李升伟1 李 翔1 张俊鹏2 

(1.特趣生物科技有限公司,广东深圳;2.大理大学工学院,云南大理)

计算与当代生物学研究齐头并进,我们描述了计算科学的一些趋势,这些趋势有助于推动新的生物学知识的生成。
从仪器控制,到数据分析和可视化,到模拟和预测研究,再到用于记录保存的计算笔记本,计算是大多数当代生物学研究的重要组成部分。自 2004 年 10 月创刊以来,《自然方法》一直在发布计算方法和工具以及软件性能比较,我们认为这将引起生命科学家的广泛兴趣。
新的实验技术为计算科学家创造了开发工具来利用此类技术生成的数据的机会。例如,现在可用的核酸测序技术的多样性需要新的计算工具和/或对现有工具进行改造来分析结果数据,正如本期单细胞 RNA-seq 分析所综述的那样。软件工具对于分析来自基于质谱的代谢组学和磁共振成像等多种技术的数据的重要性无论如何强调都不为过。计算的进步可以从根本上改变和改善生物学家与数据交互的方式,甚至推动新的生物学见解。例如,应用于冷冻电子显微镜数据集的新算法使研究人员能够重建蛋白质复合物的异质结构整体。帮助研究人员整合不同类型数据集的计算方法可以产生新的生物学推论,使此类数据集比其各个部分的总和更有价值。
机器学习及其值得关注的相对深度学习将继续存在,已经对多个领域产生了深远的影响,特别是在图像分析(如我们最近关于显微镜深度学习的焦点问题)、神经科学和基因组学方面。具有更复杂架构和改进表达性和可解释性的模型正在快速开发。人们正在探索它们的应用程序,以解决现代数据科学中一些最艰巨的挑战,例如高维、噪声和稀疏性。
生物学通常是计算密集型的,尤其是在处理巨大的数据集或运行详细的模拟时。然而,超级计算机太罕见(而且昂贵),因此计算科学家已经利用了变通办法。分布式计算促进了蛋白质结构预测的集约过程,Rosetta@home就是一个例子。许多算法已实现在图形处理器 (GPUs) 上运行,以利用并行计算,从而实现多个数量级的性能提升。这有助于加速计算要求较高的(全原子)分子动力学模拟,例如,使毫秒级和更长时间尺度的模拟成为现实。云计算的兴起,以流行的平台如Galaxy为例,允许研究人员使用服务提供商维护的基础设施从大量工具中进行选择。
另一个具有新闻价值的计算趋势是量子计算,它也有望对生物学产生影响。量子计算可能有助于解决困难的搜索问题,这些问题的计算量如此之大,以至于传统计算机基本上不可能解决这些问题。分子设计是有潜力从这项技术中获益匪浅的一个领域;另一个是人口规模数据集的分析。然而,在生命科学中应用量子计算并不是简单地将现有算法移植到量子计算机上,而是一种根本不同的计算范式。而且并不是所有的生物学问题都会受益于量子计算。
多年来,我们不断改进处理计算类论文的方式。自该期刊成立之初以来,我们就要求审稿人评估工具性能和代码,并要求我们发布的新方法的核心代码在出版时提供。我们还旨在教育我们的作者和读者了解软件命名和确保正确引用软件的重要性。随着 GitHub 等流行代码仓库和 如Zenodo之类的DOI(数字对象识别码)仓库的广泛使用,软件工具可以变得易于访问和发现。我们还与Code Ocean公司合作促进代码的同行评审,而审阅者(以及最终的读者)无需下载大量令人沮丧的依赖项来运行程序。
显然,生物学计算工具不再仅仅是专家的定义域:另一个增长趋势是将工具包装在具有易于使用的图形用户界面的容器化平台中。这使得没有严格计算知识及技巧的生命科学家能够在他们的研究中应用复杂的软件工具。但这种计算工具的“黑匣子”也带来了风险:生命科学家必须确保他们有足够的知识来理解他们所应用的工具如何发挥作用,以免他们不正确地使用这些工具或没有充分理解他们的注意事项。
另一方面,软件开发人员必须考虑生物学家需要了解工具如何运作的哪些信息,而不是让他们被细节淹没。我们认为,旨在供生物学家阅读和使用的计算方法论文实际上应该可供生物学家阅读。这就是为什么我们发表的此类论文往往在文本的主要部分对底层算法进行相对简短的描述,并辅以能够证明强有力的验证和对具有挑战性的生物问题应用的图表。精通计算的读者如果有兴趣深入了解算法细节,仍然可以在“方法”部分和“补充信息”中找到它们。
多年来,我们很高兴看到计算文化转向更加开放,许多研究人员现在习惯性地免费上传或下载生物研究软件工具,并提供与利用源代码和详细文档。除了提高使用计算工具生成的结果的可重复性和透明度之外,这种做法更有可能促进社区的更大采用。使代码开源并提供适当的许可证允许其他开发人员适应并进一步构建现有代码,从而推动科学发展。一如既往,我们欢迎您就如何改进编辑标准和流程提供反馈,以更好地服务计算工具开发人员和工具用户。
 扩展阅读
1. Computation and biology: a partnership | Nature Methods  https://www.nature.com/articles/s41592-021-01215-2
2. 科学网—计算科学:为了人类福祉最大化 - 李升伟的博文  https://blog.sciencenet.cn/blog-2636671-1387439.html

你可能感兴趣的:(计算科学,人工智能)