信息与生物

看过黑客帝国的朋友不知道有没有感受到这样一个观点,我们活在一个虚拟的世界中,一切事物只不过是信息的存在。随着21世纪生命科学和信息科学的发展,似乎这个观点并不是仅仅是科幻,而是逐渐成为了现实。

一切都是数据

相信大家都还记得高中生物中关于中心法则的描述。没错,就是那个DNA---RNA---蛋白质。不知道大家有没有想过,这个过程本质上就是信息传递、信息整合、信息展示的过程。而二代测序,生物信息技术本质上就是通过对数据的分析,来还原数据所携带的信息的一个过程。看起来似乎一切都是数据,生命科学和信息技术有着天然的内在联系。

二代测序分析 !=  生物信息分析

简单来说,二代测序技术是一种测量方法。就好比用显微镜观察细菌,我们使用光信号或者电子信号观察目标,收集得到数据然后分析推测我们的目标发生了什么。二代测序技术也是如此,我们通过并行PCR扩增技术,检测光信号或者电脉冲信号的变化,推测碱基的变化,然后通过对碱基数据的分析来推测生命体到底发生了什么。但凡是观察就有偏差,二代测序技术每一步都有一定量的偏差,样本获取、文库制备、PCR扩增、测序和读碱基,这里每一步都存在信息的耗散。生物信息学,通过统计学和计算机算法在很大程度上逆转这个过程,从而得到真正有价值的生物学信息。本质上来说,生物信息学就是一个信号过滤和信号增强的过程。

信息与生物

刚才提到二代测序,确实二代测序是生物信息学技术应用的一个很大的方面。国内外很多的生物信息公司也都在做这一块。这一块可以细化为很多分支,DNA方面、遗传病相关、癌症靶向药用药指导、相关的甲基化分析、RNA相关的差异基因分析、疾病相关的通路分析、剪切位点相关的分析等等。但生物信息学不仅仅是二代测序,生物信息学的未来也许在其他领域。比如,文字挖掘,每年NCBI上发表海量的文章,这些文章里面包含大量的研究成果,如果紧紧靠人阅读大量的文章,有些成果很可能会石沉大海。目前自然语言处理技术已经相对成熟,完全可以应用到对于海量文献的挖掘上,把这些非结构化数据抽取成结构化易查询的数据成为对生命科学发展的有价值信息。再有,测序数据、组学数据、其他实验室数据的整合分析,目前还没有形成体系。很多医院的系统还不能完全无纸化,这也造成了这部分数据的收集困难。如果这一系列的数据可以充分整合和结构化,那么将大大降低机器学习在生物医学应用的门槛。未来的医疗,也许我们的身体体征,实验室检测,基因组数据,转录组数据,蛋白组数据,经过机器学习的算法预测,我们将准确知道我们该吃什么药。医生也更加明确该怎么帮助病人。

生信工程师的未来

机器学习、云存储、云计算炒的火热的今天,这些技术在生物信息学的应用上明显感到不足。毕竟生物学出身的工程师都不是专业的运维和程序员。我认为,一些医疗检测和分析,很大程度上会逐渐自动化起来。云存储、云计算、高大上的并行框架,不久将成为生物信息分析流程的标配。目前大部分现有的入门级流程工程师将被淘汰,绝大部分的生物信息学流程将会变得如同目前很多web服务那样稳定和安全。更多的工程师将会专注于算法优化,检测准确性提升,以及生物学意义的解读。机器学习将会把生物信息学技术充分整合起来,多维度数据将被利用起来,给人的生活带来颠覆性的改变。

你可能感兴趣的:(信息与生物)