北大AI公开课第十课--人工智能在生命科学中的应用by碳云智能李英睿

生命是个很神奇的过程,我们永远在探索,在有限的时间里,我们还能做一些什么,怎么才能开心而有意义地度过一生,也许一辈子都没有答案,可是那又怎样呢,时间的轴从未停止转动,每天都会把昨天抹去,然后开始新的轮回,你准备好蛮对今天的自己了吗?

大学的时候有个离散数学老师,做的是生物信息分析,利用计算机的一些技术,进行基因编码测序以及信息分析,听起来就很厉害的样子,今天来自李英睿老师的分享以生命为主题,主要讲述人工智能在生命探索过程中发挥的作用,听完之后可能对于生命和AI,你会收获新的认识和理解。

一、课堂回顾

生命怪才——李英睿老师

 

李英睿,1986年5月24日出生,2004年进入北京大学生物科学专业学习,大二暑假(2006年)进入华大基因(北京华大基因研究中心)进行科研项目实训。曾任深圳华大基因科技服务有限公司(简称“华大科技”)CEO。2015年10月合伙创立碳云智能科技。2016年2月25日入选《福布斯》杂志“30位30岁以下亚洲人物榜”(Forbes 30 Under 30 Asia)生命科学榜。 之所以称英睿老师为怪才,是因为他打破了我对人工智能科学家的认知,通常我们会直观地认为,从事如此高深课题研究,而且获得这么丰硕成就的人,他起码也是硕士,但其实不是,所以除了感叹生命的神奇和伟大,什么语言都显得苍白而无力。

分享内容

1、AI+生命科学

生命科学是个很泛的话题,普通人没事不会研究它,但其实AI已经为生命科学的研究提供了大量的能量和动力:

(1)预测生命状态的未来演变方向和趋势。每个人的生命状态都是一个渐变的过程,所以在不同种状态的演变之间,其实存在着一些概率分布的关系,所以可以通过学习,发现这种概率分布的潜在规律;

(2)预测干预措施及其组合方案对生命状态未来演变方向及趋势的影响,每一种治疗的方案,都会产生不同的影响,所以可以通过预测不同方案的走向预估,选择效果可能最优的方案;

(3)给定生命的状态和未来目标,求极大化该目标的可行干预方案;

(4)从技术上来说,就是对人类的各项生命活动建模,提供可影响人类决策的行为建议,但是人类的生命本质是很复杂的,活动也很多样,所以建模也不是一件容易的事。

2、生命科学建模过程中的数据分析

(1)验证是否可在纯数据驱动下获得好的干预。比如对一个实验者采取7天禁食,20天吃饭。然后收集生命活动的数据,并进行恰当的处理和分析,从而对生命活动作出干预,进而分析下一次生命状态的到来;

(2)数据处理中存在的大量问题具体表现:

 

  • 需观测和分析的数据存在维度异质性。异质是指在一个大样本数据中,存在很多小样本数据,这些小样本数据的均值以及离散度等都有自己的特征,没有办法直接在大样本数据的层面进行分析和特征提取,增加了数据分析的困难度;
  • 数据源多而分散,数据流碎片化:生命体是十分复杂的,所以观测的生命体征数据也十分复杂,而且实验获得的数据肯能分布也不够集中,而是碎片化地分布的;
  • 数据特征难以预期:这个很明显,医学数据的分析本身就是最难以捕捉的,需要强烈的专业背景和灵活性;
  • 知识发现方向开放而难以预期,当一大推生命数据摆在眼前,分析是没有任何头绪的,我们也没有办法预期会得到哪些结果和结论,所以有时候如何开始都是个问题;
  • 时间、空间的变量进一步复杂了问题,人的生命体征数据在不同的时间以及空间场合吓是会发生变化的,这让数据分析的人真的不知如何是好;
  • 大规模实时在线计算:生命数据体量庞大,如何进行实时的在线计算也是困扰很多生命科学家的问题。

(3)其它一些过程相关的问题

 

  • 数据本身就具有很多维度,而且采集数据的过程是随机的
  • 可选取的数据分析的角度也不是唯一的,可从多个维度进行思考,比如一些变化的趋势以及趋势背后的蕴藏的意思;
  • 结合计算机处理的一些手段,可以很轻易地验证以前的一些猜想,也可以为新的猜想提供支持,完成快速的迭代。
  • 数据分析的过程中,还有可能因为数据量过少,从而导致发生过拟合,因为就目前的现状而言,愿意参与到生命科学研究过程中的样本还是很少的,一方面是因为生命科学的观测是个持续性的过程,而且可能存在一定的风险,所以无法吸引到足够的样本数。

3、生命科学研究过程中遵循的一些基本方法

(1)假设研究方法:根据个人经验,提出一些可能的假设,然后设计实验进行验证,这其实是对经验要求比较高的,否则假设出错或者没有新发现的可能性就比较大;

(2)把以前的猜测验证新的发现:以前有的一些猜测,可能没有获得及时的验证,但是可能在未来的某一项研究中,就发现了可支撑该结论的数据或结果;

(3)联想观测法:生命是具有体系性的,所以在实验的过程中,必须遵循联系的观测手法。

4、问答

(1)基因检测的成本高,但对于很多疾病的治疗和预防又确实是有效的,而现在相关数据的积累也越来越多,所以如何结合AI 做一些应用,其突破点在哪里?

先举个例子,FDA叫停美国的项目,一方面只说风险高,却没有指明具体的原因,引起了一定的恐慌,背后也隐藏了一些人性的弱点。另一方面,其本身的效用也不够强,安全或者技术上没有达到标准。所以对于基因检测这项技术而言,预测区间的锁定和概率的提高是很重要的,因为基因检测的目的是输出一些优用的结论,比如,你是要死的,这是一句没有一点价值的废话,但是如果输出的是你下个星期就要死了,这是一句信息量含量巨大的话,这样的结论可能才是基因检测想要输出的结果。中国面临的现状是,穷而且老龄化,我们在健康上的投入不高,所以我们只能是说做一些health agent 的工作,对人类的健康进行观测、计算、干预等。

(2)基因编辑技术,对于先天性疾病的治疗,检测以及更改基因或是植入更强的基因都有研究,如何走入大众?

一项技术是否能走入大众,几个因素是很重要的,第一个是成本,成本直接决定这项技术是否能被大众消费,第二个是可返佣程度。只有当一项技术可以解决更多问题,具有良好泛化能力时,才能帮助它更好地走入大众。其它诸如干细胞以及免疫疗法也基本遵循同样的轨迹和原理。

(3)健康管理需要比较长的一段时间,是一种典型的“循证医学”。循证医学和传统医学的不同之处在,除了要有丰富的可靠的医学实践经验之外,做出的医疗决策还要结合当前科学研究给出的证据,进行双向的作证,提高医疗决策的可信度。

(4)关于制药问题,AI有什么正向的推动作用

AI的到来,对于制药的研发是相当有帮助的,一方面可以促进旧药的新用,另一方面可以加快新药的研发。因为说到底,药品的研究更多地依托于经验,而这是AI的强项。

(5)AI+医疗可能的机会

第一,辅助治疗。第二,配合做一些模型的训练;第三,当新的基因、蛋白、常规数据进入医疗,数据的处理需要AI进行辅助。

(6)医院都要区分科室,所以医生也没办法精通所有科室,那智能医疗机器呢?

机器可以实现人类的集体智慧,所以综合判断能力上会比较优秀,而且机器是依照真实世界构建的,可以更全面、系统化、不间断地观测人的准概况

(7)碳云面临的挑战和机遇

首先,健康并不是人的刚需,人只有在生病了之后才会意识到健康及健康管理的重要性。人不一定愿意为健康付出一些什么,没有经历过特别痛苦的时候,不会做出改变;

其次,实验的可持续过程操作复杂,人性的考量很多,只有顺应人性健康管理,才能留住样本,比如在样本正常吸烟的情况下展开健康的管理;

最后,健康管理需要串联多个生活的场景,但是串场景本身也很复杂。

所以健康管理是反人性的,人类的健康管理需要广度。

在未来的三到五年,便捷化、移动化、智能化的医疗将会成为主流。

后话:

所以听完今天这个课,产品狗们的感悟应该是很深的,终于理解健康医疗、生命科学背后是一个多么庞大而复杂的体系。我自己感触最深的一点是,我一直认为健康是刚需,是每个人的痛点,但是听完老师的分享,诚然是我自己欠考虑了。这也提醒我,在面对一些需求的时候,不能自己想当然地觉得需求应该怎么样,保持客观和冷静,做足够的分析和取证,才能更好地判断伪需求,避免出现产品研发自认为一百分,结果上线之后却是0分。很多时候我们说做产品要顺应用户的本性,但往往很多时候,我们要面对的难题在于,我们需要反人类地做一些产品,并且希望用户赏脸,这个时候,想法和思考就很重要了,还是那句话,先问问你自己会不会用,愿不愿意用?

北大AI公开课第十课--人工智能在生命科学中的应用by碳云智能李英睿_第1张图片

 

你可能感兴趣的:(北大AI公开课)