原文出处:TechEmergence
原文标题:7 Applications of Machine Learning in Pharma and Medicine
原文作者:Daniel Faggella
原文链接:https://www.techemergence.com/machine-learning-in-pharma-medicine/
机器学习是否有效往往取决于数据的多少,更多的数据几乎一定可以产生更好的结果——而医疗保健正是一个坐在数据金矿上的行业。麦肯锡预计,基于更好的决策,优化后的创新,研究和临床试验效率的提高以及为医生、消费者、保险以及监管机构创造的新工具,大数据和机器学习每年可以给医药行业带来高达1000亿美元的价值。
所有这些数据从哪里来?如果我们可以查看数据流,就能发现研发部门,医生和诊所,病人,护理人员等标记。在当前,不同源头的数据阵列是同步这些信息以及用它来改善医疗保健基础结构和治疗水平的问题的一部分。因此,当前机器学习和医疗保健交叉领域的核心问题就是:寻找有效收集和利用大量类型各异的数据的方法,以提高面向个人的分析、预防和治疗水平。
机器学习在医药领域中应用的兴起,让我们看到潜在未来的一缕阳光,在这个未来中数据的同步、分析和创新将成为日常的现实。下面,我们将这些开创性的应用进行分类,并且给出我们对持续性创新领域的见解。
机器学习在医药行业的应用
1. 疾病鉴别/诊断
疾病的鉴别和病痛的诊断是机器学习研究在医学中应用的最前沿。根据美国药物研究和生产(Pharmaceutical Research and Manufacturers of America)2015年的报告,超过800种治疗癌症的药物和疫苗正在临床试验中。在彭博技术(Bloomberg Technology)的一篇采访中,奈特研究所(Knight Institute)的研究人员Jeff Tyner称,尽管这个形势很令人兴奋,但它也向人们提出了如何找到处理各种结果数据的方法的挑战。“这意味着生物学家与信息科学家、计算机专家相互合作的想法十分重要。”Tyner说。
很显然,首先进入这一领域的弄潮儿中很多都是超级玩家,尤其是在诸如癌症鉴别和治疗这样的高需求领域。2016年10月,IBM沃森健康宣布和Quest Diaganostics合作开展IBM沃森基因组(IBM Watson Genomics)项目,目标是通过整合认知计算和基因组肿瘤测序在精准医疗方面取得长足进展。
波士顿的生物医药公司Berg正在使用人工智能技术研究和开发包括肿瘤在内的多个领域的诊断和治疗。目前正在进行的研究项目包括静脉内肿瘤治疗的剂量试验和前列腺癌的检测和管理。
另外一些主要的例子包括谷歌的DeepMind Health,它在去年宣布的多个英国的合作伙伴中就有伦敦的Moorfields眼科医院,后者正在开发解决老龄化眼睛中黄斑部退化的技术。
在诸如抑郁症这样的脑部相关的疾病领域,牛津的Pivital抑郁治疗反应预测(PReDicT)项目使用预测分析来帮助诊断和提供治疗方案,其总体目标是生产出一组商用化的、可用于临床环境的情绪测试装置。
2. 个性化治疗/行为矫正
个性化治疗,或者说基于个体健康数据与预测性分析相结合的更有效疗法,是现在的一个研究热点,而且与前面所说的更准确的疾病诊断密切相关。这一领域目前被有监督的学习算法所主宰,有监督的学习算法允许医生从有限的诊断集合中进行选择,或者基于病人的症状和遗传信息对病人所面临的风险进行评估。
IBM沃森肿瘤(IBM Watson Oncology)是一家位于推进治疗决策变革前沿的领先研究机构,它利用患者的医疗信息和历史来优化治疗方案的选择。
在接下来的十年中,微型化生物传感器和装置将被大量使用,以及具有更复杂的健康评估和远程监控功能的移动应用的增长,这些都将为研发和治疗效果的促进带来井喷般的可用数据。这种个性化治疗对于个体的健康优化以及降低医疗总体费用都具有重要意义。例如,如果更多的病人坚持遵从处方药或者治疗方案,那么健康护理费用的降低将自下而上地流动(译者注:trickle up,上滴经济,与trickle down对应),然后(希望)再回到自上而下(译者注:trickle down,又叫涓滴经济,指经济发展过程中并不给予贫困阶层、弱势群体或贫困地区特别的优待,而是由优先发展起来的群体或地区通过消费、就业等方面惠及贫困阶层或地区,带动其发展和富裕【1】)上来。
在疾病预防这个机器中,行为矫正也是不可或缺的一个齿轮,Catalia Health的Cory Kidd在去年12月接受TechEmergence访谈时提到了这一点。在癌症鉴定、预防和治疗领域中涌现出了大量初创企业,它们取得了不同程度的成功。Entrepeneur从中精选了两个例子:
· Somatix是一家B2B2C的数据分析软件平台,它的基于机器学习的应用程序通过对手指和嘴唇之间手势的识别,来帮助人们更好地理解他们的行为,从而在精神和情绪上做出改变,尤其在戒烟方面。
· SkinVision自称为“皮肤癌风险应用程序”,因为它是“第一家也是唯一一家得到CE认证的在线评估程序”。有意思的是,在应用商店里我们还找不到这个叫做SkinVision的应用程序。在对“SkinVison”的搜索中,第一个出现的应用程序是DermCheck,在这个程序中,图像通过手机被上传给皮肤科医生(是人,不是机器),然后医生给出其个性化的治疗方案——基于机器学习应用的准确性在规模化过程中仍然有些问题需要解决,SkinVison也许就是一个证明。
3. 药物发现/生产
从药物化合物的初始筛选到基于生物因素对成功率的预测,在初步(早期)药物发现中使用机器学习具有多个方面的应用潜力。这些潜力中包括研发和发现技术,比如下一代测序。
精准医疗,包括对“多因素诱发”疾病的鉴别机理以及由此得到的替代治疗途径,似乎位于这个领域的前沿。很多这方面的研究都涉及无监督的学习算法,无监督的学习算法在很大程度上仍然局限于识别数据的模式,而不做预测(预测目前仍然属于有监督的学习算法的领域)。
这个领域的重要参与者包括MIT的临床机器学习团队(Clinical Machine Learning Group),它的精准医疗研究集中于开发算法,用于对疾病过程更好的理解以及对诸如2型糖尿病等疾病有效治疗方案的设计上。微软的项目Hanover正在多个项目中使用机器学习技术,包括与奈特癌症研究所合作开发人工智能技术用于癌症的精准治疗,其重点放在开发针对急性骨髓性白血病(AML)的个性化药物组合的方法上。
英国皇家学会还指出,药物的生物生产中使用机器学习进行优化的时机已经成熟。实验和生产过程中产生的数据可以帮助制药公司减少生产药物的时间投入,从而实现降低成本和提高产品的重现性。
4. 临床试验研究
机器学习在帮助设计和指导临床试验研究方面有一些潜在的应用。在确定临床试验候选人中应用先进的预测分析技术,可以比目前的方法采集到包括比如社交媒体和医生随访在内的更广范围内的数据,同时也包括在选择特定人群时采集的遗传信息——在总体上,这些都将导致更小规模、更快速和更便宜的临床试验。
机器学习还可以用在远程监控和实时数据访问方面,以提高安全性,例如,监控那些可能造成参与者伤害或死亡的生物和其它方面的信号。麦肯锡认为,机器学习还可以有很多其它的应用,以帮助提高临床试验的效率,包括寻找更为有效的最佳样本大小,解决和调整病人招募的地域差异,以及使用电子医疗记录来减少数据错误(比如重复输入)。
5. 放射学和放射治疗
在Stat News 2016年10月的一篇采访中,哈佛医学院的助理教授Ziad Obermeyer博士表示,“20年后放射科医生不会再以类似于现在的形象而存在,他们可能更像电子人,他们监督计算机算法以每分钟几千个的速度读取和分析研究案例。”在这一天到来之前,谷歌的DeepMind Health和伦敦大学学院医院(UCLH)合作,开发可以检测健康和癌变组织之间差别的机器学习算法以改善放射疗法的效果。
DeepMind和UCLH正致力于应用机器学习来帮助加快细分过程(保证健康的结构不会受损)和提高放射疗法计划的准确度。
6. 智能电子健康记录
在电子健康信息采集和数字化方面,基本的基于机器学习的技术包括使用支持向量机对医疗文档进行分类(比如根据电子邮件对患者查询进行排序)和光学字符识别(将草体或者其它变形的手写体转化为数字化字符)。Matlab的机器学习手写识别技术和用于光学字符识别的谷歌云视觉API是这一领域创新的两个例子。
MIT的临床机器学习组正率先从事开发下一代智能电子健康记录,该记录将整合内嵌机器学习/人工智能以帮助诸如诊断、临床决策和个性化治疗建议。MIT在它的研究网站上提到“对鲁棒的机器学习算法的需求,这些算法应该是安全的、可解释的、并且可以通过少量标记的训练集学习和训练、理解自然语言以及可以很好地推广到众多医学环境和机构中去”。
7. 流行病爆发预测
基于卫星采集的数据、从网络上收集的历史信息、实时的社交媒体更新以及其它来源,历史机器学习和人工智能技术也被应用于监测和预报世界范围内的流行病爆发。支持向量机和人工神经网络已被用于预报比如疟疾的爆发,诸如气温、月平均降水量、阳性病例总数以及其它数据点等数据被考虑在内。
对流行病爆发的严重程度的预报,对于第三世界国家来说尤其紧迫,它们往往缺乏医疗基础设施,教育途径和治疗资源。ProMED-mail是一个基于互联网的报告程序用于监测新出现的疫情和提供实时流行病爆发报告。
利用ProMED报告和其它挖掘的媒体数据,HealthMap组织用自动分类和可视化计算帮助监控和为任一国家和地区提供疾病爆发警报。
需要克服的障碍
在将机器学习技术应用到医药行业的竞赛中,人们仍然需要解决一些重大挑战:
· 数据治理是当前一个最亟待解决的问题。目前医疗数据仍然是属于个人的,外界很难访问到,大多数公众对于不考虑隐私而发布数据持谨慎态度,这一顾虑似乎也合乎逻辑。有意思的是,2016年3月Wellcome Foundation关于英国公众对健康数据的商业使用的态度做出的调查显示,只有17%的受访者绝不同意他们的数据以匿名的方式共享给包括研究机构在内的第三方。
· 为了满足针对药物开发的严格的监管规定,我们需要更多透明的算法。可以这么说,人们需要能够透过“黑匣子”来理解机器作出结论的因果推理。
· 制药行业中对数据科学人才的招募和建立起一个健全的技能管道是非常重要的必要条件。
· 打破“数据孤岛”和鼓励跨行业的“以数据为中心的视角”(即看到共享和整合数据的价值),这对于将行业的思维方式转变为欢迎和重视长期价值的增长十分重要。除非有立马可得、显著的经济价值,制药公司在做出改变或者支持研究计划上一向表现得相当犹豫。
· 目前电子记录在数据库中仍然呈混乱和碎片化形式,简化电子记录将是迈向个性化治疗解决方案方向上重要的第一步。
译者评论:
数据不是越多越好,而是真实、准确、规范的数据越多越好,低质量甚至虚假的数据是人工智能的毒药。数据是算法的根基,没有高质量的数据,就没有高质量的模型,也就没有机器学习在医药行业应用的成功。
疾病诊断本是人工智能或者机器学习在医疗领域中最直观的应用之一。基于多来源和多载体的测试结果和数据,通过机器学习或者建模,人们既有很大机会找到直接和疾病相关的观测对象(比如生物标记物)或者模式(多个标记物或者指标的组合),又可能得到隐性的预测模型,进而帮助医生提高诊断的准确度。这个方面目前存在的不足是,数据的分布不够全面(比如某些疾病的亚型以及数据种类不全),数量不够多(包括阳性和控制组样本),这些问题限制了机器学习在疾病诊断方面的应用进展。
个性化医疗是个很有吸引力的名词,它给人带来“精准”、“订制”的感觉。用遗传基因组的数据对病人的治疗方案进行指导,甚至对亚健康状态或者健康人群进行提前预警和治疗,这些从健康医疗行业的角度上来说都是一块很大的馅饼。不过,馅饼大也就意味着费用也高。前两天诺华以87亿美元的价格收购了Avexis,后者以其基因疗法AVXS-101治疗脊髓型肌萎缩症(SMA)而闻名,AVXS-101这种基于病人基因组的治疗方法可以做到终生有效,但每位病人的治疗费用高达400-500万美元【2】。让一部分人先健康起来没错,但最后能不能走向共同健康?希望如此吧。
药物发现是计算机模拟进入医药行业最早的应用领域之一,通过对分子和靶向蛋白之间作用力的模拟,计算机可以从拥有几百万个化合物的候选分子库中筛选出几十个可能的先导化合物,机器学习和模拟的技术还可以应用于其后的化学合成过程和药物的临床稳定性研究,大量地节约时间、人力和物料成本。在药物生产中,过程优化是机器学习可以大展身手的领域,在这些方面,制药企业积累了大量的历史数据,这些数据对机器学习和模型训练具有重要的价值。
临床试验同样也是个数据金矿,不过由于采集方法,试验方法,数据分析等方面存在的巨大差异,临床试验的历史数据的质量不能得到保证,尤其对于不同国家来说,其数据之间缺乏标准化,缺乏可回溯的记录,存在大量缺失数据,这些都给机器学习在这一领域的应用带来挑战。
在包括放射学在内的很多领域,机器学习都能够帮助医生们提高医学图像识别和处理的速度和精度。以前检验科的医生要花很多时间在显微镜下分辨细胞的种类以及对各类细胞计数,不仅费事费力,而且随着工作时间的增加,准确度可能大打折扣。机器学习技术的应用,可以在保证准确度的情况下将读片速度提高上千倍。虽然机器学习在这一领域的发展迅速,但人们仍然面临着几个挑战,其一是对于全局性病变和结构性病变的识别准确度仍然不能令人满意,其二是医学成像设备缺少技术标准,造成产生的医学图像质量参差不齐。
同样是图像识别,医生的手写记录也许比X光片更具有挑战性。一方面,机器学习手写识别是一个不限于医药行业的应用,它更多地涉及到模糊算法和对自然语言的理解。另一方面,电子健康记录的普及将提高数据的质量和通用性,机器学习技术将逐渐从手写记录识别转移到基于健康记录对疾病诊断和治疗决策的支持上。
统计分析很早就被用于流行病数据的分析和疫情爆发预测,这是一个数学、统计学或者计算机科学在医学中应用的传统领域。一个有意思的现象是,应用机器学习来预测流行病爆发,其准确度并不见得比传统的线性回归分析要来得好,这可能和对流行病爆发的预测更多地依赖于准确的因果关系而不是相关关系有关,而对因果关系的准确把握需要算法对数据在时间维度上更深入的理解。
参考出处:
https://wiki.mbalib.com/wiki/%E6%BB%B4%E6%BC%8F%E7%90%86%E8%AE%BA
https://www.reuters.com/article/novartis-gene-therapy/novartis-says-sma-gene-therapy-is-cost-effective-at-4-5-mln-per-patient-idUSFWN1XG0OD
编译/Athlon_BE
2018.11.8