人工智能离医生还有多远?

《医学趋势50讲》

2019-10-12

进入课程

08 人工智能离医生还有多远?

10: 23|11.89MB

你好,欢迎来到《医学趋势50讲》。

上节课我们讲了人工智能在生命科学基础研究领域的一个重要突破,这节课我们就来看看人工智能在临床的应用。

首先,我来问大家一个问题啊,在癌症的诊断过程中,你认为我们中国在哪个环节最为薄弱?

深入思考过这个问题的朋友一定会说:是病理诊断。为什么病理诊断是我们的一个软肋呢?我们来看一组数字。

我们知道病理诊断对于癌症的准确诊断、分期和治疗都意义重大,是很多癌症诊断的金标准。然而在中国临床中,病理诊断也面临着非常大的困难。首先,我国的病理医生严重短缺,全国有执业资格的病理医生仅有一万名左右。按照每100张病床配备1-2名病理科医师计算,中国病理医生的缺口高达4万-9万人。

人手短缺的情况下,工作强度自然就会很高。数据显示,中国病理科医生每天平均看片数量在100张以上。如果每张片子看5分钟,那么就需要500分钟,意味着医生需要不吃不喝不动看8个多小时。想想对着显微镜工作这么长时间是一种什么感受?工作累、压力大、收入低,导致进入这个领域的新鲜血液更少了,短缺进一步加剧。

这个时候大家自然会想,既然人工智能已经在影像诊断上获得了不错的成绩,那么是不是也能用在病理诊断上?但事实是,这种能力迁移并不容易,因为AI病理诊断背后有三个重大的挑战。

首先,数字化的病理数据非常匮乏。和影像数据不同,绝大部分病理数据目前仍然是以病理玻片的形式存储。只有规模很先进的医学中心才会配有电子扫描仪,将病理片扫面成全视野数字切片,也就是所谓的WSI。我们知道大部分机器学习算法都是需要大量数据去训练的,而且数据越多,训练得到的模型就越好。所以缺数据一直以来都是AI病理诊断面临的大难题。

其次,全视野数字切片,也就是WSI本身比较特殊。特殊在哪里呢?WSI的像素非常高,一般的图片浏览器根本就打不开。据说470张WSI图像的像素就赶上整个ImageNet的数据量了,要知道ImageNet可是机器学习领域最大的一个图像数据库了。这就给数据处理和标记工作都带来了很大的困难,如果用传统的深度学习算法,给每张WSI中的病变组织做人工标注,那成本就可想而知了。

第三:病理图像本身也很特殊,比如在很多病理片中,病变组织占的区域其实非常小,比如在有些早期前列腺癌的病理片中,病变组织只占不到1%的区域。这就意味着不但标注很困难,而且图像识别的背景噪音也很大。

那么,有没有一种方法能够同时克服这些困难呢。

近期在《自然医学》上发表的一项重磅成果破了这个僵局。人工智能公司Paige.AI与纪念斯隆·凯特琳癌症研究中心合作,开发了一套病理诊断AI系统。这个系统是基于15000名癌症患者的4万余张数字化病理切片训练而成。对于前列腺癌、基底细胞癌和腋窝淋巴结转移乳腺癌,这套AI系统的测试曲线下面积可以达到0.98。

我们知道测试曲线下面积,也就是AUC,是评价一个机器学习模型性能的重要指标,最大值是1。这套病理AI诊断系统AUC达到0.98,表现相当优异。这项研究的科学家估计,如果该系统投入临床使用,在保证100%灵敏度的条件下,能够减少病理医生65-75%的无谓读片工作。

不少专家甚至认为这是病理诊断领域一百多年来最重要的进展!

如此重量级的成就,这个研究团队究竟是如何达到的呢?我们再对应前面提到的挑战,分析一下原因:

首先说数据量的问题。纪念斯隆·凯特琳癌症研究中心是全球顶尖的癌症研究中心,他们调用了3个数据集,共有来自44个国家和地区的15187名癌症患者的44732个病理切片信息,包括24859个前列腺癌切片、9962个基底细胞癌切片、9894个淋巴结转移乳腺癌切片,与任何一个同类研究相比数据量都要大上一级不止。

重要的是,这些数字化病理片并没有经过严格的筛选。常见的一些切片制作技术问题,比如说气泡、不规则的形状、固定得不好、组织不平整等等,甚至数字化过程导致的图像模糊的数据也被纳入其中。

这里你可能会问,不是说机器学习的数据是“垃圾进,垃圾出”嘛,为什么他们要放弃对数据的严格标准呢?这里原因有两个:

首先是,不做严格的数据筛选,可以获得更多的训练数据;

其次,真实世界场景中的病理数字片本身就存在这样的问题,短期内也不可能完全杜绝。如果用一个完美的,无缺陷数据集去训练模型,遇到现实世界中有各种干扰噪声低数据,诊断的准确性就会大打折扣。

那接下来,我们看看标注和图片背景噪声问题。研究团队用一种创新的算法同时妥善地解决了这两个问题。这是一种叫做多示例学习的弱监督学习算法。

这种算法的优势是,不再需要手动去标注每一张全视野病理切片,而是可以直接将全视野切片作为输入,将电子病历中的诊断结果作为标签,去训练算法。如此以来,就不再需要专家做耗时且昂贵的标注工作,这样他们就可以使用更大的数据集去做训练,从而得到更好的模型。

其实多示例学习并不是一个全新的概念,它最早是在1996年被提出。非常著名的一个应用是在分子药物活性的预测上。详细的算法介绍大家可以点击文稿查看相关的论文。

除了以上两点之外,还有一个不可忽视的因素。本次研究的论文通讯作者,Paige.AI的联合创始人Thomas Fuchs教授本身就是AI病理领域的大牛,他在纪念斯隆·凯特琳癌症研究中心也有自己的实验室。所以这个研究本身就属于强强联合,而且是亲密联合。

所以你看一项突破性的成功背后总有它独特的原因。

除了在病理领域的重大突破之外,过去一年中,人工智能在临床领域还有很多重磅的进展。这里我们给大家整理了其中最重要的三项突破,相关研究的论文大家点击文稿就可以看到链接。

第一个是关于人工智能和液体活检的联姻。约翰霍普金斯大学医学院的科学家不久前在顶级期刊《自然》上发表了一项重磅突破。他们基于血浆中的游离DNA,开发了一个人工智能平台,能够准确区分癌症患者和健康人的血液样本,准确率达到91%。这无异于给火热的液体活检技术插上了一对翅膀,人类离真正的“滴血验癌”又近了一步。这套AI系统使用的算法本身并不复杂,但堪称是机器学习和医学领域的一次优美结合。

第二个是关于肺癌早筛。不久前,斯坦福大学、西北大学、以及纽约大学,联合谷歌AI部门的科学家,使用人工智能对肺癌筛查结果进行判读,达到了94.4%的曲线下面积,相比专业医师,增加了5.2%的敏感性和11.6%的特异性。相关论文发表在《自然医学》上,堪称目前人工智能在肺癌早筛领域最重要的突破。

第三个比较独特。来自德国亚琛工业大学医院的科学家,利用人工智能直接从病理切片上识别微卫星不稳定(MSI)。研究利用了深度残差学习算法,识别结直肠癌MSI准确率达到84%!考虑到MSI在各癌种中的普遍性,后续潜力无限。相关研究论文发表在《自然医学》上,看来人工智能在病理分子诊断上的潜力也不可限量。

说完了重要突破,我们来看看人工智能目前在临床应用上的一些不待解决的难题:

首先,数据仍然是个大问题。用于训练人工智能模型的数据量和数据质量都有待提高。

其次是人工智能模型的可泛化能力以及互操作性。什么叫可泛化能力呢,比如我们用北美人的数据训练的模型,直接用在东亚人的数据上,可能就会出现问题。而互操作性是指,这样的人工智能系统能否兼容目前各式各样的电子病历系统,让医生使用起来更友好更便捷呢?

第三是人工智能系统的安全性问题。大家可能听说过,自动驾驶领域会遇到一个叫对抗性攻击的问题,大意是一个小小的认为图像干扰,可能会严重影响人工智能的算法。比如在街上粘一条特殊图像的胶带。事实上类似的对抗性攻击问题在医疗人工智能中也同样存在。

最后一条是模型的不可解释性。我们知道医生在向病人解释诊断结果时,往往会告诉他们,诊断过程是基于什么证据,得出了哪些判断,尤其是当诊断结果比较微妙的时候。而人工智能算法只会给我们一个冰冷的预测结果,医生无法解释其中的缘由,算法工程师也无法解释。这种模型的不可解释性可能会在临床使用中给大家带来困扰。

好了,这节课最后我给大家留一个思考题:

如果我们以上提到的难题都得到了妥善的解决,人工智能真的开始广泛进入临床,你认为医生的角色会发生哪些变化?在这种局面下,具备哪些能力象限的医生会更有竞争力?

你可能感兴趣的:(人工智能离医生还有多远?)