数据获取成本对医疗影像AI产业化的影响

AI应用,三架马车快慢不一?

 

人脸识别、语音识别、疾病检测称得上是这一次人工智能创新创业大潮中的三架马车。但观察我们身边生活会发现,三架马车快慢不一。有的已经飞入寻常百姓家,有的则还是阳春白雪。

 

入住宾馆时前台刷脸,乘坐高铁时进站刷脸。在手机上发文字消息,不再动手,全靠嘴说。手机解锁也不用指纹了,改刷脸了。这些曾经的酷炫技术,大家现在却都已经习以为常。而这种寻常化,恰恰意味着有一批人工智能的技术公司已经实现了大规模商业化,开始真金白银的赚钱了。

 

以科大讯飞为例,面向教育机构销售语音评测和语音教学产品是科大讯飞最主要的利润来源之一。根据科大讯飞2016年年报,全国包含北京、上海、广东等已开展中高考英语听说考试的10余省市已正式使用科大讯飞口语评测技术,累计考生数1700万。普通话考试机测人数达550万人次,累计机测人数2600万。而人工智能独角兽公司商汤科技则依靠人脸识别技术在金融、安防、手机等领域开始赚钱。其创始人徐立在一次采访中提到,商汤从2015年9月开始进入商业化阶段,在金融场景大规模试点,开始签署越来越多的千万级别的合同。

可以说,在这一轮人工智能浪潮中,人脸识别和语言识别已经率先进入市场,开始盈利。

 

话题回到医疗影像AI。采用人工智能对医疗影像进行分析,也是这一轮人工智能投资和创业的重要热点之一。但医学影像AI目前却普遍尚未开始盈利。一个直接原因是,大多数企业还都在焦急等待医疗器械注册证。根据规定,医疗影像软件也属于医疗器械,必须先获得注册证,才能作为商品开始销售。而没有销售,也无从谈盈利。

 

但其实还有更深层次的原因。拿到注册证只是时间问题。人工智能作为国家科技战略发展重点支持方向,国家不会在这个环节上卡住不放。真正的问题是,拿到注册证以后,医疗影像AI公司是否就可以真正进入商业化,开始真金白银的赚钱?

 

影响商业化进程的因素很多,这里咱们只闲聊(胡聊)其中的一个因素:数据获取成本。巧妇难为无米之炊,获取数据几乎是所有人工智能研发的第一步必须工作。数据的质量和数量,往往能够对人工智能,尤其是深度学习模型产生直接甚至决定性的影响。

 

但大家是否想过,数据获取成本也是影响医疗影像AI商业化的决定性因素之一。医疗影像数据按照获取来源,可以简单划分为开源数据和私有数据两类。开源数据和开源软件相类似,大家可以从互联网上免费下载,并且在一定版权限制之下,免费使用。而私有数据则是机构根据自身商业或研发需求,组织专业人员收集和标注的数据,并不向外部公开。

 

开源数据如同双刃剑

 

开源数据集对于人工智能飞跃式发展的助推作用毋庸置疑。很多从业者,乃至学术机构和创业公司的起步都是依靠网络上的开源数据集。开源数据降低了人工智能研究,乃至创业的门槛,推动了整个领域的快速繁荣。这些都是开源数据在研究和研发领域的正向积极作用。

 

但在商业领域,开源数据的反向负面作用也开始显现。医疗影像AI商业化市场竞争好似一场马拉松,借助开源数据的训练,越来越多的选手能够达到报名资格线,获得参赛资格,有机会站到赛道上。但赛道是有限的,不可能随着参赛选手的增多而扩容。选手越多,赛道越拥挤。在拥挤的赛道上,如何才能杀出重围?

 

商业竞争最直接的方式要么拼性能,要么拼价格。最理想的情况是,产品拥有超群乃至超凡的性能,并且能够为大家所公认。但这往往是很难做到的。以肺结节为例,目前市场上拥有肺结节AI的厂商数量众多,但很难说,有哪一家的检测准确率指标是遥遥领先,且毫无争议的。那么,在无法以性能绝对胜出的情况下,必然有公司开始走比拼价格的路线。于是,有不少业内公司已经宣布肺结节AI产品免费投放。而在一个商业竞争领域,一旦有人开始打出“免费牌”,甚至开始用免费模式来跑马圈地,则意味着蓝海变红海,甚至是烧钱大战的开始。

 

在互联网经济兴起之前,传统的商业模式往往是先有效益,再上规模,依靠自身积累来稳步发展。但近年来互联网的新打法则颠覆传统,往往是先上规模,再说效益,依靠一方面烧钱、一方面融资的方式来比拼谁能够血拼到底。目前在医疗AI影像领域,大家采用互联网模式来比拼烧钱和跑马圈地的趋势已经非常明显。

 

但这种方式在医疗领域是否能够成功?最后哪些企业能够血战胜出?目前尚不得而知,只能借助时间来考验。但赛道拥挤、竞争激烈已经是目前医疗影像AI领域不争的事实。

 

私有数据如同奢侈品

 

在肺结节、糖网这些有开源数据提供的医疗影像诊断领域,竞争已经激烈乃至惨烈。为了避开这些血拼的红海领域,很多医疗影像AI公司开始寻找新的方向,建立合作渠道、组织资源,选择独特的疾病诊断方向,收集数据,进行标注。从而建立自己私有的标注数据集,并推出相应的影像AI产品。

 

通过私有数据集,企业能够独辟蹊径,开拓出属于自己的独占细分领域,避免与其他公司的恶性竞争。此时,私有数据集也就成为了最好的技术壁垒。技术壁垒就意味价格壁垒,乃至利润空间。

 

但是,私有数据集的建立绝非易事,其本身如同奢饰品,意味着高投入和高成本,乃至高风险。首先医疗数据的获取成本非常高。其次,医疗数据的标注成本堪称昂贵。ImageNet这一类的通用计算机视觉图像集,可以找普通人来标注。但医疗影像数据的标注必须由专业的影像医生来完成。甚至为了保证标注质量,还要求必须由2~3名中高年资的医生来同时进行。

即使如此,在现有条件下,疾病诊断仍然是客观检查证据与主观经验分析相结合的结果。医生的个人主观因素是诊断结果中不可排除的一部分。这也就意味着人工标记始终不可能成为100%的金标准。

 

临床诊断中,要想真正确诊,得到100%可靠的金标准答案,往往要么通过病理、要么通过手术、要么通过随访。而这三种途径的任何一种都意味着有效数据获取难度和成本的指数级上升。

如前所述,医疗影像数据获取的特殊困难决定了:一,用于模型训练的数据集规模有限,往往是小数据集;二,用于训练的数据标签(标注)往往达不到真正的金标准,存在偏差和错误标注。

 

数据不够,自己来造?

 

随访、病理和手术的特殊性决定了具备金标准的高质量数据集只可能是小规模数据集,无法建立起能够与通用计算机视觉图像集(如Imagenet和CIFAR-10/100)相匹配的大规模数据集。而在小数据集上,通常的深度学习网络的准确度和可靠性往往会有所损失,甚至模型训练无法收敛。并且,这种损失或收敛,有时无法通过简单的数据增强来消除。此外,医学上阴性(正常)/阳性(异常)样本的极度不均衡特性,会进一步加大模型训练的难度。

 

幸运的是,生成对抗网络(GAN)应运而生。这里不再介绍GAN的来源和发展,网络上有很多非常好的教程可供参考。值得一提的是,GAN已经被用于医学影像领域,甚至已经可以生成“以假乱真”的影像。在最新的公开论文中,借助GAN已经能够生成包含肿瘤的MRI影像,并且试验证明,采用GAN生成的合成影像能够有效提高肿瘤分割网络模型的精度。(Medical Image Synthesis for Data Augmentation and Anonymization using Generative Adversarial Networks,  https://arxiv.org/pdf/1807.10225.pdf)

 

以随机来适应随机?

 

在无法获得病理、手术或随访结果的情况下,研究者往往采用组织中高年资医生对数据进行人工标记,获得近似金标准的方式,来建立训练数据集。这种方式下数据集中的标注或标签必然将包含标注者的主观个体差异,甚至是误判。并且,还有另外一个重要因素,由于疾病特征的多样性,甚至是变异性和突变性,即使再大规模的数据集,也无法覆盖或包含疾病的所有特征(征象)。将上述两个方面综合起来考虑,可以认为,当我们建立起一个医学影像的数据集时,实质上等同于做了一次概率试验。相当于,从一个无穷大甚至是不断变化的样本池中,抽样采集了很小一批数据。并对抽样数据进行了总体正确但包含偏差甚至一定比例错误的标记工作。可以说,从数据收集到数据标记,实质上都是一种统计抽样,抽样样本分布只能尽可能逼近真实样本分布,但永远无法完全达到。

 

也正是受这种概率思想的启发,人工智能领域已经开始关注和研究贝叶斯深度学习模型,并且有学者认为,基于贝叶斯概率的深度学习模型将是未来的新一代技术发展方向。

相比生成对抗网络,贝叶斯深度学习网络是一个更为新生的模型。推荐阅读博客“ 计算机视觉用于贝叶斯深度学习的不确定性”:http://blog.csdn.net/weixin_39779106/article/details/78968982。

 

前面说了,在数据集的建立过程中从数据抽样到数据标注,都存在着不确定性。针对这种实际存在的不确定性,贝叶斯深度学习网络引入了一个革命性的创新,“神经网络的权值不是特定的数值,而是用概率分布来表示。在对权值进行优化时,不直接优化数值,而是对所有可能的权值进行平均(也称为边缘化‘marginalisation’)。”

 

以概率分布作为网络参数的贝叶斯深度学习模型在两种场景下具有重要价值:

1. 对安全性要求较高的应用。因为贝叶斯模型可以识别出输入数据与训练数据集是否一致。 也就是说,不仅能够给出结果,还能够给出结果的可信度。

2. 小数据集情况。试验表明,在小数据集上贝叶斯深度学习能够取得比同类深度学习模型更好的识别准确率。

 

技术创新终将打破医疗数据困境,但这种创新是普惠的

 

长远来看,医疗影像AI当前面临的数据困境必然将被技术创新所打破。因为,人工智能技术的发展过程就是机器学习能力向人类学习能力不断逼近的过程。而人类的一项突出能力就是能够从少量的代表性样本中进行学习,能够进行推论,或者说能够发现模式,并用想象去组合模式。生成对抗网络和贝叶斯深度学习正是人工智能在这个前进方向上迈出的扎实脚步。

 

但从商业角度考虑,开源共享从一开始就是这一轮人工智能浪潮的本质特性。深度学习原理和模型的研究创新也将通过开源方式共享。这决定了技术创新是普惠的,它往往是为更多新兴公司和后来者提供入场机会,而商业化的赛道也将因此变得更加拥挤,竞争更加激烈。

 

这也意味着,所有的医学影像AI公司都必须想办法在商业模式上找到自己的生存之道,筑起自己的护城河。

你可能感兴趣的:(深度学习,人工智能,医疗影像,放射影像,人工智能,深度学习,医疗影像,影像AI)