预测分析解决方案由能够学习历史数据中存在的模式的技术组成,例如人工神经网络和决策树(众多其他统计技术)。 随后,他们可以将获得的知识应用于检测或预测新数据的趋势。 如今,预测分析已渗透到我们的日常生活中,从金融交易中的欺诈检测(每次您使用信用卡在商店或在线购买商品时,都会分析其欺诈潜力)到营销和推荐系统。 在本文中,我们不仅讨论如何将这些技术应用于医疗保健,而且还将讨论PMML标准如何极大地简化医疗保健领域中任何预测性解决方案的操作部署。
九十年代初期,我很幸运地与已故的里卡多·马查多(Ricardo Machado)合作,他是巴西里约热内卢IBM科学研究中心的顶级人工智能(AI)研究人员之一。 里卡多和他的合作者发表了许多关于神经网络和名为Next的预测专家系统的论文。 该系统的强大功能源于它使用从医学专家的访谈中获得的“知识图”来形成模型的基础的能力,该模型能够在显示数据时更改这些图,从而将其转换为人工神经网络。 Next被成功用于诊断和分类肾脏疾病。 受Next所获得结果的启发,最早提出里卡多使用的知识图方法的Beatriz Leao开发了一个名为HYCONES的系统,该系统还将符号知识和神经网络相结合。 与巴西心脏病研究所的Beatriz合作,我们能够使用HYCONES成功地检测和分类先天性心脏病。 我们的工作结果于1994年发表在MD Computing上。
鉴于预测分析和医疗保健方面的研究可以追溯到很多年前,您可能想知道为什么将所有早期的科学成功真正花费到我们的日常生活中需要这么长时间。 答案有些简单。 医疗保健行业在接受数字时代方面进展缓慢。 即使您今天在美国看医生,也有机会将您在访问期间收集到的大多数信息仍然手写记录在您的病历中,并且还会打印X射线并将其附加到您的文件中。 因此,即使在今天,使这些数据可用于数据挖掘和预测分析仍然是一个挑战。
但是,我们也知道,越来越多的有关患者和提供者的信息现在都以数字方式存储。 在美国,Kaiser Permanente与其他主要的医疗保健组织一起一直在采用电子病历方面处于最前沿。 在新兴经济体和发展中国家,甚至有很大的推动力。 Beatriz Leao于1986年成立了巴西健康信息学协会,他了解与标准和电子健康记录相关的所有好处。 多年来,她一直在不懈地致力于非洲国家发展急需的健康信息学基础设施的工作,首先是担任莫桑比克世界卫生组织的顾问,后来担任约翰·霍普金斯大学下属的非营利性卫生组织Jhpiego的顾问,在卢旺达(请参阅参考资料 )。
当大量数据可以数字方式获得时,就很容易进行挖掘。 通过数据挖掘和预测分析,历史数据可以揭示用于预测趋势的模式。 从历史上看,预测分析和专家知识已被用于协助多种疾病的诊断和治疗。 Next和HYCONES等系统就是早期的示例。 该领域的预测解决方案可以在医学专业稀缺或根本不存在的领域中产生巨大影响。 随着在线数据和预测系统的普及,它们为医疗保健提供者提供了更快,更精确的决策辅助工具。 近来,预测系统被证明更加足智多谋。 正如我去年年底在另一篇有关预测分析和标准的文章(请参阅参考资料 )中所报道的那样,IBM和安大略大学理工学院目前正在共同实施数据分析和预测解决方案,以监测其中有生物医学读数的早产儿可以在通常观察到的24小时之前检测出威胁生命的感染。
通过预先知道一组患者处于疾病或状况的低风险或高风险中,数据挖掘和预测分析还可以帮助医疗保健提供者针对不同人群制定针对性的治疗措施。 例如,在心血管疾病的情况下,通过与由预测解决方案确定为高风险的患者携手合作,可以实施简单的预防措施,例如减少反式脂肪的摄入,减肥和戒烟吸烟,可以大大降低心脏病发作的风险。 通过这种方式,医疗保健提供者可以设计不同的策略,以使低风险患者保持低风险,同时减轻与高风险患者相关的风险。
根据美国联邦卫生法,再住院率高于预期的医院现在将获得较少的Medicare报销。 Medicare付款咨询委员会估计,2005年的重新接纳使Medicare计划损失了150亿美元,其中120亿美元本来可以避免的(请参阅参考资料 )。 考虑到可以预防的再入院率很高,因此预测分析已被用作医院降低再入院率的帮助之手。 尽管简单的随访预约对防止再次住院很有效,但预测分析可以准确指出需要密切随访的患者。 它还可以帮助医院确定可能需要进一步协助的人群,例如了解饮食限制的简单方案。
预测系统已在金融行业中用于欺诈检测多年。 如今,大多数的信用卡交易都可以通过预测解决方案实时评估其欺诈风险。 如果被认为是高风险的,这些解决方案甚至可以拒绝交易,因此可以防止欺诈行为的发生。 鉴于与医疗保险欺诈相关的成本远大于与再入院相关的成本,它必将成为预测解决方案的主要焦点。 通过预测技术(例如神经网络)在检测金融行业欺诈方面取得的成功成功可以并且应该用于检测医疗保健中的欺诈和滥用。
如果您已经查看了健康保险公司提供的福利说明,那么您将非常了解每个治疗,疾病或状况都与代码配对。 尽管所有详细的编码都可以帮助构建欺诈和滥用检测模型,但是这也带来了挑战,因为索赔数据在用作预测系统的输入之前需要进行高度预处理和简化。 不幸的是,就辅助诊断或预防保健而言,索赔数据非常差,因为它没有提供疾病或状况的严重程度的指示。 因此,可能需要更好的数据才能获得更好的预测。
在医疗保健中使用预测分析将受益于不同数据存储库的合并。 我们对个人或人口了解得越多,即情况越大,预测将越精确。 有了更多的数据点,就可以为特定患者或一组患者量身定制模型,从而最终导致更精确和有效的治疗,这些治疗势必会提高医疗保健系统的整体功效,同时降低成本。
预测分析解决方案通常由一组数据挖掘科学家构建和验证。 这些解决方案的实际操作部署通常是由工程师团队执行的任务。 一方面,数据挖掘科学家是统计和统计软件包的专家,他们使用它们来创建最佳的预测模型。 另一方面,工程师专门研究编程语言,数据库和IT系统。 因此,传统的预测解决方案部署,即将其从科学家的桌面转移到将要投入使用的环境的过程,可能会在翻译中迷失方向。 在这种情况下,一旦预测模型离开了科学家的领域,就需要对其进行重新编码,以便将其投入生产。 此过程很费力,容易出错,可能需要几个月的时间。
为了避免这种情况,使用可以代表数据挖掘和预测分析解决方案的标准至关重要。 PMML就是这样的标准。 PMML是Data Mining Group(由商业和开源数据挖掘公司组成的联盟)的明智之选(请参阅参考资料 )。 它允许将解决方案构建在一个系统中,并易于可视化或部署在另一个系统中。 例如,PMML可以从IBM SPSS Statistics或Modeler自动导出,并导入KNIME(一种用于构建数据工作流程的数据挖掘工具)中。 它也可以轻松地移动和部署在Zementis评分引擎ADAPA中,在任何生产环境中都可以在数分钟内投入使用。
PMML是代表预测解决方案的事实上的标准,包括原始输入数据的预处理以及预测技术本身。 作为一项标准,PMML已经存在了十多年。 4.1版将于2011年12月发布。它基于4.0版,该版本提供了对多个模型的扩展支持。 PMML 4.1将多个模型提升到了一个新的水平,并使其更易于表达模型集合和分段。 多个模型通常结合不同的预测技术来生成单个预测。 决策树和神经网络是数据挖掘和预测分析中使用的一些众所周知的技术,因此自从PMML诞生以来就得到了支持。 随着语言的成熟,越来越多的技术被整合到其结构中。 PMML 4.1也不例外。 它为表示记分卡和K最近邻居提供了新的语言元素。
也许当今使用的最著名的计分卡是FICO评分背后的记分卡,它用于评估个人在金融领域的违约风险。 除了能够检测趋势之外,记分卡还以能够解释其输出或得分背后的原因而闻名。 在医疗保健中,这成为重要的功能,因为需要知道为什么将患者归为高风险或低风险。 另一方面,传统的神经网络被称为“黑匣子”,仅仅是因为很难提取其输出背后的原因。 那是因为神经网络顾名思义,请尝试模仿我们的学习方式。 正如Beatriz Leao在尝试通过与医学专家的访谈来构建知识图谱时发现的那样,他们很难解释诊断背后的原因。 当他们被迫时,他们倾向于发现很少导致特定诊断的发现。 从医学专家那里获得的知识图趋于精益。 另一方面,从居住地的医生那里获得的图表又大又宽,在进行一次或几次诊断之前,要考虑患者病历中的每个细节。 后一组的基本原理与从医学百科全书中获得的知识紧密相关。 正如里卡多·马查多(Ricardo Machado)所发现的那样,一旦将这些新手知识图谱提交给神经网络训练,它们最终将类似于从专家那里获得的知识图谱。
能够理解预测原因的原因在PMML中由一个名为reasonCode
的属性表示。 PMML是一种基于XML的语言,因此人们不仅可以理解得分背后的原因,而且可以理解模型本身。 例如, 清单1中所示的PMML代码是从PMML“ Scorecard”元素内部获取的。 通过快速检查,可以很容易地看到它包含输入数据字段“ age”的点的派生。 例如,如果年龄在59到69之间,则该模型指示将12个点分配给“ agePoints”。
在记分卡中,最终得分是根据从其所有特征获得的部分得分的总和计算得出的。 万一再次入院,最终分数可以根据许多风险因素或特征来计算。 这些因年龄和先前再入院的次数而异,具体取决于血液中的肌酸和氨水平。 当计算所有部分分数时,将“年龄”贡献的分数与从所有其他特征(清单1中未显示)获得的分数进行比较。 比较的结果将决定要输出的原因码。 特征对最终分数的影响越大,对其进行解释就越重要。 如果选择年龄作为重要因素,则会输出原因码“ RC3”,随后可以将其翻译为相关说明。
PMML 4.1还允许将决策合并到预测解决方案中,作为预测本身的后处理的一部分。 例如,当预测模型生成分数时,PMML现在允许将该分数与一个或多个阈值进行比较。 这种比较的结果可用于将患者分为多个操作阶段,这些操作阶段可能包含不同的诊断,后续策略或治疗计划。 在清单2所示的PMML代码中,将最终分数与阈值67相比较。如果变量FinalScore
大于67,则如第二个“ OutputField”元素中所定义,模型结果将为“是”,这意味着需要安排后续约会。 如果小于或等于67,则结果将为“否”,这意味着没有必要进行后续任命。
67
Yes
No
PMML已被用于表达预测性解决方案,以帮助医院降低再入院率。 它也被用于表达欺诈检测模型。 由于PMML文件本身就是解释预测解决方案的文档,因此它不仅可用于记录围绕评分制定策略的所有决策,而且还可用于记录评分本身的所有决策。 与任何其他行业或部门一样,PMML使在医疗保健中使用预测分析透明化。 鉴于这是一个标准,所有参与医疗保健过程的系统和人员都可以轻松理解它。 因此,它可以用于传播最佳实践以及强制遵守法律和法规。 例如,仅通过检查结果的PMML文件即可轻松地确保解决方案不使用任何个人识别数据。
PMML允许在符合PMML的应用程序和系统之间共享预测解决方案。 这样,例如,可以使用IBM SPSS Statistics构建模型,将其导出为PMML,然后轻松地将其部署到Zementis评分引擎ADAPA中。 部署后,可以立即投入使用。 在这种情况下,通过诸如PMML之类的标准来表示预测解决方案的好处在于能够将模型从科学家的桌面瞬时移动到生产环境。 每当数据更改并且需要刷新现有的预测解决方案时(该术语通常表示需要重建模型),都可以在数分钟内再次部署它。 这听起来很简单明了,但是如果没有PMML这样的标准,则预测解决方案的部署可能要花费数月的时间,因为一旦建立模型,通常就需要以文本格式对其进行描述,然后将其自定义编码到生产环境中。 如前所述,该过程除了容易出错外,还占用了宝贵的资源,在医疗系统中没有任何位置需要灵活,适应性强和具有成本效益。
历史上,智能系统已应用于不同疾病的分类和诊断。 但是,医疗保健提供者和患者才刚刚开始从预测分析中受益。 随着越来越多的数据在线传输,我们必将看到更多的预测性解决方案,从对ICU中患者的监视到对欺诈和滥用的检测。 所有这些解决方案现在都具有变得越来越精确的能力,这不仅是由于大量数字数据的可用性,而且还由于具有成本效益的存储以及通过不同IT解决方案(包括云计算和Hadoop)可获得的巨大处理能力环境。
PMML等标准的可用性提高了透明度,促进了最佳实践,降低了成本,节省了时间,并最终可以挽救生命。 借助PMML,整个医疗行业都将从一个标准中受益,以代表其所有预测需求,从数据预处理和预测技术,到分数的后处理,再到有意义的操作实践。 接受标准从未有过更好的体验。
翻译自: https://www.ibm.com/developerworks/opensource/library/ba-ind-PMML3/index.html