随着社会的快速发展,人们逐渐对自身的健康水平和医疗行业整体发展水平的关注度越来越高,医疗行业的发展也开始备受瞩目。近些年互联网技术的飞速进步,海量数据的不断出现,智能计算的快速发展,计算机参与到各类生产、生活中的现象越来越普遍。在医疗体系中,利用计算机进行辅助分析与智能处理,也极大地促进了医疗健康服务系统的智能化。 从之前的纸质病例到目前便捷的电子病历,我们免去繁琐的病历存储手续之外,也逐渐开始着眼于诊疗过程中积累的医疗大数据所体现出的价值。

电子病历(EMR)是在医疗诊断等医疗相关活动的过程中,医疗人员使用医疗电子信息系统生成的数字化信息记录。电子病历可以具有多种形式,最常见的形式包括:文字、图表、图形、符号、数字、影像等。相比于传统手写病历的分散存储且容易丢失、不便传送与检索、字迹难以辨认等缺点,电子病历在实现电子化存储、传送、管理和重现等方面具有极大的便利性与易利用性。因此,充分利用与发挥电子病历在各方面的优势,可以大大地促进信息化与智能化水平在该行业的发展。

与此同时,利用电子病历来对医疗系统进行辅助分析与智能处理,也是医学信息学的一个重要研究方向。作为医学信息学研究的重要医学临床资源,电子病历包含了大量的医学知识与病人健康信息,医学信息学的研究人员可以通过计算机的智能计算处理,对海量的医疗数据信息进行分析处理,不仅可以提高医疗服务质量与药物、诊断以及相应手术措施等方面的医疗效果,也有利于提高医疗健康服务体系的质量和效率,甚至促进新型治疗方法或者药物的改进或研发。

对于医务人员而言,针对电子病历进行的自然语言分析处理也将提高其医疗效率。一方面,通过自然语言处理等相关技术,对海量的电子病历进行信息抽取、数据挖掘,进而搭建医疗诊断辅助系统,可以为医务人员,尤其是医生和护士提供参考,进而可以更高效地对患者进行诊断与治疗;另一方面,对电子病历的分析处理,有助于降低医疗管理、医疗诊断等环节出现的失误,降低失误带来的风险,提升医务人员的素质与能力,提高整体医疗服务体系的效率。
对于临床科研人员而言,由于电子病历中隐藏着大量的医疗领域与医学研究的知识,对其进行分析处理将有利于促进医学行业研究的发展。如果可以利用计算机技术高效地对海量的医疗数据、电子病历进行数据挖掘、信息抽取整理等,就有可能总结出隐藏的医疗知识,或者发现新的医学领域的理论知识,或者根据电子病历的用药情况、治疗方法与症状变化,发现其相互隐含的影响,从而提高对用药、治疗的认识,有可能促进对药物、治疗方法的进一步研究或改进。 因此,基于电子病历分析处理的机器学习算法研究无论是对医务人员、临床科研人员,乃至整个医学行业的研究发展,都具有重要的研究意义。

但是,利用计算机对电子病历进行智能分析处理,存在许多挑战。首先,理解医疗数据、电子病历通常需要来自不同领域背景的专业知识,包括临床医学,生物统计学,流行病学和信息学等。对于某些特殊的医疗信息的处理判断,甚至只有相关专业与背景的领域专家才能做到精准,这对于普通的从业者是一个巨大的挑战。其次,由于医疗电子化信息系统的构建通常一开始并没有考虑到后续的科研与数据分析等任务,这导致医疗数据在很大程度上不利于计算机进行快速地处理;最后,从数据挖掘与分析的角度看,复杂的医疗数据导致了其数据异构度较大,存在很多缺失数据信息和不一致信息。因此,电子病历的分析与处理需要一系列全新的技术和方法的支持。

自然语言处理(NLP)是人工智能一个极为重要的研究领域与方向,它研究的是通过计算机来对人类的自然语言进行一系列的分析处理,包含语言认知,语言理解,语言生成等部分。早在1956年举行的达特茅斯会议上就提出了自然语言理解(NLU),并且将其作为人工智能重要的研究方向之一。自然语言处理通过探索人类的语言交流能力以及语言思维活动的本质,希望赋予计算机足够的能力来对人类的自然语言进行理解或者处理,它是信息论、语言学、计算机科学、认知科学、与数学等多个学科领域基础上形成的交叉学科。自然语言处理的最终目标是让计算机真正理解人类的语言,并像人类一样具备对自然语言进行各种分析与处理的能力。

对于电子病历的研究,特别是从海量的病历数据中抽取出有用的医疗健康知识,以及病人的疾病与健康状况,从而利用这些信息对个人、集体等的健康、医疗等各方面进行分析、预测等,是当今自然语言处理在实际应用中的一个热门研究方向。

作为自然语言处理领域的核心关键技术,深度学习对电子病历的处理也有着很大的潜力,事实上也取得了一定的成绩。大量的关于自然语言处理与深度学习相结合的研究与应用,对该领域的发展起到了极大的促进作用;与此同时其他的机器学习算法在对电子病历等数据信息进行文本挖掘、信息抽取等任务应用也展现了优异的效果。

对于医疗领域内的电子病历研究,尤其是运用一系列的机器学习技术对电子病历进行数据挖掘、信息抽取等任务尤为重要。此外,构建语料库所需要的医疗专业背景知识也限制了大型语料库的快速建立。2006 年开始,以美国的集成生物学与临床信息学研究中心为首的研究机构对电子病历去隐私、患者状态识别、药物属性识别、电子病历命名实体识别与事件、关系抽取等方面进行了一系列的研究,并组织了相关的评测任务以促进相关研究的发展。在电子病历命名实体识别测评任务中,基于条件随机场(CRF)、支持向量机(SVM)、隐马尔科夫(HMM)等方法的相结合都取得了良好的成绩。

运用机器学习对电子病历进行数据挖掘、信息抽取等任务,我国的相关研究也起步较晚,一方面是由于相关语料库的建立难度大,没有尽早地统一电子病历体系建设标准,另一方面是由于中文文本相对于英文文本处理难度更大,特别是分词、歧义性等方面更为突出。在中文电子病历的命名实体识别任务上,采用了条件随机场与构建词典方式相结合,对语料库中的电子病历命名实体进行识别,可以达到比较好的效果。总体而言,由于我国电子病历系统建设、相关技术方法等各方面起步晚,目前成果相对有限,公开的研究成果也不多,但我国在医疗系统信息化、机器学习方法技术等方面近几年发展飞快,尤其是在通用领域的机器学习应用更是迅猛,取得了世界领先的成果,相信在医疗专业领域的技术应用上,在不久的将来也会即将会有更大的发展。