转发一篇我们技术总监在HIT专家网上的文章。

原文链接:Transformer结合CRF,一种电子病历后结构化处理的技术探索请添加链接描述

在信息时代,各行业的数据量都在爆炸式增长,临床医疗数据也呈现出体量大、增速快、形式多样、潜在价值高的特点。在医疗卫生信息化的发展过程中,数据利用问题一直是困扰行业发展的一大难题。电子病历是促进卫生信息化的重点,也是实现区域医疗资源共享的基石。为实现新医改提出的区域卫生协同目标,如何充分利用电子病历中的信息,是首先要解决的问题。

电子病历中非结构化信息提取面临的困难

作为医疗活动的主要载体,电子病历不但是一个海量的语料库,也是病历大数据分析的基础。电子病历文档不仅包含自然语言文本描述的、完全非结构化的内容,也包含半结构化信息等。在电子病历中,病案主体及包含在病案中的各种诊断相关描述、检验检查结果、查房记录、医嘱等,都可以被认为是包含丰富语义信息的半结构化(或非结构化)内容。在临床医学研究中,以自然语言文本描述的非结构化数据是电子病历数据利用方面的一大障碍。由于自然语言没有相对统一的结构,文档格式没有固定的限制,而且写作自由,所以对电子病历中的非结构化数据提取非常困难。

在自然语言处理(Natural Language Processing,NLP)领域,常用的文本信息提取方法有两种:基于统计提取与基于规则提取。基于统计的提取方法,其特点是提取信息的准确度较高,但是对于概率模型来说,发送训练过程比较复杂,而且需要较长的时间;基于规则的提取方法,具有抽取过程简单的特点,但其抽取结构过于依赖规则的生成和学习。而且,这两种方法都是针对文本信息的通用提取方法,没有考虑到医学数据的行业属性与特点,因此很难快速、准确地提取出最优解。

深度学习算法诞生后,立即被运用到医学实体识别和关键信息提取的工作中来。早期实体识别领域通用的深度学习方法是采用包含LSTM单元(Long Short Term Memory,长短期记忆单元)的RNN模型(Recurrent Neural Network,递归神经网络),对于输入的每一个字,隐藏层输出,通过全连接层与Softmax层获得最终的标签概率。但这种方法有两个明显缺陷:一是单向的LSTM只能利用上文的信息,无法捕捉到下文的信息;二是LSTM倾向于忽略标签序列的相互关系作用,体现不出标签之间的逻辑关系。

一种全新的模型探索

BiLSTM(双向循环神经网络)的引入,解决了同时考虑上下文信息的问题,而CRF(Conditional Random Fields,条件随机场)的引入则对标签的预测建立了约束条件,从而可以体现出标签之间相互影响的关系。

实践中,CRF应用在BiLSTM的顶层,即把BiLSTM的输出作为CRF的输入。这样就得到了当前最流行的方法:BiLSTM结合CRF算法。其中,BiLSTM的作用是感知;而CRF能学习上下文信息,结合输出层结果和标签序列的全局概率,预测出最大概率的标签序列。如图1所示。

Transformer结合CRF,一种电子病历后结构化处理的技术探索_第1张图片

我们在此基础上进行了进一步的改造。Transformer模型是最近一年多来NLP领域最重要的进展。与BiLSTM一样,Transformer模型可以对输入序列每个字之间的特征关系进行提取与捕捉。通过自注意力机制和对多个基本的编码器(Encoder)与解码器(Decoder)单元进行连续堆叠,Transformer模型可以发现单字在不同语境下的不同语义,从而实现了一词多义的区分,比BiLSTM具备更强的特征提取性能。如图2所示。

Transformer结合CRF,一种电子病历后结构化处理的技术探索_第2张图片

在实践中,我们只使用了Transformer的编码器部分(某种意义上说,更像是Bert,即双向Transformer的Encoder),通过多层的自注意力计算结合残差的计算,将最顶层的Encoder单元的输出作为CRF的输入,就得到命名实体的标签分类。

我们将电子病历中通过自然语言描述的人体部位、疾病名称、症状、化验项目、检查项目、手术、治疗等术语,界定为医学命名实体,通过上述Transformer结合CRF的算法,进行了实体识别及提取的试验。由于我们标注的词汇相对比较核心,即未包括各种修饰类的形容词,因此识别效果比之前的一些研究成果要高出很多,如图3所示。

Transformer结合CRF,一种电子病历后结构化处理的技术探索_第3张图片

Transformer结合CRF的算法,既克服了CRF算法难以识别上下文语义的缺点,又克服了BiLSTM结合CRF算法容易梯度消失和难以并行化计算的不足。有了这一算法的精准识别和提取,我们就可以在“电子病历结构化分拆系统”中进一步构造后结构化模板:即key或value包含一个或多个实体,再组合修饰词共同构成,从而实现电子病历的准确拆分,如图4所示。

Transformer结合CRF,一种电子病历后结构化处理的技术探索_第4张图片

要实现医疗信息资源的共享和互联互通,必须从电子病历中提取出结构化数据。采用最新的基于深度学习的实体识别和提取方法,可以快速、准确地提取各种诊断、症状、医嘱、检验、检查、手术等信息,提高电子病历的利用水平,间接提升电子病历书写质量,以达成更高的电子病历评级标准,为未来人工智能辅助诊断系统奠定基础,是未来医院的重要发展方向。

【作者简介】
程鹏,高级工程师,曾任大型卫生行业企业的技术总监,参与多个省、市级医院的卫生信息化项目的建设。现任上海资智网络科技有限公司技术负责人,主要研究方向为人工智能在医疗行业的应用。