知识图谱学习笔记(二)

仅记录自身学习历程 ,内容来源于书籍、网络,侵删。

医疗知识图谱基本概念

知识图谱主要分为通用知识图谱领域知识图谱两大类,两类知识图谱本质上相同,主要区别在于覆盖范围和使用方式。

通用知识图谱

可以看成一个面向通用领域的结构化百科知识库,其中包含大量现实世界中的常识性知识,侧重于覆盖面的广度。

领域知识图谱

又称垂直知识图谱或行业知识图谱,面向某一特定领域,可看成是一个基于语义技术的行业知识库。

医疗知识图谱

医疗知识图谱就是领域知识图谱的的一项落地实践,从医学文献、临床试验、电子病历等结构化和非结构化医疗数据中抽取出医疗实体、关系、属性等知识图谱的组成元素并采用合理高效的存储模式。

医疗知识图谱的数据获取

相比于同于知识图谱,医疗知识图谱对数据质量的要求更高,并且医疗数据字段和数据关联更丰富。对于医疗领域来说,基于数据质量和医疗领域本身的规范性要求,将使用自顶向下的方式。医学知识图谱的构建流程可以归纳为医学知识抽取医学知识融合医学知识计算

医疗知识表示

三元组

三元组是知识图谱的通用表示形式,主要包括“实体-关系-实体”和“实体-属性-属性值”两种类型。

实体-关系-实体”型指的是不同的实体或概念之间的关系,“实体-属性-属性值”则是指实体或概念之间与其关于某项属性意义上对应的内容之间的关系。具体而言,医疗领域的实体可用一个全局唯一确定的ID来标识。

三元组的形式虽然受到广泛的认可,但在实际应用中会出现计算效率底下、数据稀疏等问题。可以用建模方法将医辽实体和关系表示在低微稠密向量空间中,有效解决数据稀疏的问题,提高计算效率和推理性能。

距离平移模型采用基于距离的评分函数对事实的合理性进行评判,具体包括翻译模型(TeansE)和其延伸出的复杂关系模型如TransH、TransR、KG2E等。

语义匹配模型包括单层神经网络模型(SLM)、双线性隐变量模型(LFM)、神经张量模型(NTM)、矩阵分解模型(MF)等。

医疗知识获取

医疗知识来源

权威著作文献、医院信息系统数据、国内外权威医疗知识库等。

医疗知识抽取

是指面向开放的医疗数据,通过人工或自动化的方式(目前主要以自动抽取为主)抽取出有用的知识单元,其中包括实体关系属性这三个要素,然后生成高质量的事实表达,有助于上层模式层的构建。

实体抽取

  1. 基于医学词典及规则
    早期方法,已不再适用目前主流情况。

  2. 基于传统机器学习方法
    常用方法有隐马尔可夫模型(HMM)、最大熵马尔可夫模型(MEMM)、条件随机场(CRF)模型等。

  3. 基于深度学习方法
    最具代表性的模型是CNN和RNN模型。目前医疗命名实体识别主流的深度学习模型是BiLSTM-CRF模型。BiLSTM是双向LSTM,是RNN的特殊形式。

关系抽取

判断两个实体是否存在某种语义上的关联。

  1. 基于模式匹配
    可以准确识别出符合模板的实体关系,但很难识别模板之外的实体关系。

  2. 基于传统的机器学习
    将关系抽取转换成一个分类问题,需要人工设计丰富的特征来优化分类性能,比如实体之间的路径信息特征、词特征。另一个方法是设计自定义核函数。

  3. 基于深度学习
    采用基于神经网络的端到端联合模型方法,对实体抽取和关系抽取两个任务的网络通过共享参数的方式进行联系学习,这样进一步提高了效率和准确率。

属性抽取

是对医疗实体多方面特性的刻画,如药品的规格、副作用、适用性等。实体的属性类似于实体和属性值之间的名称性关系,因此属性抽取可以采用关系抽取的方法。

你可能感兴趣的:(知识图谱,人工智能,自然语言处理)