知识图谱构建流程及算法

目录

知识图谱

1、实体抽取(命名实体识别)

1.1、实体抽取方法

1.2、 相关论文

2、关系抽取

2.1、 关系抽取分类

2.2、 关系抽取方法

2.3、相关论文

3、属性抽取

4、知识融合


知识图谱

  • 知识图谱的概念

知识图谱是对事实的一种结构化表示方法,由实体、关系和语义描述组成。知识图谱的数据结构以图形式存在,由实体(节点)和实体之间的关系(边)组成。本质上,它是一种表示实体间关系的语义网络,以“实体-关系-实体”的三元组来表达。

  • 知识图谱中数据语义的表达方式RDF

RDF( Resource Description Framework,资源描述框架)是一种资源描述语言。大部分知识图谱使用RDF描述世界上的各种资源,并以三元组的形式保存到知识库中。

RDF通过使用简单的二元关系模型来表示事物之间的关系,即使用三元组集合的方式来描述事物和关系。三元组是知识图谱中知识表示的基本单位,简称SPO ,三元组被用来表示实体与实体之间的关系,或者实体的某个属性的属性值是什么。

  • 知识图谱构建流程

序号

论文名称

发表日期

发表刊物

作者

作者单位

1

基于 Neo4j 的《伤寒论》知识图谱构建研究

2021

计算机与数字工程

王菁薇

肖 莉

晏峻峰

湖南中医药大学信息科学与工程学院

湖南中医药大学中医学院

2

影评情感分析知识图谱构建研究

2020

计算机仿真

许智宏

于子琪

董永峰

闫文杰

河北工业大学人工智能与数据科学学院

河北省大数据计算重点实验室

3

基于企业知识图谱构建的实体关联查询系统

2020

计算机应用

敦 辉

万 鹏

王 社

湖北大学 计算机与信息工程学院

湖北省教育信息化工程技术中心

武汉城市职业学院

4

支持临床决策的医学知识图谱的构建与应用

2020

重庆医学

郑少宇

滕 飞

马 征

陈泽君

马 虹

吴 洁

西南交通大学信息科学与技术学院

四川省成都市第六人民医院

5

基于知识图谱的广西文化旅游问答系统研究与实现

2020

广西科学

何国对

黄容鑫

黄伟刚

李 航

覃 晓

元昌安

施 宇

廖兆琪

南宁师范大学计算机与信息工程学院

八桂学者创新团队实验室

广西科学院

6

中文医学知识图谱CMeKG 构建初探

2019

中文信息学报

奥德玛

杨云飞

穗志方

代达劢

常宝宝

李素建

昝红英

北京大学 计算语言学教育部重点实验室

鹏城实验室

郑州大学 信息工程学院

7

基于多特征实体消歧的中文知识图谱问答研究 

2021

计算机工程

张鹏举

贾永辉

陈文亮 

苏州大学 计算机科学与技术学院

8

基于大数据的软件项目知识图谱构造及问答方法

2021

大数据

邹艳珍

王 敏

谢 冰

林泽琦

北京大学信息科学技术学院

高可信软件技术教育部重点实验室(北京大学)

1、实体抽取(命名实体识别)

实体抽取是指在文本数据集中抽取自动识别出命名实体,是知识图谱中三元组构建的关键和最为基础的步骤。

1.1、实体抽取方法

  1. 专家对实体进行人工标注
  2. 基于规则的NER传统方法包括:La SIE-II、Net Owl、Facile、SAR、FASTUS和LTG。

规则来源:1、特定领域词典 2、句法词汇模版 3、正则表达式

当词汇表足够大时,基于规则的方法能够取得不错效果。但总结规则模板花费大量时间,且词汇表规模小,且实体识别结果普遍高精度。

  1. 基于深度学习的NER方法:
    1. 输入的分布式表示:Bi-LSTM-CNN、BERT
    2. 文本编码:CNN、RNN、Transformer
    3. 标签解码:Softmax、CRF、RNN

在NER众多方法中,Bi-LSTM+CRF是使用深度学习的NER中最常见的架构。

1.2、 相关论文

论文中医命名实体抽取是将疾病、证候、症状等中医词汇从数据源中抽取出来。实体抽取方法:以《伤寒论》原文为研究对象,确定其中与疾病、证候、症状、处方、药物相关的主题词,如“太阳病”“中风”“脉浮”“桂枝汤”“桂枝”等。对采集的数据人工录入数据库中,要求对每一条数据标注所出自的《伤寒论》条文。

论文使用了基于BERT的命名实体识别模块。在分析基础上将文本中各个字或词的一维词向量作为输入,经过转换后,最终输出每个词的一维词向量表示,即使用BERT对每个词处理并得到最终的语义表示。对于询问句S,假设经过 BERT模型处理后,得到S的字符集合为(S1,S2,…,Sm),字符集合中的任意一个Si代表输入的字符i的词向量。

Trm会计算句子中所有词对当前输入词的贡献,再根据得到的信息对当前输入词 进 行 编 码,获得询问句词向量(S1,S2,…,Sm )。

采用MLP对词向量的类别进行预测,对获得的词向量(S1,S2,…,Sm)作全连接操作并进行多层感知机权重的调整。

论文7 该文章提出了要对不同类型的问题进行分类处理,即将问句划分为单跳和多跳问句。之后再进行实体链接操作,实体链接又分为主题实体识别和实体消歧。

实体识别模块可以采用序列标注模型和规则匹配结合的方法来进行。

序列标注模型分为BIO和BIOES两种,其中B 开始位置、I 中间位置、E表示结束为止、O 其他类别、S 单字表示一个实体。

例如:

其中在实体抽取的过程中,根据数据集的不同还应当考虑是否进行去除停用词操作。

论文数据为python爬虫对网络抓取的结果,针对的是对电影影评的构造分析。由于产生评论的主体为广大网民,评论数据口语化、地区话、随意化,并常带有 emoji 等表情符号,为后续的情感分析带来一定困难。对影评非结构化信息进行过滤,删除空字符串以及无意义的评论信息,过滤评论中的表情和其它特殊字符,对评论信息进行繁化简操作,去停用词等数据清洗工作。

2、关系抽取

关系抽取是指从无结构的文本中抽取实体以及实体之间的关系。一般关系抽取产生的结果为三元组<主体,谓语,客体>,表示主体和客体之间存在谓词表达的关系。

除了从文本中或半结构化数据中抽取关系,获取关系实例的方法还可以有:人工输入、众包构建:通过众包平台将关系抽取的任务分发给众包工人、从结构化数据库转换而来、自动构建:自动从文本中抽取

2.1、 关系抽取分类

  1. 关系实例抽取:给定目标关系,从语料中抽取相应的实例。比如,给定夫妻关系,从语料中挖掘、发现互为夫妻关系的实体对。
  2. 关系分类:根据实体对的文本描述,将实体对的关系进行分类(通常需要预定义关系类型,即枚举语料中提及的所有可能的实体对)。
  3. 开放关系抽取有时被称为开放信息抽取(Open Information Extraction,OpenIE)。从文本中抽取出关系的文本描述,例如:从“柏拉图出生于雅典”可以抽取出<柏拉图,“出生于”,雅典>,“出生于”可以映射到知识库中的出生地关系。

2.2、 关系抽取方法

  1. 基于字符模式的抽取(手写规则模版)

将自然语言视为字符序列,构造字符模式,实现抽取。表达特定关系的字符模式通常被表示为一组正则表达式,随后与输入文本进行匹配,即可完成关系抽取。

关系

模式

例句

作品-作者

“《$arg1》”,是现代文学家$arg2的散文集”

“《朝花夕拾》,是现代文学家鲁迅的散文集”

作品-原名

“《$arg1》原名《$arg2》”

“《朝花夕拾》原名《旧事重提 》”

用于抽取有着固定的描述模式的内容

  1. 监督学习的抽取方法(需要大量标注好的训练预料

机器学习和深度学习的方法

构造特征:

1)词特征:实体1与实体2之间的词、前后的词,词向量可以用Bag-of-Words结合Bigrams等。

2)实体标签特征:实体的标签。

3)依存句法特征:分析句子的依存句法结构,构造特征。(依赖于NLP工具库,比如HanLP但会带来一定的误差)

端到端的深度学习方法:可使用CNN或BI-LSTM作为句子编码器,把一个句子的词嵌入(Word Embedding)作为输入,用CNN或LSTM做特征的抽取器,最后经过softmax层得到N种关系的概率。相比上述方法省略了特征构造这一步,可避免在特征构造时产生的误差。

  1. 半监督学习的抽取方法

半监督学习的算法主要有两种:Bootstrapping和Distant Supervision。

  1. Bootstrapping不需要标注好实体和关系的句子作为训练集,不用训练分类器;
  2. Distant Supervision可以看做是Bootstrapping和Supervise Learning的结合,需要训练分类器。

Bootstrapping的算法理念是根据拥有一定关系的少量实体对进行学习,输出更多具有该关系的更多实体对。但是可能会造成语义漂移。

2.3、相关论文

论文1 在构建知识图谱的过程中,依据《伤寒论》的解读,定义了三类实体关系:上下位关系、治愈关系以及整体与部分关系。

论文3 根据企业的外贸出口、所在地区以及企业类型三种关联关系作为关系发掘的条件。首先设定过滤阈值,若待查询企业计算出的关系关联度大于该阈值,则将该企业作为备选结果集中的一个。

关系发掘的计算方法:

将目标企业节点记为q,待查询企业节点记为 g,计算权重表示为 wi,两个节点所对应的关系集合记为 Rq和 Rg,其中集合中所对应的外贸出口、所在地区以及企业类型三个关联关系分别为 Rq1、Rq2、Rq3和Rg1、Rq2、Rq3。则两节点的关联相似度得分可表示为

论文5 首先构建广西民族文化知识图谱关系词组集WRS;然后调用分词函数split(),获取询问句分词向量W;最后,在关系词组集中对问句分词向量进行匹配检索,如果检索成功,则问句关系即可判定为匹配关系。

论文9:

论文12 以海量婚姻法相关知识为数据基础,以浅层语义模型为计算工具,得出具有层级关系的词集。其层级关系主要依据以高维空间语言模型计算出的词向量。根据词向量的高维空间分布,可以得出某一词向量的相近词集,并根据空间距离对联想进行分级,从而建立起与该词相关的语义实时扩展联想。

3、属性抽取

4、知识融合

你可能感兴趣的:(自然语言处理,知识图谱)