目录
知识图谱
1、实体抽取(命名实体识别)
1.1、实体抽取方法
1.2、 相关论文
2、关系抽取
2.1、 关系抽取分类
2.2、 关系抽取方法
2.3、相关论文
3、属性抽取
4、知识融合
知识图谱是对事实的一种结构化表示方法,由实体、关系和语义描述组成。知识图谱的数据结构以图形式存在,由实体(节点)和实体之间的关系(边)组成。本质上,它是一种表示实体间关系的语义网络,以“实体-关系-实体”的三元组来表达。
RDF( Resource Description Framework,资源描述框架)是一种资源描述语言。大部分知识图谱使用RDF描述世界上的各种资源,并以三元组的形式保存到知识库中。
RDF通过使用简单的二元关系模型来表示事物之间的关系,即使用三元组集合的方式来描述事物和关系。三元组是知识图谱中知识表示的基本单位,简称SPO ,三元组被用来表示实体与实体之间的关系,或者实体的某个属性的属性值是什么。
序号 |
论文名称 |
发表日期 |
发表刊物 |
作者 |
作者单位 |
1 |
基于 Neo4j 的《伤寒论》知识图谱构建研究 |
2021 |
计算机与数字工程 |
王菁薇 肖 莉 晏峻峰 |
湖南中医药大学信息科学与工程学院 湖南中医药大学中医学院 |
2 |
影评情感分析知识图谱构建研究 |
2020 |
计算机仿真 |
许智宏 于子琪 董永峰 闫文杰 |
河北工业大学人工智能与数据科学学院 河北省大数据计算重点实验室 |
3 |
基于企业知识图谱构建的实体关联查询系统 |
2020 |
计算机应用 |
敦 辉 万 鹏 王 社 |
湖北大学 计算机与信息工程学院 湖北省教育信息化工程技术中心 武汉城市职业学院 |
4 |
支持临床决策的医学知识图谱的构建与应用 |
2020 |
重庆医学 |
郑少宇 滕 飞 马 征 陈泽君 马 虹 吴 洁 |
西南交通大学信息科学与技术学院 四川省成都市第六人民医院 |
5 |
基于知识图谱的广西文化旅游问答系统研究与实现 |
2020 |
广西科学 |
何国对 黄容鑫 黄伟刚 李 航 覃 晓 元昌安 施 宇 廖兆琪 |
南宁师范大学计算机与信息工程学院 八桂学者创新团队实验室 广西科学院 |
6 |
中文医学知识图谱CMeKG 构建初探 |
2019 |
中文信息学报 |
奥德玛 杨云飞 穗志方 代达劢 常宝宝 李素建 昝红英 |
北京大学 计算语言学教育部重点实验室 鹏城实验室 郑州大学 信息工程学院 |
7 |
基于多特征实体消歧的中文知识图谱问答研究 |
2021 |
计算机工程 |
张鹏举 贾永辉 陈文亮 |
苏州大学 计算机科学与技术学院 |
8 |
基于大数据的软件项目知识图谱构造及问答方法 |
2021 |
大数据 |
邹艳珍 王 敏 谢 冰 林泽琦 |
北京大学信息科学技术学院 高可信软件技术教育部重点实验室(北京大学) |
实体抽取是指在文本数据集中抽取自动识别出命名实体,是知识图谱中三元组构建的关键和最为基础的步骤。
规则来源:1、特定领域词典 2、句法词汇模版 3、正则表达式
当词汇表足够大时,基于规则的方法能够取得不错效果。但总结规则模板花费大量时间,且词汇表规模小,且实体识别结果普遍高精度。
在NER众多方法中,Bi-LSTM+CRF是使用深度学习的NER中最常见的架构。
论文1 中医命名实体抽取是将疾病、证候、症状等中医词汇从数据源中抽取出来。实体抽取方法:以《伤寒论》原文为研究对象,确定其中与疾病、证候、症状、处方、药物相关的主题词,如“太阳病”“中风”“脉浮”“桂枝汤”“桂枝”等。对采集的数据人工录入数据库中,要求对每一条数据标注所出自的《伤寒论》条文。
论文5 使用了基于BERT的命名实体识别模块。在分析基础上将文本中各个字或词的一维词向量作为输入,经过转换后,最终输出每个词的一维词向量表示,即使用BERT对每个词处理并得到最终的语义表示。对于询问句S,假设经过 BERT模型处理后,得到S的字符集合为(S1,S2,…,Sm),字符集合中的任意一个Si代表输入的字符i的词向量。
Trm会计算句子中所有词对当前输入词的贡献,再根据得到的信息对当前输入词 进 行 编 码,获得询问句词向量(S1,S2,…,Sm )。
采用MLP对词向量的类别进行预测,对获得的词向量(S1,S2,…,Sm)作全连接操作并进行多层感知机权重的调整。
论文7 该文章提出了要对不同类型的问题进行分类处理,即将问句划分为单跳和多跳问句。之后再进行实体链接操作,实体链接又分为主题实体识别和实体消歧。
实体识别模块可以采用序列标注模型和规则匹配结合的方法来进行。
序列标注模型分为BIO和BIOES两种,其中B 开始位置、I 中间位置、E表示结束为止、O 其他类别、S 单字表示一个实体。
例如:
其中在实体抽取的过程中,根据数据集的不同还应当考虑是否进行去除停用词操作。
论文2 数据为python爬虫对网络抓取的结果,针对的是对电影影评的构造分析。由于产生评论的主体为广大网民,评论数据口语化、地区话、随意化,并常带有 emoji 等表情符号,为后续的情感分析带来一定困难。对影评非结构化信息进行过滤,删除空字符串以及无意义的评论信息,过滤评论中的表情和其它特殊字符,对评论信息进行繁化简操作,去停用词等数据清洗工作。
关系抽取是指从无结构的文本中抽取实体以及实体之间的关系。一般关系抽取产生的结果为三元组<主体,谓语,客体>,表示主体和客体之间存在谓词表达的关系。
除了从文本中或半结构化数据中抽取关系,获取关系实例的方法还可以有:人工输入、众包构建:通过众包平台将关系抽取的任务分发给众包工人、从结构化数据库转换而来、自动构建:自动从文本中抽取
将自然语言视为字符序列,构造字符模式,实现抽取。表达特定关系的字符模式通常被表示为一组正则表达式,随后与输入文本进行匹配,即可完成关系抽取。
关系 |
模式 |
例句 |
作品-作者 |
“《$arg1》”,是现代文学家$arg2的散文集” |
“《朝花夕拾》,是现代文学家鲁迅的散文集” |
作品-原名 |
“《$arg1》原名《$arg2》” |
“《朝花夕拾》原名《旧事重提 》” |
用于抽取有着固定的描述模式的内容
机器学习和深度学习的方法
构造特征:
1)词特征:实体1与实体2之间的词、前后的词,词向量可以用Bag-of-Words结合Bigrams等。
2)实体标签特征:实体的标签。
3)依存句法特征:分析句子的依存句法结构,构造特征。(依赖于NLP工具库,比如HanLP但会带来一定的误差)
端到端的深度学习方法:可使用CNN或BI-LSTM作为句子编码器,把一个句子的词嵌入(Word Embedding)作为输入,用CNN或LSTM做特征的抽取器,最后经过softmax层得到N种关系的概率。相比上述方法省略了特征构造这一步,可避免在特征构造时产生的误差。
半监督学习的算法主要有两种:Bootstrapping和Distant Supervision。
Bootstrapping的算法理念是根据拥有一定关系的少量实体对进行学习,输出更多具有该关系的更多实体对。但是可能会造成语义漂移。
论文1 在构建知识图谱的过程中,依据《伤寒论》的解读,定义了三类实体关系:上下位关系、治愈关系以及整体与部分关系。
论文3 根据企业的外贸出口、所在地区以及企业类型三种关联关系作为关系发掘的条件。首先设定过滤阈值,若待查询企业计算出的关系关联度大于该阈值,则将该企业作为备选结果集中的一个。
关系发掘的计算方法:
将目标企业节点记为q,待查询企业节点记为 g,计算权重表示为 wi,两个节点所对应的关系集合记为 Rq和 Rg,其中集合中所对应的外贸出口、所在地区以及企业类型三个关联关系分别为 Rq1、Rq2、Rq3和Rg1、Rq2、Rq3。则两节点的关联相似度得分可表示为
论文5 首先构建广西民族文化知识图谱关系词组集WRS;然后调用分词函数split(),获取询问句分词向量W;最后,在关系词组集中对问句分词向量进行匹配检索,如果检索成功,则问句关系即可判定为匹配关系。
论文9:
论文12 以海量婚姻法相关知识为数据基础,以浅层语义模型为计算工具,得出具有层级关系的词集。其层级关系主要依据以高维空间语言模型计算出的词向量。根据词向量的高维空间分布,可以得出某一词向量的相近词集,并根据空间距离对联想进行分级,从而建立起与该词相关的语义实时扩展联想。