垂直领域知识图谱_哪个领域的知识图谱容易实现?

之前做了个知识图谱的调研,正好回答这个问题。阿力阿哩哩:知识图谱调研​zhuanlan.zhihu.com

1. 知识图谱与数据库

主要有两种数据库RDF数据形式的三元组库:基于关系存储的数据库代表为Oracle 12C + 图数据扩展组件,能管理高达1.08万亿个三元组信息

属性图数据形式的图数据库:基于属性图存储的图数据库代表为Neo4j,目前还不支持管理三元组,但有向这方向演化的技术趋势

大的技术趋势:三元组库和图数据库的相互融合发展

2. 知识图谱与智能问答

定义:依托一个大型知识库(知识图谱),将用户的自然语言处问题转化成为结构化查询语句(如SQL),直接从知识库中导出答案。

知识问答重心聚焦于事实型问答,问题答案是一个实义词or实义短语。如“中国的首都在哪?”“北京。”

事实型问题类型区分按问题类型分:单知识点问题与多知识点问题。

按问题领域分:垂直领域和通用领域,其中垂直领域的知识图谱小,精度更好,问答质量更容易提升。

(1)第一种技术方向:攻克知识问答的技术关键是理解用户的问句,当前有三种技术

① 大部分先进的问答系统是基于语义解析,目的是将自然语言问句转化成结构化的查询语句如SQL,不过需要大量的人工标注数据做监督学习。

② 基于信息检索的方法可以回避需要大量人工标注数据的问题,根据粗粒度检索信息,在知识库中选出候选答案,并根据问题特征进行排序,返回最佳答案给用户为了实现有效的基于检索信息的问答,让机器理解用户问题,有三种可行技术方案集成额外的文本信息如Wikipedia

提出更多、更复杂的网络结构如多列卷积神经网络,深度残差双向LSTM和注意力最大池化层

联合训练实体链接和关系检测两个模块

③ 基于条件概率来解决知识问答,问题为Q,答案为a的概率 P=(A=a|Q),进而引入概率分解or变分推理的技巧。

(2)第二个技术方向:聚焦于模型的可解释性,方便用户“知其然,也知其所以然。”

目前单知识点问答已经达到了人类水平,总的技术趋势聚焦于多知识点问题。第一种思路:直接聚焦,设计关系词的词汇组合型、多关系词间语序等。

将多知识点转化成单知识点,复用单知识点模型。

3. 知识图谱与推荐系统三种技术方向 :

(1)知识图谱元路径推荐模型

(2)基于概率逻辑的推荐模型

(3)基于知识图谱表示学习的推荐模型:通过表示学习,可以获得实体和关系的低维空间向量(embedding),可以计算实体的关联性(相似度)

4. 知识图谱与区块链技术

引入去中心的概念主要是为了校验和保证知识图谱的可信度

5. 知识图谱与机器推理

(1)机器推理涉及的应用场景

① 知识图谱补全

② 知识图谱质量校验(知识图谱去噪)

(2)推理的技术方向

① 基于规则的推理

② 基于分布式表示学习的推理:我的理解就是将知识图谱的三元组数据映射到低维空间,用embedding表示,然后通过各个元素之间的embedding的“计算”来完成隐式推理。

③ 基于神经网络推理

④ 混合推理:前三者的结合,总结下来如同embedding + 神经网络结构 + 规则,有点像bert + 神经网路结构 + 后处理规则。

(3)举例子

① 知识图谱通常用(头实体,关系,尾实体)表示

② 所谓知识图谱补全,实际上是给定三元组中任意两个元素,试图推理出缺失的另外一个元素。即给定头实体和关系/关系和尾实体,找出与之形成有效三元组的尾实体/头实体)称为实体预测,同理,给定头实体和尾实体,找出与之形成有效三元组的关系,称为关系预测。无论实体预测还是关系预测最后都转化为选择与给定元素形成的三元组更可能有效的实体/关系作为推理预测结果。

③ 所谓知识图谱去噪,实际上就是判断三元组的正确与否。因此,虽然知识图谱补全专注于扩充知识图谱,而知识图谱去噪专注于知识图谱内部已有三元组正确性的判断。

④ 本质上都是评估三元组有效性。

6. 知识图谱:知识抽取与知识挖掘

作为知识图谱的基础技术,知识抽取主要有三个方向

(1)命名实体识别技术:基于规则或者统计模型(隐马尔可夫HMM,条件随机场CRF等)都是比较老的技术,基于神经网络的监督学习是当前最火的方向,尤其是在bert出现之后,现在都是神经网络+概率模型+后处理规则来提升整体的模型效果。当前,我已经做了这两年最新的NER论文调研。

(2)关系抽取:基于模板和非神经网络模型也是比较老的技术,当前基于监督学习的深度学习技术仍然是效果最好的。

① 基于深度学习强监督方法有两种关系抽取方向流水线关系抽取方法:就是命名实体识别 ---> 关系抽取,会有错误累计的问题。

联合抽取方法:就是命名实体识别与关系抽取两者相结合,在统一的模型中共同优化,能够解决错误累计问题。因此,联合抽取方法是当前比较好的关系抽取研究方向,当前我们公司已经有一套端到端的关系抽取模型了。

② 基于深度学习弱监督方法

a. 远程监督:定义:假设某对实体含有某种关系,那么只要含有这对实体的句子都含有这种关系。

优点:解决数据需要大量人工标注的问题。

缺点:引入了大量的噪声。为了减少噪声干扰,当前有三种方法多示例学习

注意力机制

强化学习

b. Bootstrapping方法定义:利用少量的样本去训练一个模型,然后利用模型去抽取更多的实例,然后再通过新数据来迭代训练。

优点:构建成本低,具有发现新关系的能力

缺点:对初始样本比较敏感,存在语义漂移,结果准确率低的情况

(3)事件抽取

① 定义:事件的发生通常包括时间、地点、参与者等属性。事件抽取则是从自然语言文本中抽取出用户感兴趣事件信息,并以结构化的形式展现出来。下面这张图就是事件抽取的一个实例。不过图中省略了事件类型、发生时间、发生地点、关系可信度等具体信息。

② 一般来说,事件抽取有五个子任务识别事件触发词以及事件类型

抽取事件元素的同时判断其角色

抽出描述事件的词组或句子

事件属性标注

事件共指消解

③ 同样地,事件抽取也有两种方法:流水线方法

联合抽取方法

(4)知识挖掘

① 定义:从已有的实体和实体关系来挖掘新的知识,具体包括知识内容挖掘和知识结构挖掘

② 知识内容挖掘

a. 事件链接:相关研究基本空白

b. 实体链接 :定义:实体链接(entity linking)就是将一段文本中的某些字符串映射到知识库中对应的实体上。

c. 实体链接流程

d. 知识结构挖掘:规则挖掘(暂时没有找到很多详细的资料)归纳逻辑程序设计

路径排序算法

参考链接CCF中文信息技术专委会 | 事件知识图谱构建研究进展与趋势​mp.weixin.qq.com

参考书籍

《知识图谱:方法、实践与应用》(王昊奋)

你可能感兴趣的:(垂直领域知识图谱)