知识图谱构建技术

知识图谱的构建技术包括知识抽取、知识融合、知识加工和知识更新等。

知识图谱构建技术_第1张图片

图1 知识图谱构建技术流程图

1.1 知识抽取

知识抽取就是自动化或半自动化的从原始数据中获得实体、关系及属性等可用知识单元。早期是基于规则的知识抽取,通过人为预先规定的抽取规则,从文本中抽取知识的三元组信息,缺点是数据量大的时候规则构建耗时长、可移植性差,难以应对数据规模庞大的知识图谱构建。目前基于神经网络的知识抽取将文本作为向量输入,能够自动发现实体、关系和属性特征,适用于大规模数据的知识图谱构建。

1.1.1 实体识别

实体识别即命名实体识别(NER),为自然语言处理和知识图谱领域的基础任务。目的是从海量原始数据中准确提取人物、地点、组织等命名实体信息。这一步影响后续关系抽取等任务,决定了知识图谱的质量。

NER分为基于规则、基于统计模型和基于神经网络三类。

基于规则的方法是通过专家手工构建规则集,将文本等数据与规则集匹配来得到命名实体信息。优点是适用小规模数据、精度和可靠性较高;缺点是大规模应用困难、可移植性差。

基于统计模型的方法是将NER作为序列标注问题,以部分标注和完全标注的语料进行模型训练。如条件马尔可夫模型(CMM)、隐马尔科夫模型(HMM)、条件随机场(CRF)和最大熵(ME)等。优点是性能较好、通用性强、可移植;缺点是依赖特征和语料库、训练时间长。

深度学习能够从数据中学习复杂的隐藏特征,不需要专业的领域知识或经验就可实现,基于神经网络的NER已成为目前主流方法,主要模型有卷积神经网络和循环神经网络等。

1.1.2 关系抽取

关系抽取(RE)是知识抽取的核心内容,通过获取实体之间的某种语义关系或关系的类别,自动识别实体对及联系这一对实体的关系所构成的三元组。

近年RE的研究主要是基于神经网络方法,主要包括基于卷积神经网络(CNN)、基于循环神经网络(RNN)、基于注意力机制(ATT)、基于图卷积网络(GCN)、基于对抗训练(AT)、基于强化学习(RL)的RE以及实体-关系联合抽取(JERE)。

(1)基于卷积神经网络的关系抽取

CNN通过嵌入表示和文本信息等数据组织为类似图像的二维结构,使用卷积核提取特征信息并用于关系抽取。

CNN方法为基于深度学习的关系抽取提供了思路,已有很多利用基于神经网络的关系抽取方法来提取单词和句子的特征。

(2)基于循环神经网络的关系抽取

RNN可利用内部的记忆机制处理时序相关信息,适用于处理和表示短语及句子的组合向量。

(3)基于注意力机制的关系抽取

ATT能基于权重筛选上下文相关性强的信息,提高关系抽取的质量。

(4)基于图卷积网络的关系抽取

GCN可以捕捉图的全局信息,具有很好的节点表示能力。基于GCN的关系抽取针对文本依存树种各词语的依存关系编码,将关系知识编码信息引入关系抽取,挖掘句子中更深层的语义信息。

(5)基于对抗训练的关系抽取

基于神经网络的模型通常忽略了输入数据中的噪声,导致模型效果不佳。将对抗训练AT引入关系抽取,对训练数据产生对抗噪声来优化分类算法,能够有效提升模型鲁棒性。

(6)基于强化学习的关系抽取

强化学习是一类学习、预测和决策的方法框架,通过训练策略网络选择最优实例,结合神经网络进行关系抽取。

(7)实体-关系联合抽取

实体-关系联合抽取旨在针对实体识别和关系抽取作为两个串联子任务时存在的错误传播问题,对实体和关系进行联合建模。能够考虑到实体与关系间的语义相关性,有效解决关系重叠问题,减少误差累积,提高知识抽取的整体效果。

1.1.3  属性抽取

属性抽取是知识库构建和应用的基础,通过不同信息源的原始数据中抽取实体的属性名和属性值,构建实体的属性列表,形成完整的实体概念,使实体完整化。

属性抽取方法分为传统的监督、无监督和半监督属性抽取、基于神经网络的属性抽取和其他类型的属性抽取。

目前大多数属性抽取是从文本数据中抽取信息。传统方法的监督学习的属性抽取使用HMM和CRF等抽取属性。基于神经网络的属性抽取一般作为序列标注任务,使用序列标注模型抽取文本的属性值。基于元模式的属性抽取将类型化的文本模式结构命名为元结构,可以在海量语料库中发现元模式,可使用该方法发现文本中高质量的属性描述语句,作为实体的属性值。多模态属性抽取方法及数据集,实现对多种类型数据的属性抽取。

1.2  知识融合

知识融合是融合各个层面的知识,包括融合不同知识库的同一实体、多个不同的知识图谱、多源异构的外部知识等,并确定知识图谱中的等价实例、等价类及等价属性,实现对有知识图谱的更新。知识融合的主要任务包含实体对齐和实体消歧。

1.2.1  实体对齐

实体对齐是知识融合阶段的主要任务,目的是发现语义相同的实体,主要方法是基于嵌入表示的实体对齐,实体对齐方法可分为传统概率模型、机器学习和神经网络等类别。

传统概率模型基于属性相似关系,将实体对齐看作概率分类模型,根据相似度评分选择对齐实体。常用模型有CRF、马尔可夫逻辑网络和隐含狄利克雷分布等。基于机器学习的实体对齐将实体对齐看作二分类问题,可分为监督学习和无监督学习。在监督学习实体对齐中,使用预先人工标注部分训练模型,对未标注数据进行分类。如决策树、支持向量机等方法通过比较特征向量进行实体对齐,或考虑实体的相似度,使相似实体聚类对齐。在神经网络方法中,基于嵌入的实体对齐将不同的知识图谱表示为低维嵌入,并通过计算实体嵌入间的相似度来进行实体对齐。

1.2.2  实体消歧

实体消歧是根据给定文本,消除不同文本中实体指标的歧义,将其映射到实际的实体上。

根据有无目标知识库划分,实体消歧主要有命名实体聚类消歧和命名实体链接消歧等方法。命名实体聚类消歧将所有的实体指称与实际的目标实体进行聚类。命名实体链接消歧则是根据文本中的上下文信息,将文本中的实体指称链接到候选的实际目标实体列表中。

1.3  知识加工

知识加工是在知识抽取、知识融合的基础上,对基本的事实进行处理,形成结构化的知识体系和高质量的知识,实现对知识的统一管理。知识加工的具体步骤包括本体构建、知识推理和质量评估。

1.3.1  本体构建

本体构建是指在模式层构建知识的概念模板,规范化描述指定领域内的概念及概念之间的关系,其过程又包括概念提取和概念间关系提取两部分。根据构建过程的自动化程度不同,可分为手工构建、半自动构建以及自动构建。本体构建的目的是构建知识数据模型和层次体系,主要方法是人工编辑、实体相似度、实体关系自动抽取等。

1.3.2  知识推理

知识推理是针对知识图谱中已有事实或关系的不完备性,挖掘或推断出未知或隐含的语义关系。知识推理的对象可以为实体、关系和知识图谱的结构等。知识推理主要有逻辑规则、嵌入表示和神经网络三类方法。

1.3.3  质量评估

知识图谱质量评估通常在知识抽取或融合阶段进行,对知识的置信度进行评估,保留置信度高的知识,有效保障知识图谱质量。质量评估的研究目的是提高知识样本的质量,提升知识抽取的效果,增强模型的有效性。

1.4  知识更新

知识更新是随着时间的推移或新知识的增加,不断迭代更新知识图谱的内容,保障知识的时效性。

你可能感兴趣的:(知识图谱,人工智能)