纯KG技术领域分享:解密知识谱的通用可迁移构建方法,以阿里巴巴大规模知识图谱核心技术为介绍。
KG框架图
知识服务框架图
1.RDF(资源描述框架) 2. RDFS 3. OWL(Web Ontolog Language)
整体方法是:将图谱中的实体关系映射到低维连续的向量空间
主要有:平移距离模型(距离函数)和语义匹配模型(相似度函数)
知识体系复用
推荐:开源知识图谱:DBpedia、YAGO、Freebase、OpenCyc 中文:OpenKG
网络百科:wikipedia、wikidata、谷歌(MusicBrainz、Fashion model Directory、NNDB)等
1.候选术语抽取[目的是过去更多、更全的术语]
2.术语过滤[剔除低质量候选术语]
领域术语与普通词汇有不同特征,可以采用统计信息和语义信息过滤噪声,常见方法:互信息(MI)、词频逆文档频率(TF-TDF),术语相关频率(RTF)等定量刻画统计特征,或者用词向量方式捕捉术语之间的语义相关度刻画语义特征。
3.概念属性抽取
XML、JSON文档等,程序处理为符合格式即可
知识融合难点
知识融合基本步骤包括:本体对其、实体对齐、信息融合
主要解决:多个信息库数据冲突。
主要包括:类对齐、属性项对齐、属性值对齐
常见方法:基于语言学特征方法、基于结构特征方法
基于字典或词典方法:wordnet、hownet、哈工大大词林(通用词覆盖)
基于字面匹配方法:向量空间模型通过计算词的词频-逆文档频率(TF-IDF)考虑每个词的重要性(缺点:词比较短下,效果不佳)
基于字符串语义相似度方法:通过计算两个预训练词向量的向量相似度判断是否对齐,可以看做一个有监督分类问题。(优点:通过大量语料将词的字面特征、词常见的上下文等特征表示在同一个空间中)
基于上下文的方法:定义较多模板,扩充模板方法:Bootstrapping算法对“基于模板挖掘词对”和“基于词对发现模板”进行迭代,进行扩大词对(缺点:错误扩散,一个词对错误会导致大量错误词对)
举例:x简称y x是y的一种 这类模板。阿里巴巴集团和阿里巴巴互为同义词;连衣裙是“雪纺连衣裙”上位词。
Anchor-PROMPT算法:两对术语相似且在本体结构中有链接他们的路径,那么通用的路径中的术语也相似。
处理不同粒度的类对齐:关联规则
属性项分类:不同类别属性采取不同属性值对齐方式
基于层次结构的属性值体系:为了解决属性值划分粒度不同导致的属性值映射不成功问题
同义词发现算法:粗召回、精准分类
知识图谱本体对齐框架图
核心是:构建词林!
一般实体对齐实质两两对齐(pair-wise),但直接这么做会导致时间复杂度巨大难以计算,解决大规模实体对齐,流程一般采用分组和聚类
分组:按照一个或者多个属性对实体分组,只在组内进行对齐计算,跨组不进行聚类
聚类:
关键属性对齐
拥有可解释性、准确率高迁移性好的优势,缺点不易迭代构建复杂
邻居集合、通过词向量进行二分类或者聚类得到结果
目前采用方法是小样本+深度学习反复迭代,通过标注样本数据学习到数据分布规则,通过在未标注数据上运行学习出来的规则。
实体对齐可以看做二分类问题或者聚类问题
基于实体属性信息对齐
假设:两个实体属性越相似,实体越相似
目前学术进展较快,预训练模型引入
Deepwalk SDNE等网络表示学习算法以及Trans系列算法;图神经网络(GNN)。
通过图表示学习方法,把KG里的节点、属性、边表示在一个向量空间里。单个知识图谱是无监督的,已存在三元组是标注的信息,但是多个图谱的联合表示需要已经对齐的标注数据连接两个KG才能完成。
翻译类模型 TransE
序列模型:通过Deepwalk、RSN等模型进行随机游走得到一系列长序列采样,用LSTM Transformer等模型进行表示学习
图神经网络(最佳)
两种方法不是对立的,增加一个简单地聚合函数可以把两种特征信息结合起来
对于规则方法可以设计一种评分算法平衡不同实体的不同属性组合(见书本)
对于表示学习的采取transformer模型的自注意机制,并通过对偶神经网络对标题进行表示学习。
这里不推荐使用softmax分类损失函数,使用在人脸识别领域广泛使用的Triplet+LOSS函数,可以分别实体细微的差异。【通过人为干预训练数据将困难样本构建为负样例,更好的区分容易混淆的实体】
两大难点:噪声数据、异构问题
工业界信息融合问题难以获得训练数据,将采用无监督算法:投票算法、迭代算法、优化算法、概率图算法。
投票算法:简单,但缺点明显:每个信息源权重不同,置信度值需要专家判定,无法保证精准度。
迭代算法要求:假设不同数据源拥有不同的置信度(权重);依赖于数据源提供数据属性值的准确度。因此数据源的置信度和属性值的置信度是相互依赖变量,互相迭代直至收敛。
常见算法:TruthFinder算法和ACCU算法
基于优化模型:CRH算法
概率图:LTM算法
推荐采用小样本的半监督学习方法:SLiMFast算法
簇维度融合效果
节点维度融合效果
主要解决增量数据挂在问题
输入数据源:结构化数据(连接数据、数据库数据)、半结构化数据(网页HTML、XML)、非结构化数据(文本、语音、图片)
输出结果:实体、实体概念、实体关系、事件关系、属性关系
核心子任务
命名实体识别(NER)
实体链接(EL)—对齐图谱
关系抽取(RE)
槽填充(SF slot Filling)
数据集(组织机构、人名):CoNLL2003、OneNotes、MSRA、Weibo
以上都推荐大模型去做
知识推理一方面用于推理缺失或暗含的知识丰富知识图谱;另一方面可以检查知识库的不一致信息,进行知识清洗。
知识图谱中结构化知识往往是不完备的,需要用推理的方法预测表示实体之间新的关系,即链接预测任务
构建知识图谱过程中提取的数据存在数据质量和缺陷;常见方法:进行人工标注三元组进行准确率矫正,缺点标注成本高;其次随之时间推移,新的数据添加到KG中,假设旧版本KG已经评估过,不希望从头再次评估新的知识图谱准确性也是一个难点。
基于本体的知识推理、基于本体描述语言的推理
基于规则的表示语言的推理
归纳逻辑编程[FOIL算法]、基于关联规则挖掘[AMIE算法]–可行(基于统计的方法不断往规则体增加约束实现)
图遍历([路径排序算法PRA]可解释性强,但在大规模知识图谱上性能瓶颈)
优点规则解释性强,缺点存在数据稀疏问题,在低连通知识图谱上难以抽取特征路径,十分耗时,在大规模KG无法使用。
改进方法: 1.特征融合,把TransE的预测分数和PRA预测分数作为新特征重新训练分类器;2.增加路径向量表示,Path-based TransE
利用转移假设的评分函数,通过计算元素之间的距离对元组的合理性进行度量,评分函数越高,元组事实数据可能性越大。
上述方法都是使用不同的映射规则改造TransE的简单平移假设,改造模型都是基于L1和L2范数作为评分函数,不够灵活。
后续产出方法
略
EmbedRule模型、IterE模型
循环神经网络:Path——RNN模型(长文本性能减弱)
图神经网络:
基于预训练模型的知识推理
在以往知识图谱向量表示模型中,往往只包含三元组信息,具有稀疏,缺乏大规模的其他文本语料信息。
KG-BERT:连接预测,三元组分类,关系分类多个任务;
具体来说将实体关系三元组当做文本句子;将知识图谱补全任务转化成序列分类任务,微调后的预训练模型预测三元组或某个关系概率。
KG在搜索、推荐、业务决策、问答系统。
搜索领域引用:
推荐领域
问答,
大规模预训练模型
BERT ERNIE
目前自己对这块领域比较感兴趣。对下面两个核心技术进行归纳总结
1.知识融合是在知识图谱构建过程中经常遇到的,它是一个将多个知识库进行融合的过程。在整个过程中,会遇到异构、歧义、数据噪声及跨语言等问题。本体对齐章节,在实践中采用本体集成,并结合专家辅助的系统完成大规模的本体树融合。介绍了基于规则和基于表示学习方法的实体对齐,在信息融合部分,现阶段学界主要分为有监督和无监督两条技术路线。
2.知识推理: 随看知识图谱近年来的飞速发展,知识推理作为知识图谱补全和去噪的重要手段得到了广泛的关注。
补全和去噪是知识图谱中的两个基础任务:
当知识推理应用于知识图谱补全时,主要是指通过知识图谱中已有的信息理出缺失的三元组。例如,小明的毕业院校信息可能缺失,但通过分析发现明的同学大部分毕业于某个学校,那么可以推理出小明很可能也毕业于该学校。
去噪是指识别出知识图谱中的错误或矛盾的知识,这是一个非常重要的任务,因为错误的知识会影响知识图谱中的其他信息,造成错误放大,这对知识图谱来说是非常致命的、小型知识图谱上可以通过人工运营平台的方式完成去噪,但在大型知识图谱人工标注的成本非常高,因此需将自动化的知识推理方法应用其中。
在应用上知识推理已经在垂直搜索、智能问答、机器翻译、医疗、金融反欺诈和异常教等多个领域发挥了重要作用。
目前已在AIstudio公开了一些实体抽取、关系抽取、分类模型的方案,感兴趣同学可以fork。
https://aistudio.baidu.com/aistudio/usercenter
个人博客:https://blog.csdn.net/sinat_39620217?type=blog