知识图谱研讨实录09丨肖仰华教授带你读懂知识图谱语言认知

以下文章来源于知识工场 ,作者知识工场

知识图谱是一种大规模语义网络,已经成为大数据时代知识工程的代表性进展。

知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱:概念与技术》课程体系,已在国内进行了多次巡回演讲,受到参会人员一致好评。

 

课程主要目的和宗旨是系统讲述知识图谱相关知识,让同学们对知识图谱的理论和技术有一个系统的认知。本实录来自该课程老师和同学的研讨。

下面让我们通过第十二章《基于知识图谱的语言认知》的15条精华研讨,来进一步学习了解知识图谱技术内幕。文末可查看更多章节精华回顾。

本课程配套教材《知识图谱:概念与技术》。

知识图谱研讨实录09丨肖仰华教授带你读懂知识图谱语言认知_第1张图片

 

/ 以下为课程第12章《基于知识图谱的语言认知》的研讨实录 /

1丨自然语言的理解有哪些具体任务?输入和输出分别是什么?

同学代表性回答:

语法解析:输入是一段文本,输出是一棵语法解析树和词性标签。

语义解析:输入是一段文本,输出是语义角色标签。

特定知识表示或其中的某个片段:输入是一段文本,输出是映射到的知识图谱中的实体、概念、关系、路径以及子结构。

肖仰华老师:

所谓机器语言理解,务必建模为合适的问题模型,有着明确的输入输出,我记得三年前,讲机器语言理解,大家觉得是个很玄的问题,知识图谱这几年的飞速发展,基本上让这个问题有个定论了,https://www.bilibili.com/video/av30135947/,这里有个我三年前的讲座视频,当时讲基于知识图谱的机器语言认知,还是个非常新颖的问题,今年再看这个问题,已经有很多相关论文,甚至也有不少学生的博士论文和硕士毕业论文都有类似的题目了。

 

2丨为什么说语言理解需要知识图谱?

同学代表性回答:

回答1:

(1) 传统NLP使用知识的尝试:发现人工定义的语法规则难以穷举,领域专家定义的本体规模有限,从非结构化文本中自动挖掘语法或语义模式仍然困难。

(2) 语言知识、语法知识不足以理解世界。

(3) 机器的语言理解需要世界知识,同时要满足规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。

回答2:

传统的方法在大数据时代遇到了瓶颈。首先,语法规则很难穷举,难以覆盖大部分语言场景,因此基于语法规则的语言理解方法很快就被基于统计的机器学习方法所取代。其次,本体这一类人工定义的知识表示规模有限,难以攫盖海量的实体与概念,难以满足实际应用的需求。最后,文本的非结构化特性使得从文本中自动挖掘语义模式异常困难,所能挖掘出的有效模式在数量与精度方面都存在局限性。

自然语言理解不仅需要语言知识,更需要语言之外的人类认知外部世界的知识(简称世界知识)。

实现机器语言理解所需要的世界知识有着苛刻的条件:规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。

肖仰华老师:

自然语言理解不仅需要语言知识,更需要语言之外的人类认知外部世界的知识,这个观点当时是收到一些听众的反馈,我记得我在武汉做《基于KG的机器语言理解》报告时,有个老师,就站出来质疑,说NLP一直在尝试使用知识,他的这个观点是对的,但是传统NLP对于知识应用侧重在语法知识,而不是KG中的世界知识,KG中的知识关系到我们人类对于世界的认知,而非语法知识,王力先生有句话,“先有意义范畴还是先有语法范畴? 我们认为是先有意义范畴。意义是客观事物的反映 , 语法范畴只是通过意义范畴去反映客观事物。... " 这位语言学家的认识和我们的判断是一致的,事实上,说得不客气一点,语法知识可能是对于语言理解或者文本相关的任务而言最没有用的知识,因为语法实质上是语言习惯的事后总结,真正理解语言,是要理解语言所指,语言的意味,也就是语义,而语义是建立在认知基础上的,而认知是由知识库支撑的,所以机器语言理解与KG相结合,一定是未来最重要的趋势。

 

3丨语言理解的主要挑战在哪里?

同学代表性回答:

表达多样性:一义多表。

表达歧义性:一词多义。

上下文关联性:不同上下文,同一个词或者一句话有不同含义。

 

4丨解决实体链接的基本模型是什么?

同学代表性回答:

回答1:

将实体链接建模为从指代集到实体集的映射方案优化问题。

输入:文本,以及上下文已识别指代集,知识库K。

输出:链接实体列表。

方案的评分从两个方面进行度量:局部实体链接分数(上下文与候选实体的匹配程度),全局实体链接分数(候选实体之间的相容程度)。

回答2:

实体链接通常使用两类信息来求解全局最优映射方案。一类是指代上下文和候选实体的匹配程度,另外一类信息是候选实体之间的相容程度。优化目标就是对于上下文中的指代集合,找到一个实体集合映射是局部实体链接分数与全局实体链接分数之和是最大的。

肖仰华老师:

挺好,大家要注意这里的两个优化内容,局部的相似度以及实体对之间的相容程度,基本上实体链接问题都是基于这个框架展开研究的。

 

5丨有哪些度量实体间相关性的指标?核心思想分别是什么?

同学代表性回答:

1. Jaccard相似度:根据三元组中候选头实体和候选尾实体的邻居集合之间的相交程度判断他们的语义相关度,两个实体共享的邻居实体越多就越相关。

2. 互信息:如果两个实体联合出现的概率大于他们各自独立的概率就说明这两个实体很有可能是相关的。

3. 规范化谷歌距离:对邻居集合大小偏差了做规范化处理,考虑了集合大小所带来的影响。

4. Adamic Adar相似度:使用degree(n)表示实体n的相邻实体数量,度数越大实体越流行,这类邻居实体对两个实体相关度的贡献应该越小。

肖仰华老师:

这几个指标是图上的常见的相似性指标,图上节点之间的相似性度量还有很多,大家可以参阅相关论文。

 

6丨实体链接计算优化的核心思想是什么?

同学代表性回答:

一种是在考虑第i个指代的实体链接的时候,将上下文其他指代的实体暂时固定下来,分别为每个最优指代找到最优链接实体,是一种以局部最优链代替全局最优链的策略。

另一种是利用图的结构特性采用图上的近似算法进行高效求解,这种方法将上下文中的指代与候选实体作为点,将(指代-实体)和(实体-实体)关系作为边来构建图模型。

肖仰华老师:

有两种典型的优化思路。一种是在考虑第 1 个(1≤/≤N)指代的实体链核时,将上下文其他指代的实体暂时固定F来,分别为每个指代找到最优链接实体。显然,这是一种以若干局部最优链接代替全局最优链接的策略,这种方式将时间复杂度降低至0(MN)。另一种是利用图的结构特性,采用图上的近似算法进行高效求解。这种方法将上下文中的指代与候选实体作为点将(指代-实体)和(实体-实体)关系作为边来构建图模型。这个答案相对全一些,其实很多算法的优化,都可以follow这两类思路,第一类思路尤其是适用于全局方案代价大的情况,往往先固定一些局部方案,寻求在此基础上的较优的完整方案。

 

7丨实体链接的图算法主要思想是什么?

同学代表性回答:

将指代与实体作为点,局部实体链接分数作为指代与候选实体之间的边权,候选实体之间的相关度作为候选实体之间的边权。据此可从上下文构建出一个以所有指代与所有候选实体为节点的图,通常称之为指涉图。

在构建出指涉图后,优化公式的算法可以转化成图上的稠密子图发现问题。这个稠密子图包含所有指代节点,而且每个指代都与唯一的实体相关联,从而实现实体消歧。

肖仰华老师:

大家有否发现图模型很强大,理论上图模型可以解决任何问题,几乎所有问题都可以从图上的问题规约过去,如果大家想要夯实自己的算法基础,建议大家学习图论、图算法,最近 graph neural network 很火,很多人对其寄予厚望,本质上,graph neural network是基于神经网络对于图上的高阶特征进行捕捉,但事实上,图上的这些高阶特征并非今天才能捕捉到。

 

8丨短文本有哪些具体形式?面向短文本的实体链接有何挑战?如何克服?

同学代表性回答:

形式:短文本可以是搜索引擎上的查询短语、广告关键词、标题或者影视作品的字幕等。

挑战:语法不规范;上下文稀缺;噪声多。导致难以关联上下文词语和实体。

将实体的概念作为“主题”与上下文关联,来解决实体的信息不足与上下文的词语稀疏问题。即如果实体的主题(概念)与上下文词语的主题具有一致性,那么说明它们是相关的。

肖仰华老师:

短文本至今仍是难点,短文本相关的任何问题 都有研究价值,短文本理解仍然有很多开放问题,这里的上下文稀疏是指很多功能性的词语在短文本中都会省略,短文本可以认为是人类沟通的一种便捷形式,是简单形式,人类沟通其实很有意思,往往一个眼神 、一个动作、一个单词、一个短语就够了,那是因为我们彼此 share 共同意图,共同背景知识,评测机器智能的很重要的一方面应该就是短文本理解能力,这是个非常有前途的研究方向,现有研究仍然太少。

 

9丨跨语言实体链接有哪些解决方案?

同学代表性回答:

传统跨语言实体链接的方法分为三类。第一类是利用机器翻译模型将中文文本翻译成英文文本,然后进行实体识别和链接。第二类是直接匹配中文上下文和英文实体。第三类是将中文的维基百科作为知识库进行实体链接,利用维基百科的多语言性质链接到英文百科页面。

肖仰华老师:

跨语言实体链接在小语种知识库构建中,价值突出,比如构建一个越南语的知识图谱,你不可能完全从头建,一定是链接到中文或者英文知识库,加以复用。

 

10丨概念理解的典型任务有哪些?请简述相应任务的输入与输出。

同学代表性回答:

单实例概念理解,输入单一实例,输出单一实例的概念集合。

多实例概念理解,输入多个实例,输出较少的几个概念进行概括。

短语概念理解,输入一段包含多个实例的短语,输出对于各个实例的概念理解。

关系对概念理解,输入一对有关系的实例,输出给定的三元组。

 

11丨什么是基本概念?举例说明,如何识别实体的基本概念?

同学代表性回答:

如果从实体能够很容易地联想到某个概念,同时从概念也能够很容易得联想到给定的实体,那么这样的概念往往就是基本概念。

比如对“复旦大学“而言,它的概念可以是“学校”,“大学”,“C9高校之一”,那么最容易想到的就是“大学”这个概念,大学就是它的基本概念。

肖仰华老师:

基本概念认知是个很有意思的问题,其实一直没搞定的问题是如何进一步挖掘新的基本概念,比如我说到鹿晗,你会想到什么概念,我首先想到的是“小鲜肉”,这些相对新颖的基本概念是很多知识库中都没有的,这就要从热点实体的相关文本中进行挖掘。

 

12丨简述基于最小描述长度的多实例概念理解的基本原理。

同学代表性回答:

一组好的概念应该满足以下两个准则:语义覆盖(概念应该尽可能多地覆盖输入中的单词或短语,否则部分输入字词的信息将丢失);最少概念。

语义覆盖与最少概念是一对相互矛盾的准则。这对矛盾的平衡问题可以建模成最小描述长度问题,将概念选择问题转化为最短编码问题,其核心思想在于选择特定概念使得概念自身以及输入实例的编码长度之和最短。

 

13丨基于语义网络的短语概念理解的核心思想是什么?

同学代表性回答:

构造一个以词汇为节点的语义网络,以表达词汇在不同上下文语境下的语义角色。通过语义网络上的随机游走,可以得到节点之间最优的语义路径,继而实现正确的概念理解。

 

14丨请给出概念理解的典型应用。

同学代表性回答:

电商搜索。例如,平台需要为查询语句“popular smart cover iPhone X”找到iPhone X的手机保护套。需要识别出核心词以及相应的约束从而理解用户搜索意图。

 

15丨统计+规则解决问题的核心思想是什么?

同学代表性回答:

利用统计方法解决样本丰富情况下的问题,再利用规则方法解决样本稀疏情况下的问题。

肖仰华老师:

属性理解这部分的方法是解决实际问题非常有效的思路。

(完)

 

图书推荐

知识图谱研讨实录09丨肖仰华教授带你读懂知识图谱语言认知_第2张图片

《知识图谱:概念与技术》

肖仰华 等 编著

本书力求涵盖知识图谱相关的基本概念与关键技术,总结了十多个知识图谱工程项目的落地经验。

本书紧密围绕知识图谱开展知识体系的梳理,尽量突出知识图谱与相关学科的差别,尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。本书注重知识图谱的整个知识体系,从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。

 

▶ 研讨实录回顾

  • 研讨实录01丨知识图谱概述
  • 研讨实录02丨知识图谱基础知识
  • 研讨实录03丨词汇挖掘与实体识别
  • 研讨实录04丨关系抽取
  • 研讨实录05丨概念图谱构建
  • 研讨实录06丨百科图谱构建
  • 研讨实录07丨知识图谱的众包构建
  • 研讨实录08丨知识图谱的质量控制

你可能感兴趣的:(知识图谱)