知识图谱学习笔记-知识图谱价值和发展历程

一:知识图谱的价值:

1.辅助搜索

传统搜索引擎依靠网页之间的超链接实现网页的搜索,而语义搜索是直接对事物进行搜索,如人物、机构、地点等。这些事物可能来自文本、图片、视频、音频、IoT 设备等各种信息资源。而知识图谱和语义技术提供了关于这些事物的分类、属性和关系的描述,使得搜索引擎可以直接对事物进行索引和搜索

2.辅助问答

典型的基于知识图谱的问答技术或方法包括:基于语义解析、基于图匹配、基于模板学习、基于表示学习和深度学习以及基于混合模型等。在这些方法中,知识图谱既被用来辅助实现语义解析,也被用来匹配问句实体,还被用来训练神经网络和排序模型等。知识图谱是实现人机交互问答必不可少的模块。

3. 辅助大数据分析   

知识图谱在文本数据的处理和分析中也能发挥独特的作用。例如,知识图谱被广泛用来作为先验知识从文本中抽取实体和关系,如在远程监督中的应用。知识图谱也被用来辅助实现文本中的实体消歧(Entity Disambiguation)、指代消解和文本理解等。

4. 辅助语言理解     

当一个人听到一句话或看到一段句子的时候,会使用自己所有的知识和智能去理解。这不仅包括语法,也包括其拥有的词汇知识、上下文知识,更重要的是对相关事物的理解。

5.辅助设备互联

人机对话的主要挑战是语义理解,即让机器理解人类语言的语义。另外一个问题是机器之间的对话,这也需要技术手段来表示和处理机器语言的语义。语义技术也可被用来辅助设备之间的语义互联。OneM2M 是2012年成立的全球最大的物联网国际标准化组织,其主要是为物联设备之间的互联提供“标准化黏合剂”。OneM2M 关注了语义技术在封装设备数据的语义,并基于语义技术实现设备之间的语义互操作的问题。此外,OneM2M还关注设备数据的语义和人类语言的语义怎样适配的问题。如图1-6所示,一个设备产生的原始数据在封装了语义描述之后,可以更加容易地与其他设备的数据进行融合、交换和互操作,并可以进一步链接进入知识图谱中,以便支持搜索、推理和分析等任务。

二、国内外典型的知识图谱项目

1.早期的知识库项目

Cyc 是持续时间最久、影响范围较广、争议也较多的知识库项目。Cyc 最初的目标是要建立人类最大的常识知识库。典型的常识知识如“Every tree is a plant”“Plants die eventually”等。Cyc 知识库主要由术语(Term)和断言(Assertion)组成。术语包含概念、关系和实体的定义。断言用来建立术语之间的关系,既包括事实(Fact)描述,也包含规则(Rule)描述。最新的 Cyc 知识库已经包含有50万条术语和700万条断言。Cyc的主要特点是基于形式化的知识表示方法刻画知识。形式化的优势是可以支持复杂的推理,但过于形式化也导致知识库的扩展性和应用的灵活性不够。
WordNet 是最著名的词典知识库,由普林斯顿大学认知科学实验室从1985年开始开发。WordNet 主要定义了名词、动词、形容词和副词之间的语义关系。例如,名词之间的上下位关系,如“猫科动物”是“猫”的上位词;动词之间的蕴涵关系,如“打鼾”蕴涵着“睡眠”等。
ConceptNet最早源于MIT媒体实验室的OMCS(Open Mind Common Sense)项目。与 Cyc 相比,ConceptNet 采用了非形式化、更加接近自然语言的描述,而不是像 Cyc 一样采用形式化的谓词逻辑。与链接数据和谷歌知识图谱相比,ConceptNet 比较侧重于词与词之间的关系。从这个角度来看,ConceptNet更加接近于WordNet,但是又比WordNet包含的关系类型多。

2.互联网时代的知识图谱

互联网的发展为知识工程提供了新的机遇。在一定程度上,互联网的出现帮助传统知识工程突破了在知识获取方面的瓶颈。从1998年Tim Berners Lee提出语义网至今,涌现出了大量以互联网资源为基础的新一代知识库。这类知识库的构建方法可以分为三类:互联网众包、专家协作和互联网挖掘。

Freebase       DBpedia        Schema.org          Wikidata       BabelNet      NELL       Yago     LOD

Microsoft ConceptGraph

3.中文开放知识图谱

OpenKG 是一个面向中文域开放知识图谱的社区项目,主要目的是促进中文领域知识图谱数据的开放与互联。OpenKG.CN 聚集了大量开放的中文知识图谱数据、工具及文献,如图1-7所示。典型的中文开放知识图谱数据包括百科类的Zhishi.me(狗尾草科技、东南大学)、CN-DBpedia(复旦大学)、XLore(清华大学)、Belief-Engine(中科院自动化所)、PKUPie(北京大学)、ZhOnto(狗尾草科技)等。OpenKG 对这些主要百科数据进行了链接计算和融合工作,并通过 OpenKG 提供开放的Dump或开放访问API,完成的链接数据集也向公众完全免费开放。此外,OpenKG 还对一些重要的知识图谱开源工具进行了收集和整理,包括知识建模工具 Protege、知识融合工具 Limes、知识问答工具YodaQA、知识抽取工具DeepDive等。

4.垂直领域知识图谱

OpenKG 是一个面向中文域开放知识图谱的社区项目,主要目的是促进中文领域知识图谱数据的开放与互联。OpenKG.CN 聚集了大量开放的中文知识图谱数据、工具及文献,如图1-7所示。典型的中文开放知识图谱数据包括百科类的Zhishi.me(狗尾草科技、东南大学)、CN-DBpedia(复旦大学)、XLore(清华大学)、Belief-Engine(中科院自动化所)、PKUPie(北京大学)、ZhOnto(狗尾草科技)等。OpenKG 对这些主要百科数据进行了链接计算和融合工作,并通过 OpenKG 提供开放的Dump或开放访问API,完成的链接数据集也向公众完全免费开放。此外,OpenKG 还对一些重要的知识图谱开源工具进行了收集和整理,包括知识建模工具 Protege、知识融合工具 Limes、知识问答工具YodaQA、知识抽取工具DeepDive等。

通用知识图谱与领域知识图谱的比较

知识图谱学习笔记-知识图谱价值和发展历程_第1张图片

领域知识图谱具有规模巨大、知识结构更加复杂、来源更加多样、知识更加异构、具有高度的动态性和时效性、更深层次的推理需求等特点。

知识图谱学习笔记-知识图谱价值和发展历程_第2张图片

 

 

笔记来源:《知识图谱:方法、实践与应用》 作者:王昊奋    漆桂林

你可能感兴趣的:(学习,知识图谱,人工智能)