知识图谱概论

知识图谱概论

概念

人工智能发展阶段

计算智能

计算机早已超过人类

感知智能

让计算机具备视觉和听觉等感知的智能。语音识别和人脸识别等技术上已取得进步。

认知智能

与人类语言、知识、逻辑相关的智能,是人工智能最高阶段,目标是让机器掌握人类的语言和知识体系,并真正理解其内在逻辑。

知识图谱概论_第1张图片

知识图谱

  • 本质:万物及其联系的网络

  • 包括:实体、属性、关系

  • 节点有属性标签(可以包含类型)

  • 两个节点的边是实体间关系

  • 强调实体,但也可以描述概念

深度学习

深度学习金字塔

知识图谱概论_第2张图片

瓶颈

  • 平台红利

    DL开发平台日趋成熟,难以有更大提升空间

  • 算法红利

    新型模型的提出很难;现有模型的优化和潜力挖掘存在瓶颈

  • 算力红利

    GPU和TPU等硬件计算速度的摩尔定律开始失效

  • 大数据红利

    大数据的获取、清洗和标注己经出现瓶颈

知识图谱 VS 传统知识库 VS 数据库

关系

  • 知识图谱是在传统知识库的基础上发展而来,但更注重其中的数据
  • 知识图谱不能替代数据库,二者互有所长

优势

  • 包含语义信息,可进行一定的推理
  • 形式更灵活,可扩展性更好

不足

  • 天生缺乏直接的有效处理工具,大规模图谱数据处理常常借助于数据库技术

知识图谱概论_第3张图片

知识表示

语义网络

  • 表示概念间语义关系的网络
  • 1956年提出,最初目的用于语言翻译和自然语言处理
  • 经典语义网络项目:WordNet

知识图谱概论_第4张图片

框架

  • 框架是人工智能中使用的一种数据结构

知识图谱概论_第5张图片

概念图

  • 有数学和逻辑支撑的知识表示

知识图谱概论_第6张图片

形式化概念分析

知识图谱概论_第7张图片

语义网

Web=文档+超链接

本体

  • 领域共享知识的描述方式,是语义Web、语义搜索、知识工程和很多人工智能应用的基础
  • 本体是我们告诉计算机人类如何认识和理解世界万物的一种形式化描述方式
  • 本体成为语义网的知识描述载体
  • 语义网的研究热潮极大促进了本体的研究

描述逻辑

  • 描述逻辑是一种知识表示语言,表达能力强于命题逻辑,弱于一阶逻辑

  • 描述逻辑成为了语义网语言的逻辑基础,其推理有正确性和完备性保证

  • 语义网的发展过程中先后制定了基于描述逻辑的不同语言规范:DAML,RDF,OWL, OWL2等等

链接数据(Linked Data)

知识图谱概论_第8张图片

知识图谱概论_第9张图片

Google Knowledge Graph

  • 知识图谱(Knowledge Graph)是Google在2012年对其搜索引擎中使用的知识库的称谓
  • 目前学术界和工业界习惯用“知识图谱”来泛指类似Google知识库的各种知识库,这些知识库都有着自己的名称

经典知识图谱

Cyc

  • 在1984年由Douglas Lenat开始创建

  • 最初的目标是要建立人类最大的常识知识库

    • 典型的常识知识如“Every tree is a plant ” , “Plants die eventually ” 等
  • 由术语Terms和断言Assertions组成

    • Terms包含概念、关系和实体的定义
    • Assertions用来建立Terms之间的关系,这既包括事实Fact描述,也包含规
      则Rule的描述
  • 主要特点是基于形式化的知识表示方法来刻画知识

    • 形式化的优势是可以支持复杂的推理。
    • 但过于形式化也导致知识库的扩展性和应用的灵活性不够。
  • Cyc提供开S版本OpenCyc

WordNet

  • 由普林斯顿大学认识科学实验室从1985年开始开发

  • 是最著名的词典知识库主要用于词义消歧

  • 主要定义了名词、动词、形容词和副词之间的语义关系。

    • 例如名词之间的上下位关系(如:“猫科动物”是“猫”的上位词)
    • 动词之间的蕴含关系(如:“打鼾”蕴含着“睡眠”)等
  • WordNet3.0已经包含超过15万个词和20万个语义关系

ConceptNet

  • 最早源于MIT媒体实验室的OpenMind Common Sense (OMCS)项目。OMCS项目是由著名人工智能专家Marvin Minsky于1999年建议创立

  • 常识知识库

  • 主要依靠互联网众包、专家创建和游戏三种方法来构建

    • 新版本导入大量开放的结构化数据,如DBPedia、Wikinary,Wordnet等
  • 以三元组形式的关系型知识构成

    • ConceptNet5版本已经包含有2800万关系描述。与Cyc相比,ConceptNet采用了非形式化、更加接近自然语言的描述,而不是像Cyc那样采用形式化的谓词逻辑
  • 与链接数据和谷歌知识图谱相比,ConceptNet比较侧重于词与词之间的关系

    • 从这个角度看,ConceptNet更加接近于WordNet,但是又比WordNet包含的关系类型多。此外,ConceptNet完全免费开放,并支持多种语言

Freebase

  • 由Metaweb开发,并于2007年3月公开运营,2010年7月16日被谷歌收购

  • 致力于打造一个允许所有人快捷访问的开源知识库

  • 目标包含19亿三元组,提供了多种语言的查询接口

Wikidata

  • 是一个人人可编辑的知识库

  • 其核心概念是entity,可以指一个现实中的对象或一个抽象概念

  • 每个item 都有标签(label)、描述(description)、别名(aliases),使不同的item得以区分

    • item中的具体数据被称为statement, 一个item可以有许多statement
    • statement由属性(property)、数值(value)、修饰成分(qualifier)、参考资料(reference)等部分组成。

DBPedia

  • 早期的语义网项目
  • 意指数据库版本的Wikipedia,是从Wikipedia抽取出来的链接数据集
  • 采用了一个较为严格的本体,包含人、地点、音乐、电影、组织机构、物种、疾病等类定义
  • 采用RDF语义数据模型,总共包含30亿RDF三元组

YAGO

  • 由德国马普研究所研制的链接数据库

  • 主要集成了 Wikipedia、WordNet和GeoNames三个来源的数据

  • 将WordNet的词汇定义与Wikipedia的分类体系进行了融合集成,使得YAGO具有更加丰富的实体分类体系

  • 还考虑了时间和空间知识,为很多知识条目增加了时间和空间維度的属性描述

  • 包含1.2亿条三元组知识

  • 是IBM Watson的后端知识库之一

NELL

  • 卡内基梅隆大学开发的知识库

  • 主要采用互联网挖掘的方法从Web自动抽取三元组知识

  • 基本理念是:给定一个初始的本体(少量类和关系的定义)和少量样本,让机器能够通过自学习的方式不断的从Web学习和抽取新的知识

  • 目前NELL已经抽取了 400多万条高置信度三元组知识

OpenlE

知识图谱概论_第10张图片

ZhiShi.me

  • 是以百度百科,互动百科,維基百科中文部分为基础构建的中文知识图谱

CN-DBPedia

  • 由复旦大学知识工场实验室研发并維护的大规模通用领域结构化百科

  • 主要从中文百科类网站(如百度百科、互动百科、中文維基百科等)的纯文本页面中提取信息,经过滤、融合、推断等操作后,最终形成高质量的结构化数据,供机器和人使用

    • 自2015年12月份发布以来已经在问答机器人、智能玩具、智慧医疗、智慧软件等领域产生数亿次API调用量

    • CN-DBpedia提供全套API,并且免费开放使用

    • 大规模商务调用,提供由IBM、华为支持的专业、稳定服务接口

BabelNet

  • 类似于WordNet的多语言词典知识库

  • 目标是解决WordNet在非英语语种中数据缺乏的问题

  • 采用的方法是将WordNet词典与Wikipedia百科集成

    • 首先建立WordNet中的词与Wikipedia的页面标题的映射,然后利用Wikipedia中的多语言链接,再辅以机器翻译技术,来给WordNet增加多种语言的词汇
  • BabelNet3.7包含了271种语言,1400万同义词组,36.4万词语关系和3.8亿从Wikipedia中抽取的链接关系,总计超过19亿RDF三元组

  • 集成了WordNet在词语关系上的优势和Wikipedia在多语言语料方面的优势,构建
    成功了目前最大规模的多语言词典知识库

应用

知识图谱概论_第11张图片

应用场景

辅助搜索——精准回答

  • 提高搜索精度
  • 语义搜索
  • 搜索意图理解
  • 多模态搜索

知识图谱概论_第12张图片

辅助问答——人机互动

  • 提高问答精度
  • 改善问答体验
  • 引导对话走向
  • 多轮对话

知识图谱概论_第13张图片

知识图谱概论_第14张图片

辅助数据集成——智能数据整合

知识图谱实现了数据-信息-知识的智能数据整合机制

  • 针对大规模多源异构数据集成机制
  • 建立和挖掘数据内在关联
  • 通用性高
  • 可护展性强
  • 形式灵活
  • 知识重用
  • 不干涉数据源

知识图谱概论_第15张图片

知识图谱概论_第16张图片

辅助决策——智能决策

  • 收集和整理数据
  • 建立数据间关联
  • 知识挖掘
  • 知识发现
  • 知识推理
  • 知识图谱辅助自然语言理解
  • 辅助各种AI场景
  • 广泛用于国防、金融、制造、商务、政府

知识图谱概论_第17张图片

辅助情报研判

知识图谱概论_第18张图片

辅助智能制造

知识图谱应用落地模式

知识图谱概论_第19张图片

知识图谱技术的核心价值

  • 集成异构数据源

    • 知识图谱构建基于分布和异构数据源
    • 知识图谱的图模型是对异构数据的一种灵活集成
  • 描述数据间的关联

    • 实体关系
    • 事件
  • 实现实体链接

    • 建立知识和实体间的桥梁
    • 更理智的智能
  • 大规模知识推理

    • 发现隐含的知识

    • 可解释的智能(可推理数据缺失/稀疏,任重道远)

实例

Google Knowledge Graph

知识图谱概论_第20张图片

Facebook Graph Search

知识图谱概论_第21张图片

微软Concept Graph

  • Concept Graph是以概念层次体系为中心的知识图谱。与Freebase等知识图谱不同,Concept Graph以概念定义和概念之间的IsA关系为主

  • 给定一个概念如“Microsoft”,Concept Graph返回一组与“微软’’有IsA关系概念组,如:“Company”,“Software Company”,"Largest OS Vender"等。这被称为概念化“Conceptualization”

  • Concept Graph可以用于短文本理解和语义消歧中。例如,给定一个短文本 “the engineer is eating the apple”,可以利用 Concept Graph来正确理解其中“apple”的含义是“吃的苹果”还是“苹果公司”。微软发布的第一个版本包含超过540万的概念,1255万的实体,和8760万的关系。Concept Graph主要通过从互联网和网络日志中挖掘来构建

亚马逊知识图谱

知识图谱概论_第22张图片

知识图谱概论_第23张图片

路透社知识图谱

Linkedln知识图谱

知识图谱概论_第24张图片

阿里巴巴的知识图谱

知识图谱概论_第25张图片

美团知识图谱:美团大脑

知识图谱概论_第26张图片

百度知识图谱

  • 百度的3类知识图谱
    • 实体图谱(entity graph):用于精准回答
    • 关注点图谱(attention graph):用于文本理解
    • 意图图谱(intent graph):用于对话

IBM Watson问答系统

  • 工作原理

    • 问题分析
      • 答案类型
      • 焦点
      • 关键词
    • 假设生成
      • 给定问题,生成候选答案
      • 基于证据收集和假设评分模块给候选答案打分
    • 候选生成
      • 搜索结构化/非结构化资源,寻找证据
      • 计算候选答案的正确概率
    • 打分
      • 每个证据贡献支持或反对
      • 综合得分
        知识图谱概论_第27张图片
  • 总结

    • 在表达多样性问题上表现出色
    • 平均每个问题的回答速度为3秒,足够和最优秀的人类竞争
    • 在55场和人类冠军实时比赛中胜率为71%
    • 总决赛中战胜2位人类选手夺冠

构建知识图谱

知识图谱概论_第28张图片

  • 知识抽取与挖掘:任务和问题

知识图谱概论_第29张图片

总结

  • 知识图谱是一项实用的人工智能前沿技术,是认知智能的核心技术之一
  • 知识图谱的作用:灵活集成异构数据、建立数据间关联、实现实体链接、进行大规模知识推理
  • 知识图谱的应用场景:精准回答、人机互动、数据整合、智能决策
  • 知识图谱的门槛:复杂的技术门槛、知识获取和处理门槛、应用门槛

你可能感兴趣的:(知识图谱,综述笔记,知识图谱)