1、知识图谱的直观展示:
知识图谱本质上是一种语义网络,将客观的经验沉淀在巨大的网络中;
结点代表实体或者概念;
边代表实体/概念之间的关系;
2、知识图谱的表示方法
构成知识图谱的核心三元组
三元组:实体、属性、关系,Entity、Attribute、Relation
抽取为<实体1,关系,实体2>和<实体1,属性1,属性值1>
例如<达观数据,is-a,人工智能公司><人工智能公司,subclass,高科技公司><达观数据,start-time,2015年>
基于已有的三元组,可以推导出新的关系
为什么使用三元组来描述知识图谱
三元组是一种简单的易于人类解读的结构
三元组方便计算机程序来进行抽取和加工处理
3、AI为什么需要知识图谱
AI需要从感知智能迈向认知智能,认知的建立需要思考的能力,而思考是建立在知识基础上的;
知识图谱富含实体、概念、属性、实践、关系等信息,基于一定的知识推理为可解释性AI提供了全新的视角和机遇;
C罗为啥那么牛?
知识图谱有助于消除自然语言和深度学习黑盒之间的语义鸿沟;
4、通过知识图谱中的概念理解自然语言
在问答研究中,自然语言问题的理解或者语义表示是一个难题,同样语义的问题表达方式往往是多样的。
5、通用知识图谱VS行业知识图谱
6、知识图谱典型行业应用介绍
7、利用知识图谱来提供个性化推荐
场景化推荐(沙滩鞋->游泳衣、防晒霜、海岛度假产品)
任务型推荐(牛肉卷、羊肉卷->火锅底料、电磁炉;螺丝、螺钉->多功能螺丝刀)
冷启动环境下推荐(语义标签:摄影VS旅游;相同导演或主演的电影;)
跨领域推荐(微博如何推荐淘宝商品?用户经常晒九寨沟、黄山、泰山的照片->淘宝登山装备)
知识型推荐(清华大学、北京大学->复旦大学(985名校)、百度->腾讯(互联网BAT等)
8、构建知识图谱
有监督的学习方法:把关系抽取当成分类问题(缺点:需要大量人工标注的语料)(召回率和精准率更高)
半监督的学习方法:bootstraing(通过迭代方式不断抽取实例)
无监督的学习方法:把关系抽取当成聚类问题(相同语义,利用上下文信息代表语义信息进行聚类)
Deepdive:知识抽取框架
将抽取问题转换成标注任务,训练一个端到端标注模型来抽取关系
根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果
缺点:容易造成错误传播,实体识别错误,后面关系也就错了;
产生很多冗余信息,需要将实体进行两两配对,在进行关系的分类,很多配对之间没有关系,就会带来很多冗余的信息;
基于神经网络的标注方法:
模型参数共享:进行实体训练的时候,进行实体识别和关系抽取都会反向传播进行参数更新
标注策略(怎么进行有效的标注)
9、知识融合:实体链接和实体合并
(比如中华人民共和国、china、中国表示意思一样)
10、知识存储:数据库选择
11、知识推理
1、知识图谱的直观展示:
知识图谱本质上是一种语义网络,将客观的经验沉淀在巨大的网络中;
结点代表实体或者概念;
边代表实体/概念之间的关系;
2、知识图谱的表示方法
构成知识图谱的核心三元组
三元组:实体、属性、关系,Entity、Attribute、Relation
抽取为<实体1,关系,实体2>和<实体1,属性1,属性值1>
例如<达观数据,is-a,人工智能公司><人工智能公司,subclass,高科技公司><达观数据,start-time,2015年>
基于已有的三元组,可以推导出新的关系
为什么使用三元组来描述知识图谱
三元组是一种简单的易于人类解读的结构
三元组方便计算机程序来进行抽取和加工处理
3、AI为什么需要知识图谱
AI需要从感知智能迈向认知智能,认知的建立需要思考的能力,而思考是建立在知识基础上的;
知识图谱富含实体、概念、属性、实践、关系等信息,基于一定的知识推理为可解释性AI提供了全新的视角和机遇;
C罗为啥那么牛?
知识图谱有助于消除自然语言和深度学习黑盒之间的语义鸿沟;
4、通过知识图谱中的概念理解自然语言
在问答研究中,自然语言问题的理解或者语义表示是一个难题,同样语义的问题表达方式往往是多样的。
5、通用知识图谱VS行业知识图谱
6、知识图谱典型行业应用介绍
7、利用知识图谱来提供个性化推荐
场景化推荐(沙滩鞋->游泳衣、防晒霜、海岛度假产品)
任务型推荐(牛肉卷、羊肉卷->火锅底料、电磁炉;螺丝、螺钉->多功能螺丝刀)
冷启动环境下推荐(语义标签:摄影VS旅游;相同导演或主演的电影;)
跨领域推荐(微博如何推荐淘宝商品?用户经常晒九寨沟、黄山、泰山的照片->淘宝登山装备)
知识型推荐(清华大学、北京大学->复旦大学(985名校)、百度->腾讯(互联网BAT等)
8、构建知识图谱
有监督的学习方法:把关系抽取当成分类问题(缺点:需要大量人工标注的语料)(召回率和精准率更高)
半监督的学习方法:bootstraing(通过迭代方式不断抽取实例)
无监督的学习方法:把关系抽取当成聚类问题(相同语义,利用上下文信息代表语义信息进行聚类)
Deepdive:知识抽取框架
将抽取问题转换成标注任务,训练一个端到端标注模型来抽取关系
根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果
缺点:容易造成错误传播,实体识别错误,后面关系也就错了;
产生很多冗余信息,需要将实体进行两两配对,在进行关系的分类,很多配对之间没有关系,就会带来很多冗余的信息;
基于神经网络的标注方法:
模型参数共享:进行实体训练的时候,进行实体识别和关系抽取都会反向传播进行参数更新
标注策略(怎么进行有效的标注)
9、知识融合:实体链接和实体合并
(比如中华人民共和国、china、中国表示意思一样)
10、知识存储:数据库选择
11、知识推理
通过在关系模型里面的距离来判断实体之间是否有这样的关系
清华大学:openKE(知识表示学习平台)
通过在关系模型里面的距离来判断实体之间是否有这样的关系
清华大学:openKE(知识表示学习平台)