本文关注点在于:
1.总结知识图谱等事物的本质
2.梳理容易混淆的几个概念之间的关系
用尽量简短的话讲清楚。
知识图谱是一种结构化的语义知识库,能够描述物理世界的实体、概念及其相互关系,本质是用图表示知识,给机器提供先验知识。
(往大了说,知识图谱是实现从感知到认知智能的重要基石。但目前更多的是作为一种辅助信息用于提升各种模型训练的效果,最成功的应用方向应该是智能问答KBQA和语义搜索)
人工智能有三种学派:连接学派(模拟脑的结构),符号学派(模拟人的心智),行为学派(模拟人的行为),连接学派主要是利用大数据和深度学习,解决的是感知层面的问题(计算机视觉,语音识别)。
认知智能是属于符号学派的,如自然语言的理解,推理和联想等,需要知识。
深度学习从大数据中学习到的是特征,而不是知识。
知识是经过剪裁、塑造、解释、选择和转换了的信息,换句话说,知识是加工了的信息。
如:“奥巴马是美国的前总统”,对机器而言就是一句话,不知道在讲什么;
处理一下,如变成三元组:(美国,前总统,奥巴马),这就是一条知识了。
这个转换的过程,就是知识表示。
信息关联后所形成的信息结构:事实&规则
直白来说,就是事情发生前已经知道的知识,比如你听到“汪汪声”,你猜那是狗;你听到“嘎嘎声”,你猜那是鸭子;你的判断是在不经意的间做出的,事实上做这些判断之前,你已经具备了先验知识,这些知识大概率就是你小时候学习到的。
对于机器而言,没有先验知识,无法做任何分类和预测,模型训练的过程就是机器学习先验知识的过程,比如根据大量的猫的照片学习到猫的特征,当遇到一张没见过的照片时,判断是不是猫。
知识图谱对于机器的作用就是提供大量的先验知识,这类知识,常常作为辅助信息用于算法训练中。
相对的,还有后验知识。
将人类知识形式化或者模型化的过程就是知识表示。
知识表示是将信息抽取成知识,用于给机器提供先验知识。
有很多种知识表示方法,如状态空间法、问题规约法、谓词逻辑、语义网络、本体技术等。
实体,属性,关系。
为什么不是本体,属性,关系?
本体是构建阶段的产物,是知识的顶层架构,是概念层面的东西,在实际的知识图谱中,存储的都是实体。
举个栗子:
张三是一个实体,其具有年龄、性别、职业等属性;
同时,张三是一个人,“人类”就是一个概念、类似的还有“国家”,“民族”等抽象概念;
本体是概念的集合,知识图谱本体层的东西就是各种概念。
本体的最大作用是见下一条。
schema在不同的技术领域有不同的含义,在知识图谱中,schema等价于本体,构建知识图谱的schema就等价于构建知识图谱的本体,也就是构建各种概念及其关系。
定义好schema,就相当于制定好了知识图谱的顶层设计。
schema的作用:
1.用于规范结构化数据的表达
不满足schema预先定义好的实体对象及其类型,无法被添加到知识图谱中。
2.严格的schema设计,可便于知识推理
参考:https://blog.csdn.net/Solitarily/article/details/79705753
是的,无论是自上而下还是自下而上的知识图谱构建方式,都会涉及到本体层的构建,但在实际构建过程中,特别是自下而上的方式中,可能在没有刻意去制定时,就完成了简单的本体设计。
注意,不是分类方式,这两种方式是知识图谱构建阶段考虑的事情。
方式一:划分为本体层和实体层;
方式二:划分为模式层和数据层;
两种方式本质上是等价的
知识图谱是一种知识库,知识库范畴更广。和其它知识库的区别在于,知识图谱是网状的。
首先,知识图谱本质是语义网络;其次,是先有语义网络,再有知识图谱;
在表现形式上,语义网络和知识图谱相似,但语义网络更侧重于描述概念与概念之间的关系,而知识图谱则更偏重于描述实体之间的关联。
在很多说法中,知识图谱都说成是语义网络,没有问题。
知识图谱是应用,NLP是工具。
这两者因为文本而产生了联系。因为现在场景的知识图谱都是基于文本来抽取知识的,所以在构建和应用过程中会用到大量的NLP算法和工具。
但知识图谱不是一定要NLP算法的,比如基于图像构建的知识图谱就不需要NLP。
所以,知识图谱也不是NLP的未来,只是它的一个应用方向罢了。但知识图谱有可能是人工智能的未来,因为它为机器提供了大量的先验知识,个人观点。
知识图谱是应用,深度学习是工具
知识图谱的构建和应用不是非要深度学习的,以前没有深度学习的时候也有知识图谱。
没有深度学习如何构建知识图谱?
有两种方法:基于规则算法和基于统计学习方法。不用的方法优缺点不同,不是非要上深度学习的。再实际的知识图谱构建过程中,反而优先推荐尝试使用规则算法来快速构建第一版,搭建起知识图谱的雏形,在构建的过程中完善schema。后续根据规则算法的短板,再决定是否用统计机器学习和深度学习。