知识图谱系列文章列表:
知识图谱概述(一)知识图谱概念提出
知识图谱概述(二)知识图谱定义
知识图谱概述(三)知识图谱构成
知识图谱概述(四)知识图谱历史发展
知识图谱概述(五)知识图谱分类
知识图谱概述(六)知识图谱技术应用
要深入了解一个技术,就要知道这个技术在历史上如何发展而来的。
知识图谱号称人工智能领域的一颗掌上明珠,知识图谱的历史,要先从人工智能的三大学派说起。
(一)人工智能三大学派
发展到目前为止,人工智能分下列三大学派:
(1) 连接主义(connectionism),又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法。这里的智能我理解的是感知智能,比如语音识别、图像识别,主要让机器能够感知周围事物,而感知智能当前已经发展的非常成熟,比如人脸支付,语音翻译等已经大规模商用。
(2) 符号主义(symbolicism),又称为逻辑主义、心理学派或计算机学派,其原理主要为物理符号系统(即符号操作系统)假设和有限合理性原理。这里的智能我理解的是认知智能,也就是让机器像人一样思考,能够自我学习、理解知识,交流问题。而我们要介绍的知识图谱就属于这个学派。
(3) 行为主义(actionism),又称为进化主义或控制论学派,其原理为控制论及感知-动作型控制系统。这里的智能我理解的是行为智能,比如足球机器人,无人驾驶汽车。
符号派一直以来都处于人工智能研究的核心位置。但是近年来,随着数据的大量积累和计算能力的大幅提升,深度学习在视觉、听觉等感知处理中取得突破性进展,进而又在围棋等博弈类游戏、机器翻译等领域获得成功,使得人工神经网络和机器学习获得了人工智能研究的核心地位。
深度学习在处理感知、识别和判断等方面表现突出,能帮助构建聪明的人工智能,但在模拟人的思考过程、处理常识知识和推理,以及理解人的语言方面仍然举步维艰,这也是知识图谱发展的潜力所在。
(二)知识图谱历史发展
其实早在文艺复兴时期,培根就提出了“知识就是力量”,在当今人工智能时代,各大科技公司更是纷纷提出:知识图谱就是人工智能的基础。
知识图谱不是无缘无故诞生的技术,在此之前有许多相关联的技术给它做了铺垫,时间线如下:
1960 年,认知科学家 Allan M.Collins 提出用语义网络(Semantic Network)(注意不是语义网)研究人脑的语义记忆,提出用相互连接的节点和边来表示知识。节点表示对象、概念,边表示节点之间的关系。语义网络可以比较容易地让我们理解语义和语义关系。其表达形式简单直白,符合自然。然而,由于缺少标准,其比较难应用于实践。
1965 年,在斯坦福大学,美国著名计算机学家费根鲍姆带领学生开发了第一个专家系统 Dendral,这个系统可以根据化学仪器的读数自动鉴定化学成分。随着专家系统的提出和商业化发展,知识库(Knowledge Base)构建和知识表示更加得到重视。专家系统的基本想法是:专家是基于大脑中的知识来进行决策的,因此人工智能的核心应该是用计算机符号表示这些知识,并通过推理机模仿人脑对知识进行处理。依据专家系统的观点,计算机系统应该由知识库和推理机两部分组成,而不是由函数等过程性代码组成。
1969 年,因特网诞生于美国。它的前身“阿帕网”( ARPAnet)是一个军用研究系统,后来才逐渐发展成为连接大学及高等院校计算机的学术系统,现在则已发展成为一个覆盖五大洲 150 多个国家的开放型全球计算机网络系统,拥有许多服务商。
1980 年,本体论,哲学概念”本体”被引入人工智能领域用来刻画知识。
1989 年,英国科学家 Tim Berners-Lee 在欧洲高能物理研究所工作的时候,发明了万维网技术。Tim Berners-Lee 发明的万维网技术,把信息用网页(HTML)表示,用超链接 HTTP 协议把不同的网页链接起来。万维网一下子激活了信息组织的灵活性,使万维网成为了互联网上的最大应用。
1998 年,在上述技术基础上,英国科学家 Tim Berners-Lee(还是这个人)又提出语义网,希望把这个万维网技术向前推进一步。
Tim Berners-Lee 提出了最初的语义网体系结构,随着人们对语义网的深入研究,语义网的体系结构也在不断地发展演变。体系结构如下图所示。可以看出,语义网是传统人工智能与 Web 融合的结果,是符号主义核心知识表示与推理在现代 Web 中的应用,其中的 RDF/OWL 都是面向 Web 的知识表示语言。
语义网和万维网、语义网络的区别如下:
2006 年,Tim Berners Lee(还是这个人)提出链接数据。由于语义网的设计模型是“自顶向下”的,大规模情况下实现起来很困难,于是乎,学者们逐渐将焦点转向数据本身,在这种情况下,Tim Berners-Lee 提出关联数据(Linked Data)的概念,鼓励大家将数据公开并遵循一定的原则(2006 年提出 4 条原则,2009 年精简为 3 条原则)将其发布在互联网中,链接数据起初是用于定义如何利用语义网技术在网上发布数据,其强调在不同的数据集间创建链接。
在上述背景下,大型数据集项目越来越多,包括国外的DBpedia 项目、Wikidata 项目、Freebase项目等。在中文社区类似的项目有清华大学的 XLore、复旦大学的 CN-pedia等。
2012 年,谷歌在上述技术的基础上,特别是依托收购的Freebase,进行改扩充和改进(谷歌自己的专业团队在Freebase 的基础上又设计了模式层等),最后提出了知识图谱,目的是提升搜索引擎返回的答案质量和用户查询的效率,有知识图谱作为辅助,搜索引擎能够洞察用户查询背后的语义信息,返回更为精准、结构化的信息,更大可能地满足用户的查询需求。
知识图谱和专家系统、本体、语义网、链接数据区别如下: