今年的CSDN主办的 BDTC2018 大会知识图谱分论坛上,我作为嘉宾做了一次演讲,结合我在知识图谱、移动搜索以及人工智能交互等领域的经验,给知识图谱的行业人士分享了一些所领域到的对于AI产品演进路径上的思考。
人工智能领域一直以来有句老话,叫做有多少人工,就有多少智能。这件事在知识图谱构建上体现的尤为明显。人工智能的技术瓶颈不是要代替智人作为动物的那一部分感知智能,而在于代替我们最近几千年发展起来的那些认知能力,也就是我们有了符号思维能力之后的智能。从知识图谱到人工智能,要想一蹴而就,不太现实,也不可能实现。在这种情况下,我们更应该关注其中的实现路径,而非最终目标。
人工智能如何定义?
说到人工智能,我觉得首先要搞清楚一件事情什么是人工智能?人工智能到底离我们有多远?我们看看第一个话题,每个人都在谈论到底人工智能他出生在什么地方,经过了什么样的发展。我们都知道,其实要讲到人工智能这个话题,要回溯到1946年世界上第一台电子计算机埃尼阿克的诞生,埃尼阿克产生以后,许多的计算机科学家对于计算机将来能够代替人类做什么事情有很多联想,其中最著名的一个人是图灵。图灵在二战的时候发明了非常重要的炸弹,这个炸弹可以破解当时德国的密码体系。在二战以后,埃尼阿克发明以后,图灵在1950年左右在人工智能领域进行了很多的探讨,并且提出了著名的图灵测试。
真正的“人工智能”这个词被提出来,是在1956年Dartmouth的会议上。当年在Dartmouth提出来人工智能的人,包括明斯基、西蒙、麦卡塞等等,这些年轻的人工学者他们提出概念以后,他们中间诞生了四位图灵奖得主。大家看到了,时光荏苒,作为最后的一名参与者已经去世了,但是我们已经可以看到人工智能的发展。
人工智能的下一次大发展正在爆发过程中
但是人工智能的发展也不是一帆风顺的,就像一项技术一样,当一项新技术出现在人类社会的时候,大家会抱以非常高的期望。在人工智能刚刚提出的时候,所有人都认为人工智能用规则推理的方法可以解决这个问题。因为当时的计算机、存储和各个方面的原因,当时是大型机的时代。IBM的总裁曾经说过,世界只需要五台计算机,事实证明他错了。
但是人工智能经过了五六十年代的发展,离大家的期望很远,所以人工智能进入了沉寂期。
随着80年代个人电脑的发展,人工智能再次引起了大家的关注。以日本的第五代计算机为重要的表现,以中国的863计划,其实我们也设计了306主题,就是智能计算机主题。
在90年代人工智能又再次陷入了低谷,因为很多人发现,互联网其实可以帮助我们解决很多的问题,我们的信息化技术能够解决我们生活中大部分的问题,而且我们并不需要人工智能,而且人工智能也做不到。
目前正处在人工智能大爆发的前夜。
人工智能的奇点在哪里?
奇点理论
根据美国未来学家、谷歌公司工程总监雷·库茨魏尔的奇点理论。技术奇点(英语:Technological Singularity),又称科技奇点,出自奇点理论,一个根据技术发展史总结出的观点,认为未来将要发生一件不可避免的事件──技术发展将会在很短的时间内发生极大而接近于无限的进步。当此转捩点来临的时候,旧的社会模式将一去不复返,新的规则开始主宰这个世界。而后人类时代的智能和技术我们根本无法理解,就像金鱼无法理解人类的文明一样。
目前有各种各样的智能,比如图片识别,文字识别,但是这个跟真正的人类智能还有很大的差距。讲到人工智能,很多人有各种各样的想法,但是人工智能中最重要,现在最需要突破,也是最难点的地点在于什么地方?要回答这个问题,其实我们有可能要先看一下人类。我们都知道人类在地球上有300到400万年的时间。
根据《人类简史》中的对人类的发展史的研究:我们可以发现,就是在七万到两万年之前,人类在农业革命、工业革命还有一个重要的革命是认知革命。而认知革命是人类用语言和智能战胜其他猿人的非常重要的方面,因为有几个方面的事情,一是可以把客观事件描述得准确;二是八卦,我曾经以为八卦是女性社会非常不好的习惯,但是没想到是非常重要的,由原来的100人的团队可以变成150人到1000人的团队。因为有了语言,我们可以交流我们在做梦中,或者我们思维里面的东西,我们可以产生虚构的概念,我们可以产生宗教、公私等等,从而让我们人类成为地球的主宰。
语言成为了人类智能演进的奇点
人工智能发展的阶段
从计算机发明以来,结合我们对人类智能发展的认识,我们可以把人工智能分为三个阶段:
- 计算智能
- 感知智能
- 认知智能
当前我们处在第二个阶段,图像识别、语音识别、文字ORC识别等等准确率覆盖率都已经完全达到了实用的要求,而且已经在各行各业中取得了很好的应用。
跟第二个阶段相比,我们在第三个阶段:认知智能的进展就很小了。最近几年的核武器---深度神经网络对于我们语言的理解并没有取得特别大的突破。
原因在哪?
机器为啥理解不了语言中的语义?
从上图中可以看出,跟图像识别、语音识别有所不同的是,原始的图像和语音都已经蕴含了大量的有效信息,只需要加以针对性的用大量数据训练,就可以识别准确。
但是语言的理解不同,语言的理解中,语音本身信息量很少,大部分数据都蕴含在符号中,符号本身需要以可以被机器理解的形式进行定义,并且跟其他的符号发生关联。所以机器要理解语义,首先就需要用机器可以理解并执行的方式,准备好符号后面所代表的知识(概念)。
这个机器可以理解的知识数据库就是知识图谱了。
所以 知识图谱是机器理解语义,实现认知智能的基石。
人工智能的基石:知识图谱
为啥大家都说知识图谱是人工智能的基石呢?我们先从知识图谱到底是个啥开始说起。
知识图谱是什么?
知识图谱其实就是一种可以被机器直接识别,并且方便做推理的一种结构化、标准化的以图的方式存储的知识库。
知识图谱中有实体(表示世界中的各种事物,解决语言中是什么的问题),也有关系(表示世界中的实体的各种关系,用来表示各种事实)。
另外,图谱中的关系会按照属性定义,只有被定义过的关系才可以存储进入图谱,这些属性定义也是图谱语义的重要组成部分。
图谱中的实体会按照类型组织,同一类型的实体拥有相同的属性。也就是说图谱中会根据实体的属性对实体进行分类,反过来这些分类又可以帮助机器推理,推测实体还有哪些未知的属性,以及这些属性有哪些约束。
说到这里你应该可以想到为啥说,机器理解语言的语义需要知识图谱了吧,因为知识图谱中存储的就是前面提到的语言的背景的知识,更重要的是这些知识对于机器非常友好,可以被直接推理和使用,因为图谱中的数据都是有严格的约束和定义的,在这些定义之上,机器可以按照预先设定好的逻辑规则进行推理。从而表现出,机器理解了语言,并且推理得出了新的知识(也就是图谱中还没有的facts(关系))
知识图谱的人工智能应用
前面说知识图谱是认知人工智能的基石。那么它到底有什么应用呢?目前来看知识图谱有三大应用场景:
-
搜索引擎(实体详情卡:将query中的实体识别出来,以图文并茂给出图谱中实体相关的结构化知识(属性和关系),给出更加丰富的搜索结果,让用户即搜即得。相关实体推荐卡:基于图谱中实体的分类以及实体之间的关系,给出相关实体推荐,帮助用户获得顺藤摸瓜的浏览式的搜索体验,让用户更容易找到自己感兴趣的实体的知识)
-
问答,知识图谱上可以回答问题,进行推理。
-
统一的schema定义赋予图谱强大而灵活的查询能力,从而可以回答问题。
比如:
-- 刘德华的老婆的生日是什么时候?
-- Francis ford coppola 导演了哪些电影?等等
你要你能拼出query,你就可以获得答案。
-
-
智能助手对话:对词汇标签进行知识填充,结合语言结构的分析,获得语义,需要大量高质量的人工语义识别的标注数据,理解语义,是实现有上下文的对话交互的基础
从知识图谱到人工智能,我们今天介绍了一些背景知识以及他们之间的内在联系,因为篇幅的关系,今天我们先说到这里。
今天只是这个系列的第一篇,接下来我会继续写一下产品路径上的探索。
未完待续...
关于作者
灿辉说搜索
搜索产品经理,极客一枚,聚焦知识图谱、人工智能。请关注微博/微信公众号:@灿辉说搜索 发布和转载请保留上述作者信息并注明出处。