内容来源 : 2019年12月21日,在极客公园创新大会上,搜狗公司CEO王小川进行了以“语言AI的未来构想”为主题的精彩分享。 笔记侠作为合作方,经主办方和讲者审阅授权发布。
笔记达人 | 朱宝
封面设计 & 责编 | 子墨 第4487篇深度好文:3841 字 | 7 分钟阅读
活动笔记人工智能
本文优质度:★★★★★ 口感:六个核桃
笔记君邀您阅读前,先思考:
AI时代智能硬件的趋势是什么?
语言AI为什么极其重要?
大家早上好!我们一直在做的事情,是让表达与获取信息变得更简单,而表达和获取这两件事都起源于语言,代表着语言的输入与输出。所以,我今天的分享,将沿着语言的输入与输出这两条正在无限延伸的线展开。
一、AI驱动硬件,颠覆用户体验
1.AI录音笔
虽然说录音笔是个小众市场,但有了人工智能的加持,录音笔变成了电商爆款。
我们今年出品了一款人工智能的加持的AI录音笔,它在双十一多个主流电商平台上取得了单品销量第一的成绩,同时复购率还很高。
相对传统录音笔来说,我们的AI录音笔不仅有双麦克风阵列,同时还有AI降噪、实时转写文字、云端存储和搜索、智能编辑、同声传译等功能。
这款产品上线后,整个市场都改变了,索尼、爱国者、纽曼都加入进来,成立了一个联盟,而搜狗成了盟主。
根据我们的调查,我们的AI录音笔上线之前,整个录音笔市场销量是逐年下滑的,市场保有量只有400万支。
从3月份我们上线第一代产品开始,主流电商平台的录音笔搜索量开始上升,到12月份我们发布了第二代产品,开始一点点变硬,就像之前手机从功能机走向智能机一样。而且,加上AI能力的注入,带来的注定是颠覆式的体验。
2.AI时代个人硬件的趋势
有了AI的注入,C端消费品也发生了变化,这个变化主要有两大趋势。
① 变得更加便携
以前放在桌上的PC机很大,随后智能硬件开始走向笔记本、iPad、手机,甚至开始走向可穿戴,因此未来个人硬件的趋势是越来越移动化、便携化。
② 拥有更强的IO能力
从以前的计算能力走向传感器能力,并且基于AI的处理能力,将从人去适应机器,变成机器适应人,最终机器接管人的感官,成为人的助理。
AI对硬件会产生什么影响呢?对于未来10年路径,我的畅想是智能硬件从手机走向手表、耳机,到未来走向眼镜,这可能会逐渐改变我们以手机为中心的使用方式,比如眼镜和耳机会取代手机作为我们接触外界信息的通道。
硬件背后,是人去感知这个世界。
除了有图像和声音之外,很重要的就是语言,它是我们与世界交互的一种抽象方式。而且,只有人类能够处理语言。
亚里士多德曾讲到,“语言是心灵印象的符号,是人类思维的工具,是知识的载体。有了语言,人类社会才能沟通交流。不管是我们生产的语言,还是计算机处理的语言,语言都是最难的一件事情,是人工智能皇冠上的明珠。”
图灵测试中提到,机器能够用语言与人交流,就代表它拥有智能。
今天我们的人工智能还不具有创造力和通用的推理能力,但是可以做这样一个猜想:
只有当机器掌握了语言之后,它才能够完整地拥有创造力和推理能力。
不会讲话的机器,你会认为它智能吗?当然不会。因此,语言在智能当中极其重要,这也是人与动物的重大区别。
二、语言AI的发展趋势
我们会看到,以语言为核心变成了人工智能发展路径的关键节点。我们做输入法、做搜索,其实都是在处理语言,都是为了帮大家更好地表达、更好地获取信息。
1.语言的自然交互和认知问题
关于语言,我有两部分内容要分享给大家:
第一,自然交互。
自然交互让人跟机器之间能够用语音、图像、手势等各种方式产生交流,其中用到了语音、图像技术,也包括视觉技术。
第二,认知问题,我们叫做知识计算。
基于语言,机器能够进行问答和对话,机器翻译是认知技术入门的门槛。有了更好的感知技术,机器会从手机走向新的智能硬件;有了更好的认知技术,机器对知识会产生理解和推理,尤其是在垂直领域拥有问答的能力。
智能硬件新的硬件形式与新的对话和问答能力,未来会走向智能助理,这也是整个AI行业在产品层面上最明珠的地方。
苹果大概在2006年就开始推出智能助理,到今天Google、百度、阿里、小米做这样的音箱产品,核心都是在做智能助理。但是从外壳上来说,我认为并不是最好的方向。
布局时,语音、图像都有大量的技术要去做,包括语音识别、语音合成、语音变声,包括搜索独有的辨别能力。
其中,语音识别是自然交互中最自然的事情。搜狗输入法,今天我们做到了每天超过8亿次的使用量,而且这个数字上升很快。春节期间,可能就会超过9-10亿次的日请求量。我们也积累了大量的数据,包括了语种、方言等各种能力。
在知识计算之后,我们强调一个核心观点,就是机器做阅读理解之后做问答,传统的搜索是通过关键词给你10条链接,随着技术的进步,我们整个处理能力会从词变成句子、段落、篇章,用户的表达也可能会转换成句子,机器的阅读理解也会走向篇章和整个文章体系,这是技术进步带来的机会。
2.语音识别
语言识别听着好像是一件很简单的事情,但其实并不是纯粹的单点技术,在识别过程当中,对于语音、语义的理解还有一些点需要攻克。
首先 ,人声分离,如果是两个人在对话,机器要能识别不同的人,能动态地去判断是第一个人还是第二个人。
在这个识别背后,还会有更复杂的技术需要我们解决。比如我们做录音笔时会考虑很多问题,其中一个就是如何让机器在嘈杂的环境里听清人的声音,帮助后面进行识别,这也是我们最前沿的技术。
传统的硬件是用麦克风矩阵实现的,用多个麦克风进行中间的数字计算、信号处理。今天依靠人工智能,我们有了新的方法,我们的工程师在现实场景中对4万种噪音进行了学习,使得机器有能力分辨噪音。
原始的机器识别、处理是不够的。为了让录音笔与声音的交互更好,我们有了新的算法,降噪技术在实验中已经完成了,未来的新款录音笔会给大家带来极致的AI体验。
从语音识别里面,除了语音识别外,我们往前做了很多前沿的事情,比如语音的合成,它可以惟妙惟肖地用人的音色进行表达。
3.语音合成
做技术的人都知道,以今天的AI能力,机器不会有非常精准的认知理解,大家听到的可能还是转述师那种毫无情感的声音,为了让合成的声音更加具有感情、更加像本人真实声音,我们使用了一种新技术:声音皮肤。在技术上,我们称之为特征的提取能力。
比如,大家在得到听梁宁的课程,其实就是让另外一个人读一篇文章,再把声音皮肤附到这个声音里面来,使得合成的声音可以表达他的情感,经过合成之后,最后由梁宁来呈现。
这种做法能改善整个音频节目的生产环节,表演者和生产者做到一定的分离,避免因为人员离职、生病等带来的各种不确定因素。
这种情况下,使得我们每个人在互联网上不仅可以换成其它形象,也可以换成自己想要的任何一个声音形象。
在生活中也有实际用处,年底马上要开年会了,如果你要表演唱歌,但是五音不全怎么办呢?可以把你的声音特征做一次提取,然后放到《蓝精灵》歌里,会比你自己唱得好听。
这样一些技术,使得在交互中间能够做到人机结合,使得制作能力能够放大。
4.从语音变声到视频合成
当然,除了声音的识别、合成、迁移以外,我们也做了一些更前沿的工作,即从语音走向了视觉,从语音变声走向视频合成。这就不得不提搜狗的分身,这是我们产品上一个重大的进展。
搜狗分身发展到现在经历了多次技术迭代,从最早给新华社做主持人,到给央视做主持人,再到第二代能够让它更丰富地表达;
这样的技术是机器在取代人上面的一次重大应用。所以,这里面我们可以看到,以语言为核心,背后配上语音、人的表情、肢体、唇语,是能够使得人机交互实现更自然的状态的。
在未来,也许不到10年时间,我们将会构建这样一条路径:自然交互会从文字走向语音、图像理解,大家看到的录音笔、同传、合成主播等,其实是在语音图像的交互能力里面做增强,背后还是语言。
另外一条道路就是认知能力不断提升,使得从搜索走向、辅助医疗、辅助问答以及合并语音图像技术,最终走向行业终极的理想,就是每个人都拥有一个个人助理。
在一些垂直领域当中,能够帮你去做秘书的工作,或者是成为你的分身,跟世界进行沟通。
我们也会持续布局语言AI下的产品,为大家呈现颠覆体验的个人助理,用机器帮助每一个人,让表达、获取信息更加简单。谢谢!
*文章为作者独立观点,不代表笔记侠立场。