近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术走进了工业、家电、通信、汽车电子、消费电子产品等各个领域。语音识别作为人工智能发展最早、且率先商业化的技术,近几年来随着深度学习技术的突破,识别准确率大幅提升,带动了一波产业热潮。对语音识别未来发展,各位大咖也有一些精彩论点。
科大讯飞研究院副院长——王士进
王士进表示,语音识别是人机交互里很重要的模块,从PC时代到现在的移动互联时代,人机交互由鼠标键盘走向智能手机、Pad等的多点触摸。到了智能硬件时代,交互则更加多元,不仅有触摸,还有基于语音、视觉的交互。原本是以机器为中心的人机交互,逐渐走向以人为中心的自然交互。
他认为,在将来万物互联的浪潮下,以语音为主,键盘、触摸、视觉、手势为辅的交互时代很快会到来。
提到传统的语音交互,王士进列举了几个缺点:第一,交互距离要近;第二,发音必须标准;第三,环境必须安静;第四,人机不能持续对话。
科大讯飞在2015年提出AIUI,旨在解决上述问题同时期望在人工智能时代提供一种智能的人机交互界面。AIUI提供远场唤醒和识别降噪方案,兼容全国近17种方言,可以进行全双工交互和基于业务场景的多轮对话,同时结合讯飞超脑的认知智能使得机器进行更智能的交互。
AIUI实现了软硬一体化、云端一体化、技术服务一体化,通过三个一体化提供人机智能交互整体解决方案,使得用户可以快速切换到新的业务场景。
在提到基于AIUI交互技术的一些商业化尝试时,王士进列举了几种:
在交流方面,科大讯飞在05年推出了听见智能会议这款产品。一般来说,会议场景的同传准确率为80%左右,而智能会议转写准确率则能达到90%以上,之后,其在医疗和司法系统进行了应用。另外,科大讯飞还推出了便携翻译机,易于随身携带,方便远程实时交流。
在电视方面,最早的电视是用数字加上下左右按键控制仅有的十几个台,而现在的智能电视后台对接海量资源,通过讯飞智能电视助手可以进行方便的语音交互,节省时间。
在汽车方面,由于人在驾驶时候手不能离开方向盘,故把语音引入代替手进行交互会方便许多。实际上相比其他应用场景,语音识别由于汽车场景的噪音更强,面临更大挑战,而科大讯飞也在基于车载的语音识别做了许多优化,更在宝马、奔驰、通用举行的全球车载语音识别比赛取得第一名,有效的支撑了车载场景的交互。
在机器人方面,机器人与人的语音交互满足自然交互、个性化服务以及基于业务场景的整合服务,可以方便的任意打断,在理解用户的需求下进行精准的内容推荐和服务。
语音识别和自然语言理解都是基于统计和概率体系,所以商业化过程建议选择人受到一定限制(如车载)或者很难做百分之百正确(如会议同传)的场景,然后随着技术的进一步成熟,可以进入到更多的场景。
最后,王士进总结道,“语音识别和人机交互技术在进行技术优化的同时更要结合应用场景,最终可使得技术完善,产业更好的发展。”
百度语音技术部声学技术负责人——李先刚
提到这些年对手机百度语音搜索的不断优化过程,李先刚认为要做好这样一个产品,先要收集相关数据,然后将语音识别应用推广到相关产品线上供用户使用,用户使用后反馈回来数据形成完整链条,最终达到非常完美的状态。
他把输入法在语音识别中的作用表述为:输入法这一场景对语音识别性能提升有非常大的帮助。
而今年,百度在语音技术方面的进展包括基于GramCTC的端对端语音识别系统以及端对端说话人识别技术。
基于CTC的端对端语音识别系统是目前主流的工业系统,在2015年底,百度实现了CTC端对端语音识别系统的上线。而今年,百度进一步提出了GramCTC算法。
主流的说话人识别技术使用经典的DNN-IVECTOR技术,其框架基于统计模型,并将DNN引入此框架去学习。
可以看到的是,语音识别已走向大数据和端对端的道路,百度也将把说话人识别技术向此发展,进一步提升相关性能。
李先刚表示,人脸识别与说话人识别有技术共性,二者之间的差异仅仅只是人脸识别对象可以是固定尺寸的图片,而语音的时长会有很多变化。因此,百度说话人识别技术借鉴了目前人脸识别最好的方法——度量学习,搭建了端对端度量学习的说话人识别系统。百度内部的实验显示,基于端对端的说话人技术显著提升了说话人识别的性能。
从商业化的角度分析语音识别,可将其应用分为两个维度,第一个是近场和远场,第二个是人配合机器说话和人对人说话的不同说话风格。经过这样划分会发现很多语音场景其实是处在不同的语音象限里面,目前业界所做的近场人对机器说话的识别准确率可达90%以上,但另外几个场景所做不尽人意。
在李先刚看来,随着语音技术的推进,辅之商业化情景必将推动产品和技术的发展。
搜狗语音交互技术中心研发总监——陈伟
从2012年到现在,随着数据和算法的提升,搜狗的语音识别的识别错误率是逐年下降的。陈伟分享了一组数据:到目前为止,搜狗输入法每天的语音识别请求量高达2亿次,每天产生语料达到18万小时。
陈伟表示,搜狗在2016年发布知音引擎,对外输出完整的语音交互解决方案,也一直在探索语音识别和交互的不同场景和经验。语音识别可以更好提升输入、记录、交流的效率,其可分为听写和转写,听写更多要求实时性,转写则面向客服数据,不要求实时。另外,语音识别技术面向不同客户,除了直接提供给消费者,还有一些公司、企业如法院、医院等,语音识别的应用场合则更多是在演讲、直播、语音分析中。
语音识别不是一个单独的技术,其需要同其他技术进行融合,比如机器同传、语音交互,未来的产品将会是技术与技术的组合,产品与产品的组合。
对如何做出一款好的语音交互产品,陈伟认为首先是要重视场景和知识。只有技术(ASR、NLU等)与具体应用场景比如车载、智能家具、可穿设备结合在一起,才能得到稳定的产品。另外,仅仅有技术是不够的,还需要技术创新。在得到良好的使用体验之后用户基数会扩大,带来更多数据,这些累积的数据也是推动技术提升的关键。只有有了产品的迭代、有了真实的数据才能更好的分析出用户需求,更好的推动产品发展。
他表示,技术与产品缺一不可。
“语音交互以技术为驱动,加之好的运算力带来大量数据,以此进行迭代,不断通过技术和产品的耦合得到更好的产品。”
思必驰CMO——龙梦竹
“目前的语音产品识别率再高,也只是作为一个参考。”
龙梦竹提到,在识别率的数字背后,诸如降噪、远场、回声消除及声源定位等也需要关注。
那这几个词在整个语音技术里面有什么作用呢?
其可以影响识别率和准确性以及是判断语音交互产品是否实用的重要方向。
目前,各个公司做的都是端到端的,非配合的私人交互系统,在这整个系统里基本分为三个层面:从感知、到认知、到抽象思维的智能。
首先从感知的方向,要保障机器能够听得清,在克服环境、降噪的方面有很大挑战的。以思必驰为例,其依靠强大的数据库,已经把错词率降低到了7.19%,比业界普遍的10%有了非常大的效率提升。
另外,听清以后需要让机器快速反应。常常会有客户好奇“你们的产品是本地还是云端?”实际上,现在业界包括思必驰所做的都是本地+云端,一些简单的唤醒词、指令可能会放在本地。思必驰目前的本地识别指令最高支持三千条,当然,最高支持数目和产品的硬件配置、系统是相关的。而更多的需要交流的,需要机器思考的部分放到云端。
最后,机器能够听清并且能够快速反应了,反应出来的效果如何?这个效果用专业术语可以称为TTS,TTS的优劣很大程度会决定产品体验的优劣。许多人理解的TTS可能是明星的合成音,而这些合成音不能适用于所有场景。
目前业界提出的97%、98%、99%的识别率这只是单独针对语音识别而言,在不同的领域、场景下,针对不同业务方向的语音识别和语意理解其实是有层次不齐的,这个图显示了在家庭和车载环境下不同的准确率。
龙梦竹谈到,无论在哪个领域做语音交互技术,都必须要满足几个要求:
第一要满足用户刚需;
第二不一定是高频使用,但在某一场景能让用户形成依赖性;
第三,语音技术背后一定要有第三方的内容和服务作支持,因为它只是一种交互手段;
“我们一再强调的是,语音只是一个交互的手段,而不是一种功能。”现在的语音还没有达到全国人民普及的程度,但未来一定会实现。而这一手段,其背后第三方的内容和服务是比语音本身更重要的东西。
最后,交互体验一定要好。