讯飞智能语音先锋者:等到人机交互与人类交流一样自然时,真正的智能时代就来了...

讯飞智能语音先锋者:等到人机交互与人类交流一样自然时,真正的智能时代就来了..._第1张图片

作者 | 夕颜

出品 | CSDN(ID:CSDNnews)

「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分。通过对 AI 生态顶级大咖、创业者、行业 KOL 的访谈,反映其对于行业的思考、未来趋势的判断、技术的实践,以及成长的经历。

本文为 「AI 技术生态论」系列访谈的第十六期,解剖科大讯飞语音与计算机视觉互通技术,以及对多模态与人机交互未来趋势预判。 

百万人学 AI 你也有份!今日起点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码“AIP211”,即可免费获得价值299元的大会在线直播门票一张。限量100张,先到先得!

当今,如果把语音技术和计算机视觉技术单拎出来,两者无论是学术研究还是应用,都可以说已经到了相对成熟的阶段,小到手机上各种 App,大到航空航天科研,语音和视觉技术已经渗透到人类生活的方方面面。但如果是把二者结合起来呢?甚至是把文字、语音、视觉、动作、环境等多种形式结合起来,进行更深层次的人机交互呢?这就是所谓的多模态交互,在技术专家的设想中,多模态交互能够充分模拟人与人之间的交互方式,让人与机器之间实现真正意义上的互动更进一步。

 

多模态交互技术与应用的研究现状如何?大家都在做着哪些努力,尝试着打破人与机器之间的隔阂?今天,我们将透过这方面的专家——科大讯飞 AI 研究院执行院长刘聪,与他的技术成长路线一起,一探这些问题的究竟。

硕博连读,被保送至讯飞语音实验室的学霸

从履历上来看,刘聪的个人经历和成长路线非常简单,他从 2001 年考入中国科学技术大学电子信息工程系,2005 年就被保送(硕博连读)至电子信息工程系当时合作的讯飞语音实验室(现为“语音及语言信息处理国家工程实验室”),专业方向是“信号与信息处理”。在这里,他专攻的方向是语音识别。

 

硕博连读期间,刘聪获得了去微软亚洲研究院和加拿大约克大学访问学习各半年的机会。2010 年,海外学子学成归国,并顺利拿到了博士毕业证。

 

其实早在 2007 年,刘聪就已经以实习生的身份加入科大讯飞,除了进行一些单点技术的研究之外,也进行中文语音识别系统的搭建工作。2010年,博士毕业他后正式加入讯飞,并担任语音识别方向的研究主管。

 

那段时间,以深度学习为代表的第三次人工智能浪潮席卷而来,语音识别核心技术和实际系统的效果都有了很大的发展空间。毕业后的几年,刘聪一方面带领团队持续追求语音识别核心技术和功能的业界领先,一方面配合事业部和相关产品部门在各个行业方向努力跨越技术鸿沟,使得语音识别等相关技术在越来越多的场景下达到可用甚至好用,讯飞最早期投入应用的语音产品背后,基本上都有刘聪及其团队的功劳。

 

2014 年,担任科大讯飞研究院副院长,负责整个语音识别大方向的研发工作,同时开始负责图文识别、医学影像、视频分析等计算机视觉方向的孵化和研发工作。

实现语音识别和计算机视觉之间深度学习算法框架迁移,被评“35岁以下科技创新35人”

目前,讯飞 AI 研究院的研究方向诸多,包括语音合成、语音识别、语音评测、图文识别、医学影像、机器翻译、自然语言理解等多个子方向。

 

在这里,刘聪的第一个研究方向,就是将语音与计算机视觉之间的深度学习算法打通。

 

为什么要做这个方向呢?

刘聪说起团队有这个想法的初衷,是从技术应用的角度来看,简单来说,从语音到计算机视觉,深度学习只是将处理的数据从一维的语音数据切换成了二维的图像数据,两者在技术上具备一定的互通性。作为中国首批开展深度神经网络语音识别研究的企业,认为这个方向能够推进深度学习算法在感知智能与认知智能方面的进步;另一方面,作为同属感知智能范畴的语音和计算机视觉,在语音上取得了深度学习算法的成功后,将深度学习算法在计算机视觉上推进也就变成了团队的内在诉求。最后,结合科大讯飞人工智能产品在市场上反响不错,产品也对核心技术提出了更高的要求,除了语音之外,对计算机视觉的需求也在加大,因此打通语音与计算机视觉之间深度学习算法,更好地满足产品的要求,也就变得很自然了。

讯飞智能语音先锋者:等到人机交互与人类交流一样自然时,真正的智能时代就来了..._第2张图片

 

在智能语音处理领域取得一定成绩后,2014 年,刘聪带领团队正式转入计算机视觉领域。从“听”到“看”,虽然机器的感官发生了变化,但凭借在语音识别与深度学习领域的积累,在技术层面为二者搭起了一座桥梁。

 

2015 年,刘聪和团队结合语音特性,对基于计算机视觉领域最常用的卷积神经网络 CNN 结构进行了针对性的重构和优化,提出深度全序列卷积神经网络 DFCNN 框架,教机器学会以“看语谱图”的方式来进行语音识别。

 

讯飞智能语音先锋者:等到人机交互与人类交流一样自然时,真正的智能时代就来了..._第3张图片

 

DFCNN 框架

 

DFCNN 直接将语音转化为一张语谱图像作为输入,以时域和频域分别作为图像的两个维度,然后通过卷积层和池化层的组合,对整句语音输入信号进行建模。该方法突破了传统语音识别只能对语音短时幅度谱进行有效建模的束缚,设计了全序列卷积神经网络结构,实现了对语音长时幅度谱和时域波形的同时建模,有利于提高建模精度。

 

2015 年,刘聪和团队提出了这个将语音识别和计算机视觉之间深度学习算法框架打通的 DFCNN,那这之后,沿袭这一技术路线,讯飞又进行过新的尝试来提高语音识别效率。在技术研发迭代期间,不可避免地会遇到一些困难,踩过一些坑。

 

刘聪说到,以现在的视角来看,语音识别可以分为声学和语言分开建模的传统语音识别和声学语言联合建模的端到端语音识别。在提出 DFCNN 时,语音识别还是以声学语言分开建模为主,DFCNN 就是一种声学模型,主要用来对发音进行建模。

在 DFCNN 之后,端到端建模思路逐渐成为新的研究热点,并有超越传统语音识别框架,成为新一代语音识别系统的趋势。以基于注意力机制的编码器解码器的端到端建模为代表,端到端语音识别框架包含对声学信息进行高层抽象的编码器部分和声学语言联合建模的解码器部分,编码器就相当于传统语音识别中的声学模型,借助于 DFCNN 强大的声学建模能力,刘聪团队研发的基于 DFCNN 的端到端语音识别系统获得了比传统语音识别更好的识别效果,这是 DFCNN 的成功延展。

然而,整个新系统的研发过程并不是一蹴而就。刘聪说,虽然端到端建模思路起源于机器翻译,技术上已有一定的积累,但是具体到语音识别又面临很多新的问题,最典型的莫过于大多数语音识别系统要求的实时识别问题,这是端到端语音识别模型要落地实际产品必须要解决的问题,机器翻译中的端到端模型并不能满足这一点。

 

面临这一问题,刘聪团队设计了一种新的单调递增式的注意力算法,使得模型可以看到局部的语音数据即可进行识别,而不需要等到整句语音都来了才进行识别,从技术上解决了新系统落地实际产品的最后障碍。

 

关于智能语音和计算机视觉,以及将声音、视觉、触觉等人类感官结合起来的多模态信息处理、语音/机器翻译等炙手可热的研究热点,刘聪还与 CSDN 分享了他对这些话题的洞见与看法,下面,我们就来逐一剖析这位资深技术人对未来技术方向的预判。

多模态信息处理与融合将会是大趋势

首先是大家关注的多模态技术。随着语音和计算机视觉技术日渐成熟,但是在一些应用场景很好地落地仍然有一些障碍,比如 AI 同传效果因为环境等因素很难保障和专业翻译人员的成果等效,于是在翻译领域出现了多模态方向的研究,比如在语音识别的同时在 PPT 上使用视觉技术,将声音和画面结合起来,这不仅更符合人类的习惯,同时可以识别准确率,使传达的信息更加准确。

 

这种将声音、视觉、触觉等人类感官结合起来的思路,与刘聪正在进行的语音与计算机视觉之间的互通是一回事吗?

 

刘聪认为,从狭义上来讲,可以说不是一回事,两者出发点有所不同。最早讯飞做计算机视觉与语音识别之间的互通,是深度学习算法应用场景的自然延展与推进,类似的技术从语音识别的成功转入到在视觉领域进行尝试。

 

而多模态研究的兴起,更多地是因为很多实际问题只用以往的纯语音或者纯视觉的方法很难很好地解决问题,只有更接近人处理问题的方式,给到更多的输入信息才能把问题解决。这是两者出发点上的一些区别,因此可以说两者不是一回事。

 

但从广义上来讲,又可以说这两者就是一件事,正是因为有很多实际问题只靠单一的语音或者视觉无法解决,产品需求对技术提出了更高的要求,因此促使研究人员必须改进核心技术,多模态研究就是一个很好的技术演进方向,从这个角度来看,两者又可以说是同一回事。

        

谈到多模态技术的发展,刘聪认为,以往无论是学术界还是产业界,都更多的把研究重点聚焦在单个模态的研究上,近些年随着机器感知的软硬件技术、通信技术以及运算能力等技术的发展,单个模态的研究在一些场景的局限性也逐渐凸显出来,比如语音识别领域著名的“鸡尾酒会问题”,在这些场景种多模态技术相比单模态技术优势更为明显,这也更符合我们人类的感知特性,因此,他判断多模态信息的处理以及融合将会是大的趋势。

讯飞智能语音先锋者:等到人机交互与人类交流一样自然时,真正的智能时代就来了..._第4张图片

这也是讯飞目前在做的,基于多模态识别技术使得高噪、多人、远场等复杂场景下的语音识别问题有了更好的解决方案,基于多模态合成技术的虚拟形象目前已在生成在媒体、客服等领域广泛应用,人机交互拥有了更好的体验。以往各领域(语音、视觉、自然语言)的研究在一些技术和方法论上具有通用性,在开始一个新领域的研究时,这些技术和方法论的积累能够为快速迁移提供很大的帮助,而多模态研究本身更关注不同模态信息之间的融合。

 

此外,刘聪还认为,多模态技术的发展将会围绕应用层、核心算法层以及硬件层三个层面展开,在应用层的研究相对较多,也取得了很多不错的成果,而核心算法层以及硬件层的探索目前相对做的还不够,都是值得未来深入研究的方向,比如不同模态信息直接如何更有效的互补,如何更深层次的融合,不同的任务需要哪些模态的信息,以及不同模态的感知信息如何更好的和认知相结合。

基于视觉呈现的语音交互是未来方向

如上文所说,多模态研究将会是未来研究的重点,多模态交互也自然将成为未来人机交互实现突破的关键点。

 

目前来说,基于视觉呈现的语音交互是大家研究的重要方向之一,刘聪也认为这是一个值得深入的研究点,

 

他认为,在有大屏的情况下,机器展现的内容通过屏幕(视觉),输入以语音交互为主。但这并不是说“基于视觉呈现的语音交互”会完全取代“基于视觉呈现的触摸交互”,但它会分流一大部分热度。想象一下,当我们坐在一个大屏前,用“基于视觉呈现的语音交互”所得到的东西跟在手机上拿手指点的体验是不一样的。讯飞目前已经推动了智能语音技术在各种场景中的深入应用,面向智能家居、智能家电、智能玩具等领域提供远场识别、高自然度个性化语音合成、AIUI 等人机交互解决方案和服务。

机器翻译若想进步,还需要在这几方面继续探索

在智能语音领域,大家对于语音/机器翻译的兴趣只增不减。刘聪认为,随着深度学习技术的不断演进和大数据的不断积累,语音和机器翻译等技术在很多场景上已经达到好用的水平,但是事物的发展总是当我们解决一个问题的时候,总会有一个新的问题等待我们去解决。以语音识别为例,得益于深度学习和大数据,在安静场景下,讯飞语音输入法可以达到 98% 识别率的水平,但是在高噪场景恶劣环境下效果要差很多。比如,在号称“史上最难语音识别任务”国际语音识别大赛 CHiME5 中,即便是作为冠军系统的科大讯飞在包含多人语音混杂、远场混响和噪声的恶劣语音环境下也只能达到 54% 的识别率,与安静唤醒的 98% 相差甚远。

讯飞从最早把用户配合的语音输入法的听写识别做到好用,到现在逐渐把更难的远场会议场景的转写识别做到好用,技术总是在不停地进步,难题也在不断地被攻克。

 

“也许有一天,当我们把 CHiME 比赛场景也能做到好用的时候,真正的人工智能就快到来了,”刘聪还是比较乐观的。

 

对于让人又爱又恨的机器翻译,刘聪有着自己的思考与观点。

 

他总结,机器翻译技术的发展经历了最早期基于规则的方法,到上世纪 90 年代初的统计机器翻译,再到目前最新的神经机器翻译技术,机器翻译在口语、通用等场景的性能已经媲美人类译员的翻译效果。但是机器翻译若要取得更大进步,还需要在以下几个方面进行持续性的探索:

 

  1. 多语种翻译,目前全球现存语言超过5000种,绝大多数的语言没有或仅有极少量平行语料,因此需要研究在数据量很少的情况下提供可用的多语种机器翻译能力。

  2. 机器同传,这其中需要解决语音翻译中说话人口语化表达、口音方言等引起的语音识别错误等问题,同时在会议、演讲等场景,还需要考虑到翻译的时延和效果平衡问题,避免延时过大影响用户的实际主观体验。

  3. 行业翻译,针对不同的行业提供更加专业、准确的翻译将是未来机器翻译发展的另一个关键技术。

  4. 端到端语音翻译技术,与传统语音翻译采用语音识别系统和机器翻译系统级联的方式不同,端到端语音翻译使用一个模型对语音到文本进行直接建模。当前端到端语音翻译由于数据量较少等原因,与传统语音翻译方案还有一定的差距,但其代表着更前沿的探索,代表着语音翻译未来的新思路和新方向,也是目前我们研究的重点。

 

总的来说,机器翻译应用市场规模在逐年稳步增长,机器翻译技术越来越成熟,应用场景也越来越丰富。机器翻译同语音识别、图像识别等结合产生的语音翻译、拍照翻译等应用将不断激活整个产业的活力,相信在未来还会产生更多更有影响力的机器翻译应用和服务。

放飞想象,未来人机交互方式还有哪些可能性?

长久以来,有无数人都在苦苦探寻人与机器之间互动交流的奥秘,科技日新月异发展至今,我们有了巨大的进步,但是了解得越深,越明白我们离这个目标相差得还很远。

 

未来,除了基于视觉呈现的语音交互方式之外,还会有哪些可能的交互方式?人机交互领域的技术生态会发生怎样的改变?

 

刘聪认为,人机交互方式将会越来越多样化以及多种不同方式的组合,在呈现上会越来越丰富以及个性化。除了传统的视觉呈现方式,还可以有基于更富有感情和个人特色的语音合成技术的语音呈现方式,以及更自然的虚拟形象的拟人化视觉呈现。

 

虚拟形象的表达方式也可以从口唇的表达到结合表情和身体姿态的情绪表达,这样在交互上也更自然化人性化。

 

“长期来看,基于语音、视觉以及触摸多种模态信息的组合是趋势,不仅需要理解说的内容,还需要进行用户的情绪识别以及基于视觉的围绕人的行为分析理解,包括表情情绪、手势、体感等,让机器与人类之间的交互像人类互相交流一样,”也许如刘聪所想,等到人机交互像人类互相交流一样自然的时候,真正的智能时代就真的来了。

今日福利

遇见陆奇

同样作为“百万人学 AI”的重要组成部分,2020 AIProCon 开发者万人大会将于 7 月 3 日至 4 日通过线上直播形式,让开发者们一站式学习了解当下 AI 的前沿技术研究、核心技术与应用以及企业案例的实践经验,同时还可以在线参加精彩多样的开发者沙龙与编程项目。参与前瞻系列活动、在线直播互动,不仅可以与上万名开发者们一起交流,还有机会赢取直播专属好礼,与技术大咖连麦。

门票限量大放送!今日起点击阅读原文报名「2020 AI开发者万人大会」,使用优惠码“AIP211”,即可免费获得价值299元的大会在线直播门票一张。限量100张,先到先得!快来动动手指,免费获取入会资格吧!

点击阅读原文,直达大会官网。

  • 你点的每个“在看”,我都认真当成了AI

你可能感兴趣的:(讯飞智能语音先锋者:等到人机交互与人类交流一样自然时,真正的智能时代就来了...)