标贝科技| AI同传:人工智能的圣杯?


4月8日,博鳌亚洲论坛2018年年会在海南举行。这是今年中国主场外交的开篇之作,论坛上首次启用的AI同传,可以帮助嘉宾进行中文和英、日、韩、法、西班牙多种语言的互译。

AI同传一向被公认为人工智能领域最具挑战性的课题之一,要保证高质量的同传,对语音识别的准确性题出了极高的要求。加之博鳌亚洲论坛作为亚洲最具影响力的政治经济盛会,演讲人数众多,语种多元、话题专业性强、领域广泛,又进一步加大了AI同传的难度。

这次AI同传在博鳌论坛的高调亮相,确实刷了很多翻译界人士和语音产业的从业者的朋友圈的屏。

智能语音技术真有这么厉害了吗?

首先我们来看看,语音智能已经走到哪一地步了。

简单来说,语音交互的关键在于两点,一个是语音识别准确率,另一个则是自然语言处理水平。

语音识别将声音转换成波形文件,对声音进行分帧,再从每一帧中提取包含内容信息的多维向量,这一过程就是声学特征提取。提取特征后再将特征组成音素(单词发音的构成,类似于音标,对应汉语则是声母、韵母)。

而有了音素之后,还需要大量语音数据,对应声纹帧和声学特征利用隐马尔可夫模型、Viterbi算法考虑语音与音素的匹配程度、音素之间转换的概率再加上可以解决多音字问题的语音模型,最终形成一个有足够多节点的网络,识别语音时,只需要找到与声音最匹配的路径就好。

计算能力加强、数据量增大,加上深层学习神经网络将计算机视觉应用于语音波形文件之上,语音识别准确率提高几乎是必然的结果。方言、多音字、语音语速个性化这些问题也正在被一一解决中。

NLP则是一个大话题,和语音交互有关的自然是其中语音处理的部分。从理解到生成反馈,其中涉及到大量有关机器学习的复杂问题,这里就不再赘述。我们只需要知道的是,计算能力、数据量、机器学习三个关键指标的发展,已经极大的提高了语音交互的应用性。

语音交互应用范畴:先让速记下岗

语音交互已经在我们生活中的哪些场景开始应用了?

目前来说,安静环境、发音标准情况下的语音识别已经完全可以实用了,效果并不比输入法自动联想差。嘈杂环境、带口音、不连贯、重复等情况下的语音依然是各研究院和企业长期致力研究的老大难问题。

同时,新词词汇量不够以及中文的无系统性,要想让机器达到或替代人类的识别能力,还为时尚早。

所以在应用范畴上,与其称之为彻底的改变交互,不如说更多的代替人工。最典型的例子就是在很多发布会上看到语音识别速记,其准确率已经和人工齐平甚至超过了人工。

语料库累积不够、识别能力和理解能力有限,在这些大前提下,语音交互应用在有特定场景的服务系统更为广泛。例如客服、人工服务窗口等等,从其业务范畴制定语音交互系统或许可行,如同线上智能客服。

除了单纯的识别文字,语音交互更大的价值在于把声音中更丰富的内容传递给机器。旋律、语种、情绪还有最关键的声纹,这些都是文字中无法体现的。如何挖掘这些信息的价值,才是语音交互的革命性所在。

你可能感兴趣的:(标贝科技| AI同传:人工智能的圣杯?)