语音识别方案 - 联想语音团队多场景实时语音文字转换方案

【本文转载自联想乐语音论坛】

语音技术一直是人工智能的重要领域之一,其应用也日益广泛。语音技术本身也包括许多细分领域,如远场语音识别、副语言语音属性、说话人日志、声纹识别防欺骗攻击和零资源TTS等。

在去年的国际语音盛会Interspeech系列挑战赛中,联想研究院语音团队参加了远场语音技术评测(VOiCES)、副语言语音属性评测(ComParE)和说话人日志评测(DIHARD II),荣获了一项国际第一、两项国际第二,展示了联想在语音核心技术上的实力。

VOiCES评测是考察远场和复杂场景下的语音技术能力。在远场语音识别任务中,各参赛系统以主办方提供的80个小时干净语音作为训练数据,在带有噪声和混响的统一测试集上进行语音识别,这些技术可增强远场语音识别的鲁棒性。

ComParE评测则是通过分析语音信号的特征,识别或检测各类副语言语音属性,比如情感识别、哭声检测、嗓音病理识别、方言语种识别等,联想研究院参加的是鲸鱼叫声检测项目,提交的系统达到了94.8%的正确率,能够准确判断人声和非人声,显著优于官方提供的86.6%基线和其他单位系统,稳居第一。

而DIHARD任务就是在一段包含多说话人的语音中,识别出谁在什么时间段说话,在诸如会议、电话和多人交谈等场景有重要作用,还可以辅助提升语音识别的性能。

近日,联想未来通信科技(重庆)有限公司发布了融入了联想研究院语音技术的智能语音识别解决方案。该智能语音识别联合系统由联想研究院人工智能实验室语音团队提供技术支持,联想拥有自主知识产权,自主研发。系统支持便携式一体机和分布式云环境两种部署模式。可以为用户提供实时语音/音视频文件转文字,回溯编辑,即时保存音频文件以及文音映射等高级服务,方便文件归档和后期查阅。

多场景实时语音文字转换

该语音识别系统可在多种应用场景下提供稳定、高效的实时语音文字转换能力。

l  演讲:用于个人或企业的公开演讲或内部培训记录等场景,可记录演讲内容、 转写存量音频以及后期校对和整理语音记录。

l  会议:用于企业政府的重要会议、公检法庭审等会议内容记录等场景,能够速 记并输出与会者发言内容或庭审内容。

  个人速记:用于政府官员、企业家口述记录,或作家、编剧、记者等口述写稿等场景,可以速记讲话内容并转写存量音频。

l  访谈:用于律师、咨询顾问、企业面试、课题访谈等访谈记录场景,能够输出访谈内容文稿并转写存量音频。

与业界主流的智能语音识别产品相比,联想智能语音识别系统有着明显的优势。 它支持汉语普通话和中英文混合两种场景,能够按照用户需求定制专业术语库;基于数万小时级别的声学模型和 TB 级别的语言模型建模;在近场识别场景下,语音识别准确率达到 96%;支持识别带有特定口音的语音,并提供端到端的优化能力等。

系统架构

联想智能语音识别系统通过统一的架构流程支持多种应用场景和不同的部署方案。

语音识别方案 - 联想语音团队多场景实时语音文字转换方案_第1张图片

系统架构图

l  语音数据采集:主要用于处理麦克风或语音文件提交的语音数据。该模块采集麦克风输入的 实时语音数据,并将采集到的实时语音数据切分为标准的语音数据包,便于语音处理引擎对 语音数据包进行识别处理。

l  语音格式转换与预处理:主要用于进行语音格式的转换和语音识别的预处理。当收到语音文件后,该模块对语音文件进行转码和分拆处理,得到标准的语音数据包,便于语音处理引擎 对语音数据包进行识别处理。

l  语音处理引擎:主要用于识别语音。当收到标准的语音数据包后,该模块会对语音数据包进 行特征提取、语音解码、字典搜索等操作,然后再输出文字识别结果。

l  文音映射:主要用于处理语音数据和识别文字的映射。该模块会将已识别的文本和采集处理 后的标准语音数据包进行映射连接。通过点击输出文本中的链接,用户可以直接播放语音数据包。

部署方式

目前,该系统支持一体化分布式两种部署方式。

一体化语音识别方案适用于户外、工厂等特殊环境的应用场景。在一体化语音识别方案中,客户端和语音处理引擎都运行在联想迷你台式机。即使在没有网络的情况下,系统也支持语音识别、语音记录和语音转换等功能。在回到有网络访问能力环境后,用户可以把录制的语音文件和保存的文本文件迁移或备份到数据中心。

语音识别方案 - 联想语音团队多场景实时语音文字转换方案_第2张图片

集成一体化部署

分布式语音识别方案适用于大规模、高并发的应用场景。在该方案中,客户端运行在安装了 Windows 7 及以上操作系统的计算机上,负责语音数据的采集和语音文字转换的初步处理。同时,客户端可以将声波转换为脉冲编码调制数据,录制、播放语音文件,保存语音识别文本文件,以及进行语音文件和文本文件的快速映射。

语音处理引擎运行在服务器端,负责将语音转换为文本。在服务器端,系统支持通过语音处理引擎(包括信号处理、声学模型、语音模型、和解码器)将脉冲编码调制语音数据转换成文本。

语音识别方案 - 联想语音团队多场景实时语音文字转换方案_第3张图片

终端与云端分布式部署

支持语音识别和文音映射两大功能,支持实时语音识别

我们的智能语音识别系统支持语音识别文音映射两大功能。

语音识别是将语音转换为文字的过程,如下图所示。

语音识别方案 - 联想语音团队多场景实时语音文字转换方案_第4张图片

语音识别功能支持实时语音转换和语音文件转换两种模式。默认情况下,系统提供实时语音识别模式。在该模式下,客户端在实时输出用户语音识别文本的同时,可以在线编辑输出的文本并添加标点。语音识别结束后,系统可将文本保存为 Word或TXT 格式,语音文件保存为 WAV 格式,方便后期存档及查看。系统支持实时识别长音频流,适用于直播审核等长音频流场景,并可以将庭审、采访等场景的音频信息转换为文本,降低人工记录成本、提升效率。

语音文件识别则是对通过客户端提交的语音文件进行识别,将音视频文件中的语音信息转换为文字信息,方便根据文字内容查到对应的音视频文件。语音文件识别适用于字幕生成、音频资料转写等场景。

文音映射功能则可将实时语音转换生成的文本与同步的录音文件进行便捷的映射,这样方便后期人员进行校对修改。此外,系统也支持根据特定的文本信息快速定位到具体的录音内容,并能够在实时语音识别的过程中,对语音数据进行同步录音。

语音技术日臻成熟,准确率持续提升​

在高德纳(Gartner)技术成熟度曲线上,我们可以看到语音识别已经位于成熟期,商用系统的准确率在部分场景中甚至能够超过专业速记员。不仅如此,语音识别也在我们的生活中随处可见,比如将微信语音转成文字、导航时语音输入目的地或者使用智能音箱语音点歌等等。将语音识别作为用户的输入界面所需成本很低,只需要一个麦克风和网络连接即可。因此,可以预见,语音识别将会被越来越多地部署于那些不便于设计屏幕和按键的设备上。

但是,语音识别的准确率还无法达到100%,总是有可能会在某些设备、某些场景或某些任务上跨不过可用门槛。一方面,语音识别技术在向前发展,新的算法不断涌现,准确率持续提升;另一方面,语音识别引擎的定制优化非常重要,当识别性能不太理想时,必须进行应用级、引擎级或模型级的调校和优化。联想语音识别方案不仅部署方式灵活,而且可以进行深度定制优化,是企业级语音解决方案的可靠选择。

你可能感兴趣的:(语音识别)