语音识别长篇研究（四）

承接上文

语音识别长篇研究（三）

八、语音识别的瓶颈

1、鲁棒性：目前的语音识别系统对环境条件的依赖性强, 要求保持测试条件和训练条件一致, 否则系统性能会严重下降。

2、噪声问题：现有的语音识别系统大多只能工作在安静的环境下, 一旦在噪声环境下工作, 讲话人产生情绪或心理上的变化, 导致发音失真、发音速度和音调改变, 即产生Lombard 效应或Loud 效应。常用的抑制噪声的方法, 可以概括为四个方面:谱减法、环

境规整技术、不修正语音信号而是修正识别器模型使之适合噪声、建立噪声模型。

3、语音识别基元的选择：如何根据存贮空间和搜索速度的要求, 选择合适的识别单元, 如词、音节、音素。一般来讲, 要识别的词汇量越多, 所用的基元应越小越好。

4、端点监测：研究表明, 即使在安静的环境下,语音识别系统一半以上的识别错误来自端点监测器。提高端点检测技术的关键在于寻找稳定的语音参数。

5、低信噪比（signal to noise ratio, SNR）和混响（Reverberation）。远场环境要求拾音麦克风的灵敏度高，这样才能在较远的距离下获得有效的音频振幅，同时近场环境下又不能爆音（振幅超过最大量化精度）。这样的环境下，噪音必然会很大，从而使得语音质量变差，即SNR降低。另外作为家庭助手，家庭环境中的墙壁反射形成的混响对语音质量也有不可忽视的影响。为了对语音信号进行增强，提高语音的SNR，远场语音识别通常都会采用麦克风阵列。amazon的echo采用了6+1的设计（环形对称分布6颗，圆心中间有1颗），google home目前采用的是2mic的设计。在算法方面，基于麦克风阵列的波束形成（beamforming）技术已经有很多年的发展，最新的一些论文里有提到使用使用DNN来替代波束形成，实现语音增强。但效果仍然还有很大的提升空间，尤其是背景噪声很大的环境里，如家里开电视、开空调、开电扇，或者是在汽车里面等等。

6、远场语音识别（声学与麦克风阵列）

（1）多通道同步采集硬件研发：

多通道麦克风阵列技术已经被证明可以显著提升语音识别质量。当信号采集通道数足够多时，需要额外研发多通道同步技术。并且，目前消费电子上很少有集成多个麦克风的情况，相关研究成果很少，这也增加了该硬件方案的研发难度。

（2）前端麦克风阵列信号处理算法研发：

远场语音识别主要面临着回声干扰、室内混响、多信号源干扰以及非平稳噪声的干扰等。关于语音增强方面,目前存在着两个主要的技术流派：一派认为利用深度学习的方法可以实现去混响、降噪声的目的。另外一派则采用基于麦克风阵列的传统信号处理方法。从目前的产品上看，麦克风阵列信号处理的方式占主流应用市场。例如：Echo采用7个麦克风，叮咚采用8个麦克风， Google home用了2个麦克风。本文主要阐述传统信号处理方法在远场语音识别中所面临的困境。

1)回声干扰：

针对回声干扰问题，需采取回声消除技术，将设备自身播放的声音从麦克风接收到的信号中除去。该技术在手持移动端上已经非常成熟，比如speex和webrtc的开源软件中都有该算法。但是，这两个方案为了达到更大的回声抑制效果，使用了大量的非线性处理手段。而语音识别引擎对于语音信号的非线性处理非常敏感。因此，如果直接将近场回声消除技术用在远场语音识别领域，效果并不好。

2）房间混响：

房间混响是远场语音识别特有的问题。房间混响会造成麦克风接收到的信号有很长的拖尾，让人听起来感觉发闷。在实际中，人耳具有自动解混响的能力，在实际房间中相互交流并没有影响反而觉得声音饱满。但是这个对于语音识别来说是致命的。之前主要是近场识别，对去混响的需求不大，相关的研究内容不多。目前去混响技术主要以逆滤波方法、倒谱平均、谱减法为主，但这类方法对远场语音识别率提升不大。多步线性预测方法在去混响中表现不错，有兴趣的可以尝试一下。

3）鸡尾酒会问题（多源信号干扰监测）：

鸡尾酒会问题（cocktail-party problem ）是指有多个说话人情况下的语音识别问题，比如鸡尾酒会上很多人讲话。这种情况下人是有可能听清楚你关注的人在说什么的，当然手势、口型、表情以及聊天话题都会提供帮助。这种环境下的语音识别是相当有挑战的。波束形成技术是解决这个问题的一个有效手段。但是当几个说话人距离比较接近的时候，波束形成也无能为力。这个问题其实在很早以前就有相关的研究，叫做语音分离（speech separation）。有一个接近的名词叫做语音分割（speech segmentation），是指语音没有重叠，一个人说完另外一个人说，需要把语音切分成片段，然后每个片段只包含一个说话人，然后把同一个说话人的语音片段聚类到一起就行了。语音分离相对来说更难一些，是指多个说话人同时说话，语音有重叠，这种情况下将每个人的原始语音恢复出来相当有难度。典型的应用场景有多人会议的语音识别，party中的语音识别等。

语音识别系统需要能够同时跟踪多个声源，且对每个声源都能够单独做处理。例如，对于某个目标源来说，其他信号源都是干扰，必须从接收信号中去除。或者将多个信号源同时进行识别输出，盲源分离需求对语音识别系统提出了巨大的挑战。谷歌在Google IO 2018大会上展示了能够同时识别2个人说话的技术，有兴趣的可以去找找相关的技术文献。

（3）非平稳噪声：

在做波束形成之前需要先知道说话人的方向，这就需要对波达方向进行估计。学术界一般研究如何提高测向的精度和分辨率，但这些指标在实际中意义不大，实际中更需要解决如何在混响条件下提高DOA估计的鲁棒性。知道方向之后，就可以做波束形成，抑制周围的非平稳噪声。麦克风阵列增益和麦克风的数目与间距（满足空间采样定理）成正比，但是由于消费产品价格和尺寸的限制，麦克风的个数和间距有限，这个对算法的设计也提出来新挑战。

（4）语音识别引擎：

语音识别引擎对于语音信号的非线性处理非常敏感。相对于残留的背景噪声来说，语音失真程度对语音识别率起着主要的影响。前端信号处理中的非线性算法可以显著提升我们人耳的听觉效果，但是对于识别来说却会带来致命的影响。所以，对于信号处理的每个流程，我们都要结合前端和后端一起来评估信号处理算法的应用价值。而且，目前做前端和后端的人员往往属于不同的团队，所了解的知识大都有局限性，很难出一套前端后端联合设计的方案。

语音识别引擎要和前端匹配。为了提升远场语音识别性能，需要用远场的语音数据训练声学模型。因为前端的信号处理和后端识别是联合使用的，所以，最佳的方法就是利用麦克风阵列采集的信号经过前端信号处理算法处理后的数据去训练语音识别引擎，效果应该会有大幅提升。同时，远场语音数据库不容易采集，如何通过信道传播模型生成包含干扰的信号来扩充数据库也是亟需研究的问题。

（5）方向思路：

A.根据后端语音识别需求，重新评估前端信号处理模块的设计要点；

B.前端和后端进行联合设计，利用后端的神经网络来弥补前端信号处理算法性能不足的问题。尤其是当前端阵列尺寸受到限制，阵列增益有限的情况下；

C.目前的识别流程是先处理，再识别。这种方法的性能上界只能由前端和后端算法的性能的上界决定。然而，算法性能提升总是有限的，所以依靠算法去解决人机交互中的各种问题不是永远有效的。是否可以借助事先确定说话人身份的识别机制（识别+合理的猜测）来提升识别效果。

7、可靠性有待提高

语音智能识别技术必须排除实际应用中各种声学环境对其造成的不良影响。因为在公共场合，人能有意识排除外界噪声来获得自己想要的声音，然而计算机虽已实现智能化，但你不可能指望它在那些嘈杂环境中能够准确捕捉到你的声音，大大限制了该技术的应用范围。所以，若想在嘈杂环境中应用语音智能识别技术，就需要使用特殊抗噪麦克风，但这对于多数用户而言，是不可能实现的；另一方面，日常生活中，人们说话较随意，语言习惯较明显，如带有明显地方口音、经常重复、停顿，或插入，完全不受语法控制等，而这些语音对于经过标准式“朗读语音”存储的设备来讲，是很难识别的。为此，逐步提升语音智能识别技术的可靠性，显得很有必要。

8、词汇量有待丰富

可以说，语音识别系统可识别词汇量的多少，在很大程度上决定了系统可完成事情的程度，若系统所配置声学模型与语音模型限制较多，当用户所引用词汇不在系统存储范围内时，或是突然从英文转中文、俄文、韩文、日文等语言时，系统很可能出现输入混乱情况。为此，今后伴随系统建模方式的逐步革新、各种搜索计算法效率的逐步提升于与硬件资源的日渐发展，语音智能识别系统很可能实现词汇量无限制与多种语言的混合，这样一来，即便用户使用多种语言，系统也是能准确识别出来的

9、成本有待降低，体积有待减小

在保证质量的同时，最大限度降低其成本是实现技术商业化发展的关键所在，且普遍通过规模生产形式来实现。但对于语音智能识别技术而言，要想做到降低其成本，还存在较大困难。因为对于那些功能、性能要求较高的应用，多带有“量身定制”的标记，若想规模生产，条件还不是很成熟；只有在那些对功能、性能要求不是很高的语音识别应用上，才有可能规模生产出部分低成本产品，而这些规模产品在实际应用中又可能受到功能与性能的限制[2]。另外，微型化也将是今后语音智能识别技术实现商业化发展的一个重要手段，而要想实现这一点，同该技术本身发展程度与微电子芯片技术发展程度，均有着密切的关系。为此，把那些有着先进性能与完善功能的语音识别借助系统固化到那些更加微小的模块或芯片上，用以最大限度降低成本，也就成为了今后语音智能识别技术真正实现广泛应用的关键所在。

10、中英文混合

特别在听歌场景，用户说想听某首英文歌时，很容易识别错误的。这方面，只有傅盛的小雅音箱据说做了很多优化，有待用户检验。

九、语音识别的产品分类及场景

1、需求层次

（1）人与人之间的信息同步

转化成文字的语音信息，由于少了时间轴的约束，在同等量级的情况下，人类使用眼睛获取的速度远远快于耳朵。当然，确实也损失掉了一些信息，比如情绪。

（2）检索 & 语义抽取

利用语义建模，对某些业务场景中比较关注的词/语义进行检索，或者将其抽取出来并进行结构化记录。

（3）人机交互

使用更自然的方式与机器/虚拟助理进行交互，实现拟人对话、对设备的操控或者问题答案的获取。

（4）数据挖掘

通过对数据的聚类或者与各维度数据体系打通，可以对个人/人群/特定领域的语义数据进行价值挖掘。

2、关键概念

（1）离线VS在线

在较多的客户认知中，离/在线的区别在于“识别过程是否需要通过云端请求”，即“识别引擎是在云端还是本地”。而云计算中的离/在线产品的引擎都处在云端，区别在于“计算过程中，客户端是否需要与云端进行实时数据交互”，即上述所述的“流式上传-同步获取”和“已录制音频文件上传-异步获取”方式。

两者的定义在人工智能产品领域中有较多冲突，因此并不建议使用“离/在线”概念进行相关产品定义。

（2）语音识别 VS 语义识别

语音识别为感知智能，语义识别为认知智能，前者为后者的前提基础。语音识别将声音转化成文字，语义识别提取文字中的相关信息和相应意图，再通过云端大脑决策，使用执行模块进行相应的问题回复或者反馈动作。

注：一般来说，为了减少不必要的理解干扰，从业者更倾向于说“自然语言处理（NLP）”等概念，极少使用“语义识别”的说法。

1、产品分类

（1）封闭域识别

1）识别范围：

预先指定的字/词集合，即，算法只在开发者预先设定的封闭域识别词的集合内进行语音识别，对范围之外的语音会拒识。因此，可将其声学模型和语言模型进行裁剪，使得识别引擎的运算量变小；并且，可将引擎封到嵌入式芯片或者本地化的SDK中，从而使识别过程完全脱离云端，摆脱对网络的依赖，并且不会影响识别率。

业界厂商提供的引擎部署方式包括云端和本地化（如：芯片，模块和纯软件SDK）。

2）产品形态：流式传输-同步获取

典型的应用场景：不涉及到多轮交互和多种语义说法的场景，比如，对于简单指令交互的智能家居和电视盒子，语音控制指令一般只有“打开窗帘”、“打开中央台”等；或者语音唤醒功能“Alexa”。但是，一旦涉及到程序猿大大们在后台配置识别词集合之外的命令，如“给小编来一块钱打赏呗”，识别系统将拒识这段语音，不会返回相应的文字结果，更不会做相应的回复或者指令动作。

（2）开放域识别：

1）识别范围：

无需预先指定识别词集合，算法将在整个语言大集合范围中进行识别。为适应此类场景，声学模型和语音模型一般都比较大，引擎运算量也较大。将其封装到嵌入式芯片或者本地化的SDK中，耗能较高并且影响识别效果。业界厂商基本上都以云端形式提供，云端包括公有云形式和私有云形式。本地化形式只有带服务器级别计算能力的嵌入式系统，如会议字幕系统。

2）产品形态：按照音频录入和记过获取方式分为3种

1、流式上传-同步获取：

应用/软件会对说话人的语音进行自动录制，并将其连续上传至云端，说话人在说完话的同时能实时地看到返回的文字。

语音云服务厂商的产品接口中，会提供音频录制接口和格式编码算法，供客户端边录制边上传，并与云端建立长连接，同步监听并获取中间（或者最终完整）的识别结果。

对于时长的限制，由语音云服务厂商自定义，一般有<1分钟和<5小时两种，两者有可能会采用不同的模型（时长限制<5小时的模型会采用LSTM长时相关性建模）。

应用场景：

A）主要在输入场景，如输入法、会议/法院庭审时的实时字幕上屏；

B）与麦克风阵列和语义结合的人机交互场景，如具备更自然交互形态的智能音响。比如用户说“转发小编这篇文章”，在无配置的情况下，识别系统也能够识别这段语音，并返回相应的文字结果。

2、已录制音频文件上传-异步获取：

音频时长一般<3/5小时。用户需自行调用软件接口或是硬件平台预先录制好规定格式的音频，并使用语音云服务厂商提供的接口进行音频上传，上传完成之后便可以断掉连接。用户通过轮询语音云服务器或者使用回调接口进行结果获取。

由于长语音的计算量较大，计算时间较长，因此采取异步获取的方式可以避免由于网络问题带来的结果丢失。也因为语音转写系统通常是非实时处理的，这种工程形态也给了识别算法更多的时间进行多遍解码。而长时的语料，也给了算法使用更长时的信息进行长短期记忆网络建模。在同样的输入音频下，此类型产品形态牺牲了一部分实时率，花费了更高的资源消耗，但是却可以得到最高的识别率。在时间允许的使用场景下，“非实时已录制音频转写”无疑是最推荐的产品形态。

应用场景：

A）已经录制完毕的音/视频字幕配置；

B）实时性要求不高的客服语音质检和UGC语音内容审查场景等。

3、已录制音频文件上传-同步获取：

音频时长一般小于<1分钟。用户需自行预先录制好规定格式的音频，并使用语音云服务厂商提供的接口进行音频上传。此时，客户端与云端建立长连接，同步监听并一次性获取完整的识别结果。使用的模型会根据语音云厂商产品策略的不同，而跟随采用上述两/三种模型中的任意一种。

应用场景：

作为前两者的补充，适用于无法用音频录制接口进行实时音频流上传，或者结果获取的实时性要求比较高的场景。

3）产品类型按照说话风格的特点分为两种：

1.语音听写：语音时长较短（<1min），一般情况下均为一句话。训练语料为朗读风格，语速较为平均。一般为人机对话场景，录音质量较好。

按照音频录入和结果获取方式定义产品形态：

(a)流式上传-同步获取，应用/软件会对说话人的语音进行自动录制并将其连续上传至云端，说话人在说完话的同时能实时地看到返回的文字。语音云服务厂商的产品接口中会提供音频录制接口和格式编码算法，供客户端进行边录制边上传，并与云端建立长连接，同步监听并获取识别结果。

(b)已录制音频文件上传-同步获取，用户需自行预先录制好规定格式的音频，并使用语音云服务厂商提供的接口进行音频上传，客户端与云端的连接和结果获取方式与上述音频流类似。

典型应用场景：应用发展已经比较成熟：主要在输入场景，如输入法；与麦克风阵列和语义结合的人机交互场景，如具备更自然交互形态的智能音响，如“叮咚叮咚，转发小编这篇文章。”，在无配置的情况下，识别系统也能够识别这段语音，返回相应的文字结果。

2.语音转写：语音时长一般较长（五小时内），句子较多。训练语料为交谈风格，即说话人说话无组织性比较强，因此语速较不平均，吞字&连字现象较多。录音大多为远场或带噪的。

除了模型不同之外，按照音频录入和结果获取方式定义产品形态：

(a)音频流转写：流式上传-同步获取，与上述语音听写类似，唯一不同的是，识别的时长不会有一句话的限制。

(b)非实时已录制音频转写：已录制音频文件上传-异步获取，用户需自行调用软件接口或者是硬件平台预先录制好规定格式的音频，并使用语音云服务厂商提供的接口进行音频上传，上传完成之后便可以断掉连接。用户通过轮询语音云服务器或者使用回调接口进行结果获取。

4、落地场景分析

（1）智能客服领域

1）智能外呼和呼入

现在，减员增效，用机器人来代替人工。银行信用卡逾期账单催收，欠款催缴，保险、信贷产品电话销售，以及股票、理财产品电话营销等运用范畴，已经都引入智能外呼机器人，已被应用于金融营销、保险、回访、催收等各个环节，不仅为金融机构节省了许多的人力投入，更大幅提升了金融营销成果和不良资产处理效果。

2）智能质检

传统人工质检：以人工听录音进行质检评分

缺点：

01 人工成本高，工作满意度低

　　首先，在新经济环境下，业务增长，人力成本也随之增长。但是对质检员来来说，他们提供的服务都是重复性多，工作成就感低，强度大，加班待遇低等等，这样的工作性质迫使质检岗位流动性高，服务满意度低。

　　再加上质检岗位招聘难、培训成本高，这也让企业抓耳挠腮，进退两难。

02 质检覆盖率较低，精确度较差

　　其次，人工质检由于客观因素限制，一般通过随机抽检的方式，在员工大量的服务工单里，只能对业务服务内容进行快速抽验、复核。而受限于随机抽检的方式，使得质检漏检率较高，不能做到100%全业务覆盖。

03 工作效率低，且受主观影响

　　再者，质检效果更受限于质检人员的自身的主观思维和专业判断，使得不同的质检人员检验、督查的标准难以统一，存在差异化，从而也导致了业务质检结果不够客观准确。

04 质检延时，难及时发现问题

　　然后，人工质检一般是第二天甚至更晚对前一天发生的业务文件进行抽检，这种事后定期抽检的方式使客户业务办理进度慢，无法在事件发生的第一时间定位到问题，更无法对风险进行及时应对。

05 缺乏质检工具，数据汇总难

　　最后，传统的质检方式不仅基于人工抽检来进行，质检结果更依赖于传统的表格工具来实现数据汇总。而表格工具的操作不仅过于繁琐、整理速度慢，且还不易于精准查询，统计分析的效果更为不佳。

嵌入 ASR的智能质检系统：一般是将线上的语音进行ASR的转写，再搭配NLP组合形成的多种智能质检形式。大大的解放了人工的劳力。

优点：

01大幅降本提效：用AI替代庞大的质检团队，大幅度降低金融企业质检人员运营成本，同时有效提交质检效率；

02质检模式丰富：支持实时质检、事中质检、事后质检等多种质检模式，满足企业质检业务多样性要求，提高质检效率；

03质检零延时：支持业务办理同时进行及时质检，第一时间发现问题，检测敏感信息，马上处理；

04质检标准统一：运用AI等先进技术代替人工质检，智能质检由机器完成，标准统一，更符合监管留痕。

3）智能辅助和培训

智能辅助和智能培训市面上的应用场景可能没有上面的两个场景广。

A.智能辅助：

在线人工座席解疑答惑中，在人工座席需要大批量的文字进行回复客户的问题时，在面临不同场景的话术及流程时，客服可能需要提前准备好相应的话术或者背下相关问题的解答方法，因此十分的不方便，也对坐席的个人能力要求甚高，至少随时应变能力和记忆能力提出了较高的门槛。

在上述场景下，应运而生的智能辅助，在实时的语音流识别中，将转写的文字，再利用NLP进行分析理解，进而调取知识库文档库中的答案，呈现给坐席，让坐席根据实际情况进行回答。

B.智能培训：

在银行，运营商等大型的呼叫中心以及拥有大量客服团队的互联网企业（滴滴，58同城，OAT），由于人工坐席的流动量巨大，且不同场景不同行业的话术以及流程都差别巨大的情况下，一个熟练的坐席客服人员的培训，是长期且漫长的老带新路程。

在这种场景下，智能培训整合ASR、TTS、NLP等人工智能技术，模拟客户实时询问来进行培训在线客服人员的综合业务能力。

难点：网络的延时性，语音流转写的快慢，中英文转写的准确，nlp的匹配是否正确等。

趋势：未来智能外呼、智能质检、以及智能辅助和培训等系统将进行整合成一套平台的客服系统，对于客服人员的培训、质检、外呼等综合考评将越来越智能，在不断的优化过程中，企业对于人工坐席的依赖性将逐步的降低。

（2）智能家居

据相关资料显示，语音识别技术发展至今已走过70 多个年头。从最初只能识别几个英文字母的Audry系统，到现在能够进行即兴对话、语音交互的Siri，再到用户打开家门对着空气喊一句“打开空调”、“打开电视”或“打开窗帘”等智能语音识别技术的使用，不知道你是否有和小编一样的体会：智能语音技术已经不知不觉包围了我们的生活。

很多业内人士认为，智能语音技术与家居生活场景、智能硬件的结合会成为未来智能生活的大趋势。

（3）车载助手

作为主要的语音交互场景，也是未来的热门话题之一，现如今已经大行其道，而其中的交互入口正是依赖于语音识别的输入，从而完成人机的交互。

下文精彩继续

语音识别长篇研究（五）

参考文章链接如下：

https://www.jianshu.com/p/8041e1f4fdf3

https://www.jianshu.com/p/a3e2915a3783

https://www.jianshu.com/p/1cfa15eaadfe

https://www.jianshu.com/p/2c99885b9a8f

https://www.jianshu.com/p/60ef7117a612

https://www.zhihu.com/search?type=content&q=%E8%AF%AD%E9%9F%B3%E6%BF%80%E6%B4%BB%E6%A3%80%E6%B5%8B%E7%9A%84%E9%9A%BE%E7%82%B9

https://www.jianshu.com/p/350a4f447a5f

https://www.jianshu.com/p/c088c89a7f09

https://www.jianshu.com/p/45a764b53474

https://www.jianshu.com/p/7c94467f58ff

http://www.woshipm.com/pd/894645.html

https://www.jianshu.com/p/dc8954aebbef

https://www.jianshu.com/p/3edca44c3e53

https://blog.csdn.net/zhinengxuexi/article/details/89355659

https://blog.csdn.net/baidu_31437863/article/details/82807224

https://zhuanlan.zhihu.com/p/43279047

语音识别长篇研究（四）

你可能感兴趣的:(语音识别长篇研究（四）)