进入AI领域做产品 —— 我的自学之路(ASR)

语音和文字处理 —— 语音识别 ASR

概念

        将声音转化为文字的过程,相当于人的耳朵。

        可分为以HMM为主的传统识别以及DNN为主的端到端识别。

流程
  • 输入语音;
  • 编码;
  • 解码;
  • 输出。
主要问题

问题:

  • 远场语音识别是ASR目前的主要问题,也是未来的竞争热点,下面对其关键组成进行归纳。

麦克风阵列 MA:

  • 概念:
    • 麦克风阵列即是由一定数目的声学传感器如麦克风组成,用来对声场的空间特性进行采样并处理的系统。在远场语音识别时,需要前后端结合;
    • 一方面,前端使用麦克风阵列硬件通过声源定位以及自适应波束形成语音增强,在前端完成远场拾取声音,并解决噪声、混响、回声等带来的问题;
    • 另一方面,由于远近场的语音信号在声学上有一定的规律差异,所以在后端的语音识别上,需要结合大数据训练,针对远场的声学模型来提高识别率。
  • 分类:
    • 形状:
    • 线性:180°;
    • 环形:360°;
    • 球形:360°方位角,180°仰角。
    • 麦克风个数:
    • 单麦;
    • 双麦;
    • 多麦;
    • 越多精度越高。
  • 解决的问题:
    • 语音增强-抗噪:当语音信号被各种噪音干扰甚至淹没的时候,从含噪声的语音信号中提取出纯净的语音的过程;
    • 声源定位:使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话的人的跟踪以及后续的语音定向拾取;
    • 去混响:声波在室内传播时会有各种反射形成反射声并和直达声形成叠加造成混响,MA能缓解这个问题;
    • 声源信号提取/分离:
      • 提取,从多个声音信号中提取出目标信号;
      • 分离,将多个混合声音全部提取出来。
  • 应用场景:
    • 户外、商场等各种复杂的环境下,会有很强的噪音、混响、人声干扰、回声;
    • 远场,要求麦克风要有很高的灵敏度来获得有效的音频振幅;
    • 近场环境,要求由不能爆音,即振幅超过最大化精度,家庭环境中墙壁反射形成的混响也对语音质量有不可忽视的影响。
  • 难题:
    • 距离太远时如10-20米,录制信号的信噪比低,算法处理难度大;
    • 对于便携设备而言,受尺寸以及功耗的限制,麦克风数量不能太多,阵列尺寸也不能太大,分布式麦克风阵列技术可以解决;
    • 在噪音很大的环境还有很大的提升空间。

语音激活检测VAD:

  • 概念:
    • 语音激活检测即是判断什么时候有语音,什么时候没有语音;
    • 后续的语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的。
  • 解决的问题:
    • 判断是否有语音,是否要进入工作状态。
  • 应用场景:
    • 在近场场景下,用户可以用手动操作的交互方式来输入语音,信噪比较高且信号清晰,简单算法也可靠;
    • 在远场场景下,用户一般不能手动操作交互,这个时候噪声大,信噪比低,需要依靠VAD来进行判断。

语音唤醒VT:

  • 概念:
    • 语音唤醒,即是判断是否是激活词来进行激活操作,开始后续语音识别,否则不进行识别。
  • 解决的问题:
    • 判断输入的语音是否是用户的,以及他是否要使用产品。
  • 应用场景:
    • 在近场场景下,用户可以手动操作交互来表示要输入;
    • 在远场场景下,用户一般不能手动交互来表示要输入,而是需要依靠检测到的人声来表示输入。
  • 难点:
    • 语音识别ASR不论远近场,都是在云端进行的,但是VT基本上在终端、本地进行的,要求更高。
    • 唤醒响应时间:
      • 少部分产品目前达到1.5秒响应,大部分超过3秒。
    • 功耗:
      • 进行语音唤醒是很占效率的,所以要求更低的功耗,算法和硬件进行配合。
    • 唤醒效果:
      • 漏报;
      • 误报。
    • 唤醒词:
      • 技术上要求,一般最少3个音节。

全双工:

  • 定义:
    • 在传统的语音唤醒方案中,是一次唤醒后交互,完成交互后再进入待唤醒的状态;
    • 但是在实际人与人交流时,人是可以与多人对话并支持被其他人插入和打断的,以下是应对多种状态的方法:
      • 单工:A和B说话,B只能听A说;
      • 半双工:A和B说话,A说完后B说;
      • 全双工:A和B说话,A和B同时说。
  • 包含特征:
    • 人声检测;
    • 智能断句;
    • 拒绝识别;
    • 回声消除。

纠错:

  • 定义:
    • 语音识别出来后因为同音字和词等各种异常情况,导致识别出来的文字是有偏差的,需要进行纠错。
  • 纠错分类:
    • 用户主动纠错;
    • 根据场景/功能领域不同,AI主动纠错;
    • 本地:语音配合本地信息检索;
    • 本地+云端:语音配合本地/网络信息检索;
    • 云端:语音配合网络信息检索。

你可能感兴趣的:(AI)