【AIOT】语音调研

1. 语音激活检测 (VAD)

  • 近场识别场景: 比如使用语音输入法时,用户可以用手按着语音按键说话,结束之后松开,由于近场情况下信噪比(signal to noise ratio, SNR))比较高,信号清晰;
  • 远场识别场景: 噪声比较大,SNR下降剧烈, 使用 VAD 识别人声;
  • 精确度高的VAD会提取基于能量的特征、频域特征、倒谱特征、谐波特征、长时信息特征等多个特征进行判断[1]。最后我们再根据阈值进行比较,或者使用统计的方法和机器学习的方法,得出是语音信号还是非语音信号的结论。

2. 语音识别与分析

  • 语音唤醒 (VT): 远场识别时,需要在VAD检测到人声之后,进行语音唤醒,例如:Siri
  • 声纹识别与 音频事件检测: 研究文本相关/无关声纹识别、动态密码、近场/远场环境声纹识别、性别年龄画像、大规模声纹检索、语种方言识别、音频指纹检索、音频事件分析等。
  • 情感识别
  • 语音合成:研究高音质、高表现力的语音合成技术及个性化语音合成,说话人转换技术,主要应用于语音交互、信息播报和篇章朗读等场景。
  • 数字水印:一种基于内容的、非密码机制的计算机信息隐藏技术。 本实验室主要研究音频的篡改检测与恢复以及水印信息的检测,在篡改检测与恢复方面,我们初步研究在音频信号的小波域嵌入原始音频的特征信息, 在受到恶意篡改后,通过提取水印信息,利用压缩感知的原理尽可能准确、全面地恢复出原始音频信息。

3. 麦克分阵列

噪音、混响、人声干扰、回声等各种问题;远场环境,要求拾音麦克风的灵敏度高,这样才能在较远的距离下获得有效的音频振幅,同时近场环境下又不能爆音(振幅超过最大量化精度)

  • 语音增强 (Speech Enhancement): 当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。
  • **去混响(Dereverberation):**声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。
  • 声源定位(Source Localization): 使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取
    • 语音分离:多人多方对话语音分离,内容分析理解
  • **声学及信号处理:**研究声学器件、结构和硬件方案设计,基于物理建模和机器学习的声源定位、语音增强和分离技术、以及多模态和分布式信号处理等。

4. 端云一体交互平台

综合应用声学、信号、唤醒、识别、理解、对话、合成等原子能力,构建全链路、跨平台、低成本、高可复制性、端云一体的分布式语音交互平台,帮助第三方具备可扩展定制化的场景能力。

5. 相关实验室

  • 阿里达摩院:https://damo.alibaba.com/labs/speech?lang=zh
  • 中国科学技术大学语音及语言信息处理国家工程实验室: http://nelslip.ustc.edu.cn/;实验室研究方向:统计与多传感器信号处理、图像分析与处理、生物医学信号处理

你可能感兴趣的:(语音识别,人工智能)