【语音基础】语音相关的基础

文章目录

  • 端到端模型与传统模型的区别
    • 传统模型(非端到端模型)
    • 端到端模型
  • 如何理解强制对齐?
  • 麦克风的类型有哪些?
  • 语音识别框架和模型
  • 语音采样率
  • 语音识别资料

端到端模型与传统模型的区别

传统模型(非端到端模型)

传统模型通常由不同的组件组成,例如文本处理模块、声学模型、声码器等等。 一方面不同的组件之间相互组装设计比较费力。 另一方面由于组件之间单独训练,可能会到导致每个组成部分之间的错误会叠加,从而不断放大误差。 例如统计参数语音合成(TTS)中通常有提取各种语言特征的文本前端、持续时间模型、声学特征预测模型等等。 这些组件基于广泛的领域专业知识,并且设计起来很费力。它们也是独立训练的,所以每个组成部分的错误可能会叠加。 现代TTS设计的复杂性导致在构建新系统时需要大量的工程工作。

端到端模型

端到端模型首先减轻了费力的组装设计,利用一个神经网络代替了传统模型中复杂的建模过程, 其次更容易对各种(例如音色或者语种)属性或者高级特征(例如语音中的情感)进行特征的捕获与提取。 单个模型相比于每个组件错误累加来说更加健壮,能有效减少错误的积累。

如何理解强制对齐?

强制对齐(Forced Alignment),是指给定音频和文本,确定每个单词(音素)的起止位置的过程,一般使用Viterbi解码实现。 强制对齐是语音识别的一种特殊的、简化了的情况,由于它的简单性,强制对齐通常具有较高的准确率(音素级别准确率可达90%,单词级别可达95%以上)。 使用强制对齐,我们就可以对我们收集到的标准发音的数据进行处理:根据音频和它对应的文本进行强制对齐,得到每个音标对应的片段; 对各个音标收集到的样本抽取特征并进行训练。通过对大量数据进行强制对齐,我们对每个音标得到一个模型,该模型将用于后续的打分流程。

麦克风的类型有哪些?

麦克风一般有动圈式、电容式、驻极体和最近新兴的硅微传声器,此外还有液体传声器和激光传声器。按照不同分类方式的麦克风类型如下:

  • 按声电转换原理:电动式(动圈式、铝带式),电容式(直流极化式)、压电式(晶体式、陶瓷式)、以及电磁式、碳粒式、半导体式等。

  • 按声场作用力:压强式、压差式、组合式、线列式等。

  • 按电信号的传输方式:有线、无线。

  • 按用途:测量话筒、人声话筒、乐器话筒、录音话筒等。

  • 按指向性:心型、锐心型、超心型、双向(8字型)、无指向(全向型)。

语音识别框架和模型

自监督语音特征提取:

  • wav2vec wav2vec2 hubert

语音识别:

  • wenet whisper paraformer

语音采样率

采样率 数值
8k 8000
11k 11025
16k 16000
22k 22050
32k 32000
44k 44100
48k 48000

语音识别资料

厦门大学课件:https://speech.xmu.edu.cn/2020/0630/c18207a406063/page.htm

你可能感兴趣的:(音频,语音识别)