时域编码
当前大多数的语音编码方案是基于时域预测编码。尤其是 CELP 编码框架
频域编码
当前大多数的音频编码方案是基于频域编码的。通过利用非平衡的能量分布在频域获得有效的和自适应的量化噪声控制。这种非平衡性与音频信号的特性有关,像相邻的采样点之间有很强的相关性。编码过程中,最大程度的比特减少也是来自于相关性。在此之上,我们同时在频域利用人类感知特性,例如,掩蔽效应能极大的增强感知音频质量。对于变换, MDCT (修正离散余弦变换)非常重要,它能有效的获得信号的频域表示,同时没有引入帧边界的失真。
ITU-T 的语音编码标准:
ITU-T 在制定语音通信标准方面有很长的历史。到 2000 年,大部分的努力都用在比特率的减少上,大多数的标准直接或通过轻微的修改后用于移动应用中,当比特率的减少到达极限后,其更多的努力是用在扩展功能的带宽上,以及与旧系统的兼容性的可扩展上。
G.711-narrowband telephone bandwidth(8-kHz sampling) speech. 广泛的用于双向有线和无线通信,最老的但仍应用最广的标准。
Wideband or Scalable Speech Coding
在窄带语音编码的基础上,大量的标准编码方案用于语音和音频信号的编码,同时有更宽的频带。 G.722 设计用于宽带语音( 16-kHz sample )比特率为 64kbps 。后来, G.722.1 和 G.722.2 定义为更低的比特率。尽管 G.722.2 是基于时域 CELP ,另外基于变换编码。 G.722.1 Annex C 是一个扩展,覆盖超宽带信号( 32-kHz sample )。
G.719 设计用于全频带信号( 48-kHz sample )。
ISO/IEC MPEG 音频编码标准
自从 1988 年, ISO/IEC MPEG 开始致力于音频和视频编码方案的标准的指定,产生了非常重要的音频压缩编码方案,像 MPEG layer II , MPEG Layer-III (MP3) 和 MPEG AAC (Advanced Audio Coding). 在 MPEG-4 标准中,一些新的技术用来扩展和增强编码方案像 AAC 。并行的,在 MPEG 中,三种类型的无损编码标准已经标准化, USAC 是最新的和最活跃的标准化工程,我们注意到语音和音频引用正在融合,因此,这些标准方案被联合起来。
AAC 扩展家族技术 :
Ø SBR 技术
SBR (频带复制技术)通过信号的低频部分和子带域的一些参数来提供高频带信号的有效表示。这种技术可以结合 AAC 使用来提高编码效率, 也用在 HE-AAC 配置中,用于低比特率音频编码。 HE-AAC 的典型应用是移动广播和音乐下载服务。
Ø MPEG surround
是一种有效的多通道(例如, 5.1 声道)编码方案,结合过去的立体声压缩编码像 AAC 。多声道信号可以通过立体声信号利用子带域的一些从多声道到立体声信号的映射的参数简单地重建。
Ø AAC-ELD (增强低延时 AAC )
基于特殊设计的用于 HE-AAC 的短帧窗发展而来的一种新的低延时音频编码器。能用于双向通信,可以喝 ITU-T 的一些全频带编码标准竞争。
Ø SAOC (空间音频对象编码)是 MPEG surround 的扩展,解码器通过利用 ”MPEG surround” 比特流和输入对象的信息可以灵活和有效的呈现多声道声音。
无损编码家族:
MPEG 已经定义了三种类型的无损(可逆的)编码方案用于高质量音频应用。一种是时域预测 ALS (音频无损编码)用于线性 PCM 信号。另一种方案是频域可扩展 SLS (可扩展无损编码)用于线性 PCM 。最后一种是 DST (数字流转移)用于 DSD (直接数据流,一种比特过采样的数据格式)。所有的这些标准大约在 2005 年建立,将逐渐的变得在市场上可用,所有的重建的波形与原始可变长度编码方案的相似。同时 ITU-T 也开始了 log-PCM 无损编码的标准化,这将有助于 VoIP 传输声道的平均带宽的降低。
USAC (联合语音和音频编码)
低比特率的语音编码对于语音信号能提高很好的声音,但是对于音频信号效果不好,相反的,音频编码对于音频信号能取得很好的效果,但是不适合语音。实际上,有许多的音频内容同时包括语音和音乐。 USAC 目的是主要用于同一编码方案的标准化,对于各种信号类型少于 24kbps 。
最有发展潜力的提案已近选出作为参考模型,改善方案正在积极的执行中,参考模型基本上是基于自适合( clever )选择语音编码( AMR-WB+ )和音频编码( HE-AAC 结合 MPEG Surround )。这种规范将在一年内定下来。
USAC 对于低比特率通用编码将会有重大意义,在各种市场将会被广泛接受,不幸的是,由于编码和解码处理中,其将产生大于 100ms 的延时,音质主要依赖于在编码端正确的选择编码模型,因为基本的结构是在不同的时间帧结合语音和音频编码,尽管在 USAC 标准化后,仍需要更多的工作得到最后的目标。在极低的延时下获得相似的音质,这将使用于双向通信。