自适应多速率窄带语音编码 AMR-NB(Adaptive Multi Rate-Narrow Band Speech Codec)算法是由第三代伙伴计划(3rd Generation Partnership Project,简称 3GPP)于 1999 年 8 月制订的基于码激励线性预测(Code Excited Linear Prediction,CELP)算法的语音压缩编码器标准[1],主要用于第三代移动通信 W-CDMA 系统中。AMR-NB 支持八种速率模式,分别为:模式0(4.75kbit/s)、模式1(5.15kbit/s)、模式2 (5.90kbit/s)、模式3(6.70kbit/s)、模式 4(7.40kbit/s)、模式 5(7.95kbit/s)、模式 6(10.2kbit/s)、模式 7(12.2kbit/s),其以更加智能的方式解决信源和信道编码的速率分配问题,根据无线信道和传输状况来自适应地选择一种编码模式进行传输,使得无线资源的配置与利用更加灵活有效。
在 2000 年 12 月,3GPP 选择自适应多速率宽带语音编码 AMR-WB[2] (Adaptive Multi-RateWideband Speech Codec)算法作为第三代移动通信系统使用的语音编解码算法。AMR-WB 音频带宽在 50Hz-7000Hz,相对于 200Hz-3400Hz 为宽带,支持九种速率模式,分别为:模式0(6.60kbit/s)、模式 1(8.85kbit/s)、模式 2 (12.65kbit/s)、模式 3(14.25kbit/s)、模式 4(15.85kbit/s)、模式 5(18.25kbit/s)、模式 6(19.85kbit/s)、模式 7(23.05kbit/s)和模式 8(23.85kbit/s)[3]。在 AMR-WB 中,采用的是代数码激励线性预测编码(Algebraic Code ExcitedLinear Prediction,简称 ACELP),其已被 3GPP 选定为 GSM 和 3G 无线 W-CDMA 的宽带编码器,并将应用于 IP 电话、第三代移动通信、ISDN 宽带电话、ISDN 可视电话和电视会议等领域,这标志着无线和有线业务第一次采用同样的编码器。
2.线性预测分析的比较2.1 帧长及 LP 次数的比较
AMR-NB 和 AMR-WB 编码帧长都是 20ms,子帧长度都是 5ms,输入都是 16 bit PCM 量化的语音信号,两种标准的线谱对(Line Spectrum Pairs, LSP)参数所表征的信息基本上一致。AMR-NB 编码输入为 8 kHz 采样频率,线性预测(Linear Prediction,简称 LP)阶数为 10,AMR-WB 的编码输入为 16kHz 采样频率,LP 阶数为 16。AMR-WB 编码器每帧进行1 次 LP 分析。AMR-NB 编码器在 12.2 Kb/s 模式下每帧进行 2 次 LP 分析,即每 10 ms 进行1 次LP 分析;在其他7 种速率模式下每帧进行1 次LPC 分析,即每20 ms 进行1 次LP 分析。
线性预测分析就是用线性预测器对语音信号作短时分析,在 AMR-WB 中采用了 16 阶线性预测,与窄带 AMR-NB 算法中的 10 阶线性预测模型相比,可以更好的反应宽带语音信号高频部分的共振峰信息。图 1 和图 2 分别是 16 阶线性预测模型和 10 阶线性预测模型用于宽带语音信号的谱估计包络,从图上可以看到 10 阶线性预测分析只能得到 3000Hz 以下的共振峰信息,高频部分的共振信息丢失了,而 16 阶线性预测分析则可以获得高频部分的共振峰信息。
图 1 16 阶线性预测模型用于宽带语音信号的谱估计包络
Figure1 Spectral Envelope Estimate of WidebandSpeech Using 16th-Order Autocorrelation Method
2.2 加窗的比较
图 2 10 阶线性预测模型用于宽带语音信号的谱估计包络
Figure2 Spectral Envelope Estimate of WidebandSpeech Using 10th-Order Autocorrelation Method
在 AMR-WB 中每个语音帧都要进行一次线性预测分析,分析采用自相关的方法和 30ms的不对称窗。在 LP 分析中有一个 5ms 的提前,对应于一个 5ms 的额外算法延迟。LP 分析窗中包含过去帧的 64 个样点,当前帧的 256 个样点和下一帧的 64 个样点。
第 n 帧(4×5 ms)图 3 加窗帧结构示意图
Figure3 The Diagram of Windowed Frame Structure
在 LP 分析中,AMR-WB 使用的是不对称窗函数,它由两部分组成:第一部分是一个半哈明窗,第二部分是四分之一周期的哈明-余弦函数,该窗的表达式是:
窗函数
窗函数
⎧ 0.54−0.46cos⎛ 2πn ⎞,
n=0,...,L −11
⎪ ⎜2L −1⎟w(n)=⎪ ⎝1 ⎠
(1)
⎨ ⎛ 2π (n − L ) ⎞
⎪cos 1 ,
⎪⎜4L−1⎟ 112⎩⎝2⎠
其中 L1=256,L2=128。
n=L,..,L +L −1
AMR-NB 的 LP 加窗分为 2 种情况:
(1)在 12.2 Kb/s 模式下,分别采用不对称窗函数 wI (n) 和 wII (n) 。其中 wI (n) 窗函
数是
n=L(I),..,L(I) +L(I) −11 1 2
L(I) =160,L (I) =80.而w (n)和AMR-WB相同,其中L(II) =232,L (II) =8.12II 12
⎧ 0.54−0.46cos⎛ πn ⎞, n=0,...,L(I) −1⎪ ⎜2L(I) −1⎟ 1
w(n)=⎪ ⎝1 ⎠ (2)
I
⎨ ⎛ π (n − L ( I ) ) ⎞⎪0.54+0.46cos 1 ,
⎜ 4L(I) −1 ⎟⎩⎝2⎠
⎪
(2)在除了 12.2 Kb/s 之外的其他 7 种模式下,由于此时 AMR-NB 也与 AMR-WB 一LL
样采用 5ms 额外延迟,AMR-NB 的 LP 分析窗与 AMR-WB 完全相同,其中 1 =200, 2 =40。3.高频带增益
对于 AMR-WB 而言,为了计算 23.85kb/s 模式的高通增益,输入语音要通过 6400-7000Hz的带通滤波器得到高频带信号,高通增益 gHB 通过下面的式子得到:
63 63
gHB = (s (i))2 (s (i))2 (3)
∑i=0
∑i=0
HB2
HB
这里sHB (i)是带通滤波的输入信号,sHB2 (i)是高频合成信号。而相比较下 AMR-NB 没
有高频带增益,AMR-WB 使摩擦音更易于区分,从而增加了可懂度和清晰度。4.语音质量性能测试比较
从 TIMIT 标准英语语音数据库中选取 40 句标准语句(20 句男声,20 句女声),用 ITU-T提供的 AMR-NB 和 AMR-WB 官方代码分别对选取的标准语音进行编解码仿真,对两种算法包含的所有编码模式的语音质量都进行了 PESQ 测试,测试结果如表 1 和表 2 所示。实验时所用男声和女声均选自 TIMIT 数据库,客观评价标准采用 ITU–T P.862.2 制定的wideband--Perceptual Evaluation of Speech Quality ( w-PESQ ) [4]。
表 1 AMR-WB 平均 w-PESQ 值
Tab.1 the average value of w-PES of AMR-WB
表 2 AMR-NB 平均 w-PESQ 值
Tab.2 the average value of w-PES of AMR-NB
AMR-WB |
码率(kb/s)类别 |
23.85 |
23.05 |
19.85 |
18.25 |
15.85 |
14.25 |
12.65 |
8.85 |
6.60 |
均值 |
男声 PESQ 值 |
4.28 |
4.28 |
4.26 |
4.25 |
4.21 |
4.18 |
4.16 |
3.91 |
3.78 |
4.146 |
|
女声 PESQ 值 |
4.17 |
4.17 |
4.14 |
4.12 |
4.09 |
4.06 |
4.04 |
3.80 |
3.58 |
4.019 |
|
平均 PESQ 值 |
4.225 |
4.225 |
4.2 |
4.185 |
4.15 |
4.12 |
4.1 |
3.855 |
3.68 |
4.082 |
AMR-NB |
码率(kb/s)类别 |
12.2 |
10.2 |
7.95 |
7.40 |
6.70 |
5.90 |
5.15 |
4.75 |
均值 |
男声 PESQ 值 |
3.26 |
3.30 |
3.39 |
3.48 |
3.46 |
3.56 |
3.57 |
3.58 |
3.45 |
|
女声 PESQ 值 |
3.03 |
3.02 |
3.16 |
3.16 |
3.24 |
3.24 |
3.26 |
3.22 |
3.16 |
|
平均 PESQ 值 |
3.15 |
3.16 |
3.28 |
3.32 |
3.35 |
3.40 |
3.42 |
3.40 |
3.31 |
表 3 AMR-NB 和 AMR-WB 的计算复杂度比较表(单位:加权百万次操作每秒)Table 3 computational complexity comparison table of AMR-NB and AMR-WB (unit:WMOPS)
类别 AMR-NB AMR-WB语音编码 14.2 31.1语音解码 2.6 7.8
从表 1 和表 2 中可以看出,AMR-NB 和 AMR-WB 的合成语音质量随着码率升高而增加,AMR-NB 的合成语音质量比 AMR-WB 的要差。从表 3 中可以看出,AMR-NB 在计算法复杂度等方面都高于 AMR-WB。
从表 1 中可以看出,男声 12.65kbit/s 以上模式的 MOS 分值都超过了 4.0,女生 12.65kbit/s以上模式的 MOS 分值近似为 4.0,可见 12.65kbit/s 及其以上的模式都可以提供高质量的宽带语音。8.85 和 6.60kbit/s 两种模式,MOS 分值也都在 3.4 以上,虽然话音质量稍差,也基本上达到了通信质量标准。AMR-WB 编码算法由于存在多种速率模式和对宽带语音信号处理的要求,算法较为复杂,但编码性能良好,已经达到了设计要求,是一种高品质的语音编码算法。
原始语音
原始语音
0 1000 2000 3000 4000 5000
4.75kb/s码率下合成语音
0 1000 2000 3000 4000 5000
6.70kb/s码率下合成语音
0 1000 2000 3000 4000 5000
12.2kb/s码率下合成语音
0 1000 2000 3000 4000 5000
0.02
0.0200-0.02
-0.020
0.020-0.02
00.02
0
-0.020
0.020-0.02
0
1000 2000 3000 4000 5000 6000 7000
6.60kb/s码率下合成语音
1000 2000 3000 4000 5000 6000 7000
8.85kb/s码率下合成语音
1000 2000 3000 4000 5000 6000 7000
12.65kb/s码率下合成语音
1000 2000 3000 4000 5000 6000 7000
0.020-0.02
0.020-0.02
0.020-0.02
6000 7000
6000 7000
6000 7000
6000 7000
图4 宽带原始语音和在6.60kb/s,8.85kb/s,12.65kb/s 速率下 AMR-WB 解码后的合成语音Figure 4 broadband original voice and the synthesizedspeeches of AMR-WB decoding under 6.60kb/s,8.85kb/s,12.65kb/s rates
图 5 窄带原始语音和在 4.75kb/s,6.70kb/s,12.2kb/s速率下 AMR-NB 解码后的合成语音
Figure 4 narrow original voice and the synthesizedspeeches of AMR-NB decoding under 4.75kb/s,6.70kb/s,12.2kb/s rates
对 AMR-WB 解码后各模式的合成语音进行主观听觉测试,与宽带原始语音文件进行对比发现,6.6kbit/s 模式的解码合成语音失真较为明显,8.85kbit/s 模式的解码合成语音在听觉上有少许失真。12.65kbit/s 以上的模式在听觉上已经难以分辨与原始语音的区别,而且听觉感受性和自然度都比较好。相比较之下,对于 AMR-NB 而言,在与窄带原始语音对比发现,所有模式的失真都比较明显,但是可以听懂。
4.结论
AMR-NB 广泛应用于移动通信领域,代表了 CELP 算法的较高水平,通过自适应地调整编码速率和信道模式,提供了不同无线传输环境下不同容错率的编码器,从而使得通信系统中语音质量和系统容量的折衷更加平衡,同时也满足了系统可能提出的特殊要求,提高了系统的鲁棒性,使得无线资源的利用更加高效。与AMR-NB 相比较,AMR-WB运用ACELP在主观评价上可以获得较高质量的合成语音。与窄带电话语音相比,低频增加的 50Hz-200Hz
使话音更自然、更舒适、更有现场感,高频增加的 3400Hz-7000Hz 使摩擦音更易于区分,从而增加了可懂度和清晰度,这是第一次有一种编解码标准同时被选作有线和无线通用的标准在未来一定会有广泛应用。