历史回顾
数字技术的出现与应用为人类带来了深远的影响,人们如今已生活在一个几乎数字化的世界之中,而数字音频技术则称得上是应用最为广泛的数字技术之一,
CD
、
VCD
等早已走进千家万户,数字化广播正在全球范围内逐步得到开展,正是这些与广大消费者密切相关
的产品及应用成为了本文将要介绍的主题:数字音频压缩技术得以产生和发展的动力。
1
、音频压缩技术的出现及早期应用
音频压缩技术指的是对原始数字音频信号流(
PCM
编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。
数字信号的优势是显而易见的,而它也有自身相应的缺点,即存储容量需求的增加及传输时信道容量要求的增加。以
CD
为例,其采样率为
44.1KHz
,量化精度为
16
比特,则
1
分钟的立体声音频信号需占约
10M
字节的存储容量,也就是说,一张
CD
唱盘的容量只有
1
小时左右。当然,在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现,直接采用
PCM
码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行
4
:
1
压缩,即只用
25
%的数字量保留所有的信息,而在视频领域压缩比甚至可以达到几百倍。因而,为利用有限的资源,压缩技术从一出现便受到广泛的重视。
对音频压缩技术的研究和应用由来已久,如
A
律、
u
律编码就是简单的准瞬时压扩技术,并在
ISDN
话音传输中得到应用。对语音信号的研究发展较早,也较为成熟,并已得到广泛应用,如自适应差分
PCM
(
ADPCM
)、线性预测编码(
LPC
)等技术。在广播领域,
NICAM
(
Near Instantaneous Companded Audio Multiplex -
准瞬时压扩音频复用)等系统中都使用了音频压缩技术。
2
、音频压缩算法的主要分类及典型代表
一般来讲,可以将音频压缩技术分为无损(
lossless
)压缩及有损(
lossy
)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。
(
1
)时域压缩(或称为波形编码)技术是指直接针对音频
PCM
码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(
CD
音质
>400kbps
),编解码延时最短(相对其它技术)。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括
G.711
、
ADPCM
、
LPC
、
CELP
,以及在这些技术上发展起来的块压扩技术如
NICAM
、子带
ADPCM
(
SB-ADPCM
)技术如
G.721
、
G.722
、
Apt-X
等。
(
2
)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由
Crochiere
等于
1976
年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(
Perceptual
)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。
由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到
“
完全透明
”
的声音质量(
EBU
音质标准)。
子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的
MPEG-1
层
Ⅰ
、层
Ⅱ
(
MUSICAM
),以及用于
Philips DCC
中的
PASC
(
Precision Adaptive Subband Coding
,精确自适应子带编码)等。
(
3
)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行
“
线性
”
的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有
DFT
、
DCT
(离散余弦变换)、
MDCT
等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。
变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。
有代表性的变换压缩编码技术有
DolbyAC-2
、
AT&T
的
ASPEC
(
Audio Spectral Perceptual Entropy Coding
)、
PAC
(
PerceptualAudioCoder
)等。
3
、音频压缩技术的标准化和
MPEG-1
由于数字音频压缩技术具有广阔的应用范围和良好的市场前景,因而一些著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。
CCITT
(现
ITU-T
)在语音信号压缩的标准化方面做了大量的工作,制订了如
G.711
、
G.721
、
G.728
等标准,并逐渐受到业界的认同。
在音频压缩标准化方面取得巨大成功的是
MPEG-1
音频(
ISO/IEC11172-3
)。在
MPEG-1
中,对音频压缩规定了三种模式,即层
Ⅰ
、层
Ⅱ
(即
MUSICAM
,又称
MP2
),层
Ⅲ
(又称
MP3
)。由于在制订标准时对许多压缩技术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性(复杂度),因而三种模式都得到了广泛的应用。
VCD
中使用的音频压缩方案就是
MPEG-1
层
Ⅰ
;而
MUSICAM
由于其适当的复杂程度和优秀的声音质量,在数字演播室、
DAB
、
DVB
等数字节目的制作、交换、存储、传送中得到广泛应用;
MP3
是在综合
MUSICAM
和
ASPEC
的优点的基础上提出的混合压缩技术,在当时的技术条件下,
MP3
的复杂度显得相对较高,编码不利于实时,但由于
MP3
在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。可以说,
MPEG-1
音频标准的制订方式决定了它的成功,这一思路甚至也影响到后面将要谈到的
MPEG-2
和
MPEG-4
音频标准的制订。
最新进展
1
、多声道音频信号压缩与
DolbyAC-3
随着技术的不断进步和生活水准的不断提高,原有的立体声形式已不能满足受众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。
更准确地说,环绕声应该是一种声音恢复形式,其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟,已日渐成为未来声音形式的主流。有鉴于此,
1992
年
CCIR
(
ITU-R
)以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准,即
CCIR Recommendation 775
。其中主要约定了大家熟知的
5.1
声道形式及
7.1
声道形式,而在对环绕声压缩的研究上也产生了许多专利技术,如
DolbySurroundPro-Logic
、
THX
、
DolbyAC-3
、
DTS
及
MPEG-2
等。这些技术在不同的场合,尤其是在影剧院、家庭影院系统,及将来的高清晰度电视(
HDTV
)等系统中得到广泛的应用。
(
1
)
Dolby AC-3
技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在
5.1
声道的条件下,可将码率压缩至
384kbps
,压缩比约为
10
:
1
。
Dolby AC-3
最初是针对影院系统开发的,但目前已成为应用最为广泛的环绕声压缩技术之一。
Dolby AC-3
是一种感知型压缩编码技术,其编码器功能框图如图
1
所示。
在
Dolby AC-3
中,音频输入以音频块为单位,块长度为
512
个样值,在
48KHz
采样率时即为
10.66
毫秒,各声道单独处理;音频输入在经过
3Hz
高通滤波器去除直流成分后,通过另一高频带通滤波器以检测信号的瞬变情况,并用它来控制
TDAC
变换的长度,以期在频域分辨率和时域分辨率之间得到最好的折中效果;
TDAC
变换的长度一般为
512
点,而数据块之间的重叠长度为
256
点,即
TDAC
每
5.33
毫秒进行一次;在瞬变条件下,
TDAC
长度被等分为
256
点,这样
DolbyAC-3
的频域分辨率为
93.75Hz
,时域最小分辨率为
2.67
毫秒;在图
1
中的定点
/
浮点转换类似于
MPEG-1
中比例因子计算的作用,主要是为了获得宽的动态范围,而在分离后的指数部分经编码后则构成了整个信号大致的频谱,又被称为频谱包络;比特分配主要是通过计算解码后的频谱包络(视为功率谱密度)和掩蔽曲线的相关性来进行的;由于比特分配中采用了前
/
后向混合自适应比特分配以及公共比特池等技术,因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配;在对尾数的量化过程中,可对尾数进行抖晃处理,抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果;
AC-3
的帧结构由同步字、
CRC
、同步信息(
SI
)、码流信息(
BSI
)、音频块和附加数据等组成,帧长度与
TDAC
变换的长度有关,在长度为
512
点时,帧长为
32
毫秒,即每秒
31.25
帧。
通过以上叙述可见,在
Dolby AC-3
中,使用了许多先进的、行之有效的压缩技术。如前
/
后向混合自适应比特分配、公共比特池、
TDAC
滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。
可以说,
AC-3
的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶(从一定的角度来看,编码技术实际上就是降低编码噪声影响的技术),在技术上它具有很强的优势。因而即使作为一项专利技术,
DolbyAC-3
仍然在影院系统、
HDTV
、消费类电子产品(如
LD
、
DVD
)及直播卫星等方面获得了广泛的应用,得到了众多厂商的支持,成为业界事实上的标准。
(
2
)
MPEG-2BC
(后向兼容方式),即
ISO/IEC13818-3
,是另一种多声道环绕声音频压缩技术。早在
1992
年初,该方面的讨论工作便已初步开展,并于
94
年
11
月正式获得通过。
MPEG-2BC
主要是在
MPEG-1
和
CCIRRec.775
的基础上发展起来的。与
MPEG-1
相比较,
MPEG-2BC
主要在两方面做了重大改进。一是支持多声道声音形式,二是为某些低码率应用场合,如多语声节目、体育比赛解说等而进行的低采样率扩展。同时,标准规定的码流形式还可与
MPEG-1
的第
1
和第
2
层做到前、后向兼容,并可依据
CCIR Rec.775
做到与双声道、单声道形式的向下兼容,还能够与
Dolby Surround
形式兼容。
在
MPEG-2BC
中,由于考虑到其前、后向兼容性以及环绕声音形式的新特点,在压缩算法中除承袭了
MPEG-1
的绝大部分技术外,为在低码率条件下进一步提高声音质量,还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码
(Phantom Coding of Center)
、预编码
(Predistortion)
等。
然而,
MPEG-2BC
的发展和应用并不如
MPEG-1
那样一帆风顺。通过对一些相关论文的比较可以发现,
MPEG-2BC
的编码框图在标准化过程中发生了重大的变化,上述的许多新技术都是在后期引入的。事实上,正是与
MPEG-1
的前、后向兼容性成为
MPEG-2BC
最大的弱点,使得
MPEG-2BC
不得不以牺牲码率的代价来换取较好的声音质量。一般情况下,
MPEG-2BC
需
640kbps
以上的码率才能基本达到
EBU“
无法区分
”
声音质量要求。由于
MPEG-2BC
标准化的进程过快,其算法自身仍存在一些缺陷。这一切都成为
MPEG-2BC
在世界范围内得到广泛应用的障碍。
(
3
)
DVD
(
DigitalVersatileDisk
)是新一代的多媒体数据存储和交换的标准。在视频
DVD
的伴音方式及音频
DVD
的声音格式选择上,
AC-3
和
MPEG-2BC
之间的争夺十分激烈,最后达成的协议如表
1
所示。可见,多声道环绕声音频压缩技术标准亟待统一。