音视频基础知识笔记

PCM:未压缩的音频(PCM)

未压缩音频,或线性PCM,是您的声卡想要使用的格式。它由一系列“样品”组成。每个样本都是一个数字,表示音频在单个时间点的音量。最常见的采样频率是44.1kHz,这意味着我们每秒记录信号的电平44100次。这通常以16位整数的形式存储,因此每秒存储88200字节。如果你的信号是立体声的,那么你存储一个左样本和一个右样本,所以现在你需要176400字节每秒。这是音频cd使用的格式。   

PCM音频有三种主要变体。首先,有多个不同的样本率。44.1kHz用于音频cd,而dvd通常使用48kHz。较低的采样率有时用于语音通信(例如电话和无线电),如16kHz或甚至8kHz。它的质量下降了,但对于声音来说已经足够好了(音乐听起来就不那么好了)。有时在专业的录音室,使用更高的采样率,比如96千赫,尽管这有什么好处是有争议的,因为44.1千赫已经足够录下人类耳朵能听到的最高频率的声音。值得注意的是,您不能选择您喜欢的任何采样率。大多数声卡将只支持样本率的有限子集。最常用的支持值是8kHz、16kHz、22.05kHz、16kHz、32kHz、44.1kHz和48kHz。

第二,PCM可以记录在不同的位深度。到目前为止,16位是最常见的,也是您应该默认使用的。它以带符号值(-32768到+32767)的形式存储,而静默文件将包含所有的0。我强烈建议不要使用8位PCM。这听起来可怕。除非你想创建一个特殊的老式音响效果,你不应该使用它。如果你想节省空间,有很多更好的方法来减少你的音频文件的大小。24位通常在录音工作室中使用,因为它提供了足够的分辨率,甚至在较低的录音水平,这是可取的,以减少“剪辑”的机会。使用24位可能会很麻烦,因为您需要确定样本是否背靠背存储,或者它们是否插入了额外的字节以使它们达到4字节对齐。

你需要知道的最后一个位深度是32位IEEE浮点数(在。net世界中,这是一个“浮点数”或“单个”)。尽管32位的分辨率对于单个音频文件来说是过分的,但是当你将文件混合在一起时,它是非常有用的。如果混合使用两个16位文件,很容易出现溢出,因此通常需要将其转换为32位浮点数(-1和1分别表示16位文件的最小值和最大值),然后将它们混合在一起。现在范围可能在-2到+2之间,因此您可能需要减少混合文件的总体容量,以避免将转换压缩回16位。虽然32位浮点音频是一种PCM类型,但它通常不被称为PCM,以免与表示为32位整数的PCM(这很少见,但确实存在)混淆。它通常被简单地称为“浮点”音频。

注意:还有其他的位深度-一些系统使用20位或32位整数。一些混合程序使用64位双精度浮点数而不是32位浮点数,尽管以如此高的位深度将音频文件写入磁盘是非常不寻常的。另一个复杂的问题是,有时需要知道样本是按“大尾数”还是“小尾数”格式存储的。但是最常见的两位深度是16位PCM和32位浮点。  

PCM的第三个主要变化是信道的数量。这通常是1(单声道)或2(立体声),但你当然可以有更多(如5.1,这是常见的电影音轨)。每个通道的样本被一个接一个地交叉存储,一组或一组样本有时被称为“帧”。

 

未压缩的音频容器

你不能只写PCM样本直接到磁盘,并期望媒体播放器知道如何播放它。它无法知道你正在使用的采样率、比特深度和信道计数。PCM样本被放在一个容器里。在Windows中,PCM文件的通用容器格式是WAV文件。

WAV文件由许多“块”组成。最重要的两个是格式块和数据块。格式块包含一个WAVEFORMAT结构(可能还有一些额外的字节),它表示数据块中音频的格式。这包括它是PCM浮点还是IEEE浮点,并指出采样率,比特深度和通道计数是什么。为了方便起见,它还包含其他有用的信息,比如每秒的平均字节数(尽管对于PCM,您可以自己轻松地计算)。

WAV不是PCM存储的唯一容器格式。如果你正在处理来自Mac OS的文件,它们可能在AIFF文件中。需要注意的一个大区别是AIFF文件通常使用big-endian字节排序来处理它们的示例,而WAV文件使用little-endian字节排序

 

WAV:WAV是最常见的声音文件格式之一,是WaveForm的简写,也称为波形文件,可直接存储声音波形。是微软公司专门为Windows开发的一种标准数字音频文件,该文件能记录各种单声道或立体声的声音信息,并能保证声音不失真。

 

MP3:MP3是一种音频压缩技术(有损),其全称是动态影像专家压缩标准音频层面3(Moving Picture Experts Group Audio Layer III),简称为MP3。它被设计用来大幅度地降低音频数据量。利用 MPEG Audio Layer 3 的技术,将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的文件,而对于大多数用户来说重放的音质与最初的不压缩音频相比没有明显的下降。 MPEG Audio Layer-3 (MP3).

 

AAC:(Advanced Audio Coding)中文名:高级音频编码。出现于1997年,基于MPEG-2的音频编码技术。目的是取代MP3格式。

优点:相较于mp3,AAC格式的音质更佳,文件更小。

不足:AAC属于有损压缩的格式,与时下流行的APE、FLAC等无损格式相比音质存在“本质上”的差距。加之,传输速度更快的USB3.0和16G以上大容量MP3正在加速普及,也使得AAC头上“小巧”的光环不复存在。

 

MP4:MP4是一套用于音频、视频信息的压缩编码标准,由国际标准化组织(ISO)和国际电工委员会(IEC)下属的“动态图像专家组”(Moving Picture Experts Group,即MPEG)制定。

 

解码

对于给定的输入类型,每个解码器都有一个首选的PCM输出格式。例如,您的MP3文件可能本机解码到44.1kHz立体声16位,而G.711文件将解码到8kHz mono 16位。如果你想要浮点输出,或者32kHz,你的解码器可能会满足你的要求,但通常你必须自己单独完成。  

一个转换管道

现在我们已经介绍了压缩和非压缩音频格式的基础知识,我们需要考虑我们要做什么转换。你通常会做三件事中的一件。首先是解码,你采取压缩音频类型,并将其转换为PCM。第二种是编码,将PCM转换为压缩格式。你不能直接从一种压缩格式到另一种。这就是所谓的转码,包括首先解码到PCM,然后编码到另一种格式。甚至中间还需要一个额外的步骤,因为您有时需要将代码从一种PCM格式转换为另一种。

你可能感兴趣的:(音视频处理,音视频)