这是JRTPLIB@Conference 系列的第六部 《G.711编码事例程序》,本系列的主要工作是实现一个基于JRTPLIB的,建立在RTP组播基础上的多媒体视频会议系统。这只是一个实验系统,用于 学习JRTPLIB、RTP、和多媒体相关的编程,不是一个完善的软件工程。而且,我只会在业余的时间出于兴趣写一写。有志同道合的朋友可以通过[email protected] 这个邮箱或博客回复(推荐)和我交流。
上一部《JRTPLIB@Conference DIY视频会议系统 五、PCM 和G.711编码相关》
这 一部我们来做个实验,就是把用windows录音机录下来的"PCM 8.000 kHz, 16 位, 单声道"WAV文件转换成为我们要用的8位8000Hz a-law格式PCM。要注意的是录音机默认的方式是PCM 44.100 kHz, 16 位, 立体声,我们不想去进行采样频率的更改,因为这个要进行插值,而且也没必要,因为我们写软件时采样频率我们是可以更改的。所以我们要先把录音另为"PCM 8.000 kHz, 16 位, 单声道"格式。
一、WAV 格式
虽然会议系统完成后我们能直接向声卡拿到PCM 数据,但毕竟我们现在拿到手的是WAV 文件,我们要识别这种格式的头文件。下面是一编转自其它网站的《WAV 格式详解》(有一定修改)
1、综述
WAVE 文件作为多媒体中使用的声波文件格式之一,它是以RIFF 格式为标准的。RIFF 是英文Resource Interchange File Format 的缩写,每个WAVE 文件的头四个字节便是“RIFF” 。
WAVE 文件是由若干个Chunk 组成的。按照在文件中的出现位置包括:RIFF WAVE Chunk, Format Chunk, Fact Chunk( 可选), Data Chunk 。具体见下图:
------------------------------------------------
| RIFF WAVE Chunk |
| ID = 'RIFF' |
| RiffType = 'WAVE' |
------------------------------------------------
| Format Chunk |
| ID = 'fmt ' |
------------------------------------------------
| Fact Chunk(optional) |
| ID = 'fact' |
------------------------------------------------
| Data Chunk |
| ID = 'data' |
------------------------------------------------
图1 Wav 格式包含Chunk 示例
其中除了Fact Chunk 外,其他三个Chunk 是必须的。每个Chunk 有各自的ID ,位于Chunk 最开始位置,作为标示,而且均为4 个字节。并且紧跟在ID 后面的是Chunk 大小(去除ID 和Size 所占的字节数后剩下的其他字节数目),4 个字节表示,低字节表示数值低位,高字节表示数值高位。下面具体介绍各个Chunk 内容。
PS :
所有数值表示均为低字节表示低位,高字节表示高位。
2、具体介绍
RIFF WAVE Chunk
==================================
| | 所占字节数| 具体内容 |
==================================
| ID | 4 Bytes | 'RIFF' |
----------------------------------
| Size | 4 Bytes | |
----------------------------------
| Type | 4 Bytes | 'WAVE' |
----------------------------------
图2 RIFF WAVE Chunk
以'FIFF' 作为标示,然后紧跟着为size 字段,该size 是整个wav 文件大小减去ID 和Size 所占用的字节数,即FileLen - 8 = Size 。然后是Type 字段,为'WAVE' ,表示是wav 文件。
Format Chunk
====================================================================
| | 字节数 | 具体内容 |
====================================================================
| ID | 4 Bytes | 'fmt ' |
--------------------------------------------------------------------
| Size | 4 Bytes | 数值为16 或18 ,18 则最后又附加信息 |
-------------------------------------------------------------------- ----
| FormatTag | 2 Bytes | 编码方式,一般为 0x0001 | |
-------------------------------------------------------------------- |
| Channels | 2 Bytes | 声道数目,1-- 单声道;2-- 双声道 | |
-------------------------------------------------------------------- |
| SamplesPerSec | 4 Bytes | 采样频率 | |
-------------------------------------------------------------------- |
| AvgBytesPerSec| 4 Bytes | 每秒所需字节数 | |===> WAVE_FORMAT
-------------------------------------------------------------------- |
| BlockAlign | 2 Bytes | 数据块对齐单位( 每个采样需要的字节数 ) | |
-------------------------------------------------------------------- |
| BitsPerSample | 2 Bytes | 每个采样需要的bit 数 | |
-------------------------------------------------------------------- |
| | 2 Bytes | 附加信息(可选,通过Size 来判断有无) | |
-------------------------------------------------------------------- ----
图3 Format Chunk
以'fmt ' 作为标示。一般情况下Size 为16 ,此时最后附加信息没有;如果为18 ,则最后多了2 个字节的附加信息。主要由一些软件制成的wav 格式中含有该2 个字节的附加信息。
Fact Chunk
==================================
| | 所占字节数| 具体内容 |
==================================
| ID | 4 Bytes | 'fact' |
----------------------------------
| Size | 4 Bytes | 数值为 4 |
----------------------------------
| data | 4 Bytes | |
----------------------------------
图4 Fact Chunk
Fact Chunk 是可选字段,一般当wav 文件由某些软件转化而成,则包含该Chunk 。
Data Chunk
==================================
| | 所占字节数| 具体内容 |
==================================
| ID | 4 Bytes | 'data' |
----------------------------------
| Size | 4 Bytes | |
----------------------------------
| data | | |
----------------------------------
图5 Data Chunk
Data Chunk 是真正保存wav 数据的地方,以'data' 作为该Chunk 的标示。然后是数据的大小。紧接着就是wav 数据。根据Format Chunk 中的声道数以及采样bit 数,wav 数据的bit 位置可以分成以下几种形式:
---------------------------------------------------------------------
| 单声道 | 取样1 | 取样2 | 取样3 | 取样 4 |
| |--------------------------------------------------------
| 8bit 量化 | 声道0 | 声道0 | 声道0 | 声道 0 |
---------------------------------------------------------------------
| 双声道 | 取样1 | 取样 2 |
| |--------------------------------------------------------
| 8bit 量化 | 声道0( 左) | 声道1( 右) | 声道0( 左) | 声道1( 右 ) |
---------------------------------------------------------------------
| | 取样1 | 取样 2 |
| 单声道 |--------------------------------------------------------
| 16bit 量化 | 声道0 | 声道0 | 声道0 | 声道 0 |
| | ( 低位字节) | ( 高位字节) | ( 低位字节) | ( 高位字节 ) |
---------------------------------------------------------------------
| | 取样 1 |
| 双声道 |--------------------------------------------------------
| 16bit 量化 | 声道0( 左) | 声道0( 左) | 声道1( 右) | 声道1( 右 ) |
| | ( 低位字节) | ( 高位字节) | ( 低位字节) | ( 高位字节 ) |
---------------------------------------------------------------------
图6 wav 数据bit 位置安排方式
3、小结
因此,根据上述结构定义以及格式介绍,很容易编写相应的wav 格式解析代码。这里具体的代码就不给出了。
二、代码的实现
根据上面的格式规定,我们把它写成一头文件wav.h
因为这是个简单的程序,我没有去规划,相就的WAV解码过程我放到main.c的main函数里做了,这是不应该的,请原谅
整个文件基本都是在为WAV文件格式服务而非我们的核心工作--G.711编码。唉~,我也不想。这里在面进行G.711编码的就是 ALawEncode函数。这个函数定义在g711.c里件里,这个文件函数一些我认为比较有用的函数。我们这是只把ALawEncode这个函数拿出 来。
哈哈,前一部说了这么多,其实G711编码也只是很简单的 。当然,不然VOIP怎么把它变的每个软件的必要品。
完整的程序可以从下面的链接下载:PCM2ALaw.rar