wav格式 常识

1.  真实wav文件格式查看

ppeix:Downloads$ file *.wav
15868889870.wav:          RIFF (little-endian) data, WAVE audio, ITU G.711 mu-law, mono 8000 Hz
audiodump.wav:            RIFF (little-endian) data, WAVE audio, stereo 44100 Hz
两次输入的密码不一致.wav: RIFF (little-endian) data, WAVE audio, ITU G.711 mu-law, mono 16000 Hz


runji@robot-Lenovo:~/speechRecognition/AMadapt/robot/voice/0$ file 0000_0001.wav
0000_0001.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 16000 Hz

ppeix:Downloads$ file test.mp3
test.mp3: Audio file with ID3 version 2.3.0, contains: MPEG ADTS, layer III, v1, 128 kbps, 44.1 kHz, JntStereo


2.wav 基础知识

音频(158  两次输入的密码不一致)虽然是wav,但是不是pcm编码格式的,是A/mu-Law Wave  8-bit mu-Law Encode
语音云只能识别 采样率16或8k   16bit  pcm或wav的单声道音频,wav音频也要是pcm格式的

wav三个参数:   位宽×采样率×声道数/8bit   比如单声道,16k, 16bit   则16bit*16khz*1/8bit=32k Byte/s  一分钟就是2MBytes.

WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。

http://www.cnblogs.com/cheney23reg/archive/2010/08/08/1795067.html wave文件(*.wav)格式、PCM数据格式

我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。

在Windows平台下,基于PCM编码的WAV是被支持得最好的 音频格式,所有音频 软件都能完美支持,由于本身可以达到较高的音质的要求,因此,WAV也是音乐编辑创作的首选格式,适合保存音乐素材。因此,基于PCM编码的WAV被作为了一种中介的格式,常常使用在其他编码的相互转换之中,例如MP3转换成WMA。
wav是文件格式。而PCM/MP3这些是编码形式。而wav格式也可以使用mp3编码器。播放时匹配对应的解码器即可。

pcm编码的。mu-law编码的。

单声道的,或立体声的。

linux系统正常录音是 0000_0001.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 16000 Hz

3. 真实案例分析

rovio机器人要求pcm, 8khz, 16bit,但并没有要求是哪种文件格式。

/GetAudio.cgi  使用POST方法。传递过去的是语音文件的内容。

这样的文件格式有哪些呢?

wav都不一定是pcm编码的。对于pcm,还分为线性pcm, a律pcm, u律pcm等。一般讲的就是线性pcm.

pcm是原始数据原封不动地量化编码(这种量化的位宽大),A律pcm是经过压扩后的非均匀量化(小信号细量化大信号粗量化),U律pcm是经过压扩后的均匀量化(A/U律量化的位宽小)。


4 介绍linux下面的一种录音软件:

rec --help
rec: SoX v14.3.2

Usage summary: [gopts] [[fopts] infile]... [fopts] outfile [effect [effopt]]...

SPECIAL FILENAMES (infile, outfile):
-                        Pipe/redirect input/output (stdin/stdout); may need -t
-d, --default-device     Use the default audio device (where available)
-n, --null               Use the `null' file handler; e.g. with synth effect
-p, --sox-pipe           Alias for `-t sox -'

录音脚本:

#########################################################################
# File Name: rec_wav.sh
# Author: ma6174
# mail: [email protected]
# Created Time: 2014年03月24日 星期一 17时07分48秒
#########################################################################
#!/bin/bash
for i in $(seq 1 12)
do
#    echo "Welcome $i times"
    fn=$(printf arctic_%04d $i);
    read sent; echo $sent;echo $fn;echo $i;
    rec -r 16000 -e signed-integer -b 16 -c 1 $fn.wav 2>/dev/null;
done < arctic20.txt
ppeix:config$

-r sample rate  of Audio

-b  bit width

-c channel

-s/-u/-f/-U/-A/-i/-a/-g  Encoding type=signed-integer/unsigned-integer/floating
                         point/mu-law/a-law/ima-adpcm/ms-adpcm/gsm-full-rate
-e|--encoding ENCODING   Set encoding (ENCODING in above list)


5. 音频格式举例

CD格式:天籁之音

标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的


“*.WAV”格式支持MSADPCM、CCITTALAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数,看到了吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。


6. 其他猎获:

模数转换过程:
Microphone——>采样——>PCM量化——>64Kbit/s数据流——>A律非线形量化(13bitGSM协议规定)——>104Kbit/s数据流——>RPE-LTP语音编码——>13Kbit/s数据流
 
信道编码过程:
260bit——>CRCcode——>267bit——>Convolutionalcoe——>456bit——>ReorderingandPartitioning——>456bit——>块间交织——>456bit既22.8Kbit/s——>GMSK调制——>RF

你可能感兴趣的:(语音识别与语音合成)