1. 真实wav文件格式查看
ppeix:Downloads$ file *.wav
15868889870.wav: RIFF (little-endian) data, WAVE audio, ITU G.711 mu-law, mono 8000 Hz
audiodump.wav: RIFF (little-endian) data, WAVE audio, stereo 44100 Hz
两次输入的密码不一致.wav: RIFF (little-endian) data, WAVE audio, ITU G.711 mu-law, mono 16000 Hz
runji@robot-Lenovo:~/speechRecognition/AMadapt/robot/voice/0$ file 0000_0001.wav
0000_0001.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 16000 Hz
ppeix:Downloads$ file test.mp3
test.mp3: Audio file with ID3 version 2.3.0, contains: MPEG ADTS, layer III, v1, 128 kbps, 44.1 kHz, JntStereo
2.wav 基础知识
音频(158 两次输入的密码不一致)虽然是wav,但是不是pcm编码格式的,是A/mu-Law Wave 8-bit mu-Law Encode
语音云只能识别 采样率16或8k 16bit pcm或wav的单声道音频,wav音频也要是pcm格式的
wav三个参数: 位宽×采样率×声道数/8bit 比如单声道,16k, 16bit 则16bit*16khz*1/8bit=32k Byte/s 一分钟就是2MBytes.
WAV对音频流的编码没有硬性规定,除了PCM之外,还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。
http://www.cnblogs.com/cheney23reg/archive/2010/08/08/1795067.html wave文件(*.wav)格式、PCM数据格式
我们常见的都是音频流被PCM编码处理的WAV,但这不表示WAV只能使用PCM编码,MP3编码同样也可以运用在WAV中,和AVI一样,只要安装好了相应的Decode,就可以欣赏这些WAV了。
pcm编码的。mu-law编码的。
单声道的,或立体声的。
linux系统正常录音是 0000_0001.wav: RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 16000 Hz
3. 真实案例分析
rovio机器人要求pcm, 8khz, 16bit,但并没有要求是哪种文件格式。
/GetAudio.cgi 使用POST方法。传递过去的是语音文件的内容。
这样的文件格式有哪些呢?
wav都不一定是pcm编码的。对于pcm,还分为线性pcm, a律pcm, u律pcm等。一般讲的就是线性pcm.
pcm是原始数据原封不动地量化编码(这种量化的位宽大),A律pcm是经过压扩后的非均匀量化(小信号细量化大信号粗量化),U律pcm是经过压扩后的均匀量化(A/U律量化的位宽小)。
4 介绍linux下面的一种录音软件:
rec --help
rec: SoX v14.3.2
Usage summary: [gopts] [[fopts] infile]... [fopts] outfile [effect [effopt]]...
SPECIAL FILENAMES (infile, outfile):
- Pipe/redirect input/output (stdin/stdout); may need -t
-d, --default-device Use the default audio device (where available)
-n, --null Use the `null' file handler; e.g. with synth effect
-p, --sox-pipe Alias for `-t sox -'
录音脚本:
#########################################################################
# File Name: rec_wav.sh
# Author: ma6174
# mail: [email protected]
# Created Time: 2014年03月24日 星期一 17时07分48秒
#########################################################################
#!/bin/bash
for i in $(seq 1 12)
do
# echo "Welcome $i times"
fn=$(printf arctic_%04d $i);
read sent; echo $sent;echo $fn;echo $i;
rec -r 16000 -e signed-integer -b 16 -c 1 $fn.wav 2>/dev/null;
done < arctic20.txt
ppeix:config$
-r sample rate of Audio
-b bit width
-c channel
-s/-u/-f/-U/-A/-i/-a/-g Encoding type=signed-integer/unsigned-integer/floating
point/mu-law/a-law/ima-adpcm/ms-adpcm/gsm-full-rate
-e|--encoding ENCODING Set encoding (ENCODING in above list)
5. 音频格式举例
CD格式:天籁之音
标准CD格式也就是44.1K的采样频率,速率88K/秒,16位量化位数,因为CD音轨可以说是近似无损的,因此它的声音基本上是忠于原声的
“*.WAV”格式支持MSADPCM、CCITTALAW等多种压缩算法,支持多种音频位数、采样频率和声道,标准格式的WAV文件和CD格式一样,也是44.1K的采样频率,速率88K/秒,16位量化位数,看到了吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。
6. 其他猎获:
模数转换过程:
Microphone——>采样——>PCM量化——>64Kbit/s数据流——>A律非线形量化(13bitGSM协议规定)——>104Kbit/s数据流——>RPE-LTP语音编码——>13Kbit/s数据流
信道编码过程:
260bit——>CRCcode——>267bit——>Convolutionalcoe——>456bit——>ReorderingandPartitioning——>456bit——>块间交织——>456bit既22.8Kbit/s——>GMSK调制——>RF