公司:http://nellymoser.com/
例子:http://samples.mplayerhq.hu/A-codecs/Nelly_Moser/
解码库:http://code.google.com/p/nelly2pcm/
编码库:http://nellymoser.narod.ru/
Nellymoser音频格式是一种专有的单声道音频编码格式,专门应用于低比特率的语音音频传出,并且为之做了优化。
采集时,声音数据被分成含有256个样本的帧。每个帧被转换到频域,并确定了最显着(最高振幅)的频率。一些频带被选择用于编码而其余部分被丢弃。每一帧的比特流之后使用当前频段所采用的振幅进行编码。此编解码器不考虑实际的采样率,而是采用一个固定的比率--输入采样和输出数据包大小(2比特)之比。
Nellymoser解码器由Nellymoser公司拥有,并且授权Macromedia/Adobe的Flash技术使用。Nellymoser编码是Flash的一个组成部分,Flash 6.0及以上支持。该编解码器对语音音频的实时性和低延时编码进行了优化。Adobe Flash Player的客户端,从用户的麦克风录音时,使用Nellymoser编码器,不要让Flash程序员选择的任何其他编解码器(9.0以后可以使用speex编码)。声音捕获的采样率可以由Flash程序员控制,达到增加或减少的编码比特率和质量的效果。在客户端主机上进行编码&压缩数据,并且通过Adobe的RTMP协议发送到RTMP服务器(Flash Media Server,Red5,Wowza)上。
编码说明:
Nellymoser编码器的声音编码步骤可以被分为4个步骤:
1、转换:
原始的256个音频采样,采用改进的离散余弦变换(Modified Discrete Cosine Transform)进行变换。
2、去噪:
在频域上进行去噪操作,以减少不需要的噪音的数量。
3、量化:
对一些最显着的频率系数进行量化。
4、压缩:
采用差值编码(DPCM编码,简称差值编码,是对模拟信号幅度抽样的差值进行量化编码的调制方式(抽样差值的含义请参见“增量调制”))或者(自适应差分脉冲编码调制,adpcm)进行压缩,以此达到较少冗余,并利用低熵的效果。压缩后的二进制数据流通常含有许多连续零比特,这就是频域系数进行量化的结果。
在去噪和量化阶段,将所得的压缩二进制流时间取样的输入数据采用8的倍数个大小。将达到的最佳的编码质量。
Nellymoser ASAO 数据帧:
ASAO的最终压缩包大小为64字节长度。FLV的音频数据帧通常包含1,2或者4个ASAO数据包,并且通常情况下每秒钟会有20-40个音频包。FLV 音频帧帧头长度为13个字节。
Nellymoser 比特流格式
一个Nellymoser报文可以分成3个部分。一个报头和2个有效载荷块,有效载荷块共享报头里的参数。
Header | Payload | Payload |
---|
const uint8_t ff_nelly_band_sizes_table[NELLY_BANDS] = { 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 4, 4, 5, 6, 6, 7, 8, 9, 10, 12, 14, 15 };
头:
头包含了23个频带的量化值,采用DPCM编码。前6位是一个初始值表的一个索引。
const uint16_t ff_nelly_init_table[64] = { 3134, 5342, 6870, 7792, 8569, 9185, 9744, 10191, 10631, 11061, 11434, 11770, 12116, 12513, 12925, 13300, 13674, 14027, 14352, 14716, 15117, 15477, 15824, 16157, 16513, 16804, 17090, 17401, 17679, 17948, 18238, 18520, 18764, 19078, 19381, 19640, 19921, 20205, 20500, 20813, 21162, 21465, 21794, 22137, 22453, 22756, 23067, 23350, 23636, 23926, 24227, 24521, 24819, 25107, 25414, 25730, 26120, 26497, 26895, 27344, 27877, 28463, 29426, 31355 };
之后,是22个5位的增量表的索引。
const int16_t ff_nelly_delta_table[32] = { -11725, -9420, -7910, -6801, -5948, -5233, -4599, -4039, -3507, -3030, -2596, -2170, -1774, -1383, -1016, -660, -329, -1, 337, 696, 1085, 1512, 1962, 2433, 2968, 3569, 4314, 5279, 6622, 8154, 10076, 12975 };
负载快:
每个负载快有198比特长,解码逻辑如下:
for (i = 0; i < 124; i++) { if (bits[i] <= 0){ v = 1/sqrt(2) with randomly flipped sign; }else{ v = get_bits(bits[i]); v = dequan_table[bits[i]][v]; } coeffs[i] = v * -pow(2, band_scale[i] / 2048); }
比特分配:
比特分配算法找出每个系数应使用多少比特(0 .. 6范围)。
目标位长度的计算公式如下:
bits[i] = (((sbuf[i] - offset) >> shift) + 1) >> 1; bits[i] = clip(bits[i], 0, 6);
sbuf 来自band_scale,通过修改初始值来计算偏移量和移位,以实现最终的位分配达到或者接近(和不超过)一个有效载荷块的大小,即198位。
逆量化表(用于解码):
for bits = 1: -0.8472560048, 0.7224709988,
for bits = 2: -1.5247479677,-0.4531480074, 0.3753609955, 1.4717899561,
for bits = 3: -1.9822579622,-1.1929379702,-0.5829370022,-0.0693780035, 0.3909569979, 0.9069200158, 1.4862740040, 2.2215409279,
for bits = 4: -2.3887870312,-1.8067539930,-1.4105420113,-1.0773609877,-0.7995010018,-0.5558109879,-0.3334020078,-0.1324490011, 0.0568020009, 0.2548770010, 0.4773550034, 0.7386850119, 1.0443060398, 1.3954459429, 1.8098750114, 2.3918759823,
for bits = 5: -2.3893830776,-1.9884680510,-1.7514040470,-1.5643119812,-1.3922129869,-1.2164649963,-1.0469499826,-0.8905100226, -0.7645580173,-0.6454579830,-0.5259280205,-0.4059549868,-0.3029719889,-0.2096900046,-0.1239869967,-0.0479229987, 0.0257730000, 0.1001340002, 0.1737180054, 0.2585540116, 0.3522900045, 0.4569880068, 0.5767750144, 0.7003160119, 0.8425520062, 1.0093879700, 1.1821349859, 1.3534560204, 1.5320819616, 1.7332619429, 1.9722349644, 2.3978140354,
for bits = 6: -2.5756309032,-2.0573320389,-1.8984919786,-1.7727810144,-1.6662600040,-1.5742180347,-1.4993319511,-1.4316639900, -1.3652280569,-1.3000990152,-1.2280930281,-1.1588579416,-1.0921250582,-1.0135740042,-0.9202849865,-0.8287050128, -0.7374889851,-0.6447759867,-0.5590940118,-0.4857139885,-0.4110319912,-0.3459700048,-0.2851159871,-0.2341620028, -0.1870580018,-0.1442500055,-0.1107169986,-0.0739680007,-0.0365610011,-0.0073290002, 0.0203610007, 0.0479039997, 0.0751969963, 0.0980999991, 0.1220389977, 0.1458999962, 0.1694349945, 0.1970459968, 0.2252430022, 0.2556869984, 0.2870100141, 0.3197099864, 0.3525829911, 0.3889069855, 0.4334920049, 0.4769459963, 0.5204820037, 0.5644530058, 0.6122040153, 0.6685929894, 0.7341650128, 0.8032159805, 0.8784040213, 0.9566209912, 1.0397069454, 1.1293770075, 1.2211159468, 1.3080279827, 1.4024800062, 1.5056819916, 1.6227730513, 1.7724959850, 1.9430880547, 2.2903931141