最近公司需要做讯飞语音声音转文字,并将声音文件上传的功能,遇到三个坑点,记录下:
1、讯飞iOS版语音听写的录音文件,如果代码不指定存放路径,是不保存的,也取不出来的,而且指定别的沙盒路径无效,只存放在cache目录下如下:
NSString* path = @"nowSendVoice.pcm";
[_iFlySpeechRecognizer setParameter:path forKey:[IFlySpeechConstant ASR_AUDIO_PATH]];
这样获取到的路径就是var/.../.../Labrary/cache/nowSendVoice.pcm;这个就是每次语音识别完成(无论是否识别成功,都会在这个路径生成刚才听写的语音文件)后,而且截止到目前,讯飞只能生成pcm(这种格式音频文件比较大)文件格式,其他的mp3、amr都不支持,所以需要自己转换成mp3、amr等压缩过的音频文件.
2、拿到pcm文件后通过lame库(附赠lame库下载链接,直接拉到工程里,导入.h就可以用了 https://download.csdn.net/download/a787188834/10750140)转换成mp3文件时,遇到pcm文件100多k,而mp3文件只有10k左右,而且mp3文件只有2秒,或者1秒,并且全是杂音,这个我这边是因为设置的讯飞语音听写的识别后置端点时间过短,我这边原先设置的是1s,就会造成,我说了“12345”这段语音,而1秒过后,讯飞识别自动将保存的“12345”语音删除,重新开始下一段语音,这样造成了拿到的语音不是“12345”的语音,而是很短的语音,所以这个坑,只需要改下讯飞的前后置端点就好,我的前端点为1秒,后端点3秒,基本识别的延迟用户感觉不到,效果也比较好
//设置后端点
[_iFlySpeechRecognizer setParameter:instance.vadEos forKey:[IFlySpeechConstant VAD_EOS]];
//设置前端点
[_iFlySpeechRecognizer setParameter:instance.vadBos forKey:[IFlySpeechConstant VAD_BOS]];
3、就是转换后的mp3语速变快,并且我的声音明显变得尖锐了,这个主要是因为设置的采样率的问题,我设置讯飞语音采样率是16k,但是转换的时候复制别人的代码11025.0的采样率,就造成这个坑了,改下采样率,将你设置的采样率跟讯飞的采样率一至就可以,mp3一般是双声道的,所以我这里讯飞16k采样率,转换成mp3的时候是8k采样率
主要代码:使用讯飞语音听写功能的例子(讯飞语音转文字iOS使用链接 https://blog.csdn.net/a787188834/article/details/80319482 ),(讯飞语音同写完,直播间声音没有bug解决:https://blog.csdn.net/a787188834/article/details/78612861)在我的其他博文 有叙述,点链接查看就好,这里只贴获取到讯飞pcm文件,后转换mp3的代码,而且最好将转换mp3的代码放到异步线程中,不然的话,转换耗时,可能引起其他进程卡顿,比如直播间播放的时候,发言转换mp3格式,不放在异步线程转换就可能造成直播间画面的卡顿.
- (void)convertToMp3WithPcmPathStr:(NSString*)pcmPathStr newMp3PathStr:(NSString*)newMp3PathStr beforeBlock:(void (^)())beforeBlock endBlock:(void(^)())endBlock errorBlock:(void(^)())errorBlock{
NSLog(@"pcm :%@ \n wav:%@",pcmPathStr,newMp3PathStr);
if (beforeBlock) {
beforeBlock();
}
//异步处理,不然可能引起直播间某些操作卡顿
dispatch_async(dispatch_get_global_queue(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0), ^{
@try {
int read,write;
//只读方式打开被转换音频文件
FILE *pcm = fopen([pcmPathStr cStringUsingEncoding:1], "rb");
fseek(pcm, 4 * 1024, SEEK_CUR);
//删除头,否则在前一秒钟会有杂音
//只写方式打开生成的MP3文件
FILE *mp3 = fopen([newMp3PathStr cStringUsingEncoding:1], "wb");
const int PCM_SIZE = 8192;
const int MP3_SIZE = 8192;
short int pcm_buffer[PCM_SIZE * 2];
unsigned char mp3_buffer[MP3_SIZE];
//这里要注意,lame的配置要跟AVAudioRecorder的配置一致,否则会造成转换不成功
lame_t lame = lame_init();
lame_set_in_samplerate(lame, 8000.0);
//采样率
lame_set_VBR(lame, vbr_default);
lame_init_params(lame);
do {
//以二进制形式读取文件中的数据
read = (int)fread(pcm_buffer, 2 * sizeof(short int), PCM_SIZE, pcm);
if (read == 0) {
write = lame_encode_flush(lame, mp3_buffer, MP3_SIZE);
}
else {
write = lame_encode_buffer_interleaved(lame, pcm_buffer, read, mp3_buffer, MP3_SIZE);
}
//二进制形式写数据到文件中 mp3_buffer:数据输出到文件的缓冲区首地址 write:一个数据块的字节数 1:指定一次输出数据块的个数 mp3:文件指针
fwrite(mp3_buffer, write, 1, mp3);
} while (read != 0);
lame_close(lame);
fclose(mp3);
fclose(pcm);
} @catch (NSException *exception) {
NSLog(@"%@",[exception description]);
if (errorBlock) {
errorBlock();
}
} @finally {
NSLog(@"MP3生成成功!!!");
if (endBlock) {
endBlock();
}
}
});
}