2020-02-23 Cygwin使用speech-vad-demo

用途:百度rest api接口有60s的音频时长限制,使用此demo可以粗略地按照静音切分音频。
上述示例中音频文件尽可能依次满足如下条件:
最短10s,最长 60s。
每个音频文件的最后的静音500ms,
每个音频文件的开始的静300ms。

跳转github-speech-vad-demo

Cygwin环境搭建(可用于最小化安装的Cygwin)

#下载cmake make gcc g++等编译软件
apt-cyg install make cmake gcc-core gcc-g++

各个软件版本号:


image.png

获得可执行文件

#对下载文件解压缩,找到build_and_run.sh
#自带测试文件,直接执行就好
sh build_and_run.sh

尚未执行sh build_and_run.sh,文件列表如下:

image.png

sh build_and_run.sh执行结束,文件列表如下:

image.png

使用vad-demo.exe就可以处理文件了:

image.png

配置

要处理的文件,生成的文件保存的目录,在src文件夹下的main.c文件中:

image.png

生成的文件

生成的文件保存在:/speech-vad-demo-master/output_pcm

16k_1.pcm_0-12989_A.pcm // 第0-12989毫秒的音频,
16k_1.pcm_33730-47389_A.pcm // 第33730-47389毫秒的音频
16k_1.pcm_0-4049_A.pcm // A 表示此段有声音,不是完全的静音
···
16k_1.pcm_114060-121689_I.pcm // I 表示此段都是静音

你可能感兴趣的:(2020-02-23 Cygwin使用speech-vad-demo)