语音断点检测(短时改进子带谱熵)

1. 音频分析

1.输出语音的切分时间点信息,时间点用毫秒表示;
2.把语音分割成多个wav文件;

端点检测:确定句子的时间起始点和终点,忽略中间少量的非语音帧,
用于语音识别。(Speech Endpoint Detection)

熵在信息论中是反映信息度量的一个量。某随机事件的随机性越大,
即不确定性越高,则熵值也越大,所以携带的信息量亦越大。
本次作业采用 谱熵法 对语音进行端点检测。

2. 谱熵法

语音断点检测(短时改进子带谱熵)_第1张图片
语音断点检测(短时改进子带谱熵)_第2张图片

3. 预处理

语音断点检测(短时改进子带谱熵)_第3张图片

4. 双门限法端点检测

语音断点检测(短时改进子带谱熵)_第4张图片

5. 实验结果

语音断点检测(短时改进子带谱熵)_第5张图片
语音断点检测(短时改进子带谱熵)_第6张图片
语音断点检测(短时改进子带谱熵)_第7张图片
语音断点检测(短时改进子带谱熵)_第8张图片
语音断点检测(短时改进子带谱熵)_第9张图片

处理 PHONE_001.wav 得到的信息
(1)time.csv: 为语音切段信息;
(2)PHONE_001_vad.wav:为语音VAD处理后,语音段合成的wav;
(3)segmentation文件夹: 为语音分段后各小段的语音;
(4)main_VAD.m: 主函数;
(5)vad.m: 为双门限法端点检测函数;
(6)houzhichuli.m: 为间歇长度判定函数;
(7)frame2time.m: 为帧对于的时间函数;

代码:
VAD
+qq:1095982611; 80% discount

你可能感兴趣的:(语音识别,matlab,信号处理,语音识别,python,人工智能,谱熵法,VAD)