VAD算法

VAD算法

  1. 基于信噪比(snr)的vad
  2. 基于DNN的vad
  3. 基于能量Energy的vad
  4. 基于Decoder的Vad
  5. 混合DNN和Decoder的Vad

基于信噪比的VAD算法

首先假设初始时的人是没有说话的,计算12帧初始声音的平均能量作为baseline,这个能量相当于底噪。

若进入的一帧的rms大于这个baseline,认为有人声,否则认为无人声。

初始时,连续n秒无人声,认为用户没有说话;连续3帧有声音,认为开始说话;说话后,又连续n秒没有声音,认为用户停止说话。

这就是几个状态处理,用个简单的状态机即可,switch, case。

用一个窗户来计算有声和无声的帧。

如何计算音量的呢?先计算一帧的rms,再10log(S/N)

private float getRmsdB(float rms) {
    if (mNoiseLevel < rms) {
        mNoiseLevel = (0.999f * mNoiseLevel) + (0.001f * rms);
    } else {
        mNoiseLevel = (0.95f * mNoiseLevel) + (0.05f * rms);
    }
    if (((double) mNoiseLevel) <= 0.0d || ((double) (rms / mNoiseLevel)) <= 1.0E-6d) {
        return -120.0f;
    }
    float originalDb = 10.0f * ((float) Math.log10((double) (rms / mNoiseLevel)));
    // Clamp db to [0, 60]
    return Math.min(Math.max(0.0f, originalDb), 60.0f);
}

private float rms(byte[] buffer, int offset, int length) {
    float sum = 0.0f;
    if (length == 0) {
        throw new IllegalArgumentException();
    }
    for (int i = offset; i < offset + length; i += 2) {
        short sample = (short) 0;
        for (int j = 0; j < 2; j++) {
            sample = (short) (((buffer[i + j] & 255) << (j * 8)) | sample);
        }
        sum += (float) (sample * sample);
    }
    return (float) Math.sqrt((double) (sum / ((float) (length / 2))));
}

基于DNN的vad算法

需要进一步理解

窗口平滑

需要去做一个信号处理,即窗口平滑,才能使用到工程里面去。这种又叫Endpointer检测。
比如一个窗口有90%的信号都是silence,则认为silence开始。因为语音信号相对比较平滑,所以可以采用这种方式过滤一些坏点。

你可能感兴趣的:(信号处理)