音频采样率转换处理

一、采样率转换

1、低采样率转换成高采样率

在音频处理中,插值法是一种常用的方法,用于将采样率较低的音频数据转换为采样率较高的音频数据。插值法的基本思想是,通过已知的采样点,推算出未知的采样点。常用的插值法有线性插值法、样条插值法等。
线性插值法:

线性插值法是一种简单的插值方法,它假设采样点之间的信号是线性的,通过已知的两个采样点,可以推算出它们之间的任意一个采样点。线性插值法的优点是计算简单,速度快,适用于采样率较低的情况。缺点是它只能拟合线性信号,对于非线性信号的拟合效果不佳。

输入帧大小 = 输入采样率 / 100
输出帧大小 = 输出采样率 / 100 / ( 123 / 125 )

/**
 * 将低采样率音频数据转换为高采样率音频数据
 * @param input_samples 输入采样值数组
 * @param output_samples 输出采样值数组
 * @param input_sample_rate 输入采样率
 * @param output_sample_rate 输出采样率
 * @param num_input_samples 输入采样值数量
 * @param num_output_samples 输出采样值数量
 */
void upsample(short *input_samples, short *output_samples, int input_sample_rate, int output_sample_rate, int num_input_samples, int num_output_samples) {
    // 计算输入采样率和输出采样率的比率
    float ratio = (float) output_sample_rate / input_sample_rate;
    int i, j;
    float index, frac;
    short sample1, sample2;

    // 对于每个输出采样点,计算其在输入采样点中的位置,并使用线性插值计算采样值
    for (i = 0; i < num_output_samples; i++) {
        index = i / ratio; // 计算输出采样点在输入采样点中的位置
        j = (int) index; // 计算最接近的输入采样点的索引
        frac = index - j; // 计算插值因子

        if (j < num_input_samples - 1) {
            // 如果最接近的两个输入采样点都在输入采样值数组中,则进行线性插值
            sample1 = input_samples[j];
            sample2 = input_samples[j+1];
            output_samples[i] = (1 - frac) * sample1 + frac * sample2;
        } else {
            // 如果最接近的两个输入采样点都在输入采样值数组之外,则使用最后一个输入采样点的值
            output_samples[i] = input_samples[num_input_samples-1];
        }
    }
}

样条插值法:

样条插值法是一种更加复杂的插值方法,它假设采样点之间的信号是光滑的,通过已知的多个采样点,可以推算出它们之间的任意一个采样点。样条插值法的优点是可以更好地拟合信号的曲线,从而得到更加精确的插值结果。缺点是计算复杂,速度较慢,适用于采样率较高的情况。

#include 
#include 
#include 

#define M_PI 3.14159265358979323846

double cubic_spline_interp(double x, double *x_vals, double *y_vals, int n) {
    int i, j;
    double h[n], b[n], u[n], v[n], z[n], c[n], d[n], p, q, s, t, y;

    for (i = 0; i < n-1; i++) {
        h[i] = x_vals[i+1] - x_vals[i];
        b[i] = (y_vals[i+1] - y_vals[i]) / h[i];
    }

    u[1] = 2.0 * (h[0] + h[1]);
    v[1] = 6.0 * (b[1] - b[0]);

    for (i = 2; i < n-1; i++) {
        u[i] = 2.0 * (h[i-1] + h[i]) - (h[i-1] * h[i-1]) / u[i-1];
        v[i] = 6.0 * (b[i] - b[i-1]) - (h[i-1] * v[i-1]) / u[i-1];
    }

    z[n-1] = 0.0;
    c[n-1] = 0.0;

    for (i = n-2; i >= 1; i--) {
        z[i] = (v[i] - h[i] * z[i+1]) / u[i];
        c[i] = (z[i+1] - z[i]) / (3.0 * h[i]);
        d[i] = (b[i] - h[i] * (c[i] + z[i])) / h[i];
    }

    i = 0;
    j = n-1;

    while (j-i > 1) {
        int mid = (i + j) / 2;

        if (x > x_vals[mid]) {
            i = mid;
        } else {
            j = mid;
        }
    }

    p = x - x_vals[i];
    q = x_vals[i+1] - x;
    s = (p * p * p - h[i] * p * p) / (6.0 * h[i]);
    t = (q * q * q - h[i] * q * q) / (6.0 * h[i]);
    y = c[i] * s + c[i+1] * t + d[i] * p + d[i+1] * q;

    return y;
}

void resample_audio(double *audio_data, int orig_sr, int new_sr, int num_samples) {
    int i, j, num_new_samples;
    double *new_audio_data, *time_stamps, time_per_sample;

    time_per_sample = 1.0 / orig_sr;
    num_new_samples = (int) round(num_samples * (double) new_sr / (double) orig_sr);
    new_audio_data = (double *) malloc(num_new_samples * sizeof(double));
    time_stamps = (double *) malloc(num_new_samples * sizeof(double));

    for (i = 0; i < num_new_samples; i++) {
        time_stamps[i] = i * (1.0 / new_sr);
        new_audio_data[i] = 0.0;

        for (j = 0; j < num_samples-1; j++) {
            double start_time = j * time_per_sample;
            double end_time = (j+1) * time_per_sample;
            double start_val = audio_data[j];
            double end_val = audio_data[j+1];
            double time = time_stamps[i];

            if (time >= start_time && time <= end_time) {
                double x_vals[4] = { start_time, start_time + time_per_sample / 3.0, end_time - time_per_sample / 3.0, end_time };
                double y_vals[4] = { start_val, cubic_spline_interp(start_time + time_per_sample / 3.0, time_stamps, audio_data, num_samples), cubic_spline_interp(end_time - time_per_sample / 3.0, time_stamps, audio_data, num_samples), end_val };
                new_audio_data[i] = cubic_spline_interp(time, x_vals, y_vals, 4);
                break;
            }
        }
    }

    for (i = 0; i < num_new_samples; i++) {
        audio_data[i] = new_audio_data[i];
    }

    free(new_audio_data);
    free(time_stamps);
}
2、高采样率转换成低采样率

抽样(Downsampling):将高采样率的音频数据按照一定的比例进行抽样,得到低采样率的音频数据。抽样的方法包括平均值抽样、最大值抽样、最小值抽样等。

低通滤波(Low-pass filtering):通过低通滤波器将高采样率的音频数据中高于低采样率的频率部分滤掉,得到低采样率的音频数据。

重采样(Resampling):通过一定的数学算法,将高采样率的音频数据转换为低采样率的音频数据。常用的重采样算法包括线性插值、样条插值、多项式插值等。

奇偶抽取(Decimation):将高采样率的音频数据中的奇数或偶数样本抽出来,得到低采样率的音频数据。

你可能感兴趣的:(音视频,ffmpeg)