python三种常见的读取语音方法的速度对比

python 读取语音文件时,常用的无非以下三种方式,但是在我们数据量变的很大是,不同的读取方式之间的性能差异就会被进一步放大,于是本文着重对比了librosa、soundfile、wavfile三种方式的在重复读取一万次某个文件所耗时间的差异,为确保实验结果的可比性,每种方式读取出的语音序列值均一致。具体数值,在下方程序结果中已经标示。

# -*- coding: utf-8 -*-
"""
# @Time : 2022/12/29 17:27
# @Author : WangYK
# @Site : 
# @File : check_speed.py.py
# @Software: PyCharm
# @Desc:    本文件实现对比三种常见的都区语音方式的速度区别

"""
import librosa
import soundfile as sf
from scipy.io import wavfile
from time import process_time
from tqdm import tqdm


# 读取方式1
def librosa_loa(filename):
    wav_data,fs=librosa.load(filename,sr=16000)     #float64类型
    #wav_data:[-0.03305054 -0.03561401 -0.03814697]
    #注意这里如果添加sr=None的话默认使用音频的原始采样频率,速度还可以,
    #如果不添加sr这一项,则默认修改采样率为22050,此时如果默认的采样率不等于22050,速度就会慢很多
    return wav_data,fs

#读取方式2
def soundfile_load(filename):
    wav_data,fs=sf.read(filename)                   #float64类型
    #wav_data:[-0.03305054 -0.03561401 -0.03814697]
    return wav_data

#读取方式3
def wavfile_load(filename):
    fs,wav_data=wavfile.read(filename)              #int16类型
    #转为float64类型
    wav_data=wav_data/(32768)
    #wav_data:[-0.03305054 -0.03561401 -0.038114697]
    return wav_data

if __name__ == '__main__':
    filename = ['01.wav']
    filenames = filename * 10000   #重复1万遍,用于对比各个方式耗时
    for filename in tqdm(filenames):
        wav_data=soundfile_load(filename)           # soundfile  读取耗时   1.7031s
        wav_data=librosa_loa(filename)              # librosa    读取耗时   416.23s
        wav_data=wavfile_load(filename)             # wavfile    读取耗时   1.6875s

    print('当前程序耗时:{:.9}s'.format(process_time()))

实验结果分析

  1. 最快的方式为 wavfile 的方式,一万次语音读取仅耗时 1.6875s
  2. 其次是 soundfile 的方式,一万次语音读取耗时 1.7031s ,与wavfile相差不大
  3. 最慢的为 librosa 的方式,一万次语音耗时 416s ,与其他两种方式对比,巨慢。

但是还需要注意的一点就是 soundfile的方式读取,时长会受到版本限制,例如numba等,此外如果在linux环境下进行实验,可能会出现 OSError: sndfile library not found,如果你是在内网或者连接网络不方便的话,可以选择wavfile方式读取语音文件吧。

本期内容就介绍到这啦~~,我后面遇到问题会再和大家分享的。

你可能感兴趣的:(语音信号处理,开发基础工具及配置,数字信号处理,python,开发语言,pycharm)