这款Python音频处理工具功能强大,支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作,还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。
使用pip安装。
pip install yeaudio -U -i https://pypi.tuna.tsinghua.edu.cn/simple
(推荐) 使用源码安装。
git clone https://github.com/yeyupiaoling/YeAudio.git
cd YeAudio
pip install . -i https://pypi.tuna.tsinghua.edu.cn/simple
读取普通音频:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file('data/test.wav')
print(f'音频长度:{audio_segment.duration}')
print(f'音频采样率:{audio_segment.sample_rate}')
print(f'音频数据:{audio_segment.samples}')
读取视频中的音频:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file('data/test.mp4')
print(f'音频长度:{audio_segment.duration}')
print(f'音频采样率:{audio_segment.sample_rate}')
print(f'音频数据:{audio_segment.samples}')
def
__init__
(self, samples, sample_rate):
创建单通道音频片段实例
参数:
示例代码:
import soundfile
from yeaudio.audio import AudioSegment
samples, sample_rate = soundfile.read("data/test.wav")
audio_segment = AudioSegment(samples, sample_rate)
print(audio_segment.samples)
def
__eq__
(self, other):
返回两个对象是否相等
参数:
示例代码:
from yeaudio.audio import AudioSegment
audio_segment1 = AudioSegment.from_file("data/test.wav")
audio_segment2 = AudioSegment.from_file("data/test.wav")
print(audio_segment1 == audio_segment2)
def
__ne__
(self, other):
返回两个实例是否不相等
参数:
示例代码:
from yeaudio.audio import AudioSegment
audio_segment1 = AudioSegment.from_file("data/test.wav")
audio_segment2 = AudioSegment.from_file("data/test.wav")
print(audio_segment1 != audio_segment2)
def
__str__
(self):
返回该音频的信息
示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
print(str(audio_segment))
@classmethod
def from_file(cls, file):
从音频文件创建音频段,支持wav、mp3、mp4等多种音频格式
参数:
返回:
AudioSegment
:音频片段实例示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file('data/test.wav')
print(audio_segment.samples)
@classmethod
def slice_from_file(cls, file, start=None, end=None):
只加载一小段音频,而不需要将整个文件加载到内存中,这是非常浪费的。
参数:
返回:
AudioSegment
:AudioSegment输入音频文件的指定片的实例异常:
ValueError
:如果开始或结束的设定不正确,则会抛出ValueError异常示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.slice_from_file('data/test.wav', start=1, end=2)
print(audio_segment.samples)
@classmethod
def from_bytes(cls, data):
从wav格式的音频字节创建音频段
参数:
返回:
AudioSegment
:音频片段实例示例代码:
from yeaudio.audio import AudioSegment
with open('data/test.wav', 'rb') as f:
data = f.read()
audio_segment = AudioSegment.from_bytes(data)
print(audio_segment.samples)
@classmethod
def from_pcm_bytes(cls, data, channels=1, samp_width=2, sample_rate=16000):
从包含无格式PCM音频的字节创建音频
参数:
返回:
AudioSegment
:音频片段实例示例代码:
from yeaudio.audio import AudioSegment
with open('data/test.wav', 'rb') as f:
data = f.read()
audio_segment = AudioSegment.from_pcm_bytes(data[44:], channels=1, samp_width=2, sample_rate=16000)
print(audio_segment.samples)
@classmethod
def from_ndarray(cls, data, sample_rate=16000):
从numpy.ndarray创建音频段
参数:
返回:
AudioSegment
:音频片段实例示例代码:
import soundfile
from yeaudio.audio import AudioSegment
samples, sample_rate = soundfile.read('data/test.wav')
audio_segment = AudioSegment.from_ndarray(samples, sample_rate=16000)
print(audio_segment.samples)
@classmethod
def concatenate(cls, *segments):
将任意数量的音频片段连接在一起
参数:
返回:
AudioSegment
:音频片段实例异常:
ValueError
:如果音频实例列表为空或者采样率不一致,则会抛出ValueError异常TypeError
:如果输入的片段类型不一致,则会抛出TypeError异常示例代码:
from yeaudio.audio import AudioSegment
audio_segment1 = AudioSegment.from_file('data/test.wav')
audio_segment2 = AudioSegment.from_file('data/test.wav')
audio_segment = AudioSegment.concatenate(audio_segment1, audio_segment2)
print(audio_segment.samples)
@classmethod
def make_silence(cls, duration, sample_rate):
创建给定持续时间和采样率的静音音频段
参数:
返回:
AudioSegment
:给定持续时间的静音AudioSegment实例示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.make_silence(duration=10, sample_rate=16000)
print(audio_segment.samples)
def to_wav_file(self, filepath, dtype=‘float32’):
保存音频段到磁盘为wav文件
参数:
异常:
TypeError
:如果类型不支持,则会抛出TypeError异常示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.to_wav_file("output.wav")
def superimpose(self, other):
将另一个段的样本添加到这个段的样本中(以样本方式添加,而不是段连接)。
参数:
异常:
ValueError
:如果两段音频采样率或者长度不一致,则会抛出ValueError异常TypeError
:如果两个片段的类型不匹配,则会抛出TypeError异常示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
other_segment = AudioSegment.from_file("data/test.wav")
audio_segment.superimpose(other_segment)
def to_bytes(self, dtype=‘float32’):
创建包含音频内容的字节字符串
参数:
返回:
str
:包含音频内容的字节字符串示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
print(audio_segment.to_bytes())
def to(self, dtype=‘int16’):
类型转换
参数:
返回:
str
:转换后的数据示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
print(audio_segment.to(dtype='int16'))
def gain_db(self, gain):
对音频施加分贝增益。
参数:
示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.gain_db(gain=-20)
print(audio_segment.samples)
def change_speed(self, speed_rate):
通过线性插值改变音频速度。
参数:
异常:
ValueError
:如果速度速率小于或等于0,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.change_speed(speed_rate=1.2)
print(audio_segment.samples)
def normalize(self, target_db=-20, max_gain_db=300.0):
将音频归一化,使其具有所需的有效值(以分贝为单位)。
参数:
异常:
ValueError
:如果所需的增益大于max_gain_db,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.normalize(target_db=-20)
print(audio_segment.samples)
def resample(self, target_sample_rate, filter=‘kaiser_best’):
按目标采样率重新采样音频。
参数:
示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.resample(target_sample_rate=8000)
print(audio_segment.samples)
def pad_silence(self, duration, sides=‘both’):
在这个音频样本上加一段静音。
参数:
异常:
ValueError
:如果sides的值不是beginning、end或both,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.pad_silence(duration=2, sides='end')
print(audio_segment.samples)
def pad(self, pad_width, mode=‘wrap’, **kwargs):
在这个音频样本上加一段音频,等同numpy.pad。
参数:
示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.pad(pad_width=(0, 16000 * 2), mode='wrap')
print(audio_segment.samples)
def shift(self, shift_ms):
音频偏移。如果shift_ms为正,则随时间提前移位;如果为负,则随时间延迟移位。填补静音以保持持续时间不变。
参数:
异常:
ValueError
:如果shift_ms的绝对值大于音频持续时间,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.shift(shift_ms=1000)
print(audio_segment.samples)
def subsegment(self, start_sec=None, end_sec=None):
在给定的边界之间切割音频片段。
参数:
异常:
ValueError
:如果start_sec或end_sec的值越界,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.subsegment(start_sec=1, end_sec=3)
print(audio_segment.samples)
def random_subsegment(self, duration):
随机剪切指定长度的音频片段。
参数:
异常:
ValueError
:如果片段长度大于原始段,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.random_subsegment(duration=2)
print(audio_segment.samples)
def reverb(self, reverb_file, allow_resample=True):
使音频片段混响。
参数:
异常:
ValueError
:如果两个音频段之间的采样率不匹配,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.reverb(reverb_file='data/reverb.wav')
print(audio_segment.samples)
def reverb_and_normalize(self, reverb_file, allow_resample=True):
使音频片段混响,然后归一化。
参数:
异常:
ValueError
:如果两个音频段之间的采样率不匹配,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.reverb_and_normalize(reverb_file='data/reverb.wav')
print(audio_segment.samples)
def add_noise(self, noise_file, snr_dB, max_gain_db=300.0, allow_resample=True):
以特定的信噪比添加给定的噪声段。如果噪声段比该噪声段长,则从该噪声段中采样匹配长度的随机子段。
参数:
异常:
ValueError
:如果两个音频段之间的采样率不匹配,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.add_noise(noise_file='data/noise.wav', snr_dB=10)
print(audio_segment.samples)
def crop(self, duration, mode=‘eval’):
根据模式裁剪指定的音频长度,如果为’train’模式,则随机剪切,否则从末尾剪切。
参数:
异常:
ValueError
:如果两个音频段之间的采样率不匹配,则引发ValueError示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
audio_segment.crop(duration=3, mode='train')
print(audio_segment.samples)
def vad(self, return_seconds=False, **kwargs):
创建给定持续时间和采样率的静音音频段
参数:
返回:
List[Dict]
:语音活动时间戳列表示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file("data/test.wav")
speech_timestamps = audio_segment.vad(return_seconds=True)
for speech_timestamp in speech_timestamps:
print(speech_timestamp)
@property
def samples(self):
返回音频样本
返回:
float
:返回音频样本示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file('data/test.wav')
print(audio_segment.samples)
@property
def sample_rate(self):
返回音频采样率
返回:
int
:返回音频采样率示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file('data/test.wav')
print(audio_segment.sample_rate)
@property
def num_samples(self):
返回样品数量
返回:
int
:返回样品数量示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file('data/test.wav')
print(audio_segment.num_samples)
@property
def duration(self):
返回音频持续时间,以秒为单位
返回:
float
:返回音频持续时间,以秒为单位示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file('data/test.wav')
print(audio_segment.duration)
@property
def rms_db(self):
返回以分贝为单位的音频均方根能量
返回:
float
:返回以分贝为单位的音频均方根能量示例代码:
from yeaudio.audio import AudioSegment
audio_segment = AudioSegment.from_file('data/test.wav')
print(audio_segment.rms_db)