几句话就能写歌,一招搞定文本生成音频

相较于AI在生成图像、视频、文本的应用,AI生成音乐领域的发展相对落后。这是由于生成高质量的音频需要对不同类型的信号、模块进行不同层级的建模,加上该领域开源的代码较少,可以说是AI生成内容中最具挑战性的领域。近日Meta 开源了一个能够生成各种音频的 PyTorch 库 ——AudioCraft
几句话就能写歌,一招搞定文本生成音频_第1张图片Demo:https://huggingface.co/spaces/facebook/MusicGen

与Llama一样,AudioCraft也是以开源的形式进行发布,目的也是为了能够让“研究人员和从业人员能够使用自己的数据集训练自己的模型,减少由于训练数据的局限性带来的偏误,推动AI生成音乐或音频的发展。


Audiocraft 是一个PyTorch库,用于音频生成的深度学习研究,包括AudioGen、EnCodec(改进版)和MusicGen三个部件。其中,MusicGen 使用 Meta 具有版权的音乐数据进行训练,基于用户输入的文本生成音乐;AudioGen 使用公共音效数据进行训练,基于用户输入的文本生成音频;EnCodec 用于压缩音频并以高保真度重建原始信号,保证生成的音乐是高质量的.
几句话就能写歌,一招搞定文本生成音频_第2张图片AudioGen基于10个公开的音效数据集训练,里面包括狗吠、汽车鸣喇叭或木地板的脚步声等各种音效。
然后是MusicGen模型,一共包含300M、1.5B、3.3B三个不同参数量的自回归Transformer。
几句话就能写歌,一招搞定文本生成音频_第3张图片MusicGen使用了20000小时的音乐来训练,包含10000条内部搜集的高质量音轨,以及ShutterStock和Pond5素材库中的数据,后两者的数据量分别为2.5万和36.5万.这些音乐数据在32kHz下被重新采样,都配有流派、BPM等基本信息和复杂一些的文字说明。
最后是EnCodec神经音频编解码器(neural audio codec)。编码器能从要压缩的音频信号中学习离散的音频token;随后,基于一个自回归语言模型,将音频信号压缩到目标大小;最后,基于解码器,就能将压缩的信号高保真重建回音频。基于这种压缩效果,音频能被压缩到比MP3格式还要小10倍。
几句话就能写歌,一招搞定文本生成音频_第4张图片
安装使用
需要Python 3.9,PyTorch 2.0.0,至少16 GB内存的GPU


环境搭建
conda create -n musicgen python=3.9
pip install 'torch>=2.0'
# Then proceed to one of the following
pip install -U audiocraft # stable release
pip install -U git+https://[email protected]/facebookresearch/audiocraft#egg=audiocraft # bleeding edge
pip install -e . # or if you cloned the repo locally

使用api生成音乐

import torchaudio
from audiocraft.models import MusicGen
from audiocraft.data.audio import audio_write

model = MusicGen.get_pretrained('melody')
model.set_generation_params(duration=8) # generate 8 seconds.
wav = model.generate_unconditional(4) # generates 4 unconditional audio samples
descriptions = ['happy rock', 'energetic EDM', 'sad jazz']
wav = model.generate(descriptions) # generates 3 samples.

melody, sr = torchaudio.load('./assets/bach.mp3')
# generates using the melody from the given audio and the provided descriptions.
wav = model.generate_with_chroma(descriptions, melody[None].expand(3, -1, -1), sr)

for idx, one_wav in enumerate(wav):
# Will save under {idx}.wav, with loudness normalization at -14 db LUFS.
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness", loudness_compressor=True)

你可能感兴趣的:(AGI,AIGC,大模型,ai)