tensorflow 歌曲题材分类

librosa音频处理

Librosa是一个用于音频、音乐分析、处理的python工具包,一些常见的时频处理、特征提取、绘制声音图形等功能应有尽有,功能十分强大.

加载音频 

import librosa
x , sr = librosa.load('music.au')
#歌曲的时长
d = librosa.get_duration(y=x, sr=22050, S=None, n_fft=2048, hop_length=512, center=True)

print('数据的维度',x.shape)
print('歌曲的频率',sr)
print('歌曲的时间',d)

可以看到音频信号是一维信号。 

音频文件的保存

import numpy as np
import librosa
import matplotlib.pyplot as plt
import librosa.display
sr = 400 # sample rate  一秒采样400个点
T = 1.0    # seconds
t = np.linspace(0, T, int(T*sr), endpoint=False) # time variable
x = 0.5*np.sin(2*np.pi*24*t)# pure sine wave at 24 Hz

#保存音频文件
librosa.output.write_wav('aa.wav', x, sr)
plt.figure(figsize=(14, 5))
librosa.display.waveplot(x,sr=sr)
plt.show()

tensorflow 歌曲题材分类_第1张图片

音频信号的可视化

波形

import librosa
import matplotlib.pyplot as plt
import librosa.display
x , sr = librosa.load('music.au')

plt.figure(figsize=(14, 5))
librosa.display.waveplot(x, sr=sr)
plt.show()

tensorflow 歌曲题材分类_第2张图片

频谱图

频谱图(Spectogram)是声音频率随时间变化的频谱的可视化表示,是给定音频信号的频率随时间变化的表示。'.stft' 将数据转换为短期傅里叶变换。STFT转换信号,以便我们可以知道给定时间给定频率的幅度。使用 STFT,我们可以确定音频信号在给定时间播放的各种频率的幅度。

Spectrogram特征是目前在语音识别和环境声音识别中很常用的一个特征,由于CNN在处理图像上展现了强大的能力,使得音频信号的频谱图特征的使用愈加广泛,甚至比MFCC使用的更多。

import librosa
import matplotlib.pyplot as plt
import librosa.display
x , sr = librosa.load('music.au')
print('x shape',x.shape)
X = librosa.stft(x)
print('X shape',X.shape)
Xdb = librosa.amplitude_to_db(abs(X))
print('Xdb shape',Xdb.shape)
plt.figure(figsize=(14, 5))
librosa.display.specshow(Xdb, sr=sr, x_axis='time', y_axis='hz')
plt.colorbar()
plt.show()

 

 音频信号特征提取

过零率 Zero Crossing Rate

过零率(zero crossing rate)是一个信号符号变化的比率,即,在每帧中,语音信号从正变为负或从负变为正的次数。 这个特征已在语音识别和音乐信息检索领域得到广泛使用,通常对类似金属、摇滚等高冲击性的声音的具有更高的价值。

import librosa
import matplotlib.pyplot as plt
import librosa.display
x , sr = librosa.load('music.au',sr=8000)

n0 = 9000
n1 = 9100
# plt.figure(figsize=(14, 5))
# plt.plot(x[n0:n1])
# plt.grid()
# plt.show()
zero_crossings=librosa.zero_crossings(x[n0:n1],pad=False)
print('在n0-n1之间过零率',sum(zero_crossings)/100)

  

光谱质心 Spectral Centroid

频谱质心(Spectral Centroid)指示声音的“质心”位于何处,并按照声音的频率的加权平均值来加以计算。 假设现有两首歌曲,一首是蓝调歌曲,另一首是金属歌曲。现在,与同等长度的蓝调歌曲相比,金属歌曲在接近尾声位置的频率更高。所以蓝调歌曲的频谱质心会在频谱偏中间的位置,而金属歌曲的频谱质心则靠近频谱末端。

梅尔频率倒谱系数 MFCC

信号的Mel频率倒谱系数(MFCC)是一小组特征(通常约10-20),其简明地描述了频谱包络的整体形状,它模拟了人声的特征。

import librosa
import matplotlib.pyplot as plt
import librosa.display
x , sr = librosa.load('music.au',sr=8000)

mfccs = librosa.feature.mfcc(x, sr=sr)
print(mfccs.shape)
librosa.display.specshow(mfccs, sr=sr, x_axis='time')
plt.show()

tensorflow 歌曲题材分类_第3张图片

歌曲题材分类

 特征提取

import librosa
import numpy as np
import os
import glob

genres = 'blues classical country disco hiphop jazz metal pop reggae rock'.split()

data_set = []
label_set = []

label2id = {genre: i for i, genre in enumerate(genres)}
id2label = {i: genre for i, genre in enumerate(genres)}

print(label2id)

for g in os.listdir('./genres'):
    print(g)
    for filename in glob.glob('./genres/{}/*.au'.format(g)):
        y, sr = librosa.load(filename, mono=True, duration=30)
        ##提取特征
        chroma_stft = librosa.feature.chroma_stft(y=y, sr=sr)
        rmse = librosa.feature.rms(y=y)
        spec_cent = librosa.feature.spectral_centroid(y=y, sr=sr)
        spec_bw = librosa.feature.spectral_bandwidth(y=y, sr=sr)
        rolloff = librosa.feature.spectral_rolloff(y=y, sr=sr)
        zcr = librosa.feature.zero_crossing_rate(y)
        mfcc = librosa.feature.mfcc(y=y, sr=sr)

        to_append = f'{np.mean(chroma_stft)} {np.mean(rmse)} {np.mean(spec_cent)} {np.mean(spec_bw)} {np.mean(rolloff)} {np.mean(zcr)}'

        for e in mfcc:
            to_append += f' {np.mean(e)}'

        data_set.append([float(i) for i in to_append.split(" ")])
        label_set.append(label2id[g])

data=np.array(data_set)
label=np.array(label_set)
print('数据的维度',data.shape)
print('标签',label.shape)
np.savez('data.npz',data,label)

tensorflow 歌曲题材分类_第4张图片

模型的搭建

from tensorflow.keras import models
from tensorflow.keras.layers import Dense, Dropout,Conv1D
import tensorflow as tf

def creat_model():
    model = models.Sequential([
        ])
    model.add(Dense(26, activation='relu', input_shape=(26,)))
    model.add(Dropout(0.3))
    model.add(Dense(10, activation='softmax'))
    return model

if __name__=='__main__':
    model = creat_model()
    model.summary()
    input = tf.Variable(tf.random.normal([26]))
    input=tf.reshape(input,(1,26))
    output = model(input)
    print('输出数据的维度',output.shape)

tensorflow 歌曲题材分类_第5张图片

模型的训练

from sklearn.preprocessing import StandardScaler
import numpy as np
from sklearn.model_selection import train_test_split
from model import creat_model
import tensorflow as tf
import matplotlib.pyplot as plt

#导入数据
data=np.load('data.npz')['arr_0']
label=np.load('data.npz')['arr_1']
#归一化
scaler = StandardScaler()
X = scaler.fit_transform(np.array(data, dtype=float))
print('数据集的维度',X.shape)
#独热编码
label=tf.one_hot(label,10)
print('label shape',label.shape)
#划分训练集,测试集
X_train, X_test, label_train, label_test = train_test_split(X, np.array(label), test_size=0.2)
print('训练集',X_train.shape)
print('训练集标签',label_train.shape)

#模型的构建
model=creat_model()
print('打印模型')
model.summary()

#编译模型
model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])
#模型的训练
history=model.fit(X_train,label_train,epochs=500,batch_size=64,validation_data=(X_test,label_test))
acc = history.history['accuracy']
val_acc = history.history['val_accuracy']
loss = history.history['loss']
val_loss = history.history['val_loss']

plt.subplot(1, 2, 1)
plt.plot(acc, label='Training Accuracy')
plt.plot(val_acc, label='Validation Accuracy')
plt.title('Training and Validation Accuracy')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(loss, label='Training Loss')
plt.plot(val_loss, label='Validation Loss')
plt.title('Training and Validation Loss')
plt.legend()
plt.savefig('loss.png')
plt.show()

#模型的保存
model.save('model.h5')

#模型的评估
test_loss,test_acc=model.evaluate(X_test,label_test)
print('测试误差',test_loss)
print('测试准确率',test_acc)

tensorflow 歌曲题材分类_第6张图片

 tensorflow 歌曲题材分类_第7张图片

 

参考文献:

librosa处理音频信号_huailiang2010的博客-CSDN博客_librosa 

你可能感兴趣的:(tensorflow,tensorflow,python,人工智能)