零基础入门语音识别-食物声音识别Task1

零基础入门语音识别-食物声音识别

本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零零基础入门语音识别-食物声音识别挑战赛。
baseline由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning

Task1 食物声音识别-Baseline-CNN

环境要求
TensorFlow的版本:2.0 +
keras
sklearn
librosa

对CNN提取音频特征的理解.

对CNN提取音频特征的理解

作为第一次参赛的新人,在 Task1中对CNN(卷织神经网络)用来做声音有了新的了解。首次打卡就来说说我对使用CNN提取音频特征的理解。
CNN在图像特征处理的方式有着其独特的优势,而CNN在处理图像上的优秀能力也同样可以运用到语音识别中,在一段音频里,我们首先用Python的音频处理库Librosa提取声音信号的梅尔顿谱特征。然后将提取后的音频当作图谱进行处理从而达到识别语音的目的。
零基础入门语音识别-食物声音识别Task1_第1张图片
在来根据上图谈谈对池化层的个人理解,池化层将前面卷积层所提取到的特征值进一步细化压缩,突出我们所想要的目标特征,提高识别准确性。
零基础入门语音识别-食物声音识别Task1_第2张图片

你可能感兴趣的:(1,语音识别)