零基础入门语音识别-食物语音识别Task06

本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第八场 —— 零基础入门语音识别-食物声音识别挑战赛。
baseline及用图由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning

语音识别基础与发展

语音识别的基础

语音识别全称为“自动语音识别”,Automatic Speech Recognition (ASR), 一般是指将语音序列转换成文本序列。语音识别最终是统计优化问题,给定输入序列O={O1,…,On},寻找最可能的词序列W={W1,…,Wm},即寻找使得概率P(W|O)最大的词序列。

大多数语音识别的研究都是分别求取声学和语言模型,并把很多精力放在声学模型的改进上。但后来,基于深度学习和大数据的端到端(End-to-End)方法发展起来,能将声学和语言模型融为一体,直接计算P(W|O)。

语音识别的发展

·传统机器学习,基于统计的GMM-HMM,其中HMM (隐马尔可夫模型,Hidden Markov Model)用来描述信号动态特性(即语音信号相邻帧间的相关性),GMM(高斯混合模型,Gaussian Mixed Model)用来描述HMM每个状态的静态特性(即HMM每个状态下语音帧的分布规律);

·与深度学习结合,DNN-RNN、DNN-HMM,可引入LSTM(长短期记忆网络,Long Short-Term Memory),DNN(深度学习网络,Deep Neural Networks),RNN(循环神经网络,Recurrent Neural Network);

·迁移学习(Transfer learning)算法、以及注意力(Attention)机制的基于语音频谱图的CNN(卷积神经网络,Convolutional Neural Network)模型的兴起。

语音识别方法

语音识别系统在长久的发展中形成了完整的流程(从前端语音信号处理,到声学模型和语言模型的训练,再到后端的解码),而深度学习方法较多地作用于声学模型和语言模型部分(或者端对端模型)。
Task05的学习从“声学模型”、“语言模型”、“端到端模型”等模块简要介绍语音识别的基本实现方法。

补充学习:集成学习

面对一个机器学习问题,有一种策略的核心,是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中的每个单独的分类器称为基分类器。​集各家之长,如同贤明的君主广泛地听取众多谋臣的建议,然后综合考虑,得到最终决策。 俗语说“三个臭皮匠,顶一个诸葛亮”,基分类器就类似于“臭皮匠”,而之前介绍的很多复杂模型可以认为是“诸葛亮”。即使单一一个“臭皮匠”的决策能力不强,我们有效地把多个“臭皮匠”组织结合起来,其决策能力很有可能超过“诸葛亮”。而如何将这些基分类器集成起来,就是本章要讨论的重点。集成学习不仅在学界的研究热度不减,在业界和众多机器学习竞赛中也有非常成功的应用。例如在Kaggle竞赛中所向披靡的XGBoost,就是成功应用集成学习思想的一个例子。

集成学习的步骤

虽然集成学习的具体算法和策略各不相同,但都共享同样的基本步骤。

​ 集成学习一般可分为以下3个步骤。​
(1)找到误差互相独立的基分类器。​
(2)训练基分类器。​
(3)合并基分类器的结果。

从减小方差和偏差的角度解释Boosting和Bagging

​ Bagging能够提高弱分类器性能的原因是降低了方差,Boosting能够提升弱分类器性能的原因是降低了偏差。

学习心得

历时接近两星期的组织学习差不多结束了,因为没有对Python的深入学习,所以在学习中,有些代码数据基本看不懂,但是对于音频的处理、特征提取,具体的卷积神经网络,这一类的知识了解了不少。其中其中,在这次学习中,最最重要的一点,便是接触到了天池的比赛,还有在直播中认识了不少带队老师,确定了未来的努力方向以及方法,了解到了比赛的步骤。这次的课程学完之后,需要再对Python以及模型的搭建进行进一步的学习,以便在下一次的学习中能跟上进度。

参考资料

Task5 食物声音识别-模型改进与优化.
Task6 拓展阅读:语音识别基础知识介绍

你可能感兴趣的:(零基础语音识别)