李宏毅《Speech Recognition》学习笔记1 - 语音识别概念

最近在学习语音识别的知识,发现李宏毅老师今年也出了相应的视频,相应的课件可以从下面的位置获取:http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html

Youtube视频:
https://youtu.be/AIKu43goh-8
https://youtu.be/BdUeBa6NbXA
https://youtu.be/CGuLuBaLIeI
课件:
http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20%28v12%29.pdf

语音识别概念

概述

李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第1张图片
输出的最小单位,可以有以下几种方式:
李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第2张图片
Phoneme是音素,可以理解为一种注音符或音标。这种方式依赖Lexicon,不同语言的Lexicon都会有差异。Lexicon是词汇与因素之间的对应关系。

Grapheme是书写的最小单位,如英文的26个字母,中文的文字等,这就不需要依赖语言学专家的Lexicon了。

李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第3张图片
Word是常见的词,不同语言中,可能出现的词会有很大的差异,有些甚至没法枚举。

Morpheme是介于Grapheme和Word之间的,有一定的含义。

李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第4张图片
统计了2019年,100+篇论文中,使用的token占比,如下:
李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第5张图片

语音特征

下面是常用的特征提取过程:
frame是指包含N个采样点的小片段,一般控制在25ms-35ms,以16KHz的采样率来说,每毫秒包含16个采样点,那么,25ms的时间片段中,包含400个sample point。
frame移动的step为10ms,所以,1s的语音片段,会有100个frames.
李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第6张图片
目前,常见的feature有MFCC和filter bank output。
如果想了解更多的信息,可以参考:http://ocw.aca.ntu.edu.tw/ntu-ocw/ocw/cou/104S204/7

李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第7张图片
2019年论文中统计的语音特征使用比例如下:
李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第8张图片

语音数据

常见的语音数据库,以及相应的语料长度。
李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第9张图片

常见模型

李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第10张图片
论文中的模型占比
李宏毅《Speech Recognition》学习笔记1 - 语音识别概念_第11张图片

你可能感兴趣的:(语音识别学习笔记)