李宏毅NLP课程学习笔记(2)Speech Recognition(1/7)

基本概念

  • Phoneme: a unit of sound,语音的基本单位
  • Lexicon: word to phonemes,一个词典
  • Grapheme: smallest unit of writing system, 书写的基本单位
  • Morpheme: the smallest meaning unit,可以传达意思的最小单位
  • Acoustic Feature:对原声特征的处理:length T,描述音频的横轴/时间轴;dimension d,描述音频的纵轴
  • frame:T一般以25ms为单位,称为一个frame(音框),用一个向量表示;d的选择:400 sample points(16KHz),39-dim MFCC(过去的主流),80-dim filter bank output(目前的主流);但是每次frame只在音轨上运动10ms,因此1s的音频会生成100个frame(1秒=1000毫秒)
  • 训练集常用语聊库(英文)(带有正确含义的标签):TIMIT,4hr;WSJ,80hr;Switchboard,300hr;Librispeech,960hr(免费);Fisher,2000hr
  • 五个常用模型:LAS(40%的paper使用,2019)、CTC(24%)、RNN-T(10%,可能是未来的趋势)、Neural Transducer、MoChA;LAS+CTC(11%)

你可能感兴趣的:(深度学习,机器学习,NLP,人工智能,语音识别,自然语言处理,深度学习)