2020-04-02李宏毅深度学习与人类语言处理笔记2(DLHLP2020-note2)-

speech recognition

声音信号是一串向量,文本是一串token


声音到文字

可能输出的token

  • phoneme:发音的基本单位
    lexicon记录了文字到发音的关联


    发音到单词

    坏处:需要lexicon,发音和lexicon都需要语音专家才能确定。

  • grapheme:书写的基本单位


    image.png

    好处:不需要lexicon;训练集中没出现过的不影响测试集。
    挑战:对应关系比较复杂;需要自己学习出grapheme。

  • word


    image.png

    有的语音词太多
  • morpheme:能够表达意思的最小结构


    morpheme作为输出的token
  • bytes


    image.png
  • 其他想法


    image.png

可能的输入

image.png

image.png
image.png

image.png

image.png

image.png

2019年最常用的model

李宏毅DLHLP2020-overview1

你可能感兴趣的:(2020-04-02李宏毅深度学习与人类语言处理笔记2(DLHLP2020-note2)-)