【nlp李宏毅】笔记

一,六种模型

输入一段声音------>输出文本、声音、判断类别

【nlp李宏毅】笔记_第1张图片

 

输入语言判断类别:

【nlp李宏毅】笔记_第2张图片 

二、speech recognition声音识别

【nlp李宏毅】笔记_第3张图片

【nlp李宏毅】笔记_第4张图片

三个主要语音辨识会议中,使用最多的token:

【nlp李宏毅】笔记_第5张图片

 语音辨识+xxxx:

【nlp李宏毅】笔记_第6张图片

 声音特征:

【nlp李宏毅】笔记_第7张图片

 【nlp李宏毅】笔记_第8张图片

 【nlp李宏毅】笔记_第9张图片

 物种语音识别模型

【nlp李宏毅】笔记_第10张图片

        LAS(Listen,Attend,and Spell )

【nlp李宏毅】笔记_第11张图片

 【nlp李宏毅】笔记_第12张图片

 encoder 可以采用rnn,cnn

【nlp李宏毅】笔记_第13张图片

 【nlp李宏毅】笔记_第14张图片

  1,获取attention两种方式:

z0关键字和每一个资料库(encoder的输出)h1、h2.。。。都分别输入一个叫match的function计算出一个skeler即一个数值

 

常用的match  function方式:

【nlp李宏毅】笔记_第15张图片

【nlp李宏毅】笔记_第16张图片

 2,spell

【nlp李宏毅】笔记_第17张图片

你可能感兴趣的:(编码,自然语言处理,机器学习,人工智能)