beam search(束搜索)与 vliterbi(维特比算法);语音识别算法vad、asr、tts

vliterbi(维特比算法)

动态规划

维特比使用场景:前后状态结果间无关系,相互独立。因而使用在HMM,CRF这样的输出场景中。是全局最优解。

beam search(束搜索)

参考:https://zhuanlan.zhihu.com/p/82829880

贪心算法

beam Search:结果之间有依赖关系。例如:翻译模型、transformer,因为输出依赖与上一个结果的输入。是局部最优解

vad 语音端点检测、语音唤醒(是否是噪音)

参考:https://www.cnblogs.com/dream-and-truth/p/10683684.html
https://zhuanlan.zhihu.com/p/431145202

语音识别算法asr

(相关算法:deepspeech2、kaldi)
参考:https://www.zhihu.com/question/35833334/answer/67944671

ASR识别流程:特征处理》声学模型》语言模型
1)声学模型(语音转音素即拼音,一般是seq2seq翻译模型,会用到beam search)
2)语言模型(这里主要是拼音转汉字,一般用lstm+crf+vliterbi查询)
————————————————————————
语音识别系统的目的,是把语音转换成文字。具体来说,是输入一段语音信号,要找一个文字序列(由词或字组成),使得它与语音信号的匹配程度最高。这个匹配程度,一般是用概率表示的。用X表示语音信号,W表示文字序列,则要求解的是下面这个问题:
在这里插入图片描述
beam search(束搜索)与 vliterbi(维特比算法);语音识别算法vad、asr、tts_第1张图片

beam search(束搜索)与 vliterbi(维特比算法);语音识别算法vad、asr、tts_第2张图片
beam search(束搜索)与 vliterbi(维特比算法);语音识别算法vad、asr、tts_第3张图片


tts文字转语音

相关算法:fastspeech2

你可能感兴趣的:(深度学习,开发语言,pyspark,spark)