智能语音对话处理过程

  • ASR(Automatic Speech Recognition):语音识别,听见你说的是什么,转化成文字。
  • NLU(Natural Language Understanding):自然语言理解,知道你想干什么,理解你话中的意图。
  • NLG(Natural Language Generation):自然语言生成,输出内容发音标注。
  • TTS(Text To Speech):语音合成,机器合成输出语音。

智能语音对话处理过程_第1张图片

  • 声学模型

发声的基本音素状态和概率,尽量获得不同人、不同年纪、性别、口音、语速的发声语料,同时尽量采集多种场景安静的,嘈杂的,远距离的发声语料生成声学模型。为了达到更好的效果,针对不同的语言,不同的方言会用不同的声学模型,在提高精度的同时降低计算量。

  • 语言模型

单词和语句的概率,使用大量的文本训练出来。如果模型中只有两句话“今天星期一”和“明天星期二”,那我们就只能识别出这两句,而我们想要识别更多,只需要涵盖足够的语料就行,不过随之而来的就是模型增大,计算量增大。所以我们实际应用中的模型通常是限定应用域的,同比如智能家居的,导航的,智能音箱的,个人助理的,医疗的等等,降低计算量的同时还能提高精度,

  • 词汇模型

针对语言模型的补充,语言词典和不同的发音标注。比如定期更新的地名,人名,歌曲名称,热词,某些领域的特殊词汇等等。

你可能感兴趣的:(自然语言处理,神经网络,机器学习,自动驾驶,人工智能)