AI音箱工作原理浅析

智能音箱工作原理

→1、识别人说的话(ASR ,Automatic Speech Recognition 自动语音识别技术)

→2、对识别的内容提取信息并处理(NLP,Natural Language Processing自然语言处理 )

→3、把处理结果发出声音给人(TTS,TextToSpeech 从文本到语音技术)

下面对三步流程中的技术的ASR、NLP、TTS做下概念普及

  • ASR:自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。语音识别系统的性能大致取决于以下4类因素:

    1. 识别词汇表的大小和语音的复杂性

    2. 语音信号的质量

    3. 单个说话人还是多说话人

    4. 硬件

  • NLP: 自然语言处理(NLP,Natural Language Processing) 是研究人与计算机交互的语言问题的一门学科一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

    按照技术实现难度的不同,这类系统可以分成简单匹配式、模糊匹配式和段落理解式三种类型。

    1. 简单匹配式辅导答疑系统主要通过简单的关键字匹配技术来实现对学生提出问题与答案库中相关应答条目的匹配,从而做到自动回答问题或进行相关辅导。

    2. 模糊匹配式辅导答疑系统则在此基础上増加了同义词和反义词的匹配。

    3. 段落理解式辅导答疑系统是最理想的、也是真正智能化的辅导答疑系统对于汉语来说,这种理解涉及自动分词、词性分析、句法分析和语义分析等NLP领域的多种复杂技术,所以实现难度很大。

  • TTS: 从文本到语音(TextToSpeech)

    它是同时运用语言学和心理学的杰出之作,在内置芯片的支持下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。

    TTS是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS文语转换用途很广,包括电子邮件的阅读、IVR(交互式语音应答系统)系统的语音提示等等,TTS所用的关键技术就是语音合成(SpeechSynthesis)。

    IVR在软件处理上一般分为三步

    1. 文本分析-对输入文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。

    2. 语音合成-把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形。

    3. 韵律处理-合成音质(Qualityof Synthetic Speech)是指语音合成系统所输出的语音的质量,一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价.

    另外在自然语言处理上看到一段NLP的思维逻辑层次, 用于分析语言使用。

    理解层次早期被称为Neuro-Logical Levels,最初由格雷戈里·贝特森发展出来,后由罗伯特·迪尔茨(Robert Dilts)整理,在1991年推出。理解层次是一套模式(Pattern),因为它可以用来解释社会上出现的很多事情。通常低层次的问题高一个层次就能轻易找到方法,可倘若在同层次或其低层次来寻找方法,效果往往不尽如人意或者消耗精力过大。

    NLP的六个思维逻辑层次

    1. 精神层次

    2. 身份层次

    3. 信念系统、价值

    4. 能力层次

    5. 行为层次

    6. 环境层次

    AI音箱工作原理浅析_第1张图片
    各层解释如下表:

    AI音箱工作原理浅析_第2张图片
    应用NLP分析对话:

    例(3)一个主妇对婚辅导员的话

    • 精神

      我渴望有和睦的家庭、快乐的人生。

    • 身份

    1. 我们天生一对。

    2. 我是一个很坚持原则的人,而他刚好相反。

    3. 他很自私!

    • 信念,价值
    1. 为了孩子,我们必须继续下去。

    2. 这段婚姻再没有什么意义可言。

    • 能力
    1. 我可以离家出来,也考虑过找个男朋友。

    2. 我无法和他沟通。

    • 行为
    1. 我们一天也说不上三句话。

    2. 每天下班这么晚,回到家中已经筋疲力尽。

    • 环境
    1. 这份工作增加了我俩之间的问题。

    2. 他在外面有个女朋友。

    以上的例子,抽出当事人的话来分析属于哪个层次。一般从环境层次看起,每一个高层次的话出现,都盖过了低一层的意思。

音箱语音交互流程

AI音箱工作原理浅析_第3张图片
一次完整的语音交互流程,成功的语音对话,通常是有以下几个阶段。

  • 交互流程的核心—意图

    所谓意图,表示用户在使用应用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了应用的核心功能。

    如果应用成功地识别了用户意图,则需要在完成业务动作后,将结果反馈给用户;如果应用无法识别用户意图,则需要给用户友好的提示,指导用户使用。

    用户:七星彩的开奖时间是什么时候?
    Ai:体育彩票七星彩每周二、周四和周日开奖。

  • 如何识别意图—语义解析

    对语音识别结果进行分析理解,简单来说就是将用户语音输入映射到机器指令。它可能定义了一组包含指定的单词或短语的语法结构,用户通过说出满足这种结构的语句,来调用意图。

    用户:我要{听} {周杰伦}的{稻香}
    Ai:稻香.mp3

  • 如何处理意图—云端交互

    调用意图的结构化请求,向服务器请求处理后做出反馈响应。 通俗来讲该流程主要处理用户的请求,解决用户问题的答案。

  • 上下文意图的处理-对话管理

    在用户进行自然对话时,可能会因为表达事情的复杂度、时间、地点、效率等,产生具有脉络的对话过程,所有的对话元素会编织在一个连贯的线性对话中。

    用户:明天北京天气如何?
    Ai:明天北京天气晴,温度16到23度
    用户:后天呢?{后天北京天气如何?}
    Ai:后天北京天气晴,温度17到28度

  • 语言合成模块 – 组织语言

    根据解析模块得到的内部表示,在对话管理机制的作用下生成自然语言句子。 同时将生成模块生成的句子转换成语音输出。(把回答的机器语言再转换成 口语语言)

中文自然语言处理的关键技术

  • 词法分析

    词法分析包括词形和词汇两个方面。一般来讲,词形主要表现在对单词的前缀、后缀等的分析,而词汇则表现在对整个词汇系统的控制。在中文全文检索系统中,词法分析主要表现在对汉语信息进行词语切分,即汉语自动分词技术。通过这种技术能够比较准确的分析用户输入信息的特征,从而完成准确的搜索过程。它是中文全文检索技术的重要发展方向。

  • 句法分析

    句法分析是对用户输入的自然语言进行词汇短语的分析,目的是识别句子的句法结构,实现自动句法分析过程。其基本方法有线图分析法、短语结构分析、完全句法分析、局部句法分析、依存句法分析等。

  • 语义分析

    语义分析是基于自然语言语义信息的一种分析方法,其不仅仅是词法分析和句法分析这样语法水平上的分析,而是涉及到了单词、词组、句子、段落所包含的意义。其目的是从句子的语义结构表示言语的结构。中文语义分析方法是基于语义网络的一种分析方法。语义网络则是一种结构化的,灵活、明确、简洁的表达方式。

  • 语用分析

    语用分析相对于语义分析又增加了对上下文、语言背景、环境等的分析,从文章的结构中提取到意象、人际关系等的附加信息,是一种更高级的语言学分析。它将语句中的内容与现实生活的细节相关联,从而形成动态的表意结构。

  • 语境分析

    语境分析主要是指对原查询语篇以外的大量“空隙”进行分析从而更为正确地解释所要查询语言的技术。这些“空隙”包括一般的知识,特定领域的知识以及查询用户的需要等。它将自然语言与客观的物理世界和主观的心理世界联系起来,补充完善了词法、语义、语用分析的不足。

AI对话目前存在的问题

人机对话过程中,用户难免会出现表达失误的情况,导致机器对用户语言理解出现偏差,在这时,纠错机制对机器而言则非常重要,如缺少这个机制,用户需要花费相当长的时间将其意图解释清楚,相应的用户体验也会十分糟糕。另一方面,虽然可以很好的识别语音,但是却不能理解你的对话目的,语义理解上有偏差。

当前,包括Alexa在内的国内外智能音箱之所以没有表现的那么智能,出现了“人工智障”的嘲笑也是因为在以上两方面没有处理太好。

因此语音交互最终需要解决的关键问题是歧义消解问题,和未知语言现象的处理问题。

智能语音助手背后的生态服务

Amazon Echo 的胜利在于其语音助手 Alexa 掌握的无数技能,Google Assistant 以及Google Home之所以被人看好是在于其 Android 后发优势所具备的开放性。

智能语音助手类的产品要想在中国落地开花,它不仅仅是简单的语音识别那么简单,还有集成服务,一整套的中文生态、内容、服务等配套设施,是一种涵盖很多基础能力的生态系统。

未来基于语音交互的语义技能,必须要能够达到几万、几十万甚至上百万种的时候,才能促使语音交互时代操作系统真正走向成熟,未来语音交互产品的形态和样式也将越来越丰富。

你可能感兴趣的:(AI)