实时语音场景下的智能对话

目录:

语音对话机器人: 热线小蜜
语音特色的文本驱动对话
语音语义驱动的双工对话

1.语音对话机器人: 热线小蜜

实时语音场景下的智能对话_第1张图片

实时语音对话的挑战:

口语化:用户的表述呈现出含糊、冗长、不连续、并存在ASR噪声。
多模态:语音对话相比文本蕴含了更多的信息, 如语气、情绪、背景环境等。
双工化:不局限于一问一答的形式,会出现静默、等待、互相打断等复杂的交互行为。呈现出低延时(人人对话rt < 400ms),强交互(turn- taking频繁)的特点。
实时语音场景下的智能对话_第2张图片
实时语音场景下的智能对话_第3张图片

实时语音对话的挑战:

实时语音场景下的智能对话_第4张图片

对话:从文本驱动到语音语义驱动

缺少针对性的算法模型,基于在线QA构建的问答模型对口语化的语料适配性差,影响NLU准确性
语音和语义模块割裂,NLU/DM仅能基于ASR的结果进行处理,丢失语音模态信息,同时ASR带来误差传播
语音控制能力简单,基于固定VAD时长的收音断句、原子化的放音无法满足精细化的双工控制。
无法对用户的全部turn-taking行为进行响应,造成“高延迟、弱交互”的用户体感,进一步会影响对话完成率
实时语音场景下的智能对话_第5张图片

2.语音特色的文本驱动对话

面向ASR的SLU
场景:口语化订单匹配

热线采用基于自然语言描述的方式来进行订单的确认;
由于方言口音、噪声、和领域专有名词的影响,ASR结果包含一定比例的错误;
由于关键信息(品类、品牌、修饰词)的错误,导致无法匹配到正确的订单。
实时语音场景下的智能对话_第6张图片
实时语音场景下的智能对话_第7张图片
ASR-Robust SLU
实时语音场景下的智能对话_第8张图片
ASR-Robust SLU:WCN
实时语音场景下的智能对话_第9张图片
ASR-Robust SLU 结果:
实时语音场景下的智能对话_第10张图片
语音情绪检测
背景:

热线呼入:用户一般不会对机器人进行辱骂,因此在文字上体现的负面情绪case不多(约10%),因而我们需要对用户在沟通中的语气语调中,呈现出的焦急、不耐烦等情绪需要进行针对性的识别的应对。
热线人工质检:热线质检一般是针对人工小二的服务红线,一般来讲人工小二直接辱骂客户的情况是很少的,我们同样需要对人工服务中的语气和异常情绪进行检测。

挑战:

数据质量差:学术界现有音频情绪数据集(IEMOCAP、RAVDESS、CASIA)基本采用表演方式收集,表演痕迹重,和真实讲话有很大差异。
标注和建模方式不合理:目前主流语音情绪标注采用分类打标(委屈、恐惧、着急、失望、愤怒、辱骂、感谢等),仅仅通过语音难以区分上述场景, 导致打标主观性极强,一致率低。

实时语音场景下的智能对话_第11张图片
方案:

采用真实录音进行标注,通过上下文对话筛选出疑似含有情绪的候选,通过多位众包投票方式打标,根据标注方差过滤噪音样本。
结合业务场景,仅针对负面情绪强弱进行分数标注。模型采用回归式的训练方式,降低噪声影响。

实时语音场景下的智能对话_第12张图片实时语音场景下的智能对话_第13张图片
口语化表达
实时语音场景下的智能对话_第14张图片
实时语音场景下的智能对话_第15张图片
实时语音场景下的智能对话_第16张图片
语音特色的文本驱动对话
实时语音场景下的智能对话_第17张图片
语音语义驱动的双工对话
双工对话定义:

实时语音场景下的智能对话_第18张图片
实时语音场景下的智能对话_第19张图片
双工对话的特点:

语音对话对通信双方具有独占性 -> 响应时延敏感。
基于语音的信息传递具有持续性、非瞬时、非原子 -> 边听边想、边想边说。
不完全博弈,通话双方并不准确的知道对方下一刻要做什么 -> 误判。

双工对话决策:

实时语音场景下的智能对话_第20张图片
双工对话的表示:

实时语音场景下的智能对话_第21张图片
实时语音场景下的智能对话_第22张图片
双工:更短的响应时长
实时语音场景下的智能对话_第23张图片
人际对话的特点:

边听边想:接受对方语音输入的同时进行理解和回答的构思。
边想边说:构思回答语言的同时,一边逐步的将回答讲出(有时还会加入一些承接语气)。

边听边想:

利用Micro-turn,基于当前接收到的用户表述, 提前理解并生成答案及TTS。
核心技术:提前理解播放策略、语义完整性模 型、语义差异性模型。

边想边说:

利用Micro-turn,在声音停止较短时间内直接判断当前是否句尾,并且在生成最终的答案之前先播放一个符合上下文的简短承接语。
核心技术:多模态句尾检测模型、承接策略模型。

双工:语义化打断
实时语音场景下的智能对话_第24张图片

语义化打断:

在重叠发声的情况下,判断用户是否有意的打 断当前对话,并且提前结束播音。
常见的打断场景:提前回答当前问题、补充前 一轮的回复、无意义的回答、
双工状态特征:当前TTS的已经播放的时长、 当前Query距离前一轮的时长等等。
核心技术:语义化打断模型,双工状态相关的打断策略。

双工:交互式数字收集
背景:

对于一些复杂信息且精度要求较高的槽位(例如长数字、复杂地址、精确时间等),通常难以通过单轮对话完成 (即使能完成,体验也很差)。
需要快速的多轮交互,turn-based无法满足。
以数字为例,会存在表述多样性(如“幺三个零”或 “一千”),修改澄清(“幺三五,哦不对幺三六”),表述含糊(“幺零零零零”)等难点。

技术方案:

基于单链路的Duplex DM,仅依赖micro-turn作为输入, 输出完整的对话策略。
针对长数字收集的优化:数字意图识别、数字改写、micro-turn DST & Decoder。
端到端优化学习。
相比按键式交互,收集完成率提高20%以上。
在这里插入图片描述
实时语音场景下的智能对话_第25张图片
实时语音场景下的智能对话_第26张图片总结:
实时语音场景下的智能对话_第27张图片

你可能感兴趣的:(自然语言处理,语音识别,人工智能)