商业银行智能语音识别技术-笔记

商业银行智能语音识别技术

  • 原文链接

一、语音识别技术概述

基础概念

  • 自动语音识别ASR
  • 语音到文本STT
  • 精准识别和翻译语音信息

1、语音识别技术发展

  • 基于深度神经网络模型进行建模

2、语音识别的分类

  • 根据说话人的不同
    • 特定人语音识别
    • 用来对特定人的说话内容进行识别,同时基于说话人的声纹信息,应用声纹鉴别技术,实现基于声音的身份识别
    • 非特定人语音识别
    • 通过采集大量语音数据来进行训练建模,实现非特定人的语音识别,可以被任何说话人使用,更符合实际需要,通常要难于针对特定人的语音识别任务。
  • 根据识别词汇对象的不同
    • 孤立词识别
    • 识别事先已知的词语,可应用到自动控制领域
    • 连续语音识别
    • 识别自然交流的连续语音,可应用于语音输入系统
    • 关键词识别
    • 从连续语音中检测出特定关键词出现的位置,而不需要识别出整个句子,可应用于语音监听任务。
  • 根据识别服务的实现方式
    • 云端方式
    • 依赖网络并依托强大的后台模型,识别更准确,例如基于云端的语音助手工具
    • 离线方式
    • 不依赖于网络,应用场景更灵活,但识别精确度受到计算资源的限制,一般离线识别会结合专用芯片,通过压缩模型规模,将计算量控制在合理的水平。

3、语音识别技术原理

  • (1)预处理
    • 主要包括对输入的原始语音信号进行采样,去除个体发音差异以及设备环境等引起的背景噪声,通过分帧将语音信号切分为短片段,并运用端点检测技术确定出语音的起点和终点。
  • (2)特征提取
    • 主要包括从预处理过的语音信号中,抽取出反映语音本质的特征参数,形成特征矢量序列。通常由频谱衍生出频率倒谱系数(MFCC),使用长度为10ms的帧分割语音波形,然后从每帧中提取出特征向量。
  • (3)声学模型训练
    • 基于语音数据库进行训练,通过计算语音特征和发音模板的相似度,为每个声学单元建立模型参数,识别时将待识别的语音特征参数与训练得到的声学模型进行匹配,获得识别结果。传统语音识别系统大多采用GMM-HMM进行声学模型建模。
  • (4)语音模型训练
    • 根据语言的语法规则,对训练文本数据库进行语法、语义分析,建立描述给定词序列在语言中出现的概率分布,在给定若干个词的情境下能够判定下一个最可能出现的词语,缩小搜索范围,进而提高语音识别性能以及准确率。
  • (5)语音解码
    • 语音解码指语音技术中的识别过程,针对输入的原始语音信号,经预处理和特征提取后,结合训练得到的声学模型、语言模型以及发音字典建立一个识别网络,运用搜索算法寻找到最佳路径,进而获取该语音信号对应的最优词串。

4、深度学习和语音识别技术

  • 深度学习
    • 深层结构化学习,是一种基于学习数据表征的机器学习方法,通过构建多隐藏层神经网络,组合低层特征形成更加抽象的高层表示特征,以此提升分类或预测的准确性。
  • 语音信号
    • 一种非平稳的随机信号,人脑对其感知的过程是一个复杂的信号处理过程,深度学习可通过模仿人脑对语音信号的处理方式,以层次化的方式进行处理,因此比传统的模型更适合于语音信号处理。
  • 深度学习优化版
    • 级联系统
    • 运用深度神经网络DNN进行特征提取,优于使用传统特征训练的GMM-HMM识别系统。
    • 可以联合特征的上下文信息形成长时特征矢量
    • 具有深层次的非线性变换能力
    • 能从有限的数据中挖掘出更多的信息
    • 混合系统
    • 在GMM-HMM声学模型基础上,用DNN替换高斯混合模型(GMM)来计算输出概率密度函数,其中的DNN可替换为其他的深度学习架构,比如循环神经网络RNN、卷积神经网络CNN等,不需要重新设计整个传统声学模型系统。
    • 端到端模型
    • 基于深度神经网络完成从输入特征向量到输出结果的整个过程,声学模型和语言模型通过后端解码进行融合,与传统识别过程相比,不需要进行分帧以及帧级别的标注操作。
    • 实现方法
      • 方法一:采用连续时序分类CTC和长短记忆网络LSTM结合的声学模型,对语音的音素序列和对应的语音特征序列进行序列层面建模
      • 方法二:基于编码解码模型以及注意力模型,直接实现从语音声学特征序列到最终词序列的输出。

二、智能语音识别技术在商业银行中的应用

4I应用架构

  • 1、Input信息输入:听得见
    • 语音识别的主要应用
    • 应用场景:将语音数据自动转换为文本数据,实现自动信息输入。
    • 主要功能
    • 1、将音频数据转换为文本数据
    • 2、为进一步开展智能文本挖掘和自然语言处理积累大量文本信息语料。
    • 商业银行运营环境的应用点
    • 简化柜台人员业务操作流程
    • 实现客户经理拜访客户后的报告口述撰写等场景
    • 案例
    • 柜台操作简化流程
      • 通过引入语音识别系统,可以将客户需求直接转化为系统可识别的文本内容,柜台人员仅需针对录入的信息进行复核校验,减少客户填写各种凭证的时间以及运营人员录入信息的时间,从而减少客户等待时间,提升服务效率。
    • 银行一线人员走出网点 对客户进行拜访流程
      • 应用语音识别技术可直接将客户经理的口述转换为文字报告,不需要撰写访谈报告对客户情况及交谈内容进行记录,提升工作效率。
  • 2、Inspection实时监察:听得懂
    • 应用场景
    • 需要在银行服务人员与客户交流过程中实时识别出客户需求点及业务风险点,支持更精准地对客户提供个性化服务,同时保证业务合规性。
    • 功能
    • 通过在语音识别技术的基础上架构索引机制、引入文本挖掘和自然语言处理技术支持,对实时“听”到的文字在“关注”字词库里进行搜索。
    • 应用点
    • 当客户在柜台办理业务时,通过对客户与窗口人员的交谈内容进行实时监察。
      • 一、可以及时识别银行员工话术的合规性。当业务人员出现不当销售、违规引导时,系统及时跳出提醒标识对银行人员进行警示,尽可能避免对客户和银行权益造成损害。
      • 二、银行可以实时发现客户的业务需求,并及时让窗口人员予以相关产品的推介。当客户的需求与本行产品及服务核心关键词相匹配时,系统展示产品信息及相关话术对业务人员进行提示,进一步提升销售成功率。
      • 三、通过对客户语言文本的分析,及时发现客户是否存在负面情绪,辅助业务人员减少不当处理,及时调节、化解业务办理中可能发生的客户纠纷。
  • 3、Interaction沟通交互:有交互
    • 应用场景
    • 自助机具操作
    • 电话银行自动应答
    • 银行呼叫中心自动回访
    • 厅堂机器人服务交互
    • 外籍客户服务提升
      • 同声传译
    • 手机银行
    • 微信银行
    • 功能
    • 通过语音合成、声向定位、语义理解、机器翻译技术结合
    • 识别语音中的要求、请求、命令或询问来做出正确的响应
  • 4、Identification身份验证:认得出
    • 通过声纹识别实现客户身份验证
    • 通过每个人独特的声音直接辨识客户,无需设定、记住和键入密码等操作。
    • 基于语音的身份验证
    • 非接触
    • 非侵入
    • 易用性强
    • 通过建立客户声纹库并对语音中的声纹鉴别,银行可有效对客户进行识别、历史档案查询、信息检索与推荐。)

你可能感兴趣的:(人工智能)