实时性升至秒级!飞桨PaddleSpeech赋能金融双录业务走向智能化

听说IT圈十个人里有九个是男性开发者,女生并不多,陈雪儿可以算是这个群体中独特的存在。

作为杭州谐云科技有限公司(简称谐云)智能边缘团队的AI技术专家,陈雪儿带领团队历经一年半研发的“金融双录智能质检系统”,能为银行降低90%的人力成本,引入边缘计算后,将双录质检实时性从原来的传统事后质检小时级别提高到了秒级,双录成功率整体提高了30%。

刚开始聊到与AI相关的话题时,陈雪儿显得有点儿腼腆。她坦言,自己是比较典型的理科生性格,本科学的是计算机相关专业,研究生考到浙江大学,主攻方向是人工智能。读研期间,陈雪儿接触到了浙江大学SEL实验室(Soft Engineering Lab,SEL),由此与谐云结下了不解之缘。

2011年,浙江大学SEL实验室在浙大计算机学院和超大规模信息实验室支持下成立,后来实验室不断扩大,到2016年孵化创立了谐云,目前已经发展到500多人。陈雪儿毕业后跟随团队老师来到了谐云工作,2020年,陈雪儿加入谐云边缘计算团队,并成为团队技术骨干,她的团队当时就意识到边缘计算与AI的结合是未来的趋势,于是谐云加速布局 “AI+边缘计算”领域。


此时,正值银行双录“强监管”需求增加,陈雪儿的团队开始酝酿开发金融双录质检系统。

传统金融双录质检滞后 AI破解实时性难题

研发的灵感始于对银行双录场景的理解。

很多人去银行购买理财产品可能经历过这样的场景:「理财经理告诉你需要进行录音录像采集,经过你的同意后,理财经理会打开放置在柜台上的摄像头,然后向你确认身份信息,提示产品风险,还会给你一些材料阅读签字。」

这一过程涉及到了标准的金融双录。所谓“双录”是银行在销售每笔理财产品时使用双录电子设备对过程进行录音和录像。采用双录初衷是为了规范销售话术,确保消费者的知情权,避免工作人员违规操作等潜在风险。自2017年起,银监会陆续出台了一系列监管政策规范金融产品销售行为,明确规定银行业金融机构销售专区必须实行双录。由此,双录成为各大银行销售理财产品的“规定动作”。

双录完成后,通常银行的做法是派工作人员对双录内容进行质检,检查双录过程中是否存在违规操作、是否符合银监会的要求以及银行内部的操作流程等。

但这种方式是通过人工抽查做事后质检,存在时效性滞后、风险覆盖率低、人力成本高等问题。首先,如果质检发现双录过程存在问题,实际上很多业务已经完成了,无法做到实时监管和介入,往往会给银行造成重大损失;其次,庞大的人工质检团队依然难以对双录过程展开全面质检,包括客户不在场、人员更换、代客操作和收受回扣等非正常行为。

据统计,在传统双录场景中,一笔双录业务平均大约花费1小时左右,一次性通过率小于50%,这种低通过率大部分源于操作不规范、话语遗漏等,影响了客户购买理财产品的业务体验,从而降低其购买意愿。

近几年来,银行因双录工作不规范被罚款的事件屡有发生,在一定程度上也暴露了传统双录质检系统的弊端。

实时性升至秒级!飞桨PaddleSpeech赋能金融双录业务走向智能化_第1张图片
不但如此,从银行自身而言,建设一套人工双录质检系统也是一件耗时耗力的工程。一方面,人工质检需要银行持续投入预算,每位客户的录音录像都要保存下来,银行要配备上百人的团队做质检,而质检不合格的视频又需要客户到现场进行重录,鉴于重录操作难度大,造成客户购买理财产品的体验感差;另一方面,为了完成双录质检,银行将不同网点对应的不同销售区域的数据收集上来,汇聚到银行的数据中心,这中间处理非常大的数据量,花费时间周期较长。

基于对上述金融双录业务场景和行业痛点的深刻洞察,谐云边缘智能团队发现,人工质检的滞后性给金融双录业务造成了巨大的麻烦和漏洞,如果能引入音视频分析、 AI语音识别、边缘计算等技术,实现双录过程的智能化质检,将对提升金融双录质检的效率,改善客户购买理财产品的体验,降低银行运营成本等具有重要意义。

飞桨PaddleSpeech 让双录质检实时性升至秒级

谐云边缘智能团队自2021年开始从事算法研究,终于历经一年半的时间,推出完整的双录智能质检解决方案。该方案深度融合了百度飞桨的语音模型库PaddleSpeech与自研的视频AI分析算法模型,设计出双录语音视频质检方案,可为银行降低90%的人力成本,使银行从过去上百人的质检团队缩减到几人;同时引入边缘计算,实现双录实时质检,相比于传统的事后质检,实时性从原来的小时级别提高到了秒级。

这样一来,方案既通过监测音视频质量,对于录制过程中出现的如无声、花屏、黑屏等情况做出及时提醒,减少了人工双录过程中的录制失败、操作不规范等情况,使双录成功率整体提高30%,大幅改善了客户购买理财产品的体验;也能将部分稽查质检工作提前到事中,尽早识别出危险情况,通过告警提前介入,最大程度减少风险产生的经济损失,有助于银行理财产品及代销的销售环节监管无真空,有效保护消费者的知情权,最终实现“买者自负,卖者尽责”。
实时性升至秒级!飞桨PaddleSpeech赋能金融双录业务走向智能化_第2张图片
据陈雪儿介绍,该方案在语音识别研发部分用到飞桨语音模型库PaddleSpeech。她提到,语音识别最终目的是还原双录中双方的对话,呈现出像微信对话框一样有身份、有顺序、有内容、有标点的对话效果。分解到具体步骤,开始要对原始的音频文件进行语音分割,若非双声道音频,则要对说话人进行分类(指用声音特征区分说话人身份,即声纹识别),分类之后再做语音识别,形成文本,做标点恢复,得到最终的完整的对话结果。

其中,最后一个步骤语音识别部分,谐云研发团队运用了飞桨语音模型库PaddleSpeech里的模型U2Model执行语音识别任务。

之所以选择飞桨PaddleSpeech模型库,是因为陈雪儿团队在研发双录质检项目过程中,察觉到金融行业对于语音质检有着强烈的需求,在对比市面上其他语音识别的开源产品框架后,他们认为飞桨框架具有明显优势,主要体现在资料全,为开发者提供了较多的预训练模型和对应的语音数据集,同时模型精度较高。

2022年7月,谐云科技的技术专家在网络平台上发布了一篇题为《谐云课堂 | 浅谈智能语音技术在双录质检中的应用》的文章,百度飞桨的产品经理看到这篇文章找到了谐云,双方建立联系并迅速开启了深度合作。9月,谐云科技和百度飞桨联合组织金融直播课介绍双录质检解决方案。11月,谐云与百度飞桨达成合作,正式加入飞桨技术伙伴计划,双方继续在智慧双录、音频质检等领域积极探索。
实时性升至秒级!飞桨PaddleSpeech赋能金融双录业务走向智能化_第3张图片

借助飞桨将语音识别准确率提高到95%

双录质检系统的研发过程充满了挑战。陈雪儿回忆到,他们最开始以为这只是一个普通的语音识别的任务,后面才发现双录过程对说话人的身份和顺序有严格的要求,因此说话人分类以及语音分割十分重要。此外,双录过程中会出现许多比较难以识别的短句,一些方言口音识别不好也可能造成质检误报等情况,他们针对这些问题都专门做了模型调整和优化。

在模型调整方面,谐云的团队通过“算法和数据扩充”的方式,使用飞桨框架,基于飞桨语音模型库PaddleSpeech对算法模型进行了重新训练,由于PaddleSpeech中U2Model模型采用端到端的语音识别模式,在执行语音识别任务方面相对于传统方法识别效果更佳、精度较高,经过训练后的模型语音识别准确率提高到了95% 。

实时性升至秒级!飞桨PaddleSpeech赋能金融双录业务走向智能化_第4张图片
引入自研的边缘计算是双录质检系统的一大亮点。陈雪儿进一步解释到,目前市场上大多数的IoT解决方案是把算法或应用以SDK等方式固化到设备中, 如果需要更新算法、应用,就要替换整个设备,在边缘设备部署智能应用的情况下,当面临应用更新迭代以及场景扩充时,这种传统的方式明显不够灵活。

谐云采用云边协同的方式,在银行的数据中心部署云端智能管理平台,能实现快捷方便地在云端直接一键部署应用,并进行更新迭代。同时,这种边缘计算模式由于将算力下沉到了边缘侧,使得双录过程中的音频视频数据能就近获得处理,大大提升了处理的时效性,为双录场景下实时处理音频视频数据处理提供了重要的框架支撑。

据了解,谐云科技的双录智能质检系统已在某城商行、某商业银行等落地。未来,谐云将继续推进更多银行试点,优化双录质检解决方案及应用场景。陈雪儿谈到,她希望双录的能力将来可以加入到无人银行的自助设备机以及远程银行的流程中,为金融行业数字化升级和智慧银行添智赋能。

除了金融双录业务外,双录质检系统还能应用到诸多音频视频需求的场景中,例如,视频客服过程中实时监测内容和质量,金融贷款业务中监控违规行为等。

随着金融数字化转型步伐加快,以人工智能为代表的新技术正成为助力金融科技变革的一股新力量,除了上述提到的语音模型库之外,飞桨深度学习开源开放平台还包含PaddleNLP、PaddleVideo、PaddleDetection等众多覆盖不同场景和任务的模型库和套件,正落地应用到金融业务各场景中帮助金融机构降险增效和智能化升级。

你可能感兴趣的:(paddlepaddle,金融,人工智能)