股票、证券等金融交易越来越多地脱离线下而转向线上进行,指纹、人脸等生物识别技术普及,而与「钱」相关的场景,如何精确地完成身份识别和认证?如何保证业务合规?具体而言:
- 线上交易时,如何保证正在买卖的交易者是他本人?
- 远程操控,如何保证交易人员的资金安全?
- 具有「非接触式」和「远程识别」优势的声纹识别技术,如何在业务场景落地?
上周六,由 Milvus 社区主办的 Arch Meetup 深圳站圆满落下帷幕,众多科技爱好者们齐聚一堂,来自 Zilliz、追一科技、掌数科技、极狐(GitLab)和 ShowMeBug 的讲师们与大家分享了开源软件的最新趋势与应用场景。掌数科技技术总监高星分享了证券基金行业的需求与痛点,以及「问答机器人」「声纹识别」等金融证券行业运营利器。开源向量数据库 Milvus 如何帮助实现上述场景?让我们一起先睹为快吧!
悄悄告诉你,关注 Zilliz 公众号并回复「ppt9」可以获得其他四位讲师们的精彩分享哦!
掌数科技 x Milvus 向量数据库, 在金融 AI 领域会擦出哪些火花?
掌数科技聚焦证券和大资管行业,面向大数据和 AI 基础技术平台、智能化场景应用和数据安全管理领域,是一家管理金融行业数据安全的科技企业。掌数科技与厦门大学成立了"金融科技联合实验室",致力于大数据、人工智能技术在金融科技领域的应用研究。今年,掌数科技还正式成为 WG4 声纹小组《信息安全技术声纹识别数据安全要求》国家标准的五家应用试点单位之一。
在万物皆可 Embedding 的时代,图片、文本、视频、语音等非结构化数据可以通过 Embedding 技术提取为特征向量,然后通过对特征向量的计算和相似度检索来帮助落地智能问答、商品推荐、声纹识别等场景。开源向量数据库 Milvus 可以赋能 AI 应用和向量相似度搜索。开源向量数据库 Milvus 支持使用多种 AI 模型向量化非结构化数据,并为向量数据提供搜索分析服务。它可处理的业务包括图像处理、机器视觉、自然语言处理、语音识别、推荐系统以及新药发现。具体实现方式是:
- 通过深度学习模型将非结构化数据转化为特征向量,并导入 Milvus 数据库;
- 对特征向量进行存储并建立索引;
- 接收到用户的向量搜索请求后,返回与输入向量相似的结果。
掌数科技基于多年行业经验,通过「数据库+应用」的方式,在「问答机器人」「声纹识别」等场景中使用 Milvus 向量数据库实现快速响应,为企业在数字化建设过程中提供高质量、易扩展、低成本、易维护的解决方案。
金融证券行业的需求和趋势
金融是一个财富集中的领域,在掌数科技主攻的证券市场,其规模在 2020 年的总资产达到 8.9 万亿,具有散户比例高、受多方因素影响波动大、金融产品品类不多等特点,因此,证券行业的客户运营领域自然产生了如下两点需求:
(1)如何在用户规模迅速增长的过程中,高效、可靠、合规地服务投资者客户?
- 金融证券行业需要提高线上自助化服务水平,把能够由系统和用户自主操作来完成的部分尽量交给系统,避免过多依赖人工;同时,把不能完全交给机器执行的业务或操作,尽量采用人机协同的方式,降低人工的工作;
- 金融证券行业需要建立客户数据中心,为客户运营、客户服务提供统一的数据服务平台;
- 金融证券行业需要借助大数据和人工智能手段,增强对客户身份的核实,对客户准确意图的把握,对客户风险承受能力的识别,规避经营风险和操作风险。
(2)如何在客户投资理财过程中提升体验,帮助客户简单地、愉悦地实现投资预期?
- 金融证券行业需要把「投资者教育」融于产品的细节当中,在场景中提升投资决策水平;设计更为丰富的组合产品,为投资者提供更多投资选择,平抑投资风险;以客户为中心,建立跨渠道的客户服务,实现不同渠道的无缝对接。
除了上述两大需求,金融证券行业正在拥抱以下四个趋势:
- 线上化的趋势:金融科技发展和运营集中化、自动化、智能化;
- 散户机构化趋势:公募基金、资管用户规模发展迅速;
- 合规监管难趋势:目前用户服务能力与需求不匹配、用户风险等级识别与匹配;
- 证券机构科技部门自研能力不足:外购产品居多,个性化自研较少。
为了应对上述的需求和趋势,智能运营的产品体系需要在多种场景下应对自如,主要包括客户多渠道服务场景、客户私域运营场景、内部大运营场景三大场景。在这些场景的核心架构中,会使用到大量的结构化和非结构化数据,以及相应的技术组件,比如 Docker、Kubernetes、CI/CD 流水线等应用技术架构组件。其中,用于分析非结构化数据的关键组件就包括了 Milvus 向量数据库。三大场景的整体架构如下图所示:
场景一:智能客服机器人
掌数科技通过引入开源向量数据库Milvus,构建了一套完善的智能问答系统,帮助在线客服完成答疑和推荐。
智能的问答组件可以实现 80% 常见问题的自动回复,大大减轻人工客服的工作量。此外,该问答系统不仅能完成简单的问答,还可以做出综合的观点推荐。基于用户曾经发出的大量请求,系统会召回最适合该用户的答案并推荐给用户,实现「基金产品卡片知识」推荐、「基金经理卡片知识」推荐、「用户输入自动补全」等功能。
同时,基于开源向量数据库Milvus 构建知识库搜索引擎,还可以搭建面向内部人工客服的智能知识库,辅助相关人员快速响应客户提问。
需要注意的是,在金融证券业务中,基础数据库与其他行业不同,需要预处理一些行业知识。比如,产品的命名通常有自己的规则,在其他的语料库中不常出现「天天盈」「丰泽」等基金名,所以需要基于现有的语料库进行训练,完成数据预处理。在实现流程中,开源向量数据库Milvus 的高性能检索可以实现毫秒级响应,召回数千条数据集,极大降低了开发成本、缩短项目周期,后续系统进一步精排算法,筛选出 10 条数据作为响应结果。智能客服机器人背后的实现流程如下图所示:
场景二:声纹场景
根据行业客户适当性管理办法要求,以及反欺诈、反洗钱等合规风控要求,客户身份的认定与审核是金融证券行业必须要重点关注的技术领域。过去,多采用账号密码来认定客户身份,但是密码容易泄漏。故一般提高安全等级,会要求输入手机动态密码或者 U 盘等额外设备规避密码保护的漏洞,后又扩展为基于 Face ID 的人脸识别技术。然而,在部分不适合使用人脸比对的场景中,需要借助语音识别与声纹比对技术作为补充。与其他生物特征相比,获取声纹特征的语音十分方便、自然,用户接受度高,而且成本较低,通话中无需额外的录音设备,声纹辨认和确认的算法复杂度低,其动态特征更在应用安全上独占优势。
在金融行业中,声纹应用的技术要求是:
首先,精度要高。对符合识别要求的音频数据集比对识别算法的精度,尤其是 1:1 的身份确认场景,其精度要求最高达到 99.5% 以上;结合人脸或者其他技术后,系统被攻破的难度将成指数级上升。
其次,性能要好。千万级的声纹库的客户身份确认过程,需要能够实现秒级响应,否则用户体验会非常糟糕;声纹数据库要实现无缝横向扩展,以便应对更大规模的声纹平台体量;在对 VIP 客户或者黑名单客户的辨认场景,要能够在数秒到 1 分钟内快速查找到相似结果。
最后,成本要低。采集端使用普通电话或者电脑麦克风,服务器端采用普通 X86 服务器即可;无需专用服务器硬件,在推断识别场景,不需要 GPU 或其他特殊硬件卡的加速,即可实现声纹库与声纹平台的搭建。声纹场景的实现流程如下图所示:
通过引入开源向量数据库Milvus,掌数科技构建并积累客户声纹库,帮助在客户在线上开户、业务开通场景中,提供面向客户身份数据的向量存储、检索比对、黑名单客户识别服务。声纹检索的实现流程如下图所示,首先输入目标语音,进行特征提取和模型训练,将特征向量保存在 Milvus 向量数据库中,当需要进行特征比对时,可进行快速提取和比对。1:1 的声纹比对指的是确认「你是不是你」,用于人员活体认证、人员身份认证和移动客户端身份认证;1:N 的声纹辨认用于回答「你是谁」的问题,用于在向量库里查找该目标的身份和查重。Milvus 数据库的应用,很好地帮助业务达到了金融领域技术指标,做到了高精度性能的优化。
在客户服务场景中,办理客户回访或其他业务受理时,需要检查证券业务服务流程是否合规,校验沟通话术。综合上述多个技术,可以进一步形成智能语音质检解决方案,实现流程如下图:
总结
掌数科技基于开源向量数据库 Milvus 搭建了智能客服机器人的问答和推荐系统,以及声纹场景中的确认和辨认系统,达到了金融行业精度高、性能好、成本低的相关技术要求,我们希望未来 Milvus 向量数据库支持更加丰富的功能,适应更广阔的应用场景,在金融行业得到更广泛应用。