如何有效提升AI模型的数据质量

maxime-valcarce-mAj8xn5zXsk-unsplash.jpg

Photo by Maxime VALCARCE on Unsplash

我们不缺数据

以大家熟悉的银行举例,《2019年支付体系运行总体情况》显示,2019年全国共开立银行账户[1]113.52亿户,同比增长12.07%。中国人民银行支付系统[2]共处理支付业务5685.12亿笔,金额6902.22万亿元。这些交易,每笔都需要被存储,数据规模可以想象。

除了数据规模巨大,金融机构数据准确度高。这不难想象,金融机构在其核心系统上投入巨大。金融从业人员大概都知道,如果是人为原因导致客户的资金出错,是有直接被开除的风险。全世界各国金融监管机构都有具体法律条款、制度规范,约束账户类数据的准确性。

金融机构更是最愿意尝试AI技术、实现开源节流的行业。数据显示,其应用AI技术已初见成效。以中国一家股份制商业银行为例,通过使用聊天机器人替代传统坐席,月均接待用户进线量350万次,每年直接节约人力成本超过人民币2000万元。公平的说,金融机构确实在AI能力应用上,摘到了低垂的果实。媒体上“人工智能将在各行各业逐步替代人工”的报道,也经常成为头条。但真的是这样吗?

我们缺的是高质量的数据

AI行业大量的研究聚焦到算法层面,企业对数据质量的关注明显是不够的。但只有高质量的数据,才能使算法在实际场景中见效。对数据质量的持续优化,也能解决人工标注出现的错误。

但在实际工作中,要想提升训练模型数据的质量,我们面临有很多挑战,主要表现在评价数据质量的两个维度上:正确性连惯性。前者,是要确定数据是正确的。这在传统账户体系上,是显而易见的。如基于NLP的语义理解,正确大概可以被解释为:没有错别字、文字表达的意图明确、用于训练机器人的不同FAQ语料之间没有重复、相似意图等。后者,即:连贯性,要求不同人对同一事物的看法是一致的。考虑到个体认知的差异化,这点也很难。

我们数据质量到底有多好

为量化数据质量,我们用Thomas C. Redman博士提出的一个简单、清晰的公式“Friday Afternoon Measurement” (FAM)来计算数据质量评分[3]。对我们上文提到的文本机器人,计算该指标的基本步骤如下:

  1. 首先,我们选定了衡量语料质量的6个指标,如下表所示:

    指标名称 指标定义
    问答对合格率 问答对中没有错别字、符号、缩写,句子的长度符合具体业务的要求,合格率越高越好
    标问意图清晰度 意图包含明确的实体、属性,能清楚的表达具体的含义,没有歧义,清晰度越高越好
    标问独立度 重复知识的占比,重复度越低越好
    扩写匹配准确率 扩写问和标准问匹配的正确率,越高越好
    标问的扩写比 扩展问和标准问的比例,一般在20-200之间为合格
    交互优化率 具有交互的问答对占所有问答对的比例,一般在20%为合格
  2. 其次,我们选取了2019年12月的样本语料,共计21,000条。

  3. 接着,我们对每条语料打分,6个指标都合格为6分,所有指标都不合格为0分。

  4. 最后,我们用

将每条语料的分值标准化到【0-100】的区间内,画出样本语料的治理评分的分布图。

data_score_before.jpg

Initial Data Quality Assessment

我们的数据显示,仅有25%的的数据质量勉强达到60分以上的水平,不足0.14%的数据,质量达到了90分。根据Tadhg Nagle,Thomas C. Redman和David Sammon在[4]一文中统计的结果,仅有3%的公司数据质量基本合格。大概率我们是不在这3%之中的。那么问题来了,如何提升数据质量?

构建"机器+人"的合作模式

解决方案

之前我们介绍了基于FAM公式下的数据质量评价体系,它扮演着类似审计的角色,成为我们衡量的基准。下面就引入我们完整的治理解决方案,其由三个组件构成,分别是服务前台治理中台管理后台。整体结构如下图所示。

  1. 服务前台,关注用户体验优化,通过制定一系列规范,减少人为操作的个体差异性。
  2. 治理中台,负责NLP算法的研发,为AI训练师提供知识运营辅助工具,在兼顾语料人性化的同时,确保语义理解维度的标准化。
  3. 管理后台,负责制定标准化治理流程、数据监控体系和算法优化方向。并和前台、中台形成管理闭环。
data_quality_procedure.jpg

The Procedure For Data Quality Enhancement

我们知道,更多治理细节没有在图示中显示,我们欢迎读者对感兴趣的部分留言,我们也会及时回复。

算法平台介绍

根据之前的6个衡量指标,我们采用了如下一系列算法优化数据质量。这些算法在实际运用中,获得了不错的结果。

data_correction.jpg

NLP toolbox For Data Quality Enhancement

通过治理后,数据质量评分也得到了显著的改善。超过97%的数据质量达标,更有22%的数据质量达到了90分。

data_score_after.jpg

Data Quality Assessment Revised

财务价值

通过建立完整的知识治理闭环,项目成功节约运营成本人民币320万元。除此之外,还有一系列核心指标得到显著改善,包括:

  1. 知识质量提升,从之前25%的合格率(即:达到60分)提升到了97%的合格率。
  2. 知识优化效率,从人均80条/每天,提升了45%,到116条/每天的处理能力,在我们的业务场景下,成功解决了8个全职的AI训练师人力。
  3. 客户服务满意度,用NPS(Net Promoter Score)来衡量,也从35%提升到了43%。
data_quality_improve.jpg

Data Quality ROI

下一步是什么

我们从有限的经验理解到,一个企业拥抱AI、赋能业务场景通常会选择以专家、领导驱动的方式推动项目落地。这样做的好处显而易见:决策流程短、见效快,对创新风险有人能承担责任。最后一点在一些大型企业中尤为重要。但这样的方式,也有其不足的地方:

  1. 无法充分将AI项目迅速推广,形成规模效益。
  2. 需要转型为数据驱动型决策机制、用数据判断、用工具优化。

因此,我们的决策者除了要聆听AI专家的专业意见外,也要不断思考和优化支持数据化经营的组织架构。往往这才是一个企业在AI实践中成败的关键。我们在知识治理的尝试,就是建立类似卫星城的组织架构,让创新技术迅速在企业不同业务条线得到充分的推广和实践。而更多的实践和场景,又为技术迭代提供的最佳的土壤。

我们都说,Machine vs. Human?你误会了,其实Love & Peace


  1. 银行账户指人民币银行结算账户 ↩

  2. 包含大额实时支付系统、小额批量支付系统、网上支付跨行清算系统、同城清算系统、境内外币支付系统、银行业金融机构行内支付系统、银行卡跨行支付系统、城市商业银行汇票处理系统和支付清算系统、农信银支付清算系统、人民币跨境支付系统、网联清算系统 ↩

  3. https://hbr.org/2016/07/assess-whether-you-have-a-data-quality-problem ↩

  4. https://hbr.org/2017/09/only-3-of-companies-data-meets-basic-quality-standards?autocomplete=true ↩

你可能感兴趣的:(如何有效提升AI模型的数据质量)