如何有效提升AI模型的数据质量

maxime-valcarce-mAj8xn5zXsk-unsplash.jpg

Photo by Maxime VALCARCE on Unsplash

我们不缺数据

以大家熟悉的银行举例，《2019年支付体系运行总体情况》显示，2019年全国共开立银行账户^[1]113.52亿户，同比增长12.07%。中国人民银行支付系统^[2]共处理支付业务5685.12亿笔，金额6902.22万亿元。这些交易，每笔都需要被存储，数据规模可以想象。

除了数据规模巨大，金融机构数据准确度高。这不难想象，金融机构在其核心系统上投入巨大。金融从业人员大概都知道，如果是人为原因导致客户的资金出错，是有直接被开除的风险。全世界各国金融监管机构都有具体法律条款、制度规范，约束账户类数据的准确性。

金融机构更是最愿意尝试AI技术、实现开源节流的行业。数据显示，其应用AI技术已初见成效。以中国一家股份制商业银行为例，通过使用聊天机器人替代传统坐席，月均接待用户进线量350万次，每年直接节约人力成本超过人民币2000万元。公平的说，金融机构确实在AI能力应用上，摘到了低垂的果实。媒体上“人工智能将在各行各业逐步替代人工”的报道，也经常成为头条。但真的是这样吗？

我们缺的是高质量的数据

AI行业大量的研究聚焦到算法层面，企业对数据质量的关注明显是不够的。但只有高质量的数据，才能使算法在实际场景中见效。对数据质量的持续优化，也能解决人工标注出现的错误。

但在实际工作中，要想提升训练模型数据的质量，我们面临有很多挑战，主要表现在评价数据质量的两个维度上：正确性和连惯性。前者，是要确定数据是正确的。这在传统账户体系上，是显而易见的。如基于NLP的语义理解，正确大概可以被解释为：没有错别字、文字表达的意图明确、用于训练机器人的不同FAQ语料之间没有重复、相似意图等。后者，即：连贯性，要求不同人对同一事物的看法是一致的。考虑到个体认知的差异化，这点也很难。

我们数据质量到底有多好

为量化数据质量，我们用Thomas C. Redman博士提出的一个简单、清晰的公式“Friday Afternoon Measurement” (FAM)来计算数据质量评分^[3]。对我们上文提到的文本机器人，计算该指标的基本步骤如下：

首先，我们选定了衡量语料质量的6个指标，如下表所示：

指标名称	指标定义
问答对合格率	问答对中没有错别字、符号、缩写，句子的长度符合具体业务的要求，合格率越高越好
标问意图清晰度	意图包含明确的实体、属性，能清楚的表达具体的含义，没有歧义，清晰度越高越好
标问独立度	重复知识的占比，重复度越低越好
扩写匹配准确率	扩写问和标准问匹配的正确率，越高越好
标问的扩写比	扩展问和标准问的比例，一般在20-200之间为合格
交互优化率	具有交互的问答对占所有问答对的比例，一般在20%为合格

其次，我们选取了2019年12月的样本语料，共计21,000条。
接着，我们对每条语料打分，6个指标都合格为6分，所有指标都不合格为0分。
最后，我们用

将每条语料的分值标准化到【0-100】的区间内，画出样本语料的治理评分的分布图。

data_score_before.jpg

Initial Data Quality Assessment

我们的数据显示，仅有25%的的数据质量勉强达到60分以上的水平，不足0.14%的数据，质量达到了90分。根据Tadhg Nagle，Thomas C. Redman和David Sammon在^[4]一文中统计的结果，仅有3%的公司数据质量基本合格。大概率我们是不在这3%之中的。那么问题来了，如何提升数据质量？

构建"机器+人"的合作模式

解决方案

之前我们介绍了基于FAM公式下的数据质量评价体系，它扮演着类似审计的角色，成为我们衡量的基准。下面就引入我们完整的治理解决方案，其由三个组件构成，分别是服务前台、治理中台和管理后台。整体结构如下图所示。

服务前台，关注用户体验优化，通过制定一系列规范，减少人为操作的个体差异性。
治理中台，负责NLP算法的研发，为AI训练师提供知识运营辅助工具，在兼顾语料人性化的同时，确保语义理解维度的标准化。
管理后台，负责制定标准化治理流程、数据监控体系和算法优化方向。并和前台、中台形成管理闭环。

data_quality_procedure.jpg

The Procedure For Data Quality Enhancement

我们知道，更多治理细节没有在图示中显示，我们欢迎读者对感兴趣的部分留言，我们也会及时回复。

算法平台介绍

根据之前的6个衡量指标，我们采用了如下一系列算法优化数据质量。这些算法在实际运用中，获得了不错的结果。

data_correction.jpg

NLP toolbox For Data Quality Enhancement

通过治理后，数据质量评分也得到了显著的改善。超过97%的数据质量达标，更有22%的数据质量达到了90分。

data_score_after.jpg

Data Quality Assessment Revised

财务价值

通过建立完整的知识治理闭环，项目成功节约运营成本人民币320万元。除此之外，还有一系列核心指标得到显著改善，包括：

知识质量提升，从之前25%的合格率（即：达到60分）提升到了97%的合格率。
知识优化效率，从人均80条/每天，提升了45%，到116条/每天的处理能力，在我们的业务场景下，成功解决了8个全职的AI训练师人力。
客户服务满意度，用NPS（Net Promoter Score）来衡量，也从35%提升到了43%。

data_quality_improve.jpg

Data Quality ROI

下一步是什么

我们从有限的经验理解到，一个企业拥抱AI、赋能业务场景通常会选择以专家、领导驱动的方式推动项目落地。这样做的好处显而易见：决策流程短、见效快，对创新风险有人能承担责任。最后一点在一些大型企业中尤为重要。但这样的方式，也有其不足的地方：

无法充分将AI项目迅速推广，形成规模效益。
需要转型为数据驱动型决策机制、用数据判断、用工具优化。

因此，我们的决策者除了要聆听AI专家的专业意见外，也要不断思考和优化支持数据化经营的组织架构。往往这才是一个企业在AI实践中成败的关键。我们在知识治理的尝试，就是建立类似卫星城的组织架构，让创新技术迅速在企业不同业务条线得到充分的推广和实践。而更多的实践和场景，又为技术迭代提供的最佳的土壤。

我们都说，Machine vs. Human？你误会了，其实Love & Peace

银行账户指人民币银行结算账户 ↩
包含大额实时支付系统、小额批量支付系统、网上支付跨行清算系统、同城清算系统、境内外币支付系统、银行业金融机构行内支付系统、银行卡跨行支付系统、城市商业银行汇票处理系统和支付清算系统、农信银支付清算系统、人民币跨境支付系统、网联清算系统 ↩
https://hbr.org/2016/07/assess-whether-you-have-a-data-quality-problem ↩
https://hbr.org/2017/09/only-3-of-companies-data-meets-basic-quality-standards?autocomplete=true ↩