聊聊AI部署中数据准备阶段的偏见问题

AI生命周期的四大阶段包括:数据获取、数据准备、模型训练和部署、人工模型评估。其中,数据获取、数据准备和模型评估往往充满挑战。这主要是由于,海量的数据需求使得AI从业者将80%以上的时间都花在数据管理上

聊聊AI部署中数据准备阶段的偏见问题_第1张图片

随着AI在各行各业得到更广泛的应用,挑战也应势而生。数据处理的偏见问题便是其中一个长期的关键问题。数据偏见是指数据集中某个元素的代表权重过大或不足。如果使用有偏见的数据来训练AI/ML模型,就会导致有偏差、不公正、不准确的结果。今天我们就来展开聊聊AI生命周期中数据准备阶段的偏见问题。

聊聊AI部署中数据准备阶段的偏见问题_第2张图片

Bias in Data Preparation

 数据准备阶段的偏见 

在AI部署生命周期的数据准备阶段,需要获取一组原始数据,对其进行排序、标注、清理和复核。通过结合人工标注与AI自动标注,能够以尽可能低的偏见交付高质量的数据。

不同数据类型的标注方式主要有:

· 为图像中的对象标注边界框

· 转录音频文件

· 将书面文本从一种语言翻译成另一种语言

· 标注文本文件或图像文件等

人工标注员完成标注后,数据便进入人机协同的质检阶段。如果数据不适合项目或数据标注错误,则将从数据集中进行删除。

在数据准备阶段的最后,也就是数据进入模型训练阶段之前,必须保证其干净、完整且一致。如果在这一阶段产生偏见,并通过多种方式引入道德问题,这些问题将随后被带入AI模型。

聊聊AI部署中数据准备阶段的偏见问题_第3张图片

 常见的数据偏见类型有哪些?

数据中有缺口

数据缺口和数据代表性不足是AI数据集中潜入偏见的最常见情况。如果数据集中缺少某些分组或类型的数据,就会导致在数据和生成的AI模型输出中出现偏见。常见的数据缺口包括少数群体代表性不足,某类数据或罕见用例的代表性不足等。

数据标注员没有经过良好的训练

另一种引入偏见的常见情况是使用未经训练的数据标注员。如果数据标注员训练不足,不了解其工作的重要性,则标注过程中更有可能出现标注错误或是偷工减料的情况。为数据标注员提供全面的训练和支持性监督,能够限制数据准备过程中出现的错误数。

标注不一致

如果由多个标注员标注同一个数据集,务必要训练所有标注员在标注每个数据点时保持一致性。当相似类型的数据标注不一致时,就会产生回忆偏见,导致AI模型的准确性降低。

聊聊AI部署中数据准备阶段的偏见问题_第4张图片

个人偏见

每个人对周围的世界都有一套独特的理解。在数据标注过程中,例如,如果标注员标注带有面部情绪的图像,那么来自两个不同国家的标注员可能会提供不同的标注。这类偏见在数据准备中无法避免,但可以通过全面的质检流程加以控制。此外,还可以为数据标注员提供避免无意识偏见的训练,设法减少偏见对数据标注的影响。

只使用人工或机器进行标注

从人工标注到机器标注,围绕两种标注方法的争论从未停止。将人工和机器进行结合,既使用人工标注员标注数据,同时也使用机器学习程序对数据标注进行质量检查,这样做才能构建一流质量的数据集。

数据过多或过少

如果训练数据太少,算法将无法理解数据中的模式。这被称为欠拟合。如果训练数据太多,模型的输出会不准确,因为它不能确定哪些是噪声,哪些是真实数据。这被称为过拟合。为AI模型创建大小合适的数据集,将能提高模型输出的质量。

排除“无关紧要”的数据

在数据准备过程中,认真检查数据并从数据集中删除不适用于模型的数据很重要。但需要注意的是,在这个阶段随意删除看似“无关紧要”的数据可能会导致偏见。有时,数据集的某个部分很小或是不常见,并不意味着它不重要。

聊聊AI部署中数据准备阶段的偏见问题_第5张图片

 几种应对偏见的解决方案  

雇佣多元化和有代表性的员工

在数据准备过程中消除偏见的一种重要的方法是,确保决策者和参与者具有广泛的代表性。雇佣多元化的员工对减少AI训练数据集中的偏见大有益处。

雇佣多元化的员工是第一步,我们还可以再进一步——为所有员工提供无意识偏见训练。无意识偏见训练能帮助员工更好地识别自己的个人偏见,并有意识地在所标注的数据中避免偏见。

在质检流程中增加偏见检查环节

大多数偏见都是无意的。然而,通过在质检流程中增加偏见检查环节,可以有意识地进行偏见检查。这样有助于提醒员工明确查找数据中的偏见,批判性地思考数据中应该和不应该包含哪些内容。

为标注员提供公平的待遇

工作报酬优厚的员工更有可能关注生产高质量的内容。企业善待员工,员工就更有可能以高质量的工作作为回报。本质而言,合乎道德的AI始于那些为训练AI模型而标注和清理数据的人。如果这些人的工作待遇不令人满意,偏见扩散的可能性就更大。

聊聊AI部署中数据准备阶段的偏见问题_第6张图片

若要为AI模型建立一个更合乎道德的美好世界,就应该回归起点:从数据开始。在数据准备阶段,至关重要的是要有训练有素、享有公平待遇的员工,他们可以识别无意识的偏见,帮助模型尽可能多地消除偏见。澳鹏Appen通过提供多样化、可扩展的数据标注方案,帮助达到AI项目部署所需的高质量水平。

你可能感兴趣的:(训练数据,人工智能与机器学习,数据偏见,人工智能,机器学习,数据标注)