众包数据标注中的隐类别分析

0. 写在前面

这时一篇关于田天、朱军的一篇论文的读后感和自己的一点思考。

1. 众包

众包(crowdsourcing)这个词,第一次听到还是众包数据库,是从老班长那里听到的。细想起来,我对外包(outsourcing)这个词更加熟悉。

其实众包就是大家一起外包,把部分工作交给一批人去做,这就是众包。准确来说,“众包”一词最早由Howe和Mark Robingson在2006年美国《连线》发表的文章中提出,它的描述正是一种基于网络的商业模式:公司或组织公开地把自己遇到的问题发布到一个分布式公共网络中,使得来自网络的各个个体可以协作地解决问题。

而这篇文章里,主要提到的是众包数据标注,这其实是非常必要的,尤其是对于大量数据的标注,单靠研究人员是很难标注完成的。

2. 众包标注的困难

众包标注由于是非专业标注,自然会遇到很多问题。这困难主要由以下三个方面组成:
1. 标注者的复杂程度
由于标注者是众包标注,因此其标注者的水平也参差不齐,其背景知识和行为习惯可能有较大的差异。这就相当于是给若干个已训练好的模型来做预测一样,其不同的模型有不同的输出结果。那么这种情况下,基本上使用多数投票的方法来解决。
2. 评价困难
标注的内容可以分为两类,一类是有明确标签的,就好比是试卷里的客观题一样,尽管各个标注都不同,但是还是在有限集合内的。另一类是开放式回答,这种标注如同试卷里的主观题一样,可能会有无限种可能的结果。甚至是截然相反的结果,比如什么是美,什么是丑,每个人的评价标准是不同的。
3. 标注稀疏性
如果一个需要标注的训练集中的数据本身就比较稀疏,而我们又需要把它们分割成一个个小块,这就有可能造成数据稀疏。比如,我们要进行鸟类图片标注,如果本身鸟类种类很多,而分给每个人的鸟的种类也很多的话,由于每个人认识的鸟的种类是不多的,因此可能存在每个人的标注都会有很高的错误率。这时候我们可能就需要让标注者之间有重叠的部分,然后使用多数表决来解决。

3. 标注整合基本模型

整合众包标注问题实际上可以分为两部分,第一部分是对标注行为的假设,第二部分是根据假设给出整合结果。这里我们给出2类模型。

第一类是多数投票模型,这种整合我们最熟悉,无论是在什么领域,多数表决都是一种高效而又简单的决策方法。但是这个表决法太过简单,以至于正确的标注很容易被噪声所掩盖。

第二类是混淆矩阵模型,这也是非常常见的整合模型,下面是一个混淆矩阵示例:

下观察值右真实值 水果 蔬菜
水果 0.4 0.1
蔬菜 0.2 0.3

也就是说,把预测对的值和预测错的值都给出,这样才称为是混淆矩阵。混淆矩阵比多数投票法要进步的多,但是仍然有一些缺陷。首先它对于标注者出错的来源有了一个初步的假设,并且通过概率的方法给出了一个较为严谨的问题表述,最终还提出了通过期望最大化算法求解问题的方法,总的来说是一套比较完整的思路。

但是它仍然存在两个问题:
1. 它对于正确的估量值更多的依赖跟它同出现的其他种情况。例如,对于黄色标注时,给他红色或者绿色作为对比时,其变化趋势是不同的。
2. 这一模型没有考虑标注者本身的倾向性。在同一类型的标注问题中,每个数据都可能有不同的要素来组成,因此标注者再给出标注时,对其产生影响的内容可能来自于多个方面,因此模型中仅仅把它用混淆矩阵来描述,事实上忽视了许多分类信息。

不过最近也有人提出了新的模型,例如Raykar是将训练分类器与标注整合相对模型,而zhou则使用基于最小最大化熵学习的整合模型,还有的提出了针对特定假设的模型。

4. 分类标注中的隐类别结构

所谓的隐类别,就是没有被标注的类别,就像是给出一个图片,我们去标注是水果还是蔬菜的时候,实际上也是包含了像香蕉-水果,黄瓜-蔬菜这种隐含的二级分类。但是对于这些二级分类,我们之前的方法并不能给出一个很好的描述,例如番茄,有的人认为是水果,有的人认为是蔬菜。而像南瓜这种,更多的人会被认为是蔬菜,因此这些隐含变量对于标注的结果也有相当大的影响。

因此,我们就对于这种未知的问题,提出两条新的假设:
1. 数据集中每一个项目属于一个特定的隐类别。
2. 每个隐类别属于一个特定的标注类别。

你可能感兴趣的:(机器学习)