表示学习的挑战:三场机器学习竞赛报告Challenges in Representation Learning: A report on three machine learning contests

摘要(Abstract)

       ICML 2013代表挑战研讨会学习3个主要关注三个挑战:黑盒学习挑战、面部表情识别挑战和多模态学习挑战。我们描述了为这些挑战创建的数据集,并总结了竞赛的结果。我们为未来挑战的组织者提供建议,并对机器学习竞赛可以获得什么样的知识提出一些意见。

关键词:表示学习,竞争,数据集

1介绍(Introduction)

本文描述了作为ICML研讨会“表征学习挑战”的一部分而举行的三场机器学习竞赛。研讨会由Ian Goodfellow、Dumitru Erhan和yobengio组织,旨在探索表征学习的最新发展,特别强调测试当前表征学习算法的能力(见[1]最近的评论),并通过这些比赛推动该领域的新发展。本·哈姆纳和威尔·库克尔斯基处理了所有相关事宜卡格尔主持并确保比赛顺利进行。谷歌为所有三场比赛提供奖品。每场比赛的获胜者获得350美元,亚军获得150美元。来自学术界、工业界和业余机器学习领域的各种各样的竞争者为这三个问题提供了优秀的解决方案。在本文中,我们总结了他们的解决方案,并讨论了我们可以从中学到什么。

2黑盒学习挑战(The black box learning challenge)

黑盒学习挑战的设计有两个目标。首先,数据被混淆了,这样竞争者就不能使用像可视化过滤器这样的人工循环技术来指导算法开发。对深度学习的一个常见批评是,它是一门需要专业从业者的艺术。通过保持数据领域的机密性,这场竞赛降低了人类从业者的有用性。这个想法类似于最近由darpa组织的无监督和转移学习挑战它使用模糊的数据,并要求提交数据的表示形式,然后在竞争服务器上使用这些数据来训练一个非常弱的分类器。在这次比赛中,我们允许参赛者使用任何方法;使用表示学习不是必需的。这次竞赛的第二个目标是测试算法从额外的无监督数据中获益的能力。为此,我们只提供了很少的标记示例。本次比赛引入了黑盒学习2013 (BBL-2013)数据集。重新生成它所需的脚本可供下载5。数据集是街景第二种(类mist)格式的模糊子集房子数量数据集[3]。Dumitru Erhan创建了数据集。原始数据包含3072个特征(像素),他将这些特征(像素)通过乘以一个随机矩阵投影到1875。他还删除了一个类(\4 ' s)。这些措施混淆了数据,使竞争对手不知道他们在解决什么任务。直到比赛结束后,组织者才公布了数据集的来源。直到比赛结束后,组织者才公布了数据集的来源。为了让挑战强调半监督学习,只保留了1000个标记的例子用于培训。另有5000用于公共排行榜。对于这些示例,没有向竞争对手提供标签,但是提供了特性。每个团队可以每天上传两次这些例子的预测。结果的准确性公开发表。因此,公共测试集是一种验证集,但也提供竞争对手的信息。另外5000个示例用于私有测试集。这些示例的特性也提供给了竞争对手,但是只有竞赛管理员才能看到它们的准确性,直到竞赛结束。私有测试集用于确定比赛的获胜者。我们还提供了由SVHN的创建者从一个指定为不那么困难的集合中抽取的130,000个未标记的示例。

表示学习的挑战:三场机器学习竞赛报告Challenges in Representation Learning: A report on three machine learning contests_第1张图片 图1所示。在BBL-2013上的不同提交所获得的准确度的直方图
数据集。组织提供的基线用红色表示。

共有   218支队伍提交了1963个的参赛作品。75支队伍击败了组织者提供的最佳基线(3层MLP)。所有团队绩效的直方图如图1所示。David Thaler以70.22%的准确率赢得了比赛,使用混合的三种模型使用稀疏滤波[4]进行特征学习,随机森林用于特征选择[5],支持向量机[6]用于分类。其他竞争对手如Lukasz Romaszko[7]也通过稀疏滤波获得了非常有竞争力的结果。这是一个有趣的结果,因为稀疏滤波通常被认为是一种廉价而简单的方法,它给出的结果很好,但不是最优的。David Thaler和Lukasz
Romaszko和他的研究人员都发现,学习标记和未标记数据组合的稀疏滤波特征比只学习标记数据的特征效果更差。这可能是因为标记数据是从SVHN数据集中比较困难的部分提取的。李东贤(Dong-Hyun Lee[8])在比赛中获得第二名,他独立地重新发现了熵正则化[9]。事实证明,这种非常简单的半监督学习方法非常有效,值得更多关注。在第三名中,Dimitris Athanasakis和John ShaweTaylor开发了一个新的feature section /组合机制MKL。其他得票最多的公司包括谢晶晶、徐冰和张创,他们开发了综合投票技术,用于去除自动编码器[10]和maxout网络[11]的噪声。

最近在深度学习方面的一个趋势是完全放弃无监督学习,而在此之前,鉴别训练已经得到了改进。这可能是因为大多数数据集都有几个带标签的示例。在这次比赛中,只有1000个带标签的训练例子,大多数高分者仍然需要以某种方式使用未标记的数据。

3.面部表情识别挑战(The facial expression recognition challenge)

在“面部表情识别挑战赛”中,我们邀请参赛者设计一套识别人脸照片中所表达的情绪的最佳系统。在这次比赛中,我们想要比较一个任务上的方法,这是一个很好的研究,但使用一个全新的数据集。这避免了重复使用基准数据集的测试集过度拟合的问题。举办这种竞赛的一个原因是,它允许我们以尽可能公平的方式将特性学习方法与手工设计的特性进行比较。

本次大赛引入了面部表情识别2013 (FER-2013)数据集。可供下载。fer2013由Pierre Luc Carrier和Aaron Courville创建。这是一个更大的正在进行的项目的一部分。该数据集是使用谷歌图像搜索API创建的,用于搜索匹配184个与情绪相关的关键字(如“幸福”、“愤怒”等)的人脸图像。将这些关键字与与性别、年龄或种族相关的单词组合,得到近600个字符串,作为人脸图像搜索查询。每个查询返回的前1000个图像保留到下一个处理阶段。利用OpenCV人脸识别技术获取采集到的图像中每个人脸周围的包围框。人类贴标签者比拒绝不正确的标签图像,如果必要的话纠正裁剪,并过滤掉一些重复的图像。经过批准,裁剪后的图像被调整为48x48像素,并转换为灰度。Mehdi Mirza和Ian Goodfellow为这次比赛准备了一个图像子集,并将细粒度的情感关键词映射到多伦多人脸数据库[12]中使用的相同的七个大类中。得到的数据集包含35887张图片,其中4953张是愤怒的图片,547张是厌恶的图片,5121张是恐惧的图片,8989张是快乐的图片,6077张是悲伤的图片,4002 \惊讶“图像,和6198 \中立”图像。Ian Goodfellow进行了一些小规模的实验来评估人类在这项任务中的表现。他收集了1500张丽萨实验室成员表演七种面部表情的图片。这个数据集本身不包含标签噪声,尽管较差的性能意味着贝叶斯率可能相当高。在该数据集上,人类的准确率为68±5%。由于fer2013的采集方式,理论上可能会出现标签错误,但Ian Goodfellow发现人类对fer2013的准确率为65±5%。虽然可能会有标签错误,但它们不会显著增加任务的难度,至少对人类来说不会。詹姆斯Bergstra还确定了\null”模型的最佳性能,该模型由一个卷积网络组成,除了在最后的分类器层之外,不需要学习。使用TPE超参数优化算法,他发现最好的卷积网络的准确率达到60%。使用这些模型的集合,他得到了65.5%的准确率。详见[13]。56个团队提交了最终数据集。其中,有四支团队击败了最好的\null“集成模型”(直到比赛结束后才呈现出来[更多的团队击败了组织者提供的更简单的基线])。他们的分数如表1所示。前三名的团队都使用卷积神经网络[14]进行图像变换的判别训练。获胜者,
以支持向量机的原始目标为损失函数进行训练。这个损失函数之前已经应用到神经网络中,但是他还使用了L2-SVM损失函数,这是一个新的发展,在竞赛数据集和其他方面都取得了很好的结果。我们希望在这个研讨会上回答的一个问题是特征学习算法是否领先于其他方法。拉库,马吕斯Popescu和Cristian Grozea提供了不使用特征学习的最强提交。他们的方法使用SIFT[15]和MKL。这种方法使他们的性能接近马克西姆·米拉科夫,谁提交了第三最好的卷积网络。这些结果表明,卷积网络确实有能力超越手工设计的特性,但在精度上的差异并不极端。目前还不清楚最佳深度网络的性能是否达到贝叶斯速率。

4.多模式学习的挑战(The multimodal learning challenge)

多模式学习的挑战旨在促进算法的发展,以便发现具有多个输入表示的示例的统一语义表示。在这种情况下,两种输入模式是图像和文本。建议参赛者使用小型ESP游戏数据集[18]作为训练数据,但允许使用所有公共的训练数据来源。小型ESP游戏数据集由100,000张不同大小的图片组成,这些图片由在线游戏的玩家注释。每张图片平均有14个单词,词汇量超过4000个。

为了提供一个新的测试集,Ian Goodfellow手工标记了由谷歌图像搜索获得的1000幅图像,查询了小型ESP游戏数据集中一些最常用的单词。这些标签旨在与训练集中的标签相似。例如,它们包括训练集中常见的拼写错误。此数据集可供下载。

Kaggle还没有提供通常用于多模式学习的评估指标,因此组织者设计了一个多模式分类任务。每个测试图像都带有来自测试集的两个标签,分类任务是报告这两个标签中哪个是正确的。不幸的是,由于这是一个匹配的任务,因此很容易产生有趣的机器学习结果。唐一川发现,一种精度较低的基分类器可以与匈牙利算法相结合来计算最优匹配。用这种方法构造的最优匹配获得了100%的精度。比赛以三局打平结束,测试准确率为100%。得奖者分别为“RBM”(唐一川)、“MMDL”(冯芳祥、范瑞凡)
李,王晓洁),还有白化诺尔曼”(约翰·帕克)。RBM通过提交第一个完美的解决方案赢得了比赛。MMDL和AlbinoSnowman之间的联系被打破了,因为MMDL提交了一个模型文件进行验证AlbinoSnowman没有。

如果将来组织类似的比赛,我们建议将测试图像的标签数量增加一倍,然后丢弃一半的图像,并使用它们的标签作为剩余标签的错误标签。这消除了匹配方面的问题,并强制分类器独立标签每个图像。

5.给比赛组织者的建议(Advice to contest organizers)

组织一场比赛需要涉及各方的大量工作。我们为举办一场成功的比赛提供一些建议:

 

6.conclusion

与研究论文相比,竞赛为机器学习算法提供了一个不同的、重要的观点。研究论文应该是非常新颖的。在撰写研究论文时,最有才华的机器学习实践者把他们的技能集中在他们自己发明的调优方法上。
竞赛提供了一个机会,让人们看到当采用不同的激励结构时会发生什么:熟练的实践者使用他们认为有助于他们获胜的任何方法,不管这种方法有多新颖,也不管他们是否发明了这种方法。

你可能感兴趣的:(表示学习的挑战:三场机器学习竞赛报告Challenges in Representation Learning: A report on three machine learning contests)