ICLR 2022:PiCO,基于对比消歧的偏标签学习 丨AI Drive

ICLR 2022:PiCO,基于对比消歧的偏标签学习 丨AI Drive_第1张图片

偏标签学习 (Partial Label Learning, PLL) 是一个经典的弱监督学习问题,它允许每个训练样本关联一个候选的标签集合,适用于许多具有标签不确定性和歧义的的现实世界数据标注场景。

然而,现存的 PLL 算法与完全监督下的方法依然存在较大差距。

针对这一现象,本期 AI Drive,浙江大学人工智能系在读博士-王皓波,解读其发表在 ICLR 2022的最新研究成果:PiCO:基于对比消歧的偏标签学习。

这项研究提出一个协同的框架,解决 PLL 中的两个关键研究挑战——表征学习和标签消歧。具体地, PiCO 由一个对比学习模块和一个新颖的基于类原型的标签消歧算法组成。PiCO 为来自同一类的样本生成紧密对齐的表示,同时促进标签消歧。从理论上讲,我们表明这两个组件能够互相促进,并且可以从期望最大化 (EM) 算法的角度得到严格证明。大量实验表明,PiCO 在 PLL 中显着优于当前最先进的PLL方法,甚至可以达到与完全监督学习相当的结果。

ICLR 2022:PiCO,基于对比消歧的偏标签学习 丨AI Drive_第2张图片

王皓波,浙江大学人工智能系博士在读,研究领域包括弱监督学习、多标签学习、机器学习理论等方向,专注于开发鲁棒、实用、可解释机器学习算法。曾于ICLR、TPAMI、AAAI、IJCAI等顶级会议与期刊发表多篇论文,长期担任ICLR、ICML、NeurIPS等顶会审稿人。

本次分享的具体内容有(按“数据实战派”指示回复关键词,可获得本文ppt,文末视频号看观看本期回放):

丨研究背景
丨相关工作
丨PiCO介绍
丨实验结果
丨EM视角下的PiCO
丨科研心得体会

一、研究背景

ICLR 2022:PiCO,基于对比消歧的偏标签学习 丨AI Drive_第3张图片

深度学习和人工智能的兴起,依赖于海量般的标注性数据,而收集这么多精准的标注性数据,实际非常地费时费力,高校与公司要落地这样的产品,需要有大量的标注人员来参与。所以现在的很多学界文章和工作都在关注弱监督学习,减少标注成本,他们实现标签学习,还有半监督学习,并以此来减少标注的数据量和标注的困难。

这篇文章是从比较独特、重要,且容易忽略的角度,去探索数据标注中的一种内生困难,也就是数据标注本身所存在的歧义和不确定性。

假设你是标注者,拿到了这样一张图片,很自然地想问其中的狗是一只什么狗?你可能会想说,这可能是一只阿拉斯加,不对,好像是一只哈士奇。

此时,如果你是一个一直养狗的人,是一个狗类专家,那么你可能一眼就辨识出来其种属。但是,如果像是这种从未养过狗,并且对其领域知识掌握不充分的人,可能就没有办法判别出。此时,若我一定要确认这只狗的种属,就不得不去查找相关文献,或者咨询专家。但是就会费功夫,那么该怎么办?比如随机选一个,但是阿拉斯加和哈士奇里面却选错了,在这种情况下,对于模型和数据,就引入了噪声的标签,实际上会对模型的准确性造成非常大的影响。

另一种方案是,鉴于这张图片标柱的困难性,选择不标注。此时的问题是虽然无法确定这张图片的准确标注到底是什么,但实际上至少能够确定是哈士奇或阿拉斯加此两种中的一种。所以,无论如何也不会把它当做是一只泰迪。我们还是一些认识,只是还不够充分,此时到底该怎么办?

于是自然而然想到,是否可以把所有可能的候选标签全都给标上呢,这便引出本文所研究的一个问题,即Partial Label Learning。

ICLR 2022:PiCO,基于对比消歧的偏标签学习 丨AI Drive_第4张图片

这个数据标注中,像这只狗,其实它的准确标注是阿拉斯加,但在Partial Label Learning里面,我们不再强求这个标注到底是否准确,而是只需要去提供一个标注性的集合,也就是把所有的可能标签都给它标上。在文献中也有一个别称Superset Label Learning,或Ambiguous Label Learning。

上可能这两个名称看起来更加直观一点,但因为一些历史原因,沿用了Partial Label Learning这个方案和名称。

二、相关工作

ICLR 2022:PiCO,基于对比消歧的偏标签学习 丨AI Drive_第5张图片

你可能感兴趣的:(AI,人工智能,学习,机器学习,ICLR)