4月11日 晚 第五会场 弱监督视觉理解
主持人:王兴刚——华中科技大学
弱监督分为三类(三个等级):
不完备:一部分标签已经存在,但是仍有一部分数据不存在标签;或者是在多任务学习中,某些数据有某些标签,另一些数据有另外一类标签,两种标签都存在的数据非常少;
不准确:存在噪声(比如在网上收集数据作为网络训练数据时),
不确切:比如在cityscape中,存在一部分非常粗糙的标签(20000张);有一些语义分割标签在给出的时候不是以每个像素标签都给出,而是在某些像素中间给出一个点,这个点属于哪个类别。
题目:面向开放环境的自适应视觉感知
讲者:程明明——南开大学
弱监督的瓶颈问题:
团队希望从以下几个方面来解决跟弱监督相关联的问题,分为三个方面:
并最终将三者结合,促进实际应用。流程图如下:
该团队将切入点放在backbone上,认为需要更加深层次应用多尺度的信息。
例如AlexNet、VGG、ResNet
又将切入点放在bottleneck上,认为只在大的网络结构上进行多尺度信息的复用是不行的,还需要在block层面上甚至是网络层内进行多尺度信息的利用。
原bottleneck和新设计的富尺度空间的通用架构如下:
其中,X1,X2,X3,X4代表将1*1卷积之后变化出来的通道数进行平均分,然后如同瀑布的形式将上一部分的信息添加一个3*3的卷积并连接到下一个部分。
直接替换之后在ResNet等网络上都有性能的提升。
甚至能够嵌入SENet和GroupConv中。
思考:首先,这个网络block设计的相当突兀,一开始只是说明了一个observation:要利用网络中的多尺度的信息。但是,这是从结果出发来讲,并没有却解释为什么要这么设计一个网络模块,这样设计的好处在哪里,有没有必须要这么设计的理由和原因,都不知道。只是说了最后结果还可以,但是并不能够从motivation上说明问题。其次,网络设计的感觉有点随意了,如果可以这么设计,还可以对没部分进行重排,还可以对channel之间进行shuffle,进一步说明了这个结构不能够让人信服,没有这么设计的必要性论证。
基元属性是什么:显著性、边缘、对比度等一系列图像中的固有属性,该属性不具有针对某种特定任务的性质,基元属性与实际应用的关系并不大。
比如RGB-D图像,深度图中一般噪声很大、分辨率低,怎样将其和RGB图像进行融合也是一个问题。
他们组关于利用显著性对物体检测的工作如下:(没太听懂)
虽然后面的各个任务没太听懂,但是这部分有着很重要的一个思想,那就是:他们认为,基元属性与实际应用实际上关系并不大。如边缘是图像的一种基元属性,这个属性可以用于显著性检测,语义分割,目标分割,目标跟踪等各个任务上,而这种通用的基元属性就是通用的解决这一系列问题的一个关键(不知道是不是真的是关键,但是思路值得借鉴,就像已经发现了图像或者人物的内在属性一样,着手从内在属性来解决问题。)
显著性Instance检测:
在Mask-RCNN上改造而来,将ROI-Align改造成ROI-Masking(具体是什么没太听明白,总体而言就是改进了ROI-Align然后使得框更准,更适用于分割。)
显著性Instance(只知道Instance而不知道Label),由生成的Instance之间进行构图并设计度量来进行聚类,如下图:
整体将流程归纳一下,做出工作如下:
重点在于两点,一个是基元特征提取,一个是背景噪声去除。噪声(无效图片)去除的思路在2018年CVPR上见到了2-3篇,不知道其中有没有他们的工作,回头专门去找一下。
还有一些弱监督方法,如生成显著的实例(利用显著性检测,生成每个实例的mask,然后以此训练网络),他们也做了一定尝试。
总体来说就是分为了三个方面,第一个就是深度神经网络共性技术方面,他们提出了一个富尺度空间的深度神经网络通用架构(应该是很通用的,但是出发点讲的太泛,没有什么指导意义,熔断分析感觉也没有做的特别详细。)第二个方面就是要挖掘视觉基元属性,第三个算法层面,他们是利用网络数据来训练深度神经网络的(包含去噪等问题)。
题目:从弱监督到自学习目标建模
讲者:叶齐祥——中国科学院大学
语义分割从全监督到弱监督
希望标注过程可以变得廉价(1.5h和7s)
弱监督实际上是隐变量模型
下面是完全监督的,有人工才会有智能
这里给出的解决方案就是利用弱监督的数据标注,然后就能够进行弱监督的学习,进而得到训练集,减少标注成本(????怎么就变成了标注了?这样一来解决的问题都变了)
另外,如果把弱监督问题视作一个隐变量模型,那么有一个问题必须要去注意到,即隐变量的优化实际上是一个非凸问题。
所以引出了两个解决方向,如下图:
(这个问题很有意思,将弱监督结合到了优化框架里面去,需要找一下他们的工作来阅读一下,虽然我当时没太明白)
这里他们介绍了一个工作,先用近似的平滑方程来求解极值,进而以这个极值为出发点,逐步原LossFunc拟合出来,这样一方面是逐步来得到下一个epoch的初值,另一方面更靠近原问题。
另外一个工作是SPN,关键点是使用了图正则化,而图正则化是凸的。
这个部分我觉得是今晚讲的最好的一个观点。
把weakly supervised问题转化为一个learning from X的问题,这个X可以是很多东西,比如这里就列出了四个(最后一个是信仰):
这个观点我目前还没在其他的文章中见到过,将若监督问题上升到了X的层次并将其统一起来,而不是单纯的把弱监督视作要解决缺乏标注数据的问题,或者说把弱监督问题视作域适应问题。这样的统一框架我觉得以后可以做很多的工作,甚至可以多个任务联合弱监督学习。
还有他们发现了一个小点:残差网络的激活区域是比较小的,不过我暂时不知道怎么去应用这个性质。还提到了这个人
忘了是从哪里提到的,抽时间看看他的工作。
他们提到的具体里面都有哪些工作需要后面具体看看文章。
题目:Weakly-supervised object discovery based on pre-trained deep CNNs
讲者:魏秀参——旷视科技
主要针对图像检索上面做工作。图像检索主要分为两类,一个是以文本来进行检索,另一个是以样本(图片)进行检索。
一般来说,所有的输入经过特征提取后会放到数据库中,每当需要进行检索的时候,输入图像经过特征提取之后与数据库内图片进行比较,并返回数据库中的图片。
CIBR流程:
他们的关键点在于,希望利用已经预训练好的模型(ImageNet上训练的VGG,ResNet等等)来进行弱监督学习。他们有一个观察是:ResNet中,每个channel会注意到物体的不同判别性部位(discrimitive part)
其中,descriptors中,一些噪声响应不为正,这样可以去除噪声
其他的我没弄明白他们工作的内容,就略过去了。
题目:Cost-Sensitive Active Learning
讲者:黄圣君——南京航空航天大学
核心:怎么去减少查询个数从而减少标注代价。
标注成本和问询次数并不是完全一致,因为不同种类的标注所花成本不一样。
这个成本与以下几个方面有关:
Instance
Features
Labels
Oracles
样本层面:
Active query for inconsistent and frequent video.
特征层面:
Query的不是label而是feature,这样可以减少标注成本。
怎么处理特征丢失?——矩阵补全
总体来说因为这两个领域和我这边不太一样,所以没太听懂。
题目:Towards Weakly Supervised Object Recognition and Scene Parsing
讲者:魏云超——UIUC
把弱监督问题视作用更廉价或者更简单的数据训练网络(如何生成伪GT)的问题。但是感觉这个人没有第二个人理解透彻。
关键点:利用对抗擦除来生成标签,在多次迭代中,逐步将目标区域补齐。
于是提出了Self-Erasing Network, 利用点状的标注来进行学习。
Panel
弱监督目前的现状:
弱监督还有什么可以做: