论文笔记《IS object localization for free? Weakly-supervised learning with convolutional neural network》

motivation

作者指出对于检测来说,一般需要更多的标注信息,检测的效果才会好,但是标注信息需要浪费人工去标注,代价大,同时,也会加入标注者的主观信息,更重要的是标注信息并不是对所有的图片中的物体都有很好的检测效果,对于遮挡和裁剪的目标对象,标注信息就会非常困难。作者探究能否用image label训练。

Network architecture

论文笔记《IS object localization for free? Weakly-supervised learning with convolutional neural network》_第1张图片
网络结构是在Alexnet的基础上,将第六、七层的全连接层改为卷积层,再加上两层自适应卷积层,最后一个自适应卷积层后面添加max-pooling层,输出响应最大的点。因为整个网络只有卷积层,所以对输入图像的大小没有限制,前五个卷积层是在Imagenet上进行训练的,后面的几层是在Pascal数据集上进行训练的,所以虽然层数很多,但总体的训练时间没有很长。
论文笔记《IS object localization for free? Weakly-supervised learning with convolutional neural network》_第2张图片
该模型是对图片进行了scale之后训练的模型,该模型是对固定网络的不同输入,目的是:针对图片中很小的目标,将其进行放大。
本文作者做的比较好的一点是实验比较充分,对于提出的每一个trick都进行了实验验证效果
实验的结果宝宝们看论文就好了,这里简单介绍一下定位的衡量标准,作者是将max-pooling的输出映射到原图,然后将结果与bounding-box标注的结果进行比较,容忍度为18个像素,即将bounding-box向外扩18个像素,如果结果在此之内,则认为定位正确。
罗列作者实验结果得出的结论:
1、multi-scale可以提高3%
2、加入object-level对定位结果没有显著影响
3、分析上下文信息对定位结果很大影响

conclusion

Advantage
1、实验很丰富,任何trick,都有实验证明其是否有效。
2、设计的网络结构可以从复杂的场景中找到可能的目标的location以及scale
较准确的输出分类结果,定位的信息
3、将全连接层变为卷积层,训练参数减少,训练速度加快,对于输入图像大小没有限制。

Disadvantage
1、判断定位的标准是作者定义的,不是通用的。
2、与其他算法定位性能的比较,作者自己定义的。
Free
回答作者题目中提出的问题
1、没有bbox只用label的角度来说,可以理解为free
2、整个网络没有为定位采取任何措施角度来说,不是free,作者在文中有指出增加max-pooling以及将全连接层改为卷积层都是为了提高定位的性能。

你可能感兴趣的:(weakly-loc,论文笔记)