论文笔记:Is object localization for free?

Is object localization for free? Weakly-supervised learning with convolutional neural networks

摘要

提出一个弱监督卷积神经网络for 分类。主要贡献有:1. 输出正确的分类结果(image-level)2. 预测合理的位置3. 对比跟bounding box

论文笔记:Is object localization for free?_第1张图片

引言

本文利用的图片只有图片包含的物体列表信息,并不包含这些物体的位置信息。
本文利用卷及神经网络来进行改进。5个卷积层+4个fc层。

  1. 最后一层fc网络看做卷积网络,这样输入图片的大小就可以是任意形状
  2. 在输出时引进global max-pooling层,猜测图片中物体的可能位置。
  3. 更改代价函数

模型结构

论文笔记:Is object localization for free?_第2张图片

固定输入224*224,输出1*1*K向量,K 是类别个数。这里通过滑动窗口将输出拓展成m*n*K 。 我们把fc看作是kernel跟输入大小一样的卷积层。这里的输入限定大小是224*224,但是图片是256*256,所以我们设置的stride是32.这样每张图片就可以生成2*2*K 个输出。关于如何实现,请看后文。 这个就比较好玩了,我不喜欢caffe自带的crop,因为只能crop四个角,还有中心区域,这样的话就可以自己设置crop的大小个位置

max-pooling用于物体 的明确搜索
对于每张图,我们要输出一个image-level的标签。因为有m*n个不同位置的评分。这样可以用来多实例检测。
多尺度滑动窗口
用0扩展边界到500*500,resized 0.7-1.4倍。这个挺不错。但是不能应用在atypia scoring中,因为这里,大小规模不一样,评分标准不一样。而分类物体是大小规模不一样,但是分类结果要一样。

分类实验

主要预测物体是否存在。
论文笔记:Is object localization for free?_第3张图片

这篇论文应该就是死路应该来源于Network in Network. 主要就是利用global average pooling。
其次就是多尺度图片。

Reference:
Is object localization for free? Weakly-supervised learning with convolutional neural networks


Emma
SIAT
2017.03.02

你可能感兴趣的:(Android,cnn)