论文笔记:PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection

引入

PVANET是韩国研究者(Intel Imaging and Camera Technology)结合了最新的技术,在TITAN X上实现了轻量级模型的实施目标检测任务,在PASCAL VOC上取得了第五名的成绩。

网络结构设计

C.Relu

作者为了减少网络参数,才用了C.ReLU[1]这一结构,最终能够使通道数减少一半。并在concat操作之后加入了尺度变化和偏移。具体结构如下:

论文笔记:PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection_第1张图片

从图上可以看出,作者其实只是将原本的Conv层,做了一个取反、尺度变化和漂移。具体的代码在power_layer.cpp/cu文件中。
加入尺度变化和偏移能够允许每一个通道的斜率和激活阈值与它们相反通道的不同。这样,也就是说,在一半的参数下,能够实现两倍的不同参数的filter。

Inception

作者也将近年来流行的Inception模型加入到了网络中来。

论文笔记:PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection_第2张图片

HyperNet

HyperNet[2]是今年CVPR上的论文,通过引入多尺度来增加对细节特征的提取。关于这部分,作者认为:因为直接对概要层连接可能会导致过多冗余信息,从而进一步加大了运算量,因此需要仔细地设计不同概要层的数量和层数。如果过早,只有很小的提升,但可能会引起过多的计算。

最终,作者连接了最后一层(conv5_4)和中间两层(conv3_4,conv4_4)。完整的网络参数如下:

论文笔记:PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection_第3张图片

网络训练

这部分其实没有太多可说的。作者使用了BN等最近流行的方法,也是用了残差结构。

实验结果

作者的优势在于速度:一张图片只需要46ms。

论文笔记:PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection_第4张图片

总结

从我自己的实验结果来看,是要比YOLO,SSD这些实时方法靠谱很多。虽然作者将近一两年的新技术杂糅在一起,但确实有很好的效果。

参考文献

[1] Wenling Shang, Kihyuk Sohn, Diogo Almeida, and Honglak Lee. Understanding and improving convolutional neural networks via concatenated rectified linear units. In Proceedings of the International Conference on Machine Learning (ICML), 2016.
[2] Tao Kong, Anbang Yao, Yurong Chen, and Fuchun Sun. HyperNet: Towards accurate region proposal generation and joint object detection. In Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition (CVPR), 2016.

你可能感兴趣的:(论文笔记,深度学习,计算机视觉)