注意力机制网络-ViS-HuD(一)

摘要
vis-hud,从图片中计算视觉现实性,将得到的结果送入cnn中进行human detetion
a visual saliency map:使用ML-net产生,ML_Net在SALICON上预训练,
detectNet :用来human detect 是ImageNet的预训练
分别为了saliency detection and Image classification。
introduction
human detection的challenge要克服人体姿态的变化,光照因素,拥挤的场景,视角的变化和低分辨率。
大部分的检测器都在克服这些挑战,提取hog特征,haar-like特征,以及一些组合特征,然后利用boosting或者SVM这一类的分类器进行分类。CNN比一般的手工提取的特征效果更佳。
显著性目标检测
目的是突出图片中的视觉显著的区域或者物体大多数的无监督的算法和方法都是建立在底层的特征且在单独的图片上进行saliency检测。有的方法刻意的突出亮点像素点这样就会丢失目标信息,还有一种基于全局对比的方法,同时考虑区域空间的相似性和整张图片的对比度。这些方法都是在考虑局部信息兵器压抑高频内容,抑制了突出物的内容区域。也有利用局部和全局信息的组合来产生一个随机场进而产生一个saliency map。还有使用multi-layer的方法去分析高对比度的区域。大多数的方法都是结合手工特征去创造最后的saliency map
深度多层网络在salicon数据集上比MIT saliency表现的更好。
本文的创新的地方就是使用了visual saliency来检测在高度遮挡拥挤的背景下的人群。通过计算输入图片的visual saliency进行特征的学习,然后相乘图像和它的visually salient map通过subsequent cnn,学习的结果更加有效。并且detectnet有更高的检测精度。
1 为了精确的在严重遮挡和拥挤的环境里面对任务进行定位,我们提出了一个新的方法即使先计算visual saliency之后再进行feature learning
2 在数据集上产生了超级好的结果,并且在Tud-Brussels benchmark上有更具有竞争力的结果。
DetectNet
注意力机制网络-ViS-HuD(一)_第1张图片
可以提取不同size的图片,训练数据去从包含很多目标的大图中进行采样,是一种三维的标签,可以提取对象数量改变的不同维度的image。每个grid square主要标记两条关键的信息。
1 在这个grid square里面人类的种类
2.一个人的像素坐标
detectNet指出了很重要的训练过程
1 FCN可以进行特征提取斌给预测human class和bounding boxes 和grid square
2 计算human coverage and human box Corner per grid的loss function
3 聚类函数在预测中产生 final set of predicted bounding box
detectnet和Googlenet的网络结构差不多,但是没有数据输入层,也没有最后的池化层,和输出层,所以计算比较快。使用的是与训练的goolenet model,但是网络接受变化的input image并且在滑动窗口上有效的使用cnn。
The Visual Saliency Model:ML-Net
使用这个网络进行visual saliency predicted 一个CNN就是用来计算底层和高层的特征的,将提取的特征送入 encoding 网络去学习权重并产生visual saliency specific特征图。其实就是利用visual saliency model来产生一张图片中可能存在的human区域。
注意力机制网络-ViS-HuD(一)_第2张图片
visual saliency maps将会在有人的地方产生一个更高强度。
下面就是一些训练细节和数据增强的方法,下篇博客再说吧

你可能感兴趣的:(目标检测)