TensorFlow+SSD编程实战及模型优化(一)

一.SSD模型详细介绍

1背景:Single Shot MultiBox Detector (one-stage方法)

.Wei Liu在ECCV 2016提出

.端到端的训练,不存在候选框提取这个过程,采用anchor机制

.直接回归目标类别和位置

.不同尺度的特征图上进行预测

2.网络框架

TensorFlow+SSD编程实战及模型优化(一)_第1张图片

每一个方格为一个卷积层 ,主干网络为VGGNet,将VGG-16最后两个fc层替换为两个卷积层,在经过多次下采样,6个连线对应6种特征图,多尺度Feature Map预测,在检测层对目标区域的目标类别和坐标的预测,定义Default bounding boxes来完成类别分数,偏移量的预测。

3.AnchorTensorFlow+SSD编程实战及模型优化(一)_第2张图片

这里的每个正方形格子都代表了当前feature map的一个点 ,anchor就是指特征图(包含了多通道)上的每一个点,每个点我们会将他映射到原图中,1个anchor对应多个region的中心点,多个region通过采取不同尺寸和不同长宽比来提取,具体提取哪些区域呢,我们通过两个参量(scale和长宽比)来决定。

4.Default box

假设一个特征图有m*n个anchor,每个单元对应k个default box,每个default box预测c个类别概率分布和4个坐标,输出有(c+4)*k*m*n个值

实际选择的default box称为Prior box

5.损失函数

分类损失(softmax)+回归损失(Smootn-L1)

6.样本构造

.正样本:1.从GT box出发找到最匹配的prior box放入候选正样本集

                  2.从prior box集出发,寻找与GT box满足IOU>0.5的最大prior box放入候选正样本集

.负样本:难例挖掘(难分的样本,常用方法为OHEM),正负样本比1:3

7.数据增强

(1)随机采样多个区域,与物体之间最小的jaccard overlap(IOU)为:0.1,0.3,0.5,0.7与0.9

(2)采样的区域比例是【0.3,1.0】,aspect ratio(长宽比) 在0.5或2

(3)GTbox中心在采样区域中且面积大于0

(4)Resize到固定大小

(5)以0.5的概率随机的水平翻转

二.TensorFlow+SSD环境搭建

1.安装TensorFlow-gpu版本1.12以上;下载框架:https://github.com/tensorflow/models/tree/master/research/object_detection;安装说明:https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/installation.md

按照上面的步骤安装

因为我用的是tf1.13.1

说一下我测试遇到的错误:

解决:用pycharm打开mobilenet.py文件,修改:

之后在research文件路径下运行python3 object_detection/builders/model_builder_test.py

出现以下结果,说明环境装好:

三.人脸检测数据清洗与数据打包

我们使用WIDER FACE数据集,由香港中文大学提出的,包括32203个图像和393703个人脸图像,有在尺度,姿势,遮挡,表情,装扮,光照变化的图像,从61个事件中提取的,对于每个事件类别,选取其中的40%作为训练集,10%用于交叉验证,50%作为测试集

对于数据打包呢,我们首先转化为Passcal VOC格式,再转化为TFrecord

Passcal VOC

主要有三个重要的文件夹:Annotations,ImageSets和JPEGImages

TensorFlow+SSD编程实战及模型优化(一)_第3张图片

在Annotations和JPEGImages文件夹下分别存放标注信息和图片,两文件的命名是相同的,只是格式不同,Annotation会指向JPEGImages下的图片

在ImageSets存放着我们训练和测试要用到的文件列表,我们会根据文件列表将数据集划分为训练集,测试集和验证集

下载数据集:http://shuoyang1213.me/WIDERFACE/

TensorFlow+SSD编程实战及模型优化(一)_第4张图片

下载下来如下:

TensorFlow+SSD编程实战及模型优化(一)_第5张图片

其中标注文件在wider_face_split.zip中,打开压缩包:

TensorFlow+SSD编程实战及模型优化(一)_第6张图片打开其中一个标注信息(这里打开列表中第5个文件):

TensorFlow+SSD编程实战及模型优化(一)_第7张图片

第一行是图片的路径,第二行是当前图片人脸的个数,第三行的前4个值(前两个是左上角的坐标,后两个是人脸框的大小)是人脸框的坐标信息,后面6个值对应着

我们会根据后面6个值进行清洗,去掉一些样本,使得我们的模型对当前的任务更加匹配

接下来我们打开WIDER_train文件下的images文件:TensorFlow+SSD编程实战及模型优化(一)_第8张图片

一共61个文件,对应到61个不同的场景

接下来我们需要将图片和真值文件转化为VOC格式数据集

完整代码我已上传:https://download.csdn.net/download/zjc20172333086/12456618

你可能感兴趣的:(TensorFlow+SSD编程实战及模型优化(一))