What is Object Detection?

谈起Object Detection，必然要说到他与Classification的区别。我在Quora上看到的一个很直观的答案：

Object Detection = Localization + Classification

Classification是通过一张图片的特征量来判断图像是否包含了某种物体。Object Detection则是检测一张图中某种（某些）物品可能存在的位置。

用Tensorflow迁移训练自己的Object Detection模型(MobilenetSSD)_第1张图片

Algorithm

用Tensorflow迁移训练自己的Object Detection模型(MobilenetSSD)_第2张图片

有兴趣的话可以了解一下Object Detection的发展史。从R-CNN横空出世开始经历了百花齐放的变革。

Tensorflow Models

Tensorflow提供了一系列预训练好的模型使用。现在普遍使用的算法是YOLO，Faster-RCNN以及Mobilenet等等。考虑到实时检测对速度的需求，以及转换到其他平台可使用的模型的可能性，我在这里将选择使用SSDMobilenet。

Get Started

模型选好了，就可以开始进行训练的准备工作了。

Environment Setting

搭环境什么的最讨厌了。（小声BB）

如果还没有安装object detection模块，可以参照这个链接来安装。需要注意的是tensorflow的版本需要大于1.12。

Data Preparation

通常一张图片在图像识别问题中会经历原始图像->特征提取->分类的过程。而数据工程是第一位。在命令你的模型学习数据之前，要根据情况做一些必要的预处理。

Tensorflow专用的训练数据格式是TFRecord。TFRecord实际上是一种二进制格式

Tensorflow对Object Detection训练数据做了如下要求；

An RGB image for the dataset encoded as jpeg or png.

A list of bounding boxes for the image. Each bounding box should contain:

A bounding box coordinates (with origin in top left corner) defined by 4 floating point numbers [ymin, xmin, ymax, xmax]. Note that we store the normalized coordinates (x / width, y / height) in the TFRecord dataset.

The class of the object in the bounding box.

这一次我选了一个Kitchen Object的dataset。这原本是用Depth Camera拍摄的图像数据集，由视频分解成9个scenes，主要包含了11个厨房常见物品的box信息。我选择只用他的RGB图像信息以及boxes信息来训练自己的模型。

打开README看一下，这个数据集采用了和VOC2007/VOC2012一样的存储格式，也就是Annotation以xml树状文件来保存。让我随便打开一个xml文件看看里面什么样子吧！

用Tensorflow迁移训练自己的Object Detection模型(MobilenetSSD)_第3张图片

这里就包含了我需要用来训练的信息啦。plot一下，看起来没什么问题。(xmin,ymin),(xmax,ymax)也就是物体box左上角和右下角的坐标点。所以接下来就将他们转换成Tensorflow专用的TFrecord格式。

这里可以参照官网的指南：https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/using_your_own_dataset.md

简而言之就是TFRecord是一个二进制文件，可以将每一个图片文件名特征信息目标边框种类统统打包成一个example来存储管理在一起然后feed给你需要训练的tensorflow模型。

然而可能是我不够细心或者智商不行，老是卡在很小但是很头疼的地方。官方给出的例子只给出了一张图片有一个检测物体的例子，多目标检测的方式并没有给出。只给了一句话让我有些线索：A list of bounding boxes for the image.

也就是说同一张图片的每一条object的每种信息都保存在一个list里面，无论是一个还是10个。可以参照这个浣熊detection的主页。先将xml文件转换成csv，再从csv中读取每条信息并处理转换成tfrecord文件。

这样tfrecord文件就生成好了。在开始训练之前，除了tfrecord之外，还需要创建一个pbtxt文件来保存label信息。比如说我有一个classlist的list，大概长这个样子

['coca_cola_glass_bottle', 'honey_bunches_of_oats_honey_roasted', 'nature_valley_soft_baked_oatmeal_squares_cinnamon_brown_sugar', 'nature_valley_sweet_and_salty_nut_almond', 'pringles_bbq', 'red_bull', 'pop_secret_light_butter', 'palmolive_orange', 'coffee_mate_french_vanilla', 'hunts_sauce', 'mahatma_rice']

pbtxt文件要求将这个文件保存成这样。。

item {

id: 1

name: "coca_cola_glass_bottle"

}

item {

id: 2

name: "honey_bunches_of_oats_honey_roasted"

}

写起来嫌麻烦可以用下面的代码

print('Converting class file to labelmap file:')

with open('labelmap.pbtxt', mode='w') as f:

count = 1

for name in classes_list:

f.write('item {\n')

if count == 0:

f.write(' name: "none_of_the_above"\n')

f.write(' label: 0\n')

f.write('}\n')

else:

f.write(' id: '+ str(count)+'\n')

f.write(' name: "'+classes_list[count-1]+'"\n')

f.write('}\n')

count = count + 1

print('Saved labelmap file: labelmap.ptorotxt')

生成好了pbtxt文件之后，还需要一个一个model的config文件，去samples里面找到ssd_mobilenet_v1_coco.config，复制到与pbtxt相同目录下。需要进行一下小小的修改，这个文件包含了我们训练数据的路径以及对训练器的配置。fine_tune_checkpoint 这个参数，把引号里面的删除掉（变成这样->fine_tune_checkpoint: ""）。里面的input_path都改成自己保存tfrecord的路径，label_map_path改成pbtxt文件的路径。

保存！

Training!

可以开始训练啦。用object_detection目录下的model_main.py文件进行训练，option写上各种自己的地址就可以啦！

python model_main.py --pipeline_config_path=data\ssd_mobilenet_v1_coco.config --model_dir=data\training --num_train_steps=30000

大概就是这样，回车！

下周回来看结果咯~

用Tensorflow迁移训练自己的Object Detection模型(MobilenetSSD)