用Tensorflow迁移训练自己的Object Detection模型(MobilenetSSD)

What is Object Detection?

谈起Object Detection,必然要说到他与Classification的区别。我在Quora上看到的一个很直观的答案:

Object Detection = Localization + Classification

Classification是通过一张图片的特征量来判断图像是否包含了某种物体。Object Detection则是检测一张图中某种(某些)物品可能存在的位置。

用Tensorflow迁移训练自己的Object Detection模型(MobilenetSSD)_第1张图片


Algorithm 


用Tensorflow迁移训练自己的Object Detection模型(MobilenetSSD)_第2张图片

有兴趣的话可以了解一下Object Detection的发展史。从R-CNN横空出世开始经历了百花齐放的变革。

Tensorflow Models

Tensorflow提供了一系列预训练好的模型使用。现在普遍使用的算法是YOLO,Faster-RCNN以及Mobilenet等等。考虑到实时检测对速度的需求,以及转换到其他平台可使用的模型的可能性,我在这里将选择使用SSDMobilenet。

Get Started

模型选好了,就可以开始进行训练的准备工作了。

Environment Setting

搭环境什么的最讨厌了。(小声BB)

如果还没有安装object detection模块,可以参照这个链接来安装。需要注意的是tensorflow的版本需要大于1.12。

Data Preparation

通常一张图片在图像识别问题中会经历 原始图像->特征提取->分类 的过程。而数据工程是第一位。在命令你的模型学习数据之前,要根据情况做一些必要的预处理。

Tensorflow专用的训练数据格式是TFRecord。TFRecord实际上是一种二进制格式

Tensorflow对Object Detection训练数据做了如下要求;

An RGB image for the dataset encoded as jpeg or png.

A list of bounding boxes for the image. Each bounding box should contain:

A bounding box coordinates (with origin in top left corner) defined by 4 floating point numbers [ymin, xmin, ymax, xmax]. Note that we store the normalized coordinates (x / width, y / height) in the TFRecord dataset.

The class of the object in the bounding box.

这一次我选了一个Kitchen Object的dataset。这原本是用Depth Camera拍摄的图像数据集,由视频分解成9个scenes,主要包含了11个厨房常见物品的box信息。我选择只用他的RGB图像信息以及boxes信息来训练自己的模型。


打开README看一下,这个数据集采用了和VOC2007/VOC2012一样的存储格式,也就是Annotation以xml树状文件来保存。让我随便打开一个xml文件看看里面什么样子吧!


用Tensorflow迁移训练自己的Object Detection模型(MobilenetSSD)_第3张图片

这里就包含了我需要用来训练的信息啦。plot一下,看起来没什么问题。(xmin,ymin),(xmax,ymax)也就是物体box左上角和右下角的坐标点。所以接下来就将他们转换成Tensorflow专用的TFrecord格式。

这里可以参照官网的指南:https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/using_your_own_dataset.md

简而言之就是TFRecord是一个二进制文件,可以将每一个图片文件名特征信息目标边框种类统统打包成一个example来存储管理在一起然后feed给你需要训练的tensorflow模型。

然而可能是我不够细心或者智商不行,老是卡在很小但是很头疼的地方。官方给出的例子只给出了一张图片有一个检测物体的例子,多目标检测的方式并没有给出。只给了一句话让我有些线索:A list of bounding boxes for the image. 

也就是说同一张图片的每一条object的每种信息都保存在一个list里面,无论是一个还是10个。可以参照这个浣熊detection的主页。先将xml文件转换成csv,再从csv中读取每条信息并处理转换成tfrecord文件。

这样tfrecord文件就生成好了。在开始训练之前,除了tfrecord之外,还需要创建一个pbtxt文件来保存label信息。比如说我有一个classlist的list,大概长这个样子

['coca_cola_glass_bottle', 'honey_bunches_of_oats_honey_roasted', 'nature_valley_soft_baked_oatmeal_squares_cinnamon_brown_sugar', 'nature_valley_sweet_and_salty_nut_almond', 'pringles_bbq', 'red_bull', 'pop_secret_light_butter', 'palmolive_orange', 'coffee_mate_french_vanilla', 'hunts_sauce', 'mahatma_rice']

pbtxt文件要求将这个文件保存成这样。。

item {

  id: 1

  name: "coca_cola_glass_bottle"

}

item {

  id: 2

  name: "honey_bunches_of_oats_honey_roasted"

}


写起来嫌麻烦可以用下面的代码

print('Converting class file to labelmap file:')

with open('labelmap.pbtxt', mode='w') as f:

    count = 1

    for name in classes_list:

        f.write('item {\n')

        if count == 0:

            f.write('  name: "none_of_the_above"\n')

            f.write('  label: 0\n')

            f.write('}\n')

        else:

            f.write('  id: '+ str(count)+'\n')

            f.write('  name: "'+classes_list[count-1]+'"\n')

            f.write('}\n')

        count = count + 1

print('Saved labelmap file: labelmap.ptorotxt')

生成好了pbtxt文件之后,还需要一个一个model的config文件,去samples里面找到ssd_mobilenet_v1_coco.config,复制到与pbtxt相同目录下。 需要进行一下小小的修改,这个文件包含了我们训练数据的路径以及对训练器的配置。fine_tune_checkpoint 这个参数,把引号里面的删除掉(变成这样->fine_tune_checkpoint: "")。 里面的input_path都改成自己保存tfrecord的路径,label_map_path改成pbtxt文件的路径。

保存!

Training!

可以开始训练啦。用object_detection目录下的model_main.py文件进行训练,option写上各种自己的地址就可以啦!

python model_main.py --pipeline_config_path=data\ssd_mobilenet_v1_coco.config --model_dir=data\training --num_train_steps=30000

大概就是这样,回车!

下周回来看结果咯~

你可能感兴趣的:(用Tensorflow迁移训练自己的Object Detection模型(MobilenetSSD))