2018年年中的时候,一不小心接触到了物体检测届的一位佼佼者,一阶段检测框架yolo,于是花了几个月研究并记录下来。直到最近,在工作上要用到物体检测,我第一反应就是yolo3,于是把训练的步骤和过程详细记录下来,给各位分享分享。
首先,如果你想用tensorflow版的yolo3去训练,肯定会搜到https://github.com/qqwweee/keras-yolo3 这个github的开源项目,但是我告诉你,这个开源项目的训练程序,可以跑通,但是你是得不出正确结果的,这个开源项目,除开trian过程,其他的都没多大问题,唯独训练过程,是不对的!并且,其训练速度远不及darknet本身的c++代码要高效。但是他的开源代码有非常好的用处。一个是跟python衔接,利于python用户开发;另一方面,他的代码对图像增强和yolo3的优化有非常好的借鉴作用。待会咱们再说这个开源项目。
咱们先去我的窝把代码下下来:https://github.com/robbebluecp/keras-yolo3-core (手动滑?)
来,咱们开始训练自己的数据吧。依旧先以voc数据为例。
一、准备数据(我帮整理好了。。。)
数据链接:https://lzy-public-data.oss-cn-beijing.aliyuncs.com/voc2007.tar
文件夹包括至少五个文件(我用的是mac电脑,我的文件夹路径:/Users/yvan/data/voc2007):
建议各位看官把数据下下来,解压看看,跟我的思路,齐步走!一二一。。。
(1)images是存放了所有图片的文件夹
(2)lables文件夹存放着每个图片的相关数据
(3)train.txt记录着每张训练集图片的绝对路径
(4)test.txt记录着每张测试集图片的绝对路径
(5)class.txt记录着所有类别的名称
相关数据这里详细解释一下:
每一行数据由5个元素组成,分别是:类别ID,x相对坐标值,y相对坐标值,w相对值,h相对值
1)类别ID:每个类别对应的ID号(假设为1)
然后,我们假设如下图片,图片的宽为:200,高为500;狗狗的A坐标(x1, y1), B坐标(x2, y2)
2)x相对坐标值:(x1 + x2) / 2 / 200
3)y相对坐标值:(y1 + y2) / 2 / 500
4)w相对值:(x2 - x1) / 200
5)h相对值:(y2 - y1) / 500
那其中一行的数据就是:1 (x1 + x2) / 2 / 200 (y1 + y2) / 2 / 500 (x2 - x1) / 200 (y2 - y1) / 500
二、darknet安装
https://pjreddie.com/darknet/install/
官网已经说得非常详细了,这里再简述一下
1、下载
git clone https://github.com/pjreddie/darknet.git
cd darknet
然后咱们配置一下
2、配置
打开Makefile
vim Makefile
然后咱们修改头几行
#是否安装GPU版
GPU=1
#安装GPU肯定得需要CUDNN驱动
CUDNN=1
#是否安装opencv支持,这个需要预先安装opencv(建议装上)
OPENCV=1
3、编译安装
make
没有error就准备嗨皮吧!
四、下载我重构的代码吧。。。
git clone https://github.com/yfyvan/keras-yolo3-core.git
五、生成配置
以下操作假设:1、darknet框架已经装好;2、数据集文件夹无误;3、keras-yolo3-core代码clone完毕
1、cd keras-yolo3-core
2、python3 darknet.GenerateConfig('/Users/yvan/darknet/darknet', '/Users/yvan/data/voc2007').run()
或:python3 darknet.GenerateConfig('/Users/yvan/darknet/darknet', '/Users/yvan/data/voc2007').run()
其中:
“/Users/yvan/darknet/darknet”是darknet框架路径
“/Users/yvan/data/voc2007”是数据集的路径
如果不报错,你会发现!
在darknet的cfg文件夹多出了train_meta.cfg 和train_net.cfg两个文件,一个是数据配置文件,一个是网络配置文件
在darknet的data文件夹多出了class.txt文件,是类别的记录文件
这里,简述一下train_net.cfg的重要参数:(引自:https://blog.csdn.net/qq_43211132/article/details/88679979)
batch:类似于keras的batch概念,一批训练样本的大小
subdivisions:一批样本拆分子样本的大小(防止内存溢出)。我重构的darknet.GenerateConfig可以对上述俩参数做设置
max_batches:类似于keras的epoch,指迭代的次数
其中非主要参数,各位移步引用博文进行参观- -
六、开始训练
cd "darknet路径"
./darknet detector train cfg/train_meta.cfg cfg/train_net.cfg
七、输出监控(参考:https://timebutt.github.io/static/understanding-yolov2-training-output/)
(1)8指的是当前迭代次数
(2)2691.69说是总体损失,这点我不太清楚。2577.05是平均损失。
(3)0.000000是学习率。我也很好奇为何是0.00000,在我的GPU电脑能正确显示,有知道的大佬欢迎戳
以上是重点需要关心的输出
八、其他常用命令
# 从0开始训练
./darknet detector train cfg/train_meta.cfg cfg/train_net.cfg
# 加载预训练模型
# wget https://pjreddie.com/media/files/darknet53.conv.74
./darknet detector train cfg/train_meta.cfg cfg/train_net.cfg darknet53.conv.74
# 多GPU训练
./darknet detector train cfg/train_meta.cfg cfg/train_net.cfg -gpu 0,1,2,3,4,5,6
# 断点训练
./darknet detector train cfg/train_meta.cfg cfg/train_net.cfg backup/xxx.backup
九、模型转换
训练完后,你能在darknet/backup下发现一个训练权重文件xxx.weights
1、改下名字吧,改成model_yolo.weights
2、拉回到keras-yolo3-core/model_data
3、把darknet/cfg的train_net.cfg也拉回来,改成model_yolo.cfg吧
4、那个darknet/data的class.txt也拉回来
5、cd keras-yolo3-core
运行
python3 darknet.Convert(model_data/train_net.cfg, model_data/model_yolo.weights, model_data/model_yolo.h5)
十、预测
找到keras-yolo3-core的predict代码
修改三处:
(1)model_file_path
就是model_data/model_yolo.h5
(2)image_file_path
model_data/model_yolo.h5
(3)class_file_path
class.txt的路径
然后跑吧!