雨叒

利用COCO API测试自己数据集训练的YOLOv3模型的mAP（VOC格式数据集）

目录

工具
前言
生成标注集的json文件
- 数据集准备
- 将voc注解格式数据集的注解转换成txt注解格式
- 自定义数据集的注解转换成coco的注解格式
生成结果集的json文件
- 安装darknet
- 获取自己模型的.weight文件（将.h5文件转换成.weight文件）
- 将图像以coco格式重命名
- 修改coco.data中的路径
- 修改yolov3.cfg文件
- 进行检测并生成json文件
测试mAP步骤
错误问题解决
参考博文及Github项目（十分感谢！）

工具

1.git：去git官网下载：https://git-scm.com/downloads/，下载自己需要的版本，下载完成后按照默认步骤安装即可

2.pycocotools：测试mAP时需要用到，参照https://blog.csdn.net/SyliaJason/article/details/103066638 进行安装（Win10系统）

3.Advanced Renamer：批量重命名工具——https://www.advancedrenamer.com/ ，批量更改数据集名称时可能会用到。

前言

对于不同数据集mAP值的计算方法不同，VOC2007提出了利用11个recall值来计算AP，而在2010之后使用了所有数据点来计算AP。COCO数据集采用的计算方式更加严格，它计算了不同IOU阈值和物体大小下的AP值，再取平均值。

本文参考了利用COCO API评估YOLOv3模型mAP的相关文章，这里总结了如何评估自己训练出的yolov3模型的mAP，其中自制数据集参考了VOC数据集的格式存放。

测试mAP需要两个json文件：cocoGt_file 和 cocoDt_file，一个是经过正确标注的标注集的json文件，一个是通过自己训练的YOLOv3模型进行检测而生成的结果集的json文件，这可以通过mAP的定义来理解。

下面我将分别介绍如何生成所需要的这两个json文件，进行mAP测试。
【文章默认已经准备好了带有xml标注的数据集，并且训练好了自己的yolo.h5模型】

生成标注集的json文件

数据集准备

我使用的是VOC格式的自制数据集，要生成COCO数据集需要的json文件，需要对数据集进行处理。

我这里需要使用的仅仅是测试集，所以只需要用到test.txt，该文件保存的是
测试集的图像名称。

将voc注解格式数据集的注解转换成txt注解格式

在自己的项目文件夹下新建1_voc2txt.py文件，输入如下代码。注意根据自己的实际情况更改数据集的路径，并且在VOCdevkit/VOC2007/Annotations文件夹下需要存放标注的.xml文件。

import os
import shutil



'''
将 dataset_dir 改为你的数据集的路径。
生成的txt注解文件格式为：
图片名 物体1左上角x坐标,物体1左上角y坐标,物体1右下角x坐标,物体1右下角y坐标,物体1类别id 物体2左上角x坐标,物体2左上角y坐标,物体2右下角x坐标,物体2右下角y坐标,物体2类别id ...

train_difficult控制是否训练难例。use_default_label控制是否使用默认的类别文件。
'''


# 是否训练难例。
train_difficult = True
# train_difficult = False


# 是否使用默认的类别文件。
use_default_label = True
# use_default_label = False


dataset_dir = 'VOCdevkit/VOC2007/'
train_path = dataset_dir + 'ImageSets/Main/train.txt'
val_path = dataset_dir + 'ImageSets/Main/val.txt'
test_path = dataset_dir + 'ImageSets/Main/test.txt'
#test_path = None
annos_dir = dataset_dir + 'Annotations/'


# 保存的txt注解文件的文件名
train_txt_name = 'voc2007_train.txt'
val_txt_name = 'voc2007_val.txt'
test_txt_name = 'voc2007_test.txt'



class_names = []
class_names_ids = {
     }
cid_index = 0


if use_default_label:
    # class_txt_name指向已有的类别文件，一行一个类别名。类别id根据这个类别文件中类别名在第几行确定。
    # 如果只训练该数据集的部分类别，那么编辑该类别文件，只留下所需类别的类别名即可。
    class_txt_name = 'model_data/voc_classes.txt'
    if not os.path.exists(class_txt_name):
        raise FileNotFoundError("%s does not exist!" % class_txt_name)
    with open(class_txt_name, 'r', encoding='utf-8') as f:
        for line in f:
            cname = line.strip()
            class_names.append(cname)
            class_names_ids[cname] = cid_index
            cid_index += 1
else:   # 如果不使用默认的类别文件。则会分析出有几个类别，生成一个类别文件。
    # 保存的类别文件名
    class_txt_name = 'data/class_names.txt'



train_names = []
val_names = []
test_names = []

with open(train_path, 'r', encoding='utf-8') as f:
    for line in f:
        line = line.strip()
        train_names.append(line)
with open(val_path, 'r', encoding='utf-8') as f:
    for line in f:
        line = line.strip()
        val_names.append(line)
if test_path is not None:
    with open(test_path, 'r', encoding='utf-8') as f:
        for line in f:
            line = line.strip()
            test_names.append(line)




# 创建txt注解目录
if os.path.exists('annotation/'): shutil.rmtree('annotation/')
os.mkdir('annotation/')


def write_txt(xml_names, annos_dir, txt_name, use_default_label, train_difficult, class_names, class_names_ids, cid_index):
    content = ''
    for xml_name in xml_names:
        xml_file = '%s%s.xml'%(annos_dir, xml_name)
        enter_gt = False
        enter_part = False
        x0, y0, x1, y1, cid = '', '', '', '', -10
        difficult = 0
        img_name = ''
        bboxes = ''
        with open(xml_file, 'r', encoding='utf-8') as f:
            for line in f:
                line = line.strip()
                if '' in line:
                    if '' in line:
                        ss = line.split('name>')
                        sss = ss[1].split(')
                        img_name = sss[0]
                    else:
                        print('Error 1.')
                if '' in line:
                        print('Error 2.')
                    else:
                        enter_gt = True
                if '' in line:
                    if cid > -5:
                        if train_difficult:
                            bboxes += ' %s,%s,%s,%s,%d'%(x0, y0, x1, y1, cid)
                        else:
                            if difficult == 0:
                                bboxes += ' %s,%s,%s,%s,%d'%(x0, y0, x1, y1, cid)
                    x0, y0, x1, y1, cid = '', '', '', '', -10
                    difficult = 0
                    enter_gt = False
                    enter_part = False
                if enter_gt:
                    if '' in line:   #