传统车牌检测和识别都是在小规模数据集上进行实验和测试,所获得的算法模型无法胜任环境多变、角度多样的车牌图像检测和识别任务。为此,中科大团队建立了CCPD数据集,这是一个用于车牌识别的大型国内停车场车牌数据集,该团队同时在ECCV2018国际会议上发表论文Towards End-to-End License Plate Detection and Recognition: A Large Dataset and Baseline, 论文和数据集下载地址:https://github.com/detectRecog/CCPD。
该数据集在合肥市的停车场采集得来,采集时间早上7:30到晚上10:00。停车场采集人员手持Android POS机对停车场的车辆拍照并手工标注车牌位置。拍摄的车牌照片涉及多种复杂环境,包括模糊、倾斜、阴雨天、雪天等等。CCPD数据集一共包含将近30万张图片,每种图片大小720x1160x3。一共包含8项,具体如下:
类型 | 图片数 | 说明 |
ccpd_base | 199998 | 正常车牌 |
ccpd_challenge | 10006 | 比较有挑战性的车牌 |
ccpd_db | 20001 | 光线较暗或较亮 |
ccpd_fn | 19999 | 距离摄像头较远或较近 |
ccpd_np | 3036 | 没上牌的新车 |
ccpd_rotate | 9998 | 水平倾斜20-50°,垂直倾斜-10-10° |
ccpd_tilt | 10000 | 水平倾斜15-45°,垂直倾斜15-45° |
ccpd_weather | 9999 | 雨天、雪天或者雾天的车牌 |
总共:283037张车牌图像 |
部分照片示例如下:
CCPD数据集没有专门的标注文件,每张图像的文件名就是对应的数据标注(label)。
例如:025-95_113-154&383_386&473-386&473_177&454_154&383_363&402-0_0_22_27_27_33_16-37-15.jpg
由分隔符'-'分为几个部分:
1) 025为区域,
2) 95_113 对应两个角度, 水平95°, 竖直113°
3) 154&383_386&473对应边界框坐标:左上(154, 383), 右下(386, 473)
4) 386&473_177&454_154&383_363&402对应四个角点坐标
5) 0_0_22_27_27_33_16为车牌号码 映射关系如下: 第一个为省份0 对应省份字典皖, 后面的为字母和文字, 查看ads字典.如0为A, 22为Y....
具体的,省份对应标签如下:
{
"皖": 0,
"沪": 1,
"津": 2,
"渝": 3,
"冀": 4,
"晋": 5,
"蒙": 6,
"辽": 7,
"吉": 8,
"黑": 9,
"苏": 10,
"浙": 11,
"京": 12,
"闽": 13,
"赣": 14,
"鲁": 15,
"豫": 16,
"鄂": 17,
"湘": 18,
"粤": 19,
"桂": 20,
"琼": 21,
"川": 22,
"贵": 23,
"云": 24,
"西": 25,
"陕": 26,
"甘": 27,
"青": 28,
"宁": 29,
"新": 30
}
字母和数字对应的标签如下:
{
"a" : 0,
"b" : 1,
"c" : 2,
"d" : 3,
"e" : 4,
"f" : 5,
"g" : 6,
"h" : 7,
"j" : 8,
"k" : 9,
"l" : 10,
"m" : 11,
"n" : 12,
"p" : 13,
"q" : 14,
"r" : 15,
"s" : 16,
"t" : 17,
"u" : 18,
"v" : 19,
"w" : 20,
"x": 21,
"y" : 22,
"z" : 23,
"0" : 24,
"1" : 25,
"2" : 26,
"3" : 27,
"4" : 28,
"5" : 29,
"6" : 30,
"7" : 31,
"8" : 32,
"9" : 33
}