CV街景门牌号码识别01_赛题理解

文章目录

      • 一、赛题理解
        • 1、赛题介绍
        • 2、评测指标
        • 3、赛题分析
        • 4、解题思路
          • 4.1、简单入门思路:定长字符识别
          • 4.2、专业字符识别思路:不定长字符识别
          • 4.3、专业分类思路:检测再识别

一、赛题理解

1、赛题介绍

  • 赛题名称:街景字符编码识别 / 街景门牌号码识别

  • 赛事链接:https://tianchi.aliyun.com/competition/entrance/531795/introduction

  • 数据集:

    • 原数据集为SVHN街景门牌号码数据集, 链接:http://ufldl.stanford.edu/housenumbers/
  • 比赛使用数据集:对SVHN进行匿名处理和噪音处理后的数据集

    • 每张照片包括颜色图像和对应的编码类别和具体位置,训练集、验证集和测试集中标注了字符的位置框
    • 所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。
  • 数据集划分:

    • 训练集:3W张照片,mchar_train.json,mchar_train文件夹

    • 验证集:1W张照片,mchar_val.json,mchar_val文件夹

    • 测试集A:4W张照片,mchar_test_a

    • 测试集B:4W张照片

  • 数据标签:训练和验证数据集中,图片中字符对应的编码标签和具体的字符框的位置

Field Description
top 左上角坐标X
left 左上角坐标Y
width 字符宽度
height 字符高度
label 字符编码
  • 注意:在比赛数据中,同一张图片中可能包括一个或者多个字符,因此在比赛数据的JSON标注中,会有两个字符的边框信息。

2、评测指标

  • 评测指标:编码整体识别准确率:
  • Score = 编码识别正确的数量 / 测试集图片数量
  • 注意:任何一个字符错误都为错误,最终评测指标结果越大越好

3、赛题分析

  • 赛题本质:分类问题,需要对图片的字符进行分类识别

  • 图片字符:不同图片中包含的字符数量可能不等,字符个数多数为2-4个,最多的字符个数为6个

  • 难点:对不定长字符进行识别,这与传统的图像分类不同

4、解题思路

4.1、简单入门思路:定长字符识别
  • 将不定长问题转化为一个定长字符识别问题,添加字符X作为一个新的类别,代表字符为空,是填充字符;
  • 数据中大部分图像中的字符个数为2-4个,最多的字符个数为6个;
  • 将所有的图像都抽象为6个字符的定长字符识别问题
  • 例:字符23填充为23XXXX,字符231填充为231XXX
  • 最终:经过填充之后,原始的赛题可以转化为6个字符的定长字符识别分类问题。
  • 注意:此时则不是10个类别了,而是有11个类别,新添加了一个X类别,X作为填充字符,若图片中字符识别结果为X,表示该字符为空 。
4.2、专业字符识别思路:不定长字符识别
  • 针对不定长的字符识别问题,可使用典型的CRNN字符识别模型
  • 可以将字符组合看作是一个单词或一个句子
4.3、专业分类思路:检测再识别
  • 先识别位置,再利用物体检测的思路完成
  • 需要先构建字符检测模型,对测试集中的字符进行识别
  • 可参考物体检测模型SSD或者YOLO

你可能感兴趣的:(CV)