入门级CV赛事——街景字符编码识别(赛题理解)

文章目录

    • 1.赛题任务
    • 2.数据集
    • 3.评测指标
    • 4.解题思路
      • 思路一:定长字符识别(入门思路)
      • 思路二:不定长字符识别(专业字符识别思路)
      • 思路三:先检测再识别(专业分类问题思路)

1.赛题任务

以计算机视觉中字符识别为背景,要求预测识别街道字符编码 。
此问题为典型的字符识别问题,其本质为分类问题。

2.数据集

赛题数据集采用公开数据集SVHN(可选择很多paper作为参考),但比赛数据集的训练集、验证集和测试集提供了所有图片中字符的位置框,降低了难度。每张图片给出的关于字符编码和字符框位置的信息如下:
入门级CV赛事——街景字符编码识别(赛题理解)_第1张图片
入门级CV赛事——街景字符编码识别(赛题理解)_第2张图片

3.评测指标

s c o r e = 编 码 正 确 的 数 量 / 测 试 集 图 片 的 数 量 score=编码正确的数量/测试集图片的数量 score=/

4.解题思路

赛题本质是分类问题,需要对图片字符进行识别,并分类。
需要注意的是,赛题给定的数据图片中包含的数字字符数量不等。
入门级CV赛事——街景字符编码识别(赛题理解)_第3张图片
因此,本次赛题的难点主要在于需要对不定长的字符进行识别,从而与传统的图像分类任务有所不同。

思路一:定长字符识别(入门思路)

可将赛题抽象为定长字符识别问题,将识别长度定为数据集中最长的字符长度,对于达不到识别长度的字符通过例如 X X X进行填充:
入门级CV赛事——街景字符编码识别(赛题理解)_第4张图片

思路二:不定长字符识别(专业字符识别思路)

在字符识别问题当中,有特定的研究方法,典型的有CRNN字符识别模型。

思路三:先检测再识别(专业分类问题思路)

由于本次数据集中已经给出字符框的位置和大小,无需检测,只需识别即可。
但是对于专业的分类问题,总要先构建(字符)检测模型,再构建识别模型。典型物体检测模型有SSD或YOLO。

你可能感兴趣的:(计算机视觉)