天池新手赛——街景字符编码识别(一)

天池——街景字符编码识别(一)

Task1 赛题理解

赛题数据

赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。
训练集:30000个
验证集:10000个
测试集:40000个
天池新手赛——街景字符编码识别(一)_第1张图片

数据标签

所有的数据(训练集、验证集和测试集)的标注使用JSON格式,并使用文件名进行索引。如果一个文件中包括多个字符,则使用列表将字段进行组合。

“000000.png”: {“height”: [219, 219], “label”: [1, 9], “left”: [246, 323], “top”: [77, 81], “width”: [81, 96]}, “000001.png”: {“height”: [32, 32], “label”: [2, 3], “left”: [77, 98], “top”: [29, 25], “width”: [23, 26]},

评测指标

评价标准为准确率,选手提交结果与实际图片的编码进行对比,以编码整体识别准确率为评价指标,结果越大越好

数据读取

采用Python常用的数据处理库pandas、numpy对数据集进行读取

解题思路

属于数字识别的目标分类问题,常见的目标分类算法有VGG16、GoogleNet、ResNet。目前效果最好的是ResNet,拟采用ResNet进行目标分类

你可能感兴趣的:(python,计算机视觉,深度学习)