赛题名称:街景字符编码识别 / 街景门牌号码识别
赛事链接:https://tianchi.aliyun.com/competition/entrance/531795/introduction
数据集:
比赛使用数据集:对SVHN进行匿名处理和噪音处理后的数据集
数据集划分:
训练集:3W张照片,mchar_train.json,mchar_train文件夹
验证集:1W张照片,mchar_val.json,mchar_val文件夹
测试集A:4W张照片,mchar_test_a
测试集B:4W张照片
数据标签:训练和验证数据集中,图片中字符对应的编码标签和具体的字符框的位置
赛题本质:分类问题,需要对图片的字符进行分类识别
图片字符:不同图片中包含的字符数量可能不等,字符个数多数为2-4个,最多的字符个数为6个
难点:对不定长字符进行识别,这与传统的图像分类不同