街景字符编码识别赛事Task01-赛事理解

赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。

训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。

运行系统要求:Python2/3,内存4G,有无GPU都可以。用CPU跑的话会比较慢。

具体的流程包含以下几块:
1:引入必要的模块 包括PIL模块 numpy模块 pytorch模块等
2:定义读取数据集 主要是利用的是train数据集 test数据集 val数据集中的相关数据
3:定义读取数据dataloader 这是pytorch中指定的数据存储格式
4:定义分类模型 这里使用的主要是resnet网络进行图像特征的提取
5:训练与验证 利用设置的验证集来测试上面得到的网络层的性能
6:预测并生成提交文件

整个网络的性能可以通过调整网络层的结构和相关超参数来优化 当然数据集本身也是很重要的 可以对数据集进行一些调整

你可能感兴趣的:(街景字符编码识别赛事Task01-赛事理解)