“华为云杯”2019人工智能创新应用大赛赛后分享

“华为云杯”2019人工智能创新应用大赛

链接:官网

比赛介绍:“华为云杯”2019人工智能创新应用大赛,由西安国家民用航天产业基地管理委员会主办、华为公司承办,以“AI在航天,鸿图华构”为主题,是面向全国的人工智能交流赛事。大赛目标是服务以及培养AI人才,构建“用得起、用的好、用得放心”的普惠AI生态,为AI开发者提供一个交流学习、创新挑战的平台。参赛者基于华为云人工智能开发平台ModelArts,根据组委会提供的西安景点、美食、民俗、特产、工艺品等图像数据,进行图像分类模型的开发。

比赛结果 线上测试97.7 (top 5%),共1775人参加

数据介绍:数据总共3731张,其中线上测试数据为1000张
“华为云杯”2019人工智能创新应用大赛赛后分享_第1张图片
从图中可以看数据很少,且类别不均衡
数据扩充,从百度爬取了一万多张图片,使用伪标签法(Pseudo label)来扩充图片,使用训练好的模型来预测,阈值选择为97,将预测结果大于97的数据加入到训练数据中

模型选择
densenet201
efficientnet_b2
efficientnet_b3
efficientnet_b4

线上得分节点
densenet201 95.0 densenet201 95.4
efficientnet_b2 96.6 efficientnet_b2 97.6 efficinetnet_b2 97.7
efficientnet_b3 95.6 efficientnet_b3 96.0 efficientnet_b3 97.0
efficientnet_b4 97.5

训练技巧
数据增强部分:
1.随机裁剪 randomresizedcrop
2.随机擦除 random erase
3.mixup
4.水平翻转
5.归一化
训练策略:
学习率使用warmup+CosineAnnealingLR
采用多尺度训练,分为三段式,图像大小依次递增
优化器: sgd
损失函数:
SmoothCrossEntropyloss+mixup_loss

涨分点:加大图片分辨率,标签平滑(能抑制过拟合),mixup(在数据上进行正则),随机擦除,多尺度训练(增加的模型的泛化能力),数据清洗(数据是最重要的,一个好的数据集意味着你的起点比别人高很多)

关于其他方向的内容,可以访问我的个人博客

代码地址:github

你可能感兴趣的:(深度学习)