基于多层聚焦Inception-V3卷积网络的细粒度图像分类

摘要

细粒度图片具有结构多变、背景干扰大、类间差异小、类内差异大等特点,准确地定位与提取判别性局部特征至关重要.本文提出一种多层聚焦卷积网络,通过首层聚焦网络能够准确、有效地聚焦于识别局域并生成定位区域,根据定位区域对原图像分别进行裁剪和遮挡后输入下一层的聚焦网络进行训练分类.其中单层聚焦网络以Inception-V3网络为基础,通过卷积块特征注意力模块和定位区域选择机制来聚焦有效的定位区域;使用双线性注意力最大池化提取各个局部的特征;最后进行分类预测.本文在3个常用的细粒度数据集CUB-2011、FGVC-Aircraft以及Stanford Cars上进行了实验验证,分别获得了89.7%、93.6%和95.1%的Top-1准确率.实验结果表明,本模型的分类准确率高于目前主流方法.

关键词: 多层聚焦卷积网络 ; Inception-V3网络 ; 注意力机制 ; 双线性注意力最大池化

1 引言

随着深度学习、卷积网络技术的不断发展,深度学习网络在计算机视觉领域得到广泛的应用,如图像检索1

你可能感兴趣的:(大数据及数据管理(治理)专栏,分类,深度学习,人工智能)