一、问题总结
MobileNetV2版本中,对数据的处理中,加入的Inverted residual block,提升通道数,但是ResNet首先进行降通道降低计算量,两个网络为什么进行这种不一样的操作。
二、代码练习
2.1 MobileNet V1
简介:
MobileNet是Google于2017年发布的网络架构,因为之前的VGG,GoogleNet,ResultNet进一步提高CNN的性能,但是到ResNet网络已经达到了152层,参数量到了300多MB,这不仅是巨大的存储和计算开销,也严重限制了CNN的应用。MobileNet应运而生,其中V1版本的主要核心是把卷积拆分为Depthwise+Pointwise两部分,代码如下:
核心部分:
网络结构:32×32×3 ==>32×32×32 ==> 32×32×64 ==> 16×16×128 ==> 16×16×128 ==>
8×8×256 ==> 8×8×256 ==> 4×4×512 ==> 4×4×512 ==>2×2×1024 ==> 2×2×1024
然后是池化 ==> 1×1×1024
最后全连接到 10个输出节点
在CIFAR10数据集的分类测试结果如下:
2.2 MobileNet V2
简介:
V1版本中存在问题:结构简单,没有用到残差网络;Depthwise卷积层中大大降低了计算量,但是有不少的kernel的是空的。所以对V1版本进行了改动,(1)加入了Inverted residual block,先用1*1卷积提升通道数,然后用Depthwise3*3的卷积,再使用1*1的卷积降维;(2)去掉了输出部分的Relu6。
网络部分:
在CIFAR10数据集的分类测试结果如下:
2.3 HybridSN高光谱分类
网络模型如下:
先三维卷积,然后进行二维卷积,三维卷积的网络模型如下:
conv1:(1, 30, 25, 25), 8个 7x3x3 的卷积核 ==>(8, 24, 23, 23)
conv2:(8, 24, 23, 23), 16个 5x3x3 的卷积核 ==>(16, 20, 21, 21)
conv3:(16, 20, 21, 21),32个 3x3x3 的卷积核 ==>(32, 18, 19, 19)
接下来要进行二维卷积,因此把前面的 32*18 reshape 一下,得到 (576, 19, 19)
二维卷积:(576, 19, 19) 64个 3x3 的卷积核,得到 (64, 17, 17)
接下来是一个 flatten 操作,变为 18496 维的向量,
接下来依次为256,128节点的全连接层,都使用比例为0.4的 Dropout,
最后输出为 16 个节点,是最终的分类类别数。
代码如下:
模型训练结果如下:
三、论文阅读心得
3.1《Beyond a Gaussian Denoiser: Residual Learning of Deep CNN for Image Denoising》
这篇论文讲了关于CNN在去噪上的应用,使用前馈去噪卷积神经网络(DnCNN),将非常深的结构、学习算法和正则化方法使用到图像去噪的过程中,还使用了残差学习和批量归一化来加速训练过程和提高去噪性能。
网络结构如下:
(1)Conv+ReLU:对于第一层,使用64个大小为3*3*c的滤波器被用于生成64个特征图。然后将整流的线性单元用于非线性。这里的c代表着图像的通道数,即c=1时为灰色图像,c=3时为彩色图像。
(2) Conv+BN+ReLU:对应于层2—D-1层,使用64个大小3*3*64的过滤器,并且将批量归一化加在卷积和ReLU之间。
(3) Conv:对应于最后一层,c个大小为#*3*64的滤波器被用于重建输出。
3.2《Squeeze-and-Excitation Networks》
SENet是一个网络模块,在2017年,它结合ResNet网络在ILSVRC2017的分类项目中获得第一,其核心思想是通过网络根据loss去学习特征权重,使得有效的featuremap权重大,无效或效果小的feature map权重小。
网络结构见下图:
首先是 Squeeze 操作,顺着空间维度来进行特征压缩,将每个二维的特征通道变成一个实数,这个实数某种程度上具有全局的感受野,并且输出的维度和输入的特征通道数相匹配。它表征着在特征通道上响应的全局分布,而且使得靠近输入的层也可以获得全局的感受野,这一点在很多任务中都是非常有用的。
其次是 Excitation 操作,它是一个类似于循环神经网络中门的机制。通过参数 w 来为每个特征通道生成权重,其中参数 w 被学习用来显式地建模特征通道间的相关性。
最后是一个 Reweight 的操作,将 Excitation 的输出的权重看做是进过特征选择后的每个特征通道的重要性,然后通过乘法逐通道加权到先前的特征上,完成在通道维度上的对原始特征的重标定。
3.3《Deep Supervised Cross-modal Retrieval》
主要是使用VGG19网络进行图像的特征提取,word2vec、CNN提取文本特征,创建线性分类器对样本生成标签,主要贡献是提出了一种基于深度监督的跨模态学习结构,可以有效的学习异构数据的公共表示;并且利用线性分类器对公共表示空间中的样本进行分类,使得学习的公共表示具有显著的区分性。
网络结构如下: