3D卷积“LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks”

LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks

3D卷积计算量大,消耗内存多,论文提出了修正的局部相量(ReLPV)模块替换标准的3D卷积,在3D局部邻域(3×3×3)内提取输入特征图每个位置的相,获取特征图。这个相是通过计算每个位置3D局部邻域内多个固定的低频点的3D短时傅里叶变换(STFT),不同频域点的特征图线性组合输入激活函数。滤波器尺寸大小从3×3×3到13×13×13变化,ReLPV的参数量降低了倍,相比于标准的3D卷积,ReLPV的效果更好。

 

3D卷积的几个问题:(1)计算量大,(2)模型尺寸大,(3)易过拟合,(4)特征学习能力有待进一步提升。

 

方法介绍

定义3D CNN网络的特征图为,其中h,w,d和c分别为特征图的宽、高、深及通道数目。

ReLPV模块是3D卷积层的替换表示,有四层结构,下图显示了ReLPV的结构:

3D卷积“LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks”_第1张图片

Layer 1. 第一层是标准3D卷积层,拥有单个滤波器,尺寸为1×1×1。输入特征图尺寸为,输出fx为单通道的特征图,尺寸为,x是表示特征图位置的变量。

Layer 2. 局部相位曾被用来检测边缘和轮廓,相位表示不同空间频率的局部相干。Layer 2通过在的每个位置的邻域内计算3D 短时傅里叶变换:

 (1)

其中是频域变量,。公式(1)的向量表示为:

Fv,x=wvTfx (2)

其中wv是3D STFT在频率v处的基向量,是包含邻域内所有位置的向量。3DSTFT可以对每个维度进行简单的1D卷积实现。考虑13个最小的非零频率向量,如图2中的红点所示,低频变量包含了大多数的信息,相比高频分量具有更高的信噪比。

3D卷积“LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks”_第2张图片

。W是对应13个频域变量的的变换矩阵,R及S对应复数的实部和虚部,(2)式可以写为:

Fx=Wfx

Fx对所有的位置x计算,输出特征图尺寸为

Layer 3. 使用ReLU函数,对Layer2的特征进行激活。

Layer 4. 标准的3D卷积层,滤波器尺寸为尺寸为1×1×1。输入特征图尺寸为,输出特征图,尺寸为

以下使用ReLPV(n,f)表示ReLPV块,其中n为Layer 2的邻域尺寸,f为Layer 4中的输出通道数。

STFT的特点:(1)自然图像中的物体包含尖锐的边缘特征是,傅里叶域的信息准确的表示了这些边缘信息。3D空间中的STFT是窗口傅里叶变换,局部相有捕获局部特征的能力。STFT去除了特征的相关性,这是一种较好的正则化方法,这样的3D CNN不易过拟合,且泛化性能更好。

 

ReLPV块的前向、后向传播

Layer 2的后向传播,没有可训练的参数,训练中,只有Layer 1和4的1×1×1滤波器更新,W中的权重不变。

ReLPV块的参数分析

标准3D卷积层的可训练参数量为,ReLPV块的可训练参数量为,如果f=27,降低的参数量分别为27倍、125倍、343倍、1331倍、2197倍。

论文提出的LP-3DCNN网络:多个ReLPV的串联及ResNet中的skip-layer。

3D卷积“LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks”_第3张图片

 

实验结果

3D卷积“LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks”_第4张图片

你可能感兴趣的:(3D卷积“LP-3DCNN: Unveiling Local Phase in 3D Convolutional Neural Networks”)