caffe框架分析

一、总体流程

caffe主要有四个功能模块。

a)  Blob 主要用来表示网络中的数据,包括训练数据,网络各层自身的参数(包括权值、偏置以及它们的梯度),网络之间传递的数据都是通过 Blob 来实现的,同时 Blob 数据也支持在 CPU 与 GPU 上存储,能够在两者之间做同步。

b)  Layer 是对神经网络中各种层的一个抽象,包括我们熟知的卷积层和下采样层,还有全连接层和各种激活函数层等等。同时每种 Layer 都实现了前向传播和反向传播,并通过 Blob 来传递数据。

c) Net 是对整个网络的表示,由各种 Layer 前后连接组合而成,也是我们所构建的网络模型。

d) Solver 定义了针对 Net 网络模型的求解方法,记录网络的训练过程,保存网络模型参数,中断并恢复网络的训练过程。自定义 Solver 能够实现不同的网络求解方式。

整体的框架是以layer为主,不同的layer完成不同的功能,如卷积,反卷积等。net是管理layer的,solver是做训练用的,而核心的创新就是blob数据了,以一个四元组完成了各种数据的传输,同时解决了cpu和gpu共享数据的问题。


二. 卷积操作

对图像(不同的数据窗口数据)和滤波矩阵(一组固定的权重:因为每个神经元的多个权重固定,所以又可以看做一个恒定的滤波器filter)做内积(逐个元素相乘再求和)的操作就是所谓的『卷积』操作,也是卷积神经网络的名字来源。


caffe框架分析_第1张图片

                                                           (上图可以看作一个滤波器filter,多个filter构成一个卷积层)


caffe框架分析_第2张图片
上图中有两个卷积核(filter w0和w1),每个卷积核有三个通道(channels),每个filter的值就是权重值,我们要求的就是改变里面的值使损失函数最小。


3. caffe中的数学函数

A)  caffe_cpu_gemm 函数:

void caffe_cpu_gemm(const CBLAS_TRANSPOSE TransA, const CBLAS_TRANSPOSE TransB, const int M, const int N, const int K, const float alpha, const float* A, const float* B, const float beta, float* C)

功能: C=alpha*A*B+beta*C

A,B,C 是输入矩阵(一维数组格式)

CblasRowMajor :数据是行主序的(二维数据也是用一维数组储存的)

TransA, TransB:是否要对A和B做转置操作(CblasTrans CblasNoTrans)

M: A、C 的行数

N: B、C 的列数

K: A 的列数, B 的行数

lda : A的列数(不做转置)行数(做转置)

ldb: B的列数(不做转置)行数(做转置)

这个函数主要是用了库函数的运算公式进行矩阵相乘,那接下来就是怎么将卷积运算转化为矩阵相乘的问题了,这就需要用到image2col的函数了。

B) image2col 函数:


caffe框架分析_第3张图片


caffe框架分析_第4张图片


                                         最终:Filter Matrix乘以Feature Matrix,得到输出矩阵Cout x (H x W)。



caffe框架分析_第5张图片


再说的详细点:



caffe框架分析_第6张图片


如上图

(1)在矩阵A中

M为卷积核个数,K=k*k,等于卷积核大小,即第一个矩阵每行为一个卷积核向量(是将二维的卷积核转化为一维),总共有M行,表示有M个卷积核。

(2)在矩阵B中

因此,N为输出图像大小的长宽乘积,也是卷积核在输入图像上滑动可截取的最大特征数。

K=k*k,表示利用卷积核大小的框在输入图像上滑动所截取的数据大小,与卷积核大小一样大。

(3)在矩阵C中

矩阵C为矩阵A和矩阵B相乘的结果,得到一个M*N的矩阵,其中每行表示一个输出图像即feature map,共有M个输出图像(输出图像数目等于卷积核数目)

Caffe中的卷积计算是将卷积核矩阵和输入图像矩阵变换为两个大的矩阵A与B,然后A与B进行矩阵相乘得到结果C。


C)im2col_cpu分析

1.结合代码分析以下公式的由来

int output_h = (height + 2 * pad_h -  (dilation_h * (kernel_h - 1) + 1)) / stride_h + 1;

int output_w = (width + 2 * pad_w -(dilation_w * (kernel_w - 1) + 1)) / stride_w +1;

2.先不要dilation_h 和dilation_w ,如下:

N=((image_h + 2*pad_h – kernel_h)/stride_h+ 1)*((image_w +2*pad_w – kernel_w)/stride_w + 1)

这里要结合动态stride滑动卷积图

原理: N = H*W

H:  在image高度方向上滑动的总次数。W:在image宽度方向上滑动的次数


D)Dilation分析

1.由于池化层的存在,响应张量的大小(长和宽)越来越小。

2.池化层去掉随之带来的是网络各层的感受野(receptive field)变小,这样会降低整个模型的预测精度。

3. Dilated convolution 的主要贡献就是,如何在去掉池化下采样操作的同时,而不降低网络的感受野。


caffe框架分析_第7张图片

结合这个图再推倒一下output_h 和output_w的公式

Dilation :表示每个元素的相隔距离,如果相邻,dilation=1

运算公式: (除去原点的长度)×dilation(扩张系数)+ 1(原点)

即: kernel_h_new = (kernel_h-1)*dilation_h +1

kernel_w_new = (kernel_w-1)*dilation_w +1


E)im2col_cpu整体分析



caffe框架分析_第8张图片

F)Forward_cpu的整体分析

1. forward_cpu_gemm:

这个主要是处理处理Wx 的函数,里面分为两个步骤:

a)conv_im2col_cpu:将image转为矩阵

 b) caffe_cpu_gemm: 将A中的矩阵和卷积核的矩阵相乘,得到特征图像的矩阵。

2. forward_cpu_bias:

这个主要是处理偏置数据。

G)Conv_layer的整体分析

1. Forward_cpu

2. Backward_cpu

F)BP流程

Backward_cpu函数的代码,整个更新过程大概可以分成三步

1. caffe_cpu_gemm(CblasTrans, CblasNoTrans, N_, K_, M_, (Dtype)1., top_diff, bottom_data, (Dtype)1., this->blobs_[0]->mutable_cpu_diff());


其中的bottom_data对应的是a,即输入的神经元激活值,维数为K_×N_,top_diff对应的是delta,维数是M_×N_,而caffe_cpu_gemm函数是对blas中的函数进行封装,实现了一个N_×M_的矩阵与一个M_×K_的矩阵相乘(注意此处乘之前对top_diff进行了转置)。相乘得到的结果保存于blobs_[0]->mutable_cpu_diff(),对应dW。

2. caffe_cpu_gemv(CblasTrans, M_, N_, (Dtype)1., top_diff, bias_multiplier_.cpu_data(), (Dtype)1., this->blobs_[1]->mutable_cpu_diff());


caffe_cpu_gemv函数实现了一个M_×N_的矩阵与N_×1的向量进行乘积,其实主要实现的是对delta进行了一下转置,就得到了db的值,保存于blobs_[1]->mutable_cpu_diff()中。此处的与bias_multiplier_.cpu_data()相乘是实现对M_个样本求和,bias_multiplier_.cpu_data()是全1向量,从公式上看应该是取平均的,但是从loss传过来时已经取过平均了,此处直接求和即可。

3.3 . caffe_cpu_gemm(CblasNoTrans, CblasNoTrans, M_, K_, N_, (Dtype)1., top_diff, this->blobs_[0]->cpu_data(), (Dtype)1., bottom[0]->mutable_cpu_diff());



主要Inner_product层里面并没有激活函数,因此没有乘f’,与f’的相乘写在ReLU层的Backward函数里了,因此这一句里只有W和delta_l+1相乘。blobs_[0]->cpu_data()对应W,维度是N_×K_,bottom[0]->mutable_cpu_diff()是本层的delta_l,维度是M_×K_。

caffe里的反向传播过程只是计算每层的梯度的导,把所有层都计算完之后,在solver.cpp里面统一对整个网络进行更新。


                                        先写到这里吧,学无止境,且学且记录。

                                                              END

你可能感兴趣的:(caffe框架分析)