在第一篇keras训练银行卡中中有一个cnn模型。有这么一段代码:
model.add(Convolution2D(32, 1, 3, 3, border_mode='full'))
model.add(Activation('relu'))
model.add(Convolution2D(32, 32, 3, 3))
model.add(Activation('relu'))
model.add(MaxPooling2D(poolsize=(2, 2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(32*(27//2)*(19//2), 128))
model.add(Activation('relu'))
model.add(Dropout(0.2))
model.add(Dense(128, nb_classes))
model.add(Activation('softmax'))
刚开始接触cnn的可能不知道这段代码是干啥用的,下面来一行行分析吧。
第一行model.add(Convolution2D(32, 1, 3, 3, border_mode='full'))
,向模型中添加一个卷积层。其中参数32表示卷积核的个数,32个,卷积计算后每个卷积核将产生一个通道,1表示输入图片通道数,由于这里第一步的输入用的是单通道的灰度图,所以传1,后面两个3是卷积核的大小,3*3的矩阵。border_mode=‘full’,表示输入的矩阵边界补0,什么意思呢,比如你输入的是一个27*19的图片,边界补0后,他就变成了(27+2)*(19+2)的矩阵,上下左右各补一行0.
卷积计算过程:
那么输入的图片经过第一层的卷积计算后,我们将得到32个27*19的矩阵。为什么还是27*19?卷积核的大小是3*3,得到的高度应该就是 27+2(上下边界补的0)-3(卷积核高度)+1=27,以此类推宽度也还是19。
第二行model.add(Activation('relu'))
,添加一个激活层,激活函数使用relu(线性纠正函数),实际上就是 f(x)= max(0,x),把矩阵中所有小于0的数字置0.这样可以一直保持一层一层下去的数值范围是可控的,常见的激活函数还有:
sigmoid:控制在[0, 1]
tanh:控制在[-1, 1]
还有好多新的激活函数,这儿就不举例了,知道它们的作用就OK。
第三行,第四行实际上还是跟一二行一行,卷积+激活。
第五行model.add(MaxPooling2D(poolsize=(2, 2))),降采样,就是用一个值来代替一块区域,这个值可以是区域的平均值,最大值,最小值等等,反正有代表性就好了,这个层的目的就是减少数据量。这里使用MaxPooling,也就是取2*2的矩阵中最大的那一个代表这一块的特征。 经过降采样后,原来27*19的矩阵就只有一半大了,即(27//2)*(19//2)那么大。
第六行:model.add(Dropout(0.25))
。 Dropout是在训练过程中以一定概率1-p将隐含层节点的输出值清0,而用bp更新权值时,不再更新与该节点相连的权值。什么意思,就是这个就是个概率问题,和权值的大小,激活程度无关哦,被抽中的结点无条件被丢掉。Dropout简单理解,可参考这里
第七行 :model.add(Flatten())
。Flatten 顾名思义就是将一个多维矩阵展开,铺平成一个一维的向量。这一步实际上是为后面的全连接做准备。
第八行: model.add(Dense(32*(27//2)*(19//2), 128))
。添加一个矩阵计算,上一步Flatten得到的向量实际上是长度为32*(27//2)*(19//2)的一维向量。经过这一步的矩阵相乘得到的就是一个长度为128的一维向量。
下面model.add(Dense(128, nb_classes))
。上一步得到的1*128矩阵与 128*nb_classes矩阵相乘。得到的结果是一个 1*nb_classes的矩阵(nb_classes分类个数,数字分类0~9)。
最后一行softmax激活函数。未完待续......