CNN是一种多层神经网络,基于人工神经网络,在人工神经网络前,用滤波器进行特征抽取,使用卷积核作为特征抽取器,自动训练特征抽取器,就是说卷积核以及阈值参数这些都需要由网络去学习。
图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。
一般卷积神经网络的结构:
前面feature extraction部分体现了CNN的特点,feature extraction部分最后的输出可以作为分类器的输入。这个分类器你可以用softmax或RBF等等。
局部感受野与权值共享
权值共享指每一个map都由一个卷积核去做卷积得到。
权值共享减少了权值数量,降低了网络复杂度。
Conv layer
第一个卷积层对原输入图像进行卷积,后面的是对前一个卷积-采样层的S层的输出map进行卷积。
假设层为s层特征图像Xil-1(pooling层),l层为卷积C层,卷积结果为Xjl
参数kij为两层间卷积核(滤波器,kernals),由于s层有m个特征,c层有n个特征,所以一共有m*n个卷积核。bj为卷基层每个结果特征对应的一个偏置项bias,f为非线性变换函数sigmoid函数;Mj为选择s层特征输入的个数,即选择多少个s层的图像特征作为输入;由于选择s层的特征个数方法不同,主要分为三种卷积选择方式
1、全部选择:
s层的全部特征都作为输入, Mj=m。如上图所示。
2、自动稀疏选择:
在卷积计算前加入稀疏稀疏aij,通过稀疏规则限制(论文后面),使算法自动选取部分s层特征作为输入,具体个数不确定。
3、部分选择:
按照一定的规则,固定的选取2个或者3个作为输入。
Subsampling layer
下采样降低feature map的空间分辨率,从而实现一定程度的shift 和 distortion invariance。利用图像局部相关性的原理,对图像进行子抽样,可以减少数据处理量同时保留有用信息。这个过程也被称为pooling,常用pooling 有两种:
mean-pooling、max-pooling。
down(Xjl-1)表示下采样操作,就是对一个小区域进行pooling操作,使数据降维。
有的算法还会对mean-pooling、max-pooling后的输出进行非线性映射
f可以是sigmoid函数。
输出层
最后一个卷积-采样层的输出可作为输出层的输入,输出层是全连接层,可采用svm、bp算法、softmax等分类算法。
以LeNet5为例,其结构如下:
C1,C3,C5 : Convolutional layer.
5 × 5 Convolution matrix.
S2 , S4 : Subsampling layer.
Subsampling by factor 2.
F6 : Fully connected layer
OUTPUT : RBF
C层和S层成对出现,C承担特征抽取,S承担抗变形。C元中涉及两个重要参数,即感受野与阈值参数,前者确定输入连接的数目,后者则控制对特征子模式的反应程度。
C1层是一个卷积层(通过卷积运算,可以增强图像的某种特征,并且降低噪音),由6个特征图Feature Map构成。Feature Map中每个神经元与输入中5*5的邻域相连。特征图的大小为28*28。C1有156个可训练参数(每个滤波器5*5=25个unit参数和一个bias参数,一共6个滤波器,共(5*5+1)*6=156个参数),共156*(28*28)=122,304个连接。
S2层是一个下采样层,有6个14*14的特征图。特征图中的每个单元与C1中相对应特征图的2*2邻域相连接。S2层每个单元的4个输入相加,乘以一个可训练参数,再加上一个可训练偏置。结果通过sigmoid函数计算。可训练系数和偏置控制着sigmoid函数的非线性程度。如果系数比较小,那么运算近似于线性运算,亚采样相当于模糊图像。如果系数比较大,根据偏置的大小亚采样可以被看成是有噪声的“或”运算或者有噪声的“与”运算。每个单元的2*2感受野并不重叠,因此S2中每个特征图的大小是C1中特征图大小的1/4(行和列各1/2)。S2层有12个可训练参数和5880个连接。
C3层也是一个卷积层,它同样通过5x5的卷积核去卷积层S2,然后得到的特征map就只有10x10个神经元,但是它有16种不同的卷积核,所以就存在16个特征map了。这里需要注意的一点是:C3中的每个特征map是连接到S2中的所有6个或者几个特征map的,表示本层的特征map是上一层提取到的特征map的不同组合。
S4层是一个下采样层,由16个5*5大小的特征图构成。特征图中的每个单元与C3中相应特征图的2*2邻域相连接,跟C1和S2之间的连接一样。S4层有32个可训练参数(每个特征图1个因子和一个偏置)和2000个连接。
C5层是一个卷积层,有120个特征图。每个单元与S4层的全部16个单元的5*5邻域相连。由于S4层特征图的大小也为5*5(同滤波器一样),故C5特征图的大小为1*1:这构成了S4和C5之间的全连接。之所以仍将C5标示为卷积层而非全相联层,是因为如果LeNet-5的输入变大,而其他的保持不变,那么此时特征图的维数就会比1*1大。C5层有48120个可训练连接。
F6层有84个单元(之所以选这个数字的原因来自于输出层的设计),与C5层全相连。有10164个可训练参数。如同经典神经网络,F6层计算输入向量和权重向量之间的点积,再加上一个偏置。然后将其传递给sigmoid函数产生单元i的一个状态。
最后,输出层由欧式径向基函数(Euclidean Radial Basis Function)单元组成,每类一个单元,每个有84个输入。换句话说,每个输出RBF单元计算输入向量和参数向量之间的欧式距离。输入离参数向量越远,RBF输出的越大。一个RBF输出可以被理解为衡量输入模式和与RBF相关联类的一个模型的匹配程度的惩罚项。用概率术语来说,RBF输出可以被理解为F6层配置空间的高斯分布的负log-likelihood。给定一个输入模式,损失函数应能使得F6的配置与RBF参数向量(即模式的期望分类)足够接近。这些单元的参数是人工选取并保持固定的(至少初始时候如此)。这些参数向量的成分被设为-1或1。虽然这些参数可以以-1和1等概率的方式任选,或者构成一个纠错码,但是被设计成一个相应字符类的7*12大小(即84)的格式化图片。
卷积核和偏置的初始化
卷积核和偏置在开始时要随机初始化,这些参数是要在训练过程中学习的。
CNN涉及的算法
这张图来自博客http://blog.csdn.net/wds555/article/details/44100581,总结得很好
CNN网络算法流程
/*********** 训练阶段************/
/*********************************/
for t = 0; t < repeat; t++)
{
epochsNum = trainset.size() / batchSize;
for i = 0; i < epochsNum; i++
{
随机抽取batchSize个[0,size)的数batch[batchSize]作为本次批量训练的训练集 //size为总体trainSet的大小
for j=0;j
{
train(trainset.getRecord(batch[j]))
}
跑完一个batch后更新权重updateParas();
}
动态调整准学习速率
}
训练单个样本
train(Record record) {
forward(record);
boolean result = backPropagation(record);
return result;
}
反向传输
*/
private boolean backPropagation(Record record) {
boolean result = setOutLayerErrors(record);
setHiddenLayerErrors();
return result;
}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- import os
- import sys
- import time
-
- import numpy
-
- import theano
- import theano.tensor as T
- from theano.tensor.signal import downsample
- from theano.tensor.nnet import conv
-
- from logistic_sgd import LogisticRegression, load_data
- from mlp import HiddenLayer
-
-
- class LeNetConvPoolLayer(object):
-
-
- def __init__(self, rng, input, filter_shape, image_shape, poolsize=(2, 2)):
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- assert image_shape[1] == filter_shape[1]
- self.input = input
-
-
-
- fan_in = numpy.prod(filter_shape[1:])
-
-
-
- fan_out = (filter_shape[0] * numpy.prod(filter_shape[2:]) /
- numpy.prod(poolsize))
-
- W_bound = numpy.sqrt(6. / (fan_in + fan_out))
- self.W = theano.shared(
- numpy.asarray(
- rng.uniform(low=-W_bound, high=W_bound, size=filter_shape),
- dtype=theano.config.floatX
- ),
- borrow=True
- )
-
-
- b_values = numpy.zeros((filter_shape[0],), dtype=theano.config.floatX)
- self.b = theano.shared(value=b_values, borrow=True)
-
-
- conv_out = conv.conv2d(
- input=input,
- filters=self.W,
- filter_shape=filter_shape,
- image_shape=image_shape
- )
-
-
- pooled_out = downsample.max_pool_2d(
- input=conv_out,
- ds=poolsize,
- ignore_border=True
- )
-
-
-
-
-
- self.output = T.tanh(pooled_out + self.b.dimshuffle('x', 0, 'x', 'x'))
-
-
- self.params = [self.W, self.b]
-
-
- def evaluate_lenet5(learning_rate=0.1, n_epochs=200,
- dataset='mnist.pkl.gz',
- nkerns=[20, 50], batch_size=500):
-
-
-
-
-
-
-
-
-
-
-
-
- rng = numpy.random.RandomState(23455)
-
- datasets = load_data(dataset)
-
- train_set_x, train_set_y = datasets[0]
- valid_set_x, valid_set_y = datasets[1]
- test_set_x, test_set_y = datasets[2]
-
-
- n_train_batches = train_set_x.get_value(borrow=True).shape[0]
- n_valid_batches = valid_set_x.get_value(borrow=True).shape[0]
- n_test_batches = test_set_x.get_value(borrow=True).shape[0]
- n_train_batches /= batch_size
- n_valid_batches /= batch_size
- n_test_batches /= batch_size
-
-
- index = T.lscalar()
-
-
- x = T.matrix('x')
- y = T.ivector('y')
-
-
-
-
-
- print '... building the model'
-
-
-
-
- layer0_input = x.reshape((batch_size, 1, 28, 28))
-
-
-
-
-
- layer0 = LeNetConvPoolLayer(
- rng,
- input=layer0_input,
- image_shape=(batch_size, 1, 28, 28),
- filter_shape=(nkerns[0], 1, 5, 5),
- poolsize=(2, 2)
- )
-
-
-
-
-
- layer1 = LeNetConvPoolLayer(
- rng,
- input=layer0.output,
- image_shape=(batch_size, nkerns[0], 12, 12),
- filter_shape=(nkerns[1], nkerns[0], 5, 5),
- poolsize=(2, 2)
- )
-
-
-
-
-
- layer2_input = layer1.output.flatten(2)
-
-
- layer2 = HiddenLayer(
- rng,
- input=layer2_input,
- n_in=nkerns[1] * 4 * 4,
- n_out=500,
- activation=T.tanh
- )
-
-
- layer3 = LogisticRegression(input=layer2.output, n_in=500, n_out=10)
-
-
- cost = layer3.negative_log_likelihood(y)
-
-
- test_model = theano.function(
- [index],
- layer3.errors(y),
- givens={
- x: test_set_x[index * batch_size: (index + 1) * batch_size],
- y: test_set_y[index * batch_size: (index + 1) * batch_size]
- }
- )
-
- validate_model = theano.function(
- [index],
- layer3.errors(y),
- givens={
- x: valid_set_x[index * batch_size: (index + 1) * batch_size],
- y: valid_set_y[index * batch_size: (index + 1) * batch_size]
- }
- )
-
-
- params = layer3.params + layer2.params + layer1.params + layer0.params
-
-
- grads = T.grad(cost, params)
-
-
-
-
-
-
- updates = [
- (param_i, param_i - learning_rate * grad_i)
- for param_i, grad_i in zip(params, grads)
- ]
-
- train_model = theano.function(
- [index],
- cost,
- updates=updates,
- givens={
- x: train_set_x[index * batch_size: (index + 1) * batch_size],
- y: train_set_y[index * batch_size: (index + 1) * batch_size]
- }
- )
-
-
-
-
-
- print '... training'
-
- patience = 10000
- patience_increase = 2
-
- improvement_threshold = 0.995
-
- validation_frequency = min(n_train_batches, patience / 2)
-
-
-
-
-
- best_validation_loss = numpy.inf
- best_iter = 0
- test_score = 0.
- start_time = time.clock()
-
- epoch = 0
- done_looping = False
-
- while (epoch < n_epochs) and (not done_looping):
- epoch = epoch + 1
- for minibatch_index in xrange(n_train_batches):
-
- iter = (epoch - 1) * n_train_batches + minibatch_index
-
- if iter % 100 == 0:
- print 'training @ iter = ', iter
- cost_ij = train_model(minibatch_index)
-
- if (iter + 1) % validation_frequency == 0:
-
-
- validation_losses = [validate_model(i) for i
- in xrange(n_valid_batches)]
- this_validation_loss = numpy.mean(validation_losses)
- print('epoch %i, minibatch %i/%i, validation error %f %%' %
- (epoch, minibatch_index + 1, n_train_batches,
- this_validation_loss * 100.))
-
-
- if this_validation_loss < best_validation_loss:
-
-
- if this_validation_loss < best_validation_loss * \
- improvement_threshold:
- patience = max(patience, iter * patience_increase)
-
-
- best_validation_loss = this_validation_loss
- best_iter = iter
-
-
- test_losses = [
- test_model(i)
- for i in xrange(n_test_batches)
- ]
- test_score = numpy.mean(test_losses)
- print((' epoch %i, minibatch %i/%i, test error of '
- 'best model %f %%') %
- (epoch, minibatch_index + 1, n_train_batches,
- test_score * 100.))
-
- if patience <= iter:
- done_looping = True
- break
-
- end_time = time.clock()
- print('Optimization complete.')
- print('Best validation score of %f %% obtained at iteration %i, '
- 'with test performance %f %%' %
- (best_validation_loss * 100., best_iter + 1, test_score * 100.))
- print >> sys.stderr, ('The code for file ' +
- os.path.split(__file__)[1] +
- ' ran for %.2fm' % ((end_time - start_time) / 60.))
-
- if __name__ == '__main__':
- evaluate_lenet5()
-
-
- def experiment(state, channel):
- evaluate_lenet5(state.learning_rate, dataset=state.dataset)