卷积神经网络(Convolutional Neural Network,CNN) 是一种具有局部连接、权重共享等特征的深层前馈神经网络。
我们先来看一下比较直观的了解一下,对卷积神经网络有个感性的认识:
我们首先先对我们输入的图片进行一次卷积,而后加入Relu激活函数,再做一次卷积,再加入Relu激活函数,而后对其处理结果进行汇聚(此处为Pool,也可以称为池化),再后来就是不断地重复前边的步骤,最后会得到一个属于某一类图片的概率。这时概率最大的那个就是我们需要的判别结果了。
以训练这个 小猫图片为例,如果输入图像为100* 100 *3(即图像长度为100,宽度为100,3个颜色通道:RGB),如果我们的输入图像为灰色的话,其颜色通道数为1,我们也称为图片的高度。
过滤器不断的在图像中收集小批小批的像素块,收集完所有的信息后,输出的值为一个比之前的高度更高,长和宽更小的图片,这个图片中包含了一些边缘信息。
然后再以同样的步骤再进行多次卷积,将图片的长宽再次压缩,高度再次增加,就会有了对输入图片更深的理解。
然后将压缩,增高的信息嵌入普通的分类神经层上,我们就能对这个图片进行分类了。
下面我将会以一个手写字母识别的例子来入门CNN吧。MNIST 数据集来自美国国家标准与技术研究所。 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50% 是高中学生, 50% 来自人口普查局 (the Census Bureau) 的工作人员. 测试集(test set) 也是同样比例的手写数字数据.其图片形式如下所示:
# @Time : 2020/6/6 13:23
# @Author : kingback
# @File : cnn_test.py
# @Software: PyCharm
import torch
import torch.nn as nn
from torch.autograd import Variable
import torch.utils.data as Data
import torchvision
import matplotlib.pyplot as plt
#Hyper prameters
EPOCH=1
BATCH_SIZE=50
LR=0.001
DOWNLOAD_MNIST=False
train_data=torchvision.datasets.MNIST(
root='./mnist',
train=True,
transform=torchvision.transforms.ToTensor(), #将下载的文件转换成pytorch认识的tensor类型,且将图片的数值大小从(0-255)归一化到(0-1)
download=DOWNLOAD_MNIST
)
#画一个图片显示出来
# print(train_data.data.size())
# print(train_data.targets.size())
# plt.imshow(train_data.data[0].numpy(),cmap='gray')
# plt.title('%i'%train_data.targets[0])
# plt.show()
train_loader=Data.DataLoader(dataset=train_data, batch_size=BATCH_SIZE, shuffle=True)
test_data=torchvision.datasets.MNIST(
root='./mnist',
train=False,
)
with torch.no_grad():
test_x=Variable(torch.unsqueeze(test_data.data, dim=1)).type(torch.FloatTensor)[:2000]/255 #只取前两千个数据吧,差不多已经够用了,然后将其归一化。
test_y=test_data.targets[:2000]
'''开始建立CNN网络'''
class CNN(nn.Module):
def __init__(self):
super(CNN,self).__init__()
'''
一般来说,卷积网络包括以下内容:
1.卷积层
2.神经网络
3.池化层
'''
self.conv1=nn.Sequential(
nn.Conv2d( #--> (1,28,28)
in_channels=1, #传入的图片是几层的,灰色为1层,RGB为三层
out_channels=16, #输出的图片是几层
kernel_size=5, #代表扫描的区域点为5*5
stride=1, #就是每隔多少步跳一下
padding=2, #边框补全,其计算公式=(kernel_size-1)/2=(5-1)/2=2
), # 2d代表二维卷积 --> (16,28,28)
nn.ReLU(), #非线性激活层
nn.MaxPool2d(kernel_size=2), #设定这里的扫描区域为2*2,且取出该2*2中的最大值 --> (16,14,14)
)
self.conv2=nn.Sequential(
nn.Conv2d( # --> (16,14,14)
in_channels=16, #这里的输入是上层的输出为16层
out_channels=32, #在这里我们需要将其输出为32层
kernel_size=5, #代表扫描的区域点为5*5
stride=1, #就是每隔多少步跳一下
padding=2, #边框补全,其计算公式=(kernel_size-1)/2=(5-1)/2=
), # --> (32,14,14)
nn.ReLU(),
nn.MaxPool2d(kernel_size=2), #设定这里的扫描区域为2*2,且取出该2*2中的最大值 --> (32,7,7),这里是三维数据
)
self.out=nn.Linear(32*7*7,10) #注意一下这里的数据是二维的数据
def forward(self,x):
x=self.conv1(x)
x=self.conv2(x) #(batch,32,7,7)
#然后接下来进行一下扩展展平的操作,将三维数据转为二维的数据
x=x.view(x.size(0),-1) #(batch ,32 * 7 * 7)
output=self.out(x)
return output
cnn=CNN()
# print(cnn)
# 添加优化方法
optimizer=torch.optim.Adam(cnn.parameters(),lr=LR)
# 指定损失函数使用交叉信息熵
loss_fn=nn.CrossEntropyLoss()
'''
开始训练我们的模型哦
'''
step=0
for epoch in range(EPOCH):
#加载训练数据
for step,data in enumerate(train_loader):
x,y=data
#分别得到训练数据的x和y的取值
b_x=Variable(x)
b_y=Variable(y)
output=cnn(b_x) #调用模型预测
loss=loss_fn(output,b_y)#计算损失值
optimizer.zero_grad() #每一次循环之前,将梯度清零
loss.backward() #反向传播
optimizer.step() #梯度下降
#每执行50次,输出一下当前epoch、loss、accuracy
if (step%50==0):
#计算一下模型预测正确率
test_output=cnn(test_x)
y_pred=torch.max(test_output,1)[1].data.squeeze()
accuracy=sum(y_pred==test_y).item()/test_y.size(0)
print('now epoch : ', epoch, ' | loss : %.4f ' % loss.item(), ' | accuracy : ' , accuracy)
'''
打印十个测试集的结果
'''
test_output=cnn(test_x[:10])
y_pred=torch.max(test_output,1)[1].data.squeeze() #选取最大可能的数值所在的位置
print(y_pred.tolist(),'predecton Result')
print(test_y[:10].tolist(),'Real Result')
模型训练完毕之后,我又随机取了十个图片带入模型,然后将其结果与正确的结果比对,有如下结果:
整个的模型还是比较准确的。
PyTorch 动态神经网络 (莫烦 Python 教学)