404detective

《Pytorch深度学习和图神经网络(卷 1)》学习笔记——第七章

这一章内容有点丰富，多用了一些时间，实例就有四五个。
这章内容是真多啊！（学完之后又回到开头感叹）

大脑分级处理机制：

将图像从基础像素到局部信息再到整体信息
即将图片由低级特征到高级特征进行逐级计算，逐级累计。

视觉神经网络中的离散积分

计算机中对图片的处理可以理解为离散微积分的过程。
利用卷积操作对图片的局部信息处理，生成低级特征
对低级特征进行多次卷积操作，生成中级特征、高级特征
将多个局部信息的高级特征组合到一起，生成最终的解释结果
这就是卷积神经网络

比全连接权重更少，对数据进行基于区域小规模运算，改善了难收敛，提高了泛化能力。

可以用全连接网络为参照，卷积神经网络更像是多个全连接片段的组合。

卷积网络输出的每个节点，都是原数据中局部区域节点经过神经元计算后得到的结果。
全连接网络输出的每个节点，都是原数据中全部节点经过神经元计算后得到的结果。
因此卷积神经网络包含的局部信息更为明显，在计算机视觉领域被广泛应用。

1D卷积常用来处理文本或特征数值类数据
2D卷积常用来处理平面图片类数据
3D卷积常用来处理立体图像或视频类数据

实例分析：Sobel算子的原理
Sobel算子其实是卷积操作中的一个典型例子，手动配置好权重的卷积核，实现图片的边缘检测。
a为水平 b为垂直方向

a=[[-1,0,1],
	[-2,0,2],
	[-1,0,1]]
b=[[1,2,1],
	[0,0,0],
	[-1,-2,1]]

新生成的像素值不一定在0到256之间，要进行归一化然后乘256。

sobel算子原理

第一行（-1，0，-1）的卷积核进行1D卷积时，本质上是计算相隔像素之间的距离。
1256788卷积后44221，少了2位因为核的缘故。
如果将像素差值数据用图片的方式显示出来，就是轮廓图片。
第二行（-2，0，2）的同上，只不过将距离放大2倍，起到增强效果。
思想是，对卷积核3行像素差值再做加权处理，以第二行像素差值为中心，距离中心点近影响越大的原理，对第二行加强，在结果中产生主要影响。
第二行与第一行相同也可以产生轮廓，OpenCV中有scharr函数…实sobel变了权重。
垂直其实就是水平算子的转置。

深层神经网络中的卷积核

这时的卷积核是经过大量样本训练之后计算出来的，若生成了若干个有特定功能的卷积核，有的计算像素差值，提取轮廓特征；有的计算平均值，提取纹理特征。

卷积分

$y = 3 x + 2.$
$y = 2x^{2}+3x-1.$
代数的角度理解是相乘
$y = 6x^{3}+13x^{2}+3x-2.$

卷积神经网络的实现

卷积的操作类型：
窄卷积、同卷积、全卷积。
计算规则：
$H_{out} = \frac{H_{in}+2\times padding[0]-dilation[0]\times (kernel_size[0]-1)-1}{stride[0]}+1.$
$W_{out} = \frac{W_{in}+2\times padding[1]-dilation[1]\times (kernel_size[1]-1)-1}{stride[1]}+1.$

实例6：卷积函数应用

观察卷积核个数和图像通道数对卷积核维度的影响。

import torch
# [batch, in_channels, in_height, in_width] [训练时一个batch的图片数量, 图像通道数, 图片高度, 图片宽度]
input1 = torch.ones([1, 1, 5, 5])
input2 = torch.ones([1, 2, 5, 5])
input3 = torch.ones([1, 1, 4, 4])
# [ out_channels, in_channels，filter_height, filter_width] [卷积核个数，图像通道数，卷积核的高度，卷积核的宽度]
filter1 =  torch.tensor([-1.0,0,0,-1]).reshape([1, 1, 2, 2])
filter2 =  torch.tensor([-1.0,0,0,-1,-1.0,0,0,-1]).reshape([2,1,2, 2])
filter3 =  torch.tensor([-1.0,0,0,-1,-1.0,0,0,-1,-1.0,0,0,-1]).reshape([3,1,2, 2])
filter4 =  torch.tensor([-1.0,0,0,-1,-1.0,0,0,-1,
                                   -1.0,0,0,-1,
                                   -1.0,0,0,-1]).reshape([2, 2, 2, 2])
filter5 =  torch.tensor([-1.0,0,0,-1,-1.0,0,0,-1]).reshape([1,2, 2, 2])

print(filter1)
print(filter2)
print(filter3)
print(filter4)
print(filter5)
#tensor([[[[-1.,  0.],
#          [ 0., -1.]]]])
卷积核个数X图像通道数=1，共一个卷积核单通道
#tensor([[[[-1.,  0.],
#          [ 0., -1.]]],
#
#        [[[-1.,  0.],
#          [ 0., -1.]]]])
2X1=2，两个卷积核单通道
#tensor([[[[-1.,  0.],
#          [ 0., -1.]]],
#
#        [[[-1.,  0.],
#          [ 0., -1.]]],
#
#        [[[-1.,  0.],
#          [ 0., -1.]]]])
3X1=3，三个卷积核，单通道
#tensor([[[[-1.,  0.],
#          [ 0., -1.]],
#         [[-1.,  0.],
#          [ 0., -1.]]],
#
#        [[[-1.,  0.],
#          [ 0., -1.]],
#         [[-1.,  0.],
#          [ 0., -1.]]]])
2X2=4，两个卷积核且两个通道
#tensor([[[[-1.,  0.],
#          [ 0., -1.]],
#         [[-1.,  0.],
#          [ 0., -1.]]]])
1X2=2，一个卷积核且两个通道
[ ]里为一个通道，[[]]里为一个卷积核

观察padding填充，padding=(1,2)是(上,下)填充，padding=1，为对周围填充一圈。

#验证padding补0的规则 ——上下左右都补0
padding1 = torch.nn.functional.conv2d(input1, torch.ones([1,1,1,1]), stride=1, padding=1)
print(padding1)
#tensor([[[[0., 0., 0., 0., 0., 0., 0.],   
#          [0., 1., 1., 1., 1., 1., 0.],   
#          [0., 1., 1., 1., 1., 1., 0.],   
#          [0., 1., 1., 1., 1., 1., 0.],   
#          [0., 1., 1., 1., 1., 1., 0.],   
#          [0., 1., 1., 1., 1., 1., 0.],   
#          [0., 0., 0., 0., 0., 0., 0.]]]])
padding2 = torch.nn.functional.conv2d(input1, torch.ones([1,1,1,1]), stride=1, padding=(1,2))
print(padding2)
#tensor([[[[0., 0., 0., 0., 0., 0., 0., 0., 0.],
#          [0., 0., 1., 1., 1., 1., 1., 0., 0.],
#          [0., 0., 1., 1., 1., 1., 1., 0., 0.],
#          [0., 0., 1., 1., 1., 1., 1., 0., 0.],
#          [0., 0., 1., 1., 1., 1., 1., 0., 0.],
#          [0., 0., 1., 1., 1., 1., 1., 0., 0.],
#          [0., 0., 0., 0., 0., 0., 0., 0., 0.]]]])

几个卷积核生成几个特征图，几个通道数相加为一个通道图

op1:单卷积核单通道，生成1个feature map
 tensor([[[[-1., -1., -1.],
          [-1., -2., -2.],
          [-1., -2., -2.]]]])
op2:双卷积核单通道，生成2个feature map
 tensor([[[[-1., -1., -1.],
          [-1., -2., -2.],
          [-1., -2., -2.]],

         [[-1., -1., -1.],
          [-1., -2., -2.],
          [-1., -2., -2.]]]])
op3:三卷积核单通道，生成3个feature map
 tensor([[[[-1., -1., -1.],
          [-1., -2., -2.],
          [-1., -2., -2.]],

         [[-1., -1., -1.],
          [-1., -2., -2.],
          [-1., -2., -2.]],

         [[-1., -1., -1.],
          [-1., -2., -2.],
          [-1., -2., -2.]]]])
op4:双卷积核双通道，生成2个feature map
 tensor([[[[-2., -2., -2.],
          [-2., -4., -4.],
          [-2., -4., -4.]],

         [[-2., -2., -2.],
          [-2., -4., -4.],
          [-2., -4., -4.]]]]) 
op5:单卷积核双通道，生成1个feature map
 tensor([[[[-2., -2., -2.],
          [-2., -4., -4.],
          [-2., -4., -4.]]]]) 
---------------------------------------
op1:
 tensor([[[[-1., -1., -1.],
          [-1., -2., -2.],
          [-1., -2., -2.]]]]) 
op6:不加padding
 tensor([[[[-2., -2.],
          [-2., -2.]]]])

自行设计了单卷积核三通道，证明上述分析。

# [batch, in_channels, in_height, in_width] [训练时一个batch的图片数量, 图像通道数, 图片高度, 图片宽度]5])
input8 = torch.ones([1, 3, 5, 5])
op8 = torch.nn.functional.conv2d(input8, filter8, stride=2, padding=1) 
# [ out_channels, in_channels，filter_height, filter_width] [卷积核个数，图像通道数，卷积核的高度，卷积核的宽度]
filter8= torch.tensor([
                        [[[-1.,  0.],
                          [ 0., -1.]],
                         [[-1.,  0.],
                          [ 0., -1.]],
                         [[-1.,  0.],
                          [ 0., -1.]]]
                      ]).reshape([1,3, 2, 2])
print("op8:\n",op8,filter8)
tensor([[[[-3., -3., -3.],
          [-3., -6., -6.],
          [-3., -6., -6.]]]])

完整代码：

import torch
# [batch, in_channels, in_height, in_width] [训练时一个batch的图片数量, 图像通道数, 图片高度, 图片宽度]
input1 = torch.ones([1, 1, 5, 5])
input2 = torch.ones([1, 2, 5, 5])
input3 = torch.ones([1, 1, 4, 4])
# [ out_channels, in_channels，filter_height, filter_width] [卷积核个数，图像通道数，卷积核的高度，卷积核的宽度]
filter1 =  torch.tensor([-1.0,0,0,-1]).reshape([2, 2, 1, 1])
filter2 =  torch.tensor([-1.0,0,0,-1,-1.0,0,0,-1]).reshape([2,1,2, 2])
filter3 =  torch.tensor([-1.0,0,0,-1,-1.0,0,0,-1,-1.0,0,0,-1]).reshape([3,1,2, 2])
filter4 =  torch.tensor([-1.0,0,0,-1,-1.0,0,0,-1,
                                   -1.0,0,0,-1,
                                   -1.0,0,0,-1]).reshape([2, 2, 2, 2])
filter5 =  torch.tensor([-1.0,0,0,-1,-1.0,0,0,-1]).reshape([1,2, 2, 2])

#class torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)
#condv = torch.nn.Conv2d(1,1,kernel_size=1,padding=1, bias=False)
#condv.weight = torch.nn.Parameter(torch.ones([1,1,1,1]))
#padding1 = condv(input1)
#print(padding1)

#验证padding补0的规则 ——上下左右都补0
padding1 = torch.nn.functional.conv2d(input1, torch.ones([1,1,1,1]), stride=1, padding=1)
print(padding1)


padding2 = torch.nn.functional.conv2d(input1, torch.ones([1,1,1,1]), stride=1, padding=(1,2))
print(padding2)

##1个通道输入，生成1个feature map
#filter1 =  torch.tensor([-1.0,0,0,-1]).reshape([1, 1, 2, 2])
#op1 = torch.nn.functional.conv2d(input1, filter1, stride=2, padding=1)
#print('\n')
#print(padding1)
#print(filter1)
#print(op1)

#torch.nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
#torch.nn.functional.conv1d(input, weight, bias=None, stride=1, padding=0, dilation=1, groups=1)
#torch.nn.functional.conv2d(input, weight, bias=None, stride=1, padding=0, dilation=1, groups=1)





op1 = torch.nn.functional.conv2d(input1, filter1, stride=2, padding=1) #1个通道输入，生成1个feature map
op2 = torch.nn.functional.conv2d(input1, filter2, stride=2, padding=1) #1个通道输入，生成2个feature map
op3 = torch.nn.functional.conv2d(input1, filter3, stride=2, padding=1) #1个通道输入，生成3个feature map

op4 = torch.nn.functional.conv2d(input2, filter4, stride=2, padding=1) # 2个通道输入，生成2个feature
op5 = torch.nn.functional.conv2d(input2, filter5, stride=2, padding=1) # 2个通道输入，生成一个feature map

op6 = torch.nn.functional.conv2d(input1, filter1, stride=2, padding=0) # 5*5 对于pading不同而不同


print("op1:\n",op1,filter1)#1-1  后面补0
print("------------------")

print("op2:\n",op2,filter2) #1-2多卷积核 按列取
print("op3:\n",op3,filter3) #1-3
print("------------------")

print("op4:\n",op4,filter4)#2-2    通道叠加
print("op5:\n",op5,filter5)#2-1
print("------------------")

print("op1:\n",op1,filter1)#1-1
print("op6:\n",op6,filter1)

实例7：使用卷积提取图片的轮廓

shape为（3264，2448，3）
transforms.ToTensor类能将图片转化为Pytorch所支持的形状（【通道数，高，宽】），同时将图片数值归一化为0到1的小数
sobelfilter = torch.tensor([[-1.0,0,1], [-2,0,2], [-1.0,0,1.0]]*3).reshape([1,3,3, 3])
三通道就乘三

import matplotlib.pyplot as plt # plt 用于显示图片
import matplotlib.image as mpimg # mpimg 用于读取图片
import torch
import torchvision.transforms as transforms

myimg = mpimg.imread('pytorch\chapter7\img.jpg') # 读取和代码处于同一目录下的图片
plt.imshow(myimg) # 显示图片
plt.axis('off') # 不显示坐标轴
plt.show()
print(myimg.shape)
(3264, 2448, 3)

pil2tensor = transforms.ToTensor()
rgb_image = pil2tensor(myimg)
print(rgb_image[0][0])
tensor([0.8471, 0.8471, 0.8471,  ..., 0.6824, 0.6824, 0.6824])
print(rgb_image.shape)
torch.Size([3, 3264, 2448])

sobelfilter =  torch.tensor([[-1.0,0,1],  [-2,0,2],  [-1.0,0,1.0]]*3).reshape([1,3,3, 3])
print(sobelfilter)
tensor([[[[-1.,  0.,  1.],
          [-2.,  0.,  2.],
          [-1.,  0.,  1.]],

         [[-1.,  0.,  1.],
          [-2.,  0.,  2.],
          [-1.,  0.,  1.]],

         [[-1.,  0.,  1.],
          [-2.,  0.,  2.],
          [-1.,  0.,  1.]]]])

op =torch.nn.functional.conv2d(rgb_image.unsqueeze(0), sobelfilter, stride=3,padding = 1) #3个通道输入，生成1个feature map

#对卷积结果进行处理，数据不能保证在0到255内，必须归一化再乘255
ret = (op - op.min()).div(op.max() - op.min())
ret =ret.clamp(0., 1.).mul(255).int()
print(ret)
tensor([[[[193,  99,  99,  ...,  99,  99,  99],
          [225,  99,  99,  ...,  99, 100,  99],
          [224,  99,  99,  ...,  99, 100,  99],
          ...,
          [177,  97, 100,  ...,  95, 100, 100],
          [178, 100, 100,  ..., 100,  98,  97],
          [177,  99,  98,  ...,  96, 100,  98]]]], dtype=torch.int32)


plt.imshow(ret.squeeze(),cmap='Greys_r') # 显示图片
plt.axis('off') # 不显示坐标轴
plt.show()

op=torch.nn.functional.max_pool2d(op,kernel_size =5, stride=5)
op = op.transpose(1,3).transpose(1,2)
print(op.shape)
torch.Size([1, 217, 163, 1])

关于灰度图，对3个通道的图片取平均值，或计算图片0维上的平均值。

r_image=rgb_image[0]
g_image=rgb_image[0]
b_image=rgb_image[0]
grayscale_image=(r_image=rgb_image[0]+g_image=rgb_image[0]+b_image=rgb_image[0]).div(3.0)
plt.imshow(grayscale_image,cmap='Greys_r') # 显示图片
plt.axis('off') # 不显示坐标轴
plt.show()
或者
plt.imshow(rgb_image.mean(),cmap='Greys_r') # 显示图片
plt.axis('off') # 不显示坐标轴
plt.show()

深层卷积神经网络

是多个卷积层和若干其他的神经网络叠加在一起的，原始的主要是输入、卷积、池化、全连接（或全局平均池化层）等部分组成。
输入层：将每个像素作为一个特征节点输入网络
卷积层：多个滤波器组合而成
池化层：将卷积结果降维
全局平均池化层：对生成的特征图取全局平均值，该层也可以用全连接网络代替
输出层：网络需要将数据分成几类，就输出几个节点。

卷积神经网络的反向传播

卷积操作反向求导时，要将特征图做一次padding再与转置后的卷积核做一次卷积操作，即可得到输入端的误差，实现误差的反向传播。

池化操作

主要目的是降维，在保持原有特征的基础上最大限度的将数组的维度变小。
池化只关心滤波器的尺寸，不考虑内部的值，算法是将滤波器映射区域内的像素点取平均值或最大值。
有均值池化（对背景信息更敏感）和最大池化（对纹理特征信息更敏感）。
也有两种实现方式，函数调用和类的方式

实例8：池化函数的应用

手动生成一个4x4的矩阵来模拟图片，两个通道，定义一个2x2的滤波器
pooling3是常用的操作手法，也称全局池化法，与输入数据经两次平均值计算结果数值一致，只有形状不同。

import torch

img=torch.tensor([ [ [0.,0.,0.,0.],[1.,1.,1.,1.],[2.,2.,2.,2.],[3.,3.,3.,3.] ],
                   [ [4.,4.,4.,4.],[5.,5.,5.,5.],[6.,6.,6.,6.],[7.,7.,7.,7.] ]
                 ]).reshape([1,2,4,4])
print(img)
#两个通道
tensor([[[[0., 0., 0., 0.],
          [1., 1., 1., 1.],
          [2., 2., 2., 2.],
          [3., 3., 3., 3.]],

         [[4., 4., 4., 4.],
          [5., 5., 5., 5.],
          [6., 6., 6., 6.],
          [7., 7., 7., 7.]]]])
print(img[0][0])
tensor([[0., 0., 0., 0.],
        [1., 1., 1., 1.],
        [2., 2., 2., 2.],
        [3., 3., 3., 3.]])
print(img[0][1])
tensor([[4., 4., 4., 4.],
        [5., 5., 5., 5.],
        [6., 6., 6., 6.],
        [7., 7., 7., 7.]])
#torch.nn.functional.avg_pool2d(input, kernel_size, stride=None, padding=0, ceil_mode=False, count_include_pad=True)
pooling=torch.nn.functional.max_pool2d(img,kernel_size =2)
print("pooling:\n",pooling)
pooling:
 tensor([[[[1., 1.],
          [3., 3.]],

         [[5., 5.],
          [7., 7.]]]])
pooling1=torch.nn.functional.max_pool2d(img,kernel_size =2,stride=1)
print("pooling1:\n",pooling1)
pooling1:
 tensor([[[[1., 1., 1.],
          [2., 2., 2.],
          [3., 3., 3.]],

         [[5., 5., 5.],
          [6., 6., 6.],
          [7., 7., 7.]]]])

pooling2=torch.nn.functional.avg_pool2d(img,kernel_size =4,stride=1,padding=1)
print("pooling2:\n",pooling2)
pooling2:
 tensor([[[[0.5625, 0.7500, 0.5625],
          [1.1250, 1.5000, 1.1250],
          [1.1250, 1.5000, 1.1250]],

         [[2.8125, 3.7500, 2.8125],
          [4.1250, 5.5000, 4.1250],
          [3.3750, 4.5000, 3.3750]]]])
pooling3=torch.nn.functional.avg_pool2d(img,kernel_size =4)
print("pooling3:\n",pooling3)
pooling3:
 tensor([[[[1.5000]],

         [[5.5000]]]])
m1 = img.mean(3)
print("第1次平均值结果:\n",m1)
第1次平均值结果:
 tensor([[[0., 1., 2., 3.],
         [4., 5., 6., 7.]]])
print("第2次平均值结果:\n",m1.mean(2))
第2次平均值结果:
 tensor([[1.5000, 5.5000]])

上述可以修改，结果等价

img=torch.tensor( [ [0.,0.,0.,0.],[1.,1.,1.,1.],[2.,2.,2.,2.],[3.,3.,3.,3.] ,
                    [4.,4.,4.,4.],[5.,5.,5.,5.],[6.,6.,6.,6.],[7.,7.,7.,7.] ]
                 ).reshape([2,4,4])
m1 = img.mean(2)
print("第2次平均值结果:\n",m1.mean(1))

实例9：搭建卷积神经网络

对第六章实例5进行修改，将2个全连接变为全局平均池化层。
将最后3个全连接层，改为1个卷积层和1个全局平均池化层，卷积核由5改为3
替换一下网络类定义就行了

class myConNet(torch.nn.Module):
    def __init__(self):
        super(myConNet, self).__init__()
        #定义卷积层
        self.conv1 = torch.nn.Conv2d(in_channels=1, out_channels=6, kernel_size=3)
        self.conv2 = torch.nn.Conv2d(in_channels=6, out_channels=12, kernel_size=3)
        self.conv3 = torch.nn.Conv2d(in_channels=12, out_channels=10, kernel_size=3)

    def forward(self, t):#搭建正向结构
        #第一层卷积和池化处理
        t = self.conv1(t)
        t = F.relu(t)
        t = F.max_pool2d(t, kernel_size=2, stride=2)
        #第二层卷积和池化处理
        t = self.conv2(t)
        t = F.relu(t)
        t = F.max_pool2d(t, kernel_size=2, stride=2)

        #第三层卷积和池化处理
        t = self.conv3(t)
        t = F.avg_pool2d(t, kernel_size=t.shape[-2:], stride=t.shape[-2:])

        return t.reshape(t.shape[:2])
    #训练完记得
    torch.save(network.state_dict(),'./CNNFashionMNIST2.pth')#保存模型
    network.load_state_dict(torch.load( './CNNFashionMNIST2.pth'))#加载模型

测试结果：
Accuracy of T-shirt : 66 %
Accuracy of Trouser : 92 %
Accuracy of Pullover : 72 %
Accuracy of Dress : 80 %
Accuracy of Coat : 68 %
Accuracy of Sandal : 94 %
Accuracy of Shirt : 58 %
Accuracy of Sneaker : 91 %
Accuracy of Bag : 95 %
Accuracy of Ankle_Boot : 96 %
Accuracy of all : 81 %
对比之前的模型在某些类别上提升很明显：
Accuracy of Trouser : 90 %
Accuracy of Pullover : 49 %
Accuracy of Dress : 85 %
Accuracy of Coat : 81 %
Accuracy of Sandal : 92 %
Accuracy of Shirt : 42 %
Accuracy of Sneaker : 91 %
Accuracy of Bag : 94 %
Accuracy of Ankle_Boot : 94 %
Accuracy of all : 80 %

循环神经网络(Recurrent Neural Network ,RNN)

是一个具有记忆功能的网络，它可以发现样本彼此间的相互关系，它多用于处理带有序列特征的样本数据。
人的记忆原理。
婴儿虽然说话能表达意思，但有时会很奇怪，要零食的时候说把“我要”说成“要我”，大脑对这两个字是有先后顺序的。
当获得“我来找你玩游”的时候，大脑语言模型会自动匹配“戏”，而不是游泳、游乐。
用下列伪代码表示逻辑：
（input我+empty-input）→output我
（input来+output我）→output来
（input找+output来）→output找
（input你+output找）→output你
如让小孩背三字经，名俱扬下一句很容易说，问上一句是什么，小孩从头背了一遍。
对于序列化的特征任务，如情感分析、关键字提取、语音识别、机器翻译、股票分析等等适合循环神经网络来解决。

基本结构是，将全连接网络的输出节点复制一份，传回到输入节点，与输入数据一起进行下一次计算。

实例10：简单循环神经网络实现——设计一个退位减法器

定义基本函数，手写sigmoid及其导数（用于反向传播）

import copy, numpy as np
np.random.seed(0) #随机数生成器的种子，可以每次得到一样的值
# compute sigmoid nonlinearity
def sigmoid(x): #激活函数
    output = 1/(1+np.exp(-x))
    return output
# convert output of sigmoid function to its derivative
def sigmoid_output_to_derivative(output):#激活函数的导数
    return output*(1-output)

建立二进制映射，将减法允许最大值设置为255，即8位二级制，定义int与二进制之间的映射组int2binary。

int2binary = {} #整数到其二进制表示的映射
binary_dim = 8 #暂时制作256以内的减法
## 计算0-256的二进制表示
largest_number = pow(2,binary_dim)
binary = np.unpackbits(
    np.array([range(largest_number)],dtype=np.uint8).T,axis=1)
for i in range(largest_number):
    int2binary[i] = binary[i]
print(int2binary)
{0: array([0, 0, 0, 0, 0, 0, 0, 0], dtype=uint8), 1: array([0, 0, 0, 0, 0, 0, 0, 1], dtype=uint8), 2: array([0, 0, 0, 0, 0, 0, 
1, 0], dtype=uint8), 3: array([0, 0, 0, 0, 0, 0, 1, 1], dtype=uint8), 4: array([0, 0, 0, 0, 0, 1, 0, 0], dtype=uint8), 5: array([0, 0, 0, 0, 0, 1, 0, 1], dtype=uint8)..........}

定义参数
隐藏层的权重为synapse_0，循环节点的权重为synapse_h（输入16节点、输出16节点），输出层的权重为synapse_1（输入16节点输出1节点）。
synapse_0_update在前面很少见，是因为它被隐藏在优化器里了，这里是自动手写，需要定义一组变量来存放反向优化参数时需要调整的值。对于前面3个权重synapse_0到3。

# input variables
alpha = 0.9 #学习速率
input_dim = 2 #输入的维度是2
hidden_dim = 16 
output_dim = 1 #输出维度为1

# initialize neural network weights
synapse_0 = (2*np.random.random((input_dim,hidden_dim)) - 1)*0.05 #维度为2*16， 2是输入维度，16是隐藏层维度
synapse_1 = (2*np.random.random((hidden_dim,output_dim)) - 1)*0.05
synapse_h = (2*np.random.random((hidden_dim,hidden_dim)) - 1)*0.05
# => [-0.05, 0.05)，

# 用于存放反向传播的权重更新值
synapse_0_update = np.zeros_like(synapse_0)
synapse_1_update = np.zeros_like(synapse_1)
synapse_h_update = np.zeros_like(synapse_h)

准备样本数据
建立循环生成样本数据，先生成两个数a和b。如果a小于b，就交换位置，保证被减数大。计算出相减结果c，将3个数转化为二进制，为模型计算做准备。
模型初始化
初始化输出值为0，初始化总误差为0，定义layer_2_deltas为存储反向传播过程中的循环层的误差，layer_1_values为隐藏层的输出值。由于第一个数据输入时，没有前面隐藏层输出值来作为本次的输入，因此需要定义一个初始值，这里初始化为0.1。
正向传播
future_layer_1_delta = np.zeros(hidden_dim)是为了反向传播准备的初始化，反向传播是从正向传播的最后一次计算开始反向计算误差，它没有后一次的输出，因此要初始化一个值作为其后一次的输入，这里初始化为0。
反向传播
开始从高位往回遍历，一次对每一位的所有层计算误差，并对权重求偏导，得到调整值，最后将每一位算出的各层权重的调整值加在一起乘以学习率来更新各层参数。每次更新完后中间变量会清零。
输出结果
每运行800次输出一次结果。

# training 
for j in range(10000):
    
    #生成一个数字a
    a_int = np.random.randint(largest_number) 
    #生成一个数字b,b的最大值取的是largest_number/2,作为被减数，让它小一点。
    b_int = np.random.randint(largest_number/2) 
    #如果生成的b大了，那么交换一下
    if a_int<b_int:
        tt = a_int
        b_int = a_int
        a_int=tt
    
    a = int2binary[a_int] # binary encoding
    b = int2binary[b_int] # binary encoding    
    # true answer
    c_int = a_int - b_int
    c = int2binary[c_int]
    
    # 存储神经网络的预测值
    d = np.zeros_like(c)
    overallError = 0 #每次把总误差清零
    
    layer_2_deltas = list() #存储每个时间点输出层的误差
    layer_1_values = list() #存储每个时间点隐藏层的值
    
    layer_1_values.append(np.ones(hidden_dim)*0.1) # 一开始没有隐藏层，所以初始化一下原始值为0.1
    
    # moving along the positions in the binary encoding
    for position in range(binary_dim):#循环遍历每一个二进制位
        
        # generate input and output
        X = np.array([[a[binary_dim - position - 1],b[binary_dim - position - 1]]])#从右到左，每次去两个输入数字的一个bit位
        y = np.array([[c[binary_dim - position - 1]]]).T#正确答案
        # hidden layer (input ~+ prev_hidden)
        layer_1 = sigmoid(np.dot(X,synapse_0) + np.dot(layer_1_values[-1],synapse_h))#（输入层 + 之前的隐藏层） -> 新的隐藏层，这是体现循环神经网络的最核心的地方！！！
        # output layer (new binary representation)
        layer_2 = sigmoid(np.dot(layer_1,synapse_1)) #隐藏层 * 隐藏层到输出层的转化矩阵synapse_1 -> 输出层
        
        layer_2_error = y - layer_2 #预测误差
        layer_2_deltas.append((layer_2_error)*sigmoid_output_to_derivative(layer_2)) #把每一个时间点的误差导数都记录下来
        overallError += np.abs(layer_2_error[0])#总误差
    
        d[binary_dim - position - 1] = np.round(layer_2[0][0]) #记录下每一个预测bit位
        
        # store hidden layer so we can use it in the next timestep
        layer_1_values.append(copy.deepcopy(layer_1))#记录下隐藏层的值，在下一个时间点用
    
    future_layer_1_delta = np.zeros(hidden_dim)
    
    #反向传播，从最后一个时间点到第一个时间点
    for position in range(binary_dim):
        
        X = np.array([[a[position],b[position]]]) #最后一次的两个输入
        layer_1 = layer_1_values[-position-1] #当前时间点的隐藏层
        prev_layer_1 = layer_1_values[-position-2] #前一个时间点的隐藏层
        
        # error at output layer
        layer_2_delta = layer_2_deltas[-position-1] #当前时间点输出层导数
        # error at hidden layer
        # 通过后一个时间点（因为是反向传播）的隐藏层误差和当前时间点的输出层误差，计算当前时间点的隐藏层误差
        layer_1_delta = (future_layer_1_delta.dot(synapse_h.T) + layer_2_delta.dot(synapse_1.T)) * sigmoid_output_to_derivative(layer_1)
        
        
       # 等到完成了所有反向传播误差计算， 才会更新权重矩阵，先暂时把更新矩阵存起来。
        synapse_1_update += np.atleast_2d(layer_1).T.dot(layer_2_delta)
        synapse_h_update += np.atleast_2d(prev_layer_1).T.dot(layer_1_delta)
        synapse_0_update += X.T.dot(layer_1_delta)
        
        future_layer_1_delta = layer_1_delta
    
    # 完成所有反向传播之后，更新权重矩阵。并把矩阵变量清零
    synapse_0 += synapse_0_update * alpha
    synapse_1 += synapse_1_update * alpha
    synapse_h += synapse_h_update * alpha
    synapse_0_update *= 0
    synapse_1_update *= 0
    synapse_h_update *= 0
   
    # print out progress
    if(j % 800 == 0):
        #print(synapse_0,synapse_h,synapse_1)
        print("总误差:" + str(overallError))
        print("Pred:" + str(d))
        print("True:" + str(c))
        out = 0
        for index,x in enumerate(reversed(d)):
            out += x*pow(2,index)
        print(str(a_int) + " - " + str(b_int) + " = " + str(out))
        print("------------")
总误差:[3.97242498]
Pred:[0 0 0 0 0 0 0 0]
True:[0 0 0 0 0 0 0 0]
9 - 9 = 0
------------
总误差:[2.1721182]
Pred:[0 0 0 0 0 0 0 0]
True:[0 0 0 1 0 0 0 1]
17 - 0 = 0
------------
总误差:[1.1082385]
Pred:[0 0 0 0 0 0 0 0]
True:[0 0 0 0 0 0 0 0]
59 - 59 = 0
------------
总误差:[0.18727913]
Pred:[0 0 0 0 0 0 0 0]
True:[0 0 0 0 0 0 0 0]
19 - 19 = 0
------------
总误差:[0.21914293]
Pred:[0 0 0 0 0 0 0 0]
True:[0 0 0 0 0 0 0 0]
71 - 71 = 0
------------
总误差:[0.26861004]
Pred:[0 0 1 1 1 1 0 0]
True:[0 0 1 1 1 1 0 0]
71 - 11 = 60
------------
总误差:[0.11815367]
Pred:[1 0 0 0 0 0 0 0]
True:[1 0 0 0 0 0 0 0]
230 - 102 = 128
------------
总误差:[0.2927243]
Pred:[0 1 1 1 0 0 0 1]
True:[0 1 1 1 0 0 0 1]
160 - 47 = 113
------------
总误差:[0.04298749]
Pred:[0 0 0 0 0 0 0 0]
True:[0 0 0 0 0 0 0 0]
3 - 3 = 0
------------
总误差:[0.04243453]
Pred:[0 0 0 0 0 0 0 0]
True:[0 0 0 0 0 0 0 0]
17 - 17 = 0
------------
总误差:[0.04588656]
Pred:[1 0 0 1 0 1 1 0]
True:[1 0 0 1 0 1 1 0]
167 - 17 = 150
------------
总误差:[0.08098026]
Pred:[1 0 0 1 1 0 0 0]
True:[1 0 0 1 1 0 0 0]
204 - 52 = 152
------------
总误差:[0.03262333]
Pred:[1 1 0 0 0 0 0 0]
True:[1 1 0 0 0 0 0 0]
209 - 17 = 192
------------

从训练结果可以看出，一开始不准确，多次迭代后就精准了。

完整代码：

import copy, numpy as np
np.random.seed(0) #随机数生成器的种子，可以每次得到一样的值
# compute sigmoid nonlinearity
def sigmoid(x): #激活函数
    output = 1/(1+np.exp(-x))
    return output
# convert output of sigmoid function to its derivative
def sigmoid_output_to_derivative(output):#激活函数的导数
    return output*(1-output)


int2binary = {} #整数到其二进制表示的映射
binary_dim = 8 #暂时制作256以内的减法
## 计算0-256的二进制表示
largest_number = pow(2,binary_dim)
binary = np.unpackbits(
    np.array([range(largest_number)],dtype=np.uint8).T,axis=1)
for i in range(largest_number):
    int2binary[i] = binary[i]

# input variables
alpha = 0.9 #学习速率
input_dim = 2 #输入的维度是2
hidden_dim = 16 
output_dim = 1 #输出维度为1

# initialize neural network weights
synapse_0 = (2*np.random.random((input_dim,hidden_dim)) - 1)*0.05 #维度为2*16， 2是输入维度，16是隐藏层维度
synapse_1 = (2*np.random.random((hidden_dim,output_dim)) - 1)*0.05
synapse_h = (2*np.random.random((hidden_dim,hidden_dim)) - 1)*0.05
# => [-0.05, 0.05)，

# 用于存放反向传播的权重更新值
synapse_0_update = np.zeros_like(synapse_0)
synapse_1_update = np.zeros_like(synapse_1)
synapse_h_update = np.zeros_like(synapse_h)

# training 
for j in range(10000):
    
    #生成一个数字a
    a_int = np.random.randint(largest_number) 
    #生成一个数字b,b的最大值取的是largest_number/2,作为被减数，让它小一点。
    b_int = np.random.randint(largest_number/2) 
    #如果生成的b大了，那么交换一下
    if a_int<b_int:
        tt = a_int
        b_int = a_int
        a_int=tt
    
    a = int2binary[a_int] # binary encoding
    b = int2binary[b_int] # binary encoding    
    # true answer
    c_int = a_int - b_int
    c = int2binary[c_int]
    
    # 存储神经网络的预测值
    d = np.zeros_like(c)
    overallError = 0 #每次把总误差清零
    
    layer_2_deltas = list() #存储每个时间点输出层的误差
    layer_1_values = list() #存储每个时间点隐藏层的值
    
    layer_1_values.append(np.ones(hidden_dim)*0.1) # 一开始没有隐藏层，所以初始化一下原始值为0.1
    
    # moving along the positions in the binary encoding
    for position in range(binary_dim):#循环遍历每一个二进制位
        
        # generate input and output
        X = np.array([[a[binary_dim - position - 1],b[binary_dim - position - 1]]])#从右到左，每次去两个输入数字的一个bit位
        y = np.array([[c[binary_dim - position - 1]]]).T#正确答案
        # hidden layer (input ~+ prev_hidden)
        layer_1 = sigmoid(np.dot(X,synapse_0) + np.dot(layer_1_values[-1],synapse_h))#（输入层 + 之前的隐藏层） -> 新的隐藏层，这是体现循环神经网络的最核心的地方！！！
        # output layer (new binary representation)
        layer_2 = sigmoid(np.dot(layer_1,synapse_1)) #隐藏层 * 隐藏层到输出层的转化矩阵synapse_1 -> 输出层
        
        layer_2_error = y - layer_2 #预测误差
        layer_2_deltas.append((layer_2_error)*sigmoid_output_to_derivative(layer_2)) #把每一个时间点的误差导数都记录下来
        overallError += np.abs(layer_2_error[0])#总误差
    
        d[binary_dim - position - 1] = np.round(layer_2[0][0]) #记录下每一个预测bit位
        
        # store hidden layer so we can use it in the next timestep
        layer_1_values.append(copy.deepcopy(layer_1))#记录下隐藏层的值，在下一个时间点用
    
    future_layer_1_delta = np.zeros(hidden_dim)
    
    #反向传播，从最后一个时间点到第一个时间点
    for position in range(binary_dim):
        
        X = np.array([[a[position],b[position]]]) #最后一次的两个输入
        layer_1 = layer_1_values[-position-1] #当前时间点的隐藏层
        prev_layer_1 = layer_1_values[-position-2] #前一个时间点的隐藏层
        
        # error at output layer
        layer_2_delta = layer_2_deltas[-position-1] #当前时间点输出层导数
        # error at hidden layer
        # 通过后一个时间点（因为是反向传播）的隐藏层误差和当前时间点的输出层误差，计算当前时间点的隐藏层误差
        layer_1_delta = (future_layer_1_delta.dot(synapse_h.T) + layer_2_delta.dot(synapse_1.T)) * sigmoid_output_to_derivative(layer_1)
        
        
       # 等到完成了所有反向传播误差计算， 才会更新权重矩阵，先暂时把更新矩阵存起来。
        synapse_1_update += np.atleast_2d(layer_1).T.dot(layer_2_delta)
        synapse_h_update += np.atleast_2d(prev_layer_1).T.dot(layer_1_delta)
        synapse_0_update += X.T.dot(layer_1_delta)
        
        future_layer_1_delta = layer_1_delta
    
    # 完成所有反向传播之后，更新权重矩阵。并把矩阵变量清零
    synapse_0 += synapse_0_update * alpha
    synapse_1 += synapse_1_update * alpha
    synapse_h += synapse_h_update * alpha
    synapse_0_update *= 0
    synapse_1_update *= 0
    synapse_h_update *= 0
   
    # print out progress
    if(j % 800 == 0):
        #print(synapse_0,synapse_h,synapse_1)
        print("总误差:" + str(overallError))
        print("Pred:" + str(d))
        print("True:" + str(c))
        out = 0
        for index,x in enumerate(reversed(d)):
            out += x*pow(2,index)
        print(str(a_int) + " - " + str(b_int) + " = " + str(out))
        print("------------")

常见的循环神经网络单元及结构

上述实例仅限于简单的逻辑和样本，对于相对复杂的问题有缺陷，原因在激活函数上。
通常像Sigmoid、tanh这类激活函数在神经网络里最多只能有6层左右，因为反向误差的传播会导致随着层数增加传递的误差值越小。RNN中，误差传递不光在层之间，还在每层的样本序列之间，因此其无法学习太长的序列特征。
在深层网络结构中，会将简单的RNN模型从两个角度进行改造：
1.使用结构更复杂的RNN模型的基本单元，使其在单层网络上提取更好的记忆特征。
2.将多个基本单元结合起来，组成不同的结构（多层RNN，双向RNN等），有时还会配合全连接网络、卷积网络等多种模型结构，一起组成拟合能力更强的网络模型。

长短记忆（LSTM）单元

一种使用了类似搭桥术结构的RNN单元，可以学习长期序列信息，是RNN网络中最常用的Cell之一。
看起来比较复杂其实是一个带有tanh激活函数的简单RNN，原理是引入一个成为细胞状态的连接，用来存放想要记忆的东西，（对应于简单RNN中的h，只不过不再只是保存上一次的状态了，而是通过网络学习存放那些有用的状态），同时在里面加入3个门，忘记门、输入门、输出门。

门控制循环单元（GRU）

几乎是与LSTM功能一样的常用网络结构，它将忘记门和输入门合成了一个单一的更新门，同时又将细胞状态和隐藏状态进行混合，以及一些其他的改动，最终的模型比LSTM模型要简单，少一个状态输出，但效果几乎一样，可以让代码更简单。

只有忘记门的LSTM（JANET）单元

只有忘记门时，性能居然优于标志LSTM，该优化方式也可以用在GRU。

独立循环单元（IndRNN）单元

效果和速度都优于LSTM单元，不但能解决传统RNN模型存在的梯度消失和梯度爆炸问题，而且可以更好学习样本中长期依赖的关系。
在搭建模型时：
可以用堆叠、残差、全连接的方式使用IndRNN单元，搭建更深的网络结构；
将IndRNN单元配合ReLU等非饱和激活函数一起使用，会使模型表现出很好的鲁棒性。

IndRNN与LSTM单元相比，使用了更简单的结构，比其快10倍，更像一个原始的RNN模型结构（只将神经元的输出复制到节点之中），其在循环层部分做了特殊处理。
通过公式来详细介绍…

双向RNN结构

又称Bi-RNN，采用了两个方向的RNN模型。正反结合比单向的循环网络有更高的拟合度。例如预测一个语句中缺失的词语，需要根据上下文来预测。
略…

实例11：用循环神经网络训练语言模型

还涉及自然语言处理（NLP）领域的相关知识，语言模型包括文法语言模型和统计语言模型，一般指统计语言模型。略…只做了解。
PyTorch中，有两个封装好的RNN类，LSTM和GRU。
解码要改成utf-8
labels =labels+label.decode(‘utf-8’)

import torch
import torch.nn.functional as F
import time
import random
import numpy as np
from collections import Counter

import sys

# print(sys.getdefaultencoding()) 

RANDOM_SEED = 123
torch.manual_seed(RANDOM_SEED)

DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')



def elapsed(sec):
    if sec<60:
        return str(sec) + " sec"
    elif sec<(60*60):
        return str(sec/60) + " min"
    else:
        return str(sec/(60*60)) + " hr"


training_file = 'wordstest.txt'


#中文多文件
def readalltxt(txt_files):
    labels = []
    for txt_file in txt_files:
        
        target = get_ch_lable(txt_file)
        labels.append(target)  
    return labels
    
#中文字
def get_ch_lable(txt_file):  
    labels= ""
    with open(txt_file, 'rb') as f:
        for label in f: 
            #labels =label.decode('utf-8')
            labels =labels+label.decode('utf-8')
           
    return  labels
    


#优先转文件里的字符到向量
def get_ch_lable_v(txt_file,word_num_map,txt_label=None):
      
    words_size = len(word_num_map)   
    to_num = lambda word: word_num_map.get(word, words_size) 
    if txt_file!= None:
        txt_label = get_ch_lable(txt_file)

    labels_vector = list(map(to_num, txt_label)) 
    return labels_vector  
    
training_data =get_ch_lable(training_file)

print("Loaded training data...")

print('样本长度:',len(training_data))
counter = Counter(training_data)  
words = sorted(counter)
words_size= len(words)
word_num_map = dict(zip(words, range(words_size))) 

print('字表大小:', words_size)     
wordlabel = get_ch_lable_v(training_file,word_num_map)

class GRURNN(torch.nn.Module):
    def __init__(self, word_size, embed_dim,
                 hidden_dim, output_size, num_layers):
        super(GRURNN, self).__init__()

        self.num_layers = num_layers
        self.hidden_dim = hidden_dim
        
        self.embed = torch.nn.Embedding(word_size, embed_dim)
        self.gru = torch.nn.GRU(input_size=embed_dim,
                                hidden_size=hidden_dim,
                                num_layers=num_layers,bidirectional=True)
        self.fc = torch.nn.Linear(hidden_dim*2, output_size)

    
    def forward(self, features, hidden):
        embedded = self.embed(features.view(1, -1))
        output, hidden = self.gru(embedded.view(1, 1, -1), hidden)
        output = self.fc(output.view(1, -1))
        return output, hidden
      
    def init_zero_state(self):
        init_hidden = torch.zeros(self.num_layers*2, 1, self.hidden_dim).to(DEVICE)
        return init_hidden



EMBEDDING_DIM = 10
HIDDEN_DIM = 20
NUM_LAYERS = 1

model = GRURNN(words_size, EMBEDDING_DIM, HIDDEN_DIM, words_size, NUM_LAYERS)
model = model.to(DEVICE)
optimizer = torch.optim.Adam(model.parameters(), lr=0.005)


def evaluate(model, prime_str, predict_len, temperature=0.8):

    hidden = model.init_zero_state().to(DEVICE)
    predicted = ''

    #处理输入语义
    for p in range(len(prime_str) - 1):
        _, hidden = model(prime_str[p], hidden)
        predicted +=words[prime_str[p]]
    inp = prime_str[-1]
    predicted +=words[inp]
    
    for p in range(predict_len):
        output, hidden = model(inp, hidden)
        
        #从多项式分布中采样
        output_dist = output.data.view(-1).div(temperature).exp()
        inp = torch.multinomial(output_dist, 1)[0]
        
        predicted += words[inp]

    return predicted


#定义参数训练模型
training_iters = 5000
display_step = 1000
n_input = 4
step = 0
offset = random.randint(0,n_input+1)
end_offset = n_input + 1

while step < training_iters:
    start_time = time.time()

    # 随机取一个位置偏移
    if offset > (len(training_data)-end_offset):
        offset = random.randint(0, n_input+1)
   

    inwords =wordlabel[offset:offset+n_input]
    inwords = np.reshape(np.array(inwords), [n_input, -1,  1])

    out_onehot = wordlabel[offset+1:offset+n_input+1]


    hidden = model.init_zero_state()
    optimizer.zero_grad()
    
    loss = 0.
    inputs, targets = torch.LongTensor(inwords).to(DEVICE), torch.LongTensor(out_onehot).to(DEVICE)
    for c in range(n_input):

        outputs, hidden = model(inputs[c], hidden)
        loss += F.cross_entropy(outputs, targets[c].view(1))

    loss /= n_input
    loss.backward()

    optimizer.step()

    #输出日志
    with torch.set_grad_enabled(False):
        if (step+1) % display_step == 0:
            print(f'Time elapsed: {(time.time() - start_time)/60:.4f} min')
            print(f'step {step+1} | Loss {loss.item():.2f}\n\n')
            with torch.no_grad():
                print(evaluate(model, inputs, 32), '\n')
            print(50*'=')

    step += 1
    offset += (n_input+1)#中间隔了一个，作为预测

print("Finished!")

while True:
    prompt = "请输入几个字，最好是%s个: " % n_input
    sentence = input(prompt)
    inputword = sentence.strip()
    
    try:
        inputword = get_ch_lable_v(None,word_num_map,inputword)
        keys = np.reshape(np.array(inputword), [ len(inputword),-1, 1])
        model.eval()
        with torch.no_grad():
            sentence =evaluate(model, torch.LongTensor(keys).to(DEVICE), 32)

        print(sentence)
    except:
        print("该字我还没学会")

过拟合问题及优化技巧

介绍一下神经网络在训练过程中的一些常用技巧。

实例12：训练具有过拟合问题的模型

可以用下面引用其他写的example1.py，不知道为什么会运行一遍原来文件的函数。
可以看图看出过拟合。

import sys
sys.path.append('pytorch\chapter3')
from example1 import LogicNet,moving_average,predict,plot_decision_boundary

import sklearn.datasets     #引入数据集
import torch
import numpy as np
import matplotlib.pyplot as plt
import sys
sys.path.append('pytorch\chapter3')
from example1 import LogicNet,moving_average,predict,plot_decision_boundary

np.random.seed(0)           #设置随机数种子
X, Y = sklearn.datasets.make_moons(40,noise=0.2) #生成2组半圆形数据

arg = np.squeeze(np.argwhere(Y==0),axis = 1)     #获取第1组数据索引
arg2 = np.squeeze(np.argwhere(Y==1),axis = 1)#获取第2组数据索引

plt.title("train moons data")
plt.scatter(X[arg,0], X[arg,1], s=100,c='b',marker='+',label='data1')
plt.scatter(X[arg2,0], X[arg2,1],s=40, c='r',marker='o',label='data2')
plt.legend()
plt.show()


model = LogicNet(inputdim=2,hiddendim=500,outputdim=2)#初始化模型
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)#定义优化器


xt = torch.from_numpy(X).type(torch.FloatTensor)#将Numpy数据转化为张量
yt = torch.from_numpy(Y).type(torch.LongTensor)
epochs = 1000#定义迭代次数
losses = []#定义列表，用于接收每一步的损失值
for i in range(epochs):
    loss = model.getloss(xt,yt)
    losses.append(loss.item())
    optimizer.zero_grad()#清空之前的梯度
    loss.backward()#反向传播损失值
    optimizer.step()#更新参数


avgloss= moving_average(losses) #获得损失值的移动平均值
plt.figure(1)
plt.subplot(211)
plt.plot(range(len(avgloss)), avgloss, 'b--')
plt.xlabel('step number')
plt.ylabel('Training loss')
plt.title('step number vs. Training loss')
plt.show()


plot_decision_boundary(lambda x : predict(model,x) ,X, Y)
from sklearn.metrics import accuracy_score
print("训练时的准确率：",accuracy_score(model.predict(xt),yt))

Xtest, Ytest = sklearn.datasets.make_moons(80,noise=0.2) #生成2组半圆形数据
plot_decision_boundary(lambda x : predict(model,x) ,Xtest, Ytest)
Xtest_t = torch.from_numpy(Xtest).type(torch.FloatTensor)#将Numpy数据转化为张量
Ytest_t = torch.from_numpy(Ytest).type(torch.LongTensor)
print("测试时的准确率：",accuracy_score(model.predict(Xtest_t),Ytest_t))

训练时的准确率： 1.0

测试时的准确率： 0.9375

改善模型过拟合的方法

如early stopping、数据集扩增、正则化、Dropout。
early stopping：在数据过拟合之前结束，不好把控。
数据集扩增：让模型看到更多的情况，最大化满足全样本，但在实际中为未来事件预测力不从心。
正则化：通过引入范数概念，增强泛化能力，有L1正则化、L2正则化。
Dropout：每次训练舍去一些节点来增强泛化能力

了解正则化

所谓正则化，就是在神经网络计算损失过程中，在损失后面加一项来干扰，实现模型无法和与样本完全拟合，从而抑制过拟合。

正则化的分类和公式

干扰项一定要有以下特征
当欠拟合时，希望它对模型误差影响尽量小，让模型快速拟合实际。
过拟合时，希望影响大，让模型不要产生过拟合的情况。
于是引入了两个范数——L1、L2
L1：所有学习参数的w的绝对值的和
L2：所有学习参数的w的平方和，然后求平方根
实际应用中L2最常用

L2正则化的实现

直接的方式是用优化器自带的weight_decay参数指定权重值衰减率，相当于L2正则化中的λ。默认对w和b都处理，实际上只需要对w，如果对b可能会欠拟合。

实例13：用L2正则改善模型的过拟合情况

在实例12上添加正则化处理，重新进行训练。

#添加正则化处理
weight_p, bias_p = [],[]
for name, p in model.named_parameters():
    if 'bias' in name:
        bias_p += [p]
    else:
        weight_p += [p]
optimizer = torch.optim.Adam([{'params': weight_p, 'weight_decay':0.001},
                      {'params': bias_p, 'weight_decay':0}],
                      lr=0.01)

训练时的准确率由1到0.975，是由于L2正则化干扰项
测试时的准确率由0.9375到0.9875，表明L2改善了过拟合

观察训练和测试图片没有了闭合区间，更接近原始的数据分布。

实例14：通过增大数据集改善模型的过拟合状况

不再生成一次，而是循环生成40次，修改每次训练都加入新的数据集。
在迭代中加入

    X, Y = sklearn.datasets.make_moons(40,noise=0.2) #生成2组半圆形数据
    xt = torch.from_numpy(X).type(torch.FloatTensor)#将Numpy数据转化为张量
    yt = torch.from_numpy(Y).type(torch.LongTensor)

可以看出loss曲线有明显的抖动，是由于新数据对上一次模型的拟合能力冲突较大，经过多次迭代就可以不断修正错误，达到合理的拟合能力。

与之前对比
训练时的准确率由1到0.95，是由于训练了新的数据
测试时的准确率由0.9375到0.975，表明增大数据集的方法改进了过拟合情况。

观察图片没有了闭合区间，更接近原始的数据分布。

Dropout方法

原理：每次随机选择一部分节点不去学习，是因为过拟合是把一些异常数据当成规律来学习，但其量非常少，利用上述特性，每次训练忽略一些节点，将小概率的异常数据获得学习的机会变得更低。但不是丢弃越多越好，会降低拟合速度。它改变了网络结构，只能训练的时候用，测试时候要改成False。使用类的方式时候，没有training参数，因为它会根据调用方式自己调节。

实例15：通过Dropout方法改善模型的过拟合状况

为了简化代码，之间继承模型类，然后重写前向结构。

#继承LogicNet类，构建网络模型
class Logic_Dropout_Net(LogicNet):
    def __init__(self,inputdim,hiddendim,outputdim):#初始化网络结构
        super(Logic_Dropout_Net,self).__init__(inputdim,hiddendim,outputdim)

    def forward(self,x): #搭建用两层全连接组成的网络模型
        x = self.Linear1(x)#将输入数据传入第1层
        x = torch.tanh(x)#对第一层的结果进行非线性变换
        x = nn.functional.dropout(x, p=0.07, training=self.training)
        x = self.Linear2(x)#再将数据传入第2层
        return x

与之前对比
训练时的准确率由1到0.925
测试时的准确率由0.9375到0.95
测试准确率同样没有低于训练准确率，说明Dropout方式有效改善过拟合

观察图片没有了闭合区间，更接近原始的数据分布。

全连接网络的深浅与泛化能力的联系

浅层网络有更好的拟合能力，但泛化能力弱，深层反之。
实际过程要考虑二者平衡，如wide_deep模型，就是单层线性模型（浅层全连接网络模型）和深度的全连接模型（深层全连接网络模型）。

了解批量归一化（BN）算法

一般用在全连接神经网络和卷积神经网络中，它的问世让整个神经网络的识别准确率上升了一个台阶。
权重值差太大，会让网络无法计算产生梯度爆炸，原因是网络内部协变量的转移，即正向传播时的不同层的参数会将反向训练计算时所参照的数据样本分布改变。
引入批量归一化的作用：最大限度的保证每次正向传播输出在同一分布上，这样反向计算时参照的数据样本分布就会与正向一样了。保证了分布统一，对权重的调整才会更有意义。
算法实现就是将每一层运算出来的数据归一化成均值为0、方差为1的标准高斯分布，这样就会在保留样本的分布特征的同时，又消除了层与层之间的分布差异。实际上加两个参数通过训练获得。

实例16：手动实现批量归一化的计算方法

data为2个样本，2个通道高宽为2和1。
BatchNorm2d接口为数据的每个通道创建一套自适应参数，实际计算中根据每个通道的数据进行批量归一化计算的。
经过批量归一化后，只改变了值没有改变形状。
最后手动计算第1通道中第一个数据的BN，结果与接口一致。

import torch
import torch.nn as nn
data=torch.randn(2,2,2,1)
print(data)
tensor([[[[-0.3322],  
          [ 0.2331]], 

         [[ 0.0162],  
          [ 1.0788]]],


        [[[ 0.6592],
          [ 1.3542]],

         [[-0.0912],
          [ 0.9763]]]])
obn=nn.BatchNorm2d(2,affine=True) #实例化自适应BN对象
output=obn(data)
print(obn.weight)
print(obn.bias)
print(obn.eps)
print(output,output.size())
#自适应参数
Parameter containing:
tensor([1., 1.], requires_grad=True)
Parameter containing:
tensor([0., 0.], requires_grad=True)
1e-05
tensor([[[[-1.3166],
          [-0.3986]],

         [[-0.8948],
          [ 1.0910]]],


        [[[ 0.2933],
          [ 1.4218]],

         [[-1.0955],
          [ 0.8994]]]], grad_fn=<NativeBatchNormBackward0>) torch.Size([2, 2, 2, 1])

print("第1通道的数据:",data[:,0])
 
#计算第1通道数据的均值和方差
Mean=torch.Tensor.mean(data[:,0])
Var=torch.Tensor.var(data[:,0],False)   #false表示贝塞尔校正不会被使用
print(Mean)
print(Var)

#计算第1通道中第一个数据的BN
batchnorm=((data[0][0][0][0]-Mean)/(torch.pow(Var,0.5)+obn.eps))\
    *obn.weight[0]+obn.bias[0]
print(batchnorm)
第1通道的数据: tensor([[[-0.3322],
         [ 0.2331]],

        [[ 0.6592],
         [ 1.3542]]])
tensor(0.4786)
tensor(0.3793)
tensor(-1.3166, grad_fn=<AddBackward0>)

实例17：通过批量归一化方法改善模型形状

继承模型后进行BN处理

#继承LogicNet类，构建网络模型
class Logic_BN_Net(LogicNet):
    def __init__(self,inputdim,hiddendim,outputdim):#初始化网络结构
        super(Logic_BN_Net,self).__init__(inputdim,hiddendim,outputdim)
        self.BN = nn.BatchNorm1d(hiddendim) #定义BN层
    def forward(self,x): #搭建用两层全连接组成的网络模型
        x = self.Linear1(x)#将输入数据传入第1层
        x = torch.tanh(x)#对第一层的结果进行非线性变换
        x = self.BN(x)#将第一层的数据做BN处理
        x = self.Linear2(x)#再将数据传入第2层
        return x

与之前对比
训练时的准确率由1到0.975
测试时的准确率由0.9375到0.925
说明BN有效改善过拟合

注意力机制

让神经网络忽略不重要的特征向量，重点计算有用的，抛弃无用特征对拟合效果的干扰同时能提高运算速度。
通过注意力分数来实现，是一个0到1的值，可以用在任何网络中。
可以作用在RNN模型中的每个序列上，在模型输出的特征向量上。
有两种模式，软模式（所有数据都注意）、硬模式（会舍弃一部分不符合条件的注意力权值为0）。
多头注意力机制…自注意力机制…

实例18：利用注意力循环神经网络对图片分类

import torchvision
import torchvision.transforms as tranforms
data_dir = './fashion_mnist/'
tranform = tranforms.Compose([tranforms.ToTensor()])
train_dataset = torchvision.datasets.FashionMNIST(data_dir, train=True, transform=tranform,download=True)

print("训练数据集条数",len(train_dataset))
val_dataset  = torchvision.datasets.FashionMNIST(root=data_dir, train=False, transform=tranform)
print("测试数据集条数",len(val_dataset))
import pylab
im = train_dataset[0][0]
im = im.reshape(-1,28)
pylab.imshow(im)
pylab.show()
print("该图片的标签为：",train_dataset[0][1])

############数据集的制作
import torch
batch_size = 10
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = torch.utils.data.DataLoader(val_dataset, batch_size=batch_size, shuffle=False)


from matplotlib import pyplot as plt
import numpy as np
def imshow(img):
    print("图片形状：",np.shape(img))
    npimg = img.numpy()
    plt.axis('off')
    plt.imshow(np.transpose(npimg, (1, 2, 0)))

classes = ('T-shirt', 'Trouser', 'Pullover', 'Dress', 'Coat', 'Sandal', 'Shirt', 'Sneaker', 'Bag', 'Ankle_Boot')
sample = iter(train_loader)
images, labels = sample.next()
print('样本形状：',np.shape(images))
print('样本标签：',labels)
imshow(torchvision.utils.make_grid(images,nrow=batch_size))
print(','.join('%5s' % classes[labels[j]] for j in range(len(images))))

############


#########################################################################################################################



#定义myLSTMNet模型类，该模型包括 2个RNN层和1个全连接层
class myLSTMNet(torch.nn.Module):
    def __init__(self,in_dim, hidden_dim, n_layer, n_class):
        super(myLSTMNet, self).__init__()
        #定义循环神经网络层
        self.lstm = torch.nn.LSTM(in_dim, hidden_dim, n_layer,batch_first=True)
        self.Linear = torch.nn.Linear(hidden_dim*28, n_class)#定义全连接层
        self.attention = AttentionSeq(hidden_dim,hard=0.03)

    def forward(self, t):    #搭建正向结构
        t, _ = self.lstm(t)  #进行RNN处理
        t = self.attention(t)
        t=t.reshape(t.shape[0],-1)
#        t = t[:, -1, :]      #获取RNN网络的最后一个序列数据
        out = self.Linear(t) #进行全连接处理
        return out
class AttentionSeq(torch.nn.Module):

    def __init__(self, hidden_dim,hard= 0):
        super(AttentionSeq, self).__init__()
        self.hidden_dim = hidden_dim
        self.dense = torch.nn.Linear(hidden_dim, hidden_dim)
        self.hard = hard

    def forward(self, features, mean=False):
        #[batch,seq,dim]
        batch_size, time_step, hidden_dim = features.size()
        weight = torch.nn.Tanh()(self.dense(features))

        # mask给负无穷使得权重为0
        mask_idx = torch.sign(torch.abs(features).sum(dim=-1))
#        mask_idx = mask_idx.unsqueeze(-1).expand(batch_size, time_step, hidden_dim)
        mask_idx = mask_idx.unsqueeze(-1).repeat(1, 1, hidden_dim)


        weight = torch.where(mask_idx== 1, weight,
                             torch.full_like(mask_idx,(-2 ** 32 + 1)))
        weight = weight.transpose(2, 1)
        weight = torch.nn.Softmax(dim=2)(weight)
        if self.hard!=0: #hard mode
            weight = torch.where(weight>self.hard, weight, torch.full_like(weight,0))
        
        if mean:
            weight = weight.mean(dim=1)
            weight = weight.unsqueeze(1)
            weight = weight.repeat(1, hidden_dim, 1)
        weight = weight.transpose(2, 1)
        features_attention = weight * features

        return features_attention
#实例化模型对象
network = myLSTMNet(28, 128, 2, 10)  # 图片大小是28x28
#指定设备
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)
network.to(device)
print(network)#打印网络

criterion = torch.nn.CrossEntropyLoss()  #实例化损失函数类
optimizer = torch.optim.Adam(network.parameters(), lr=.01)

for epoch in range(2): #数据集迭代2次
    running_loss = 0.0
    for i, data in enumerate(train_loader, 0): #循环取出批次数据
        inputs, labels = data
        inputs = inputs.squeeze(1)
        inputs, labels = inputs.to(device), labels.to(device) #
        optimizer.zero_grad()#清空之前的梯度
        outputs = network(inputs)
        loss = criterion(outputs, labels)#计算损失
        loss.backward()  #反向传播
        optimizer.step() #更新参数

        running_loss += loss.item()
        if i % 1000 == 999:
            print('[%d, %5d] loss: %.3f' %
                (epoch + 1, i + 1, running_loss / 2000))
            running_loss = 0.0




print('Finished Training')


#使用模型
dataiter = iter(test_loader)
images, labels = dataiter.next()

inputs, labels = images.to(device), labels.to(device)


imshow(torchvision.utils.make_grid(images,nrow=batch_size))
print('真实标签: ', ' '.join('%5s' % classes[labels[j]] for j in range(len(images))))
inputs = inputs.squeeze(1)
outputs = network(inputs)
_, predicted = torch.max(outputs, 1)


print('预测结果: ', ' '.join('%5s' % classes[predicted[j]]
                              for j in range(len(images))))


#测试模型
class_correct = list(0. for i in range(10))
class_total = list(0. for i in range(10))
with torch.no_grad():
    for data in test_loader:
        images, labels = data
        images = images.squeeze(1)
        inputs, labels = images.to(device), labels.to(device)
        outputs = network(inputs)
        _, predicted = torch.max(outputs, 1)
        predicted = predicted.to(device)
        c = (predicted == labels).squeeze()
        for i in range(10):
            label = labels[i]
            class_correct[label] += c[i].item()
            class_total[label] += 1


sumacc = 0
for i in range(10):
    Accuracy = 100 * class_correct[i] / class_total[i]
    print('Accuracy of %5s : %2d %%' % (classes[i], Accuracy ))
    sumacc =sumacc+Accuracy
print('Accuracy of all : %2d %%' % ( sumacc/10. ))

输出结果如下：
训练数据集条数 60000
测试数据集条数 10000
libpng warning: iCCP: cHRM chunk does not match sRGB
该图片的标签为： 9
样本形状： torch.Size([10, 1, 28, 28])
样本标签： tensor([2, 2, 5, 3, 7, 1, 7, 9, 2, 9])
图片形状： torch.Size([3, 32, 302])
Pullover,Pullover,Sandal,Dress,Sneaker,Trouser,Sneaker,Ankle_Boot,Pullover,Ankle_Boot
cpu
myLSTMNet(
(lstm): LSTM(28, 128, num_layers=2, batch_first=True)
(Linear): Linear(in_features=3584, out_features=10, bias=True)
(attention): AttentionSeq(
(dense): Linear(in_features=128, out_features=128, bias=True)
)
)
[1, 1000] loss: 0.381
[1, 2000] loss: 0.261
[1, 3000] loss: 0.240
[1, 4000] loss: 0.216
[1, 5000] loss: 0.205
[1, 6000] loss: 0.207
[2, 1000] loss: 0.231
[2, 2000] loss: 0.281
[2, 3000] loss: 0.282
[2, 4000] loss: 0.265
[2, 5000] loss: 0.238
[2, 6000] loss: 0.230
Finished Training
图片形状： torch.Size([3, 32, 302])
真实标签: Ankle_Boot Pullover Trouser Trouser Shirt Trouser Coat Shirt Sandal Sneaker
预测结果: Ankle_Boot Pullover Trouser Trouser Shirt Trouser Pullover Shirt Sandal Sneaker
Accuracy of T-shirt : 78 %
Accuracy of Trouser : 95 %
Accuracy of Pullover : 81 %
Accuracy of Dress : 75 %
Accuracy of Coat : 65 %
Accuracy of Sandal : 89 %
Accuracy of Shirt : 54 %
Accuracy of Sneaker : 91 %
Accuracy of Bag : 95 %
Accuracy of Ankle_Boot : 95 %
Accuracy of all : 82 %

这一章内容也太多了，都有点烦了。。。

你可能感兴趣的:(PyTorch—学习笔记,深度学习,pytorch,神经网络)

迁移学习与RBF神经网络 fanxbl957 人工智能理论与实践迁移学习神经网络人工智能
迁移学习与RBF神经网络一、引言在机器学习和深度学习领域，迁移学习和神经网络都是备受关注的重要技术。迁移学习旨在将从一个或多个源任务中学习到的知识应用到目标任务中，以加快目标任务的学习过程，提高学习效果，尤其在数据稀缺或训练资源有限的情况下展现出显著优势。而RBF（径向基函数）神经网络作为一种经典的神经网络结构，以其独特的函数逼近能力和良好的局部逼近特性，在众多领域取得了出色的性能表现。将迁移学习
智能优化算法应用：堆优化算法优化脉冲耦合神经网络的图像自动分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法神经网络人工智能
智能优化算法应用：堆优化算法优化脉冲耦合神经网络的图像自动分割文章目录智能优化算法应用：堆优化算法优化脉冲耦合神经网络的图像自动分割1.堆优化算法2.PCNN网络3.实验结果4.参考文献5.Matlab代码摘要：本文利用堆优化算法对脉冲耦合神经网络的参数进行优化，以信息熵作为适应度函数，提高其图像分割的性能。1.堆优化算法堆优化算法原理请参考：https://blog.csdn.net/u0118
kafka学习笔记5 PLAIN认证——筑梦之路筑梦之路 linux系统运维 Java技术 kafka 学习笔记
在Kafka中，SASL（SimpleAuthenticationandSecurityLayer）机制包括三种常见的身份验证方式：SASL/PLAIN认证：含义是简单身份验证和授权层应用程序接口，PLAIN认证是其中一种最简单的用户名、密码认证方式，生产环境使用维护简单易用。可用于Kafka和其他应用程序之间的认证。SASL/SCRAM认证：SCRAM-SHA-256、SCRAM-SHA-512
ELK Stack学习笔记在线打码学习笔记 redis linux centos es elk
一、ELKStack简介1、Elasticsearch一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。它是一个建立在全文搜索引擎ApacheLucene(信息检索的工具jar包)基础上的搜索引擎，使用Java语言编写2、Logstash一个完全开源的工具，可以对日志进行收集、过滤，并将其存储供以后使用。是开源的服务器端数据处理管道，能够从多个来源收集数据、转换数据。并保存到
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
【锂电池寿命】基于BP锂电池寿命预测（matlab) 大橘科研工作室毕设锂电池方向（MATLAB版）matlab
【锂电池寿命】基于BP锂电池寿命预测（matlab)文章目录【锂电池寿命】基于BP锂电池寿命预测（matlab)一、引言1.1、研究背景1.2、研究意义二、文献综述2.1、锂电池寿命预测研究现状2.2、常见预测方法对比2.3、BP神经网络在寿命预测中的应用三、研究方法与数据准备3.1、BP神经网络模型设计3.2、数据来源与预处理3.3、特征提取与选择四、模型训练与验证4.1、训练过程4.2、模型验
Golang学习笔记_28——工厂方法模式（实例） LuckyLay Golang学习笔记 golang 学习笔记工厂方法模式
Golang学习笔记_26——通道Golang学习笔记_27——单例模式Golang学习笔记_28——工厂方法模式工厂方法模式（实例）packagefactory_method_demoimport"fmt"//Order接口，定义订单的基本操作typeOrderinterface{CalculateTotal()float64Display()}//RegularOrder是普通订单结构体typ
PyTorch 基础数据集：从理论到实践的深度学习基石那年一路北 Pytorch理论+实践深度学习 pytorch 人工智能
一、引言深度学习作为当今人工智能领域的核心技术，在图像识别、自然语言处理、语音识别等众多领域取得了令人瞩目的成果。而在深度学习的体系中，数据扮演着举足轻重的角色，它是模型训练的基础，如同建筑的基石，决定了模型的性能和泛化能力。PyTorch作为当下最流行的深度学习框架之一，为开发者提供了丰富且强大的工具来处理数据集。本文将深入探讨PyTorch中的基础数据集，从深度学习中数据的重要性出发，详细介绍
BP神经网络概述及其预测的Python和MATLAB实现追蜻蜓追累了神经网络回归算法深度学习机器学习启发式算法 lstm gru
##一、背景###1.1人工神经网络的起源人工神经网络（ArtificialNeuralNetwork,ANN）受生物神经网络的启发，模拟大脑神经元之间的连接和信息处理方式。尽管早在1943年就有学者如McCulloch和Pitts提出了数学模型，但人工神经网络真正被广泛研究是在20世纪80年代。###1.2BP神经网络的兴起反向传播（BackPropagation，简称BP）算法是20世纪80年
【深度学习】Pytorch：导入导出模型参数 T0uken 深度学习 pytorch 人工智能
PyTorch是深度学习领域中广泛使用的框架，熟练掌握其模型参数的管理对于模型训练、推理以及部署非常重要。本文将全面讲解PyTorch中关于模型参数的操作，包括如何导出、导入以及如何下载模型参数。什么是模型参数模型参数是指深度学习模型中需要通过训练来优化的变量，如神经网络中的权重和偏置。这些参数存储在PyTorch的torch.nn.Module对象中，通过以下方式访问：importtorchim
matlab程序代编程写做代码图像处理BP神经网络机器深度学习python matlabgoodboy 深度学习 matlab 图像处理
1.安装必要的库首先，确保你已经安装了必要的Python库。如果没有安装，请运行以下命令：bash复制代码pipinstallnumpymatplotlibtensorflowopencv-python2.图像预处理我们将使用OpenCV来加载和预处理图像数据。假设你有一个图像数据集，每个类别的图像存放在单独的文件夹中。python复制代码importosimportcv2importnumpya
Python气象数据分析：风速预报订正、台风预报数据智能订正、机器学习预测风电场的风功率、浅水模型、预测ENSO等小艳加油大气科学 python 人工智能气象机器学习
目录专题一Python和科学计算基础专题二机器学习和深度学习基础理论和实操专题三气象领域中的机器学习应用实例专题四气象领域中的深度学习应用实例更多应用Python是功能强大、免费、开源，实现面向对象的编程语言，在数据处理、科学计算、数学建模、数据挖掘和数据可视化方面具备优异的性能，这些优势使得Python在气象、海洋、地理、气候、水文和生态等地学领域的科研和工程项目中得到广泛应用。可以预见未来Py
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
k8s_CKA考试_学习笔记 bq_o_pd kubernetes linux 容器笔记
k3s默认无法使用docker，导入docker的镜像加载到k3s中[root@worker1php]#k3scrictlimagesIMAGETAGIMAGEIDSIZEdocker.io/library/busyboxlatest9211bbaa0dbd62.23MBdocker.io/library/nginx1.7.935d28df486f6139.9MBdocker.io/library
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
PySide6 GUI 学习笔记——Python文件编译打包 Humbunklung PySide6 学习笔记 python
前面编写的软件工具都必须运行在Python环境中，且通过命令行的方式运行，通过Python打包工具，我们可以把.py文件封装成对应平台的运行文件，供用户执行。常见Python打包工具工具简介官网/文档地址py2exe将Python脚本转换为Windows可执行文件https://www.py2exe.orgcx_Freeze跨平台的Python打包工具，它可以将Python脚本打包为可执行文件或动
AWS学习笔记——Chapter5 Identity and Access Management and Security on AWS 坚果壳er AWS学习
前注：学习书籍IndexIdentityandAccessManagementandSecurityonAWS1.Authentication(认证)2.Authorization(授权)3.Auditing(审核)4.Typesofsecuritycredentials(安全凭证的类型)5.Users6.Groups7.Roles8.IAMHierarchyofPrivileges9.IAMBe
Markdown学习笔记 exm-zem 学习笔记
Markdown学习笔记——你好世界Markdown标题Markdown标题的两种格式：1、使用=和-来建立一个一级和二级标题：一级标题=================二级标题-----------------我展示的是一级标题我展示的是二级标题2、使用#号可以标记1-6级标题：#一级标题##二级标题###三级标题####四级标题#####五级标题######六级标题一级标题二级标题三级标题四级
MySQL学习笔记5: MySQL查询语句案例及pymysql模块 Hojas MySQL mysql 学习笔记
MySQL学习笔记5:MySQL查询语句案例及pymysql模块文章目录MySQL学习笔记5:MySQL查询语句案例及pymysql模块一些MySQL语句案例pymysql模块sql注入总结pymysql补充一些MySQL语句案例1、查询所有的课程的名称以及对应的任课老师姓名--SELECT--course.cname,--teacher.tname--FROM--course--INNERJOI
BP神经网络及其Python和MATLAB实现预测陈辰学长神经网络 python matlab
BP神经网络及其Python和MATLAB实现预测引言BP神经网络（BackPropagationNeuralNetwork），即反向传播神经网络，是一种通过反向传播算法进行监督学习的多层前馈网络。这种网络能够通过不断地调整和改变神经元的连接权重，达到对特定任务的学习和优化。由于其高度的灵活性和适应性，BP神经网络在模式识别、函数逼近、优化问题等多个领域有着广泛的应用。本文将详细介绍BP神经网络的
C++的输入与输出 huang-jy c++开发语言
（作为小白刚开始学C++的第一篇学习笔记，很多深层面的知识都还不是很清楚）命令空间的使用与作用：作用：命令空间（namespace）：是用来组织代码并避免名字冲突的。std是C++标准库的命令空间，包含了很多常用的功能和对象，如cout、cin、vector等。如在C++中，std::cout是std命令空间下一个对象。使用：可以在全局中添加usingnamespacestd，也可以在main函数
大模型介绍詹姆斯爱研究Java spring
大模型（LargeModel）指的是拥有庞大参数量的机器学习模型。由于具有更多的参数，大模型能够更好地拟合复杂的数据和模式，从而提供更准确的预测和更好的性能。大模型的参数量通常远远超过常规模型，可以达到数百万甚至数十亿个参数。这些参数通常通过深度神经网络（DeepNeuralNetwork）来表示，包括多个隐藏层和大量的神经元。大模型的训练需要大量的计算资源和数据。通常，它们需要在多个GPU或TP
基于深度学习的极端天气预测全解析与实战指南：基于MetNet 模型 AI_DL_CODE 深度学习人工智能 MetNet 天气预测 python
摘要：本文全面解析了基于深度学习的极端天气预测，重点介绍了MetNet模型。首先，文章阐述了极端天气预测的重要性和传统天气预报的局限性。接着，详细介绍了MetNet模型的基本架构、特点以及与其他气象预测模型的对比。然后，通过实战案例展示了MetNet模型在极端降雨天气预测中的应用，包括数据准备、模型搭建与训练、模型评估与预测。最后，文章总结了MetNet模型的优势与挑战，并展望了深度学习在气象领域
深度解析：Python与TensorFlow在日平均气温预测中的应用——LSTM神经网络实战 AI_DL_CODE python 神经网络 tensorflow LSTM 气温预测 RNN
文章目录1.引言1.1研究背景与意义1.2研究目标与问题定义2.概念解析2.1Python语言简介2.2TensorFlow框架概述2.3LSTM神经网络原理3.原理详解3.1时间序列分析基础3.1.1时间序列的组成3.1.2时间序列分析方法3.2LSTM在时间序列分析中的应用3.2.1LSTM的优势3.2.2LSTM的结构3.3日平均气温预测的数学模型3.3.1ARIMA模型3.3.2LSTM模
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
使用 PyTorch 从头开始构建您自己的 Llama 3 架构子然在打码 pytorch llama 人工智能
https://www.aisolink.com/build-your-own-llama-3-architecture-from-scratch-using-pytorch全文摘要本文提供了一个详细的指南，介绍如何使用PyTorch从头开始构建Llama3模型的完整架构，并对自定义数据集进行训练和推理。文章涵盖了构建输入块、解码器块和输出块的步骤，并提供了相应的代码示例。最终目标是构建一个功能齐
【Linux】shell语法入门手册语法大全 Genevieve_xiao linux linux bash 运维
shell学习笔记yxc的linuxshell语法目录概论运行方式直接用解释器执行作为可执行文件运行注释单行注释多行注释变量定义变量引用变量只读变量删除变量变量类型字符串默认变量文件参数变量其他参数相关变量数组定义调用数组元素中的值数组长度expr命令重要说明字符串表达式整数表达式逻辑关系表达式read命令echo命令显示普通字符串显示转义字符显示变量显示换行显示不换行显示结果定向至文件原样输出显
深度学习乐园智能零售柜商品识别 Java先进事迹深度学习零售人工智能
1.项目简介本项目专注于智能零售柜商品识别，是为第六届信也科技杯图像算法大赛设计的方案。其核心目标是利用深度学习技术，实现对顾客选购商品的精准识别和自动化结算。当商品被放置在指定区域时，系统应自动检测并识别每件商品，生成购物清单并计算总价格，提升零售柜的自动化与便利性。此类智能系统在不需要售货员的情况下即可进行商品识别和结算，相较于传统的硬件分隔、重量判断、顾客行为监测、或射频识别技术，这种方法不
YOLOv8改进，YOLOv8检测头融合DiverseBranchBlock，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要一种卷积神经网络（ConvNet）的通用构建模块，以在不增加推理时间成本的情况下提高性能。该模块被命名为多样分支块（DiverseBranchBlock，DBB），通过结合不同尺度和复杂度的多样分支来丰富特征空间，包括卷积序列、多尺度卷积和平均池化，从而增强单个卷积的表示能力。在训练后，DBB可以等效地转换为一个单独的卷积层以进行部署。与新型ConvNet架构的进步不同，DBB在保持宏观架构的
YOLOv10改进，YOLOv10改进主干网络为GhostNetV3(2024年华为的轻量化架构，全网首发)，助力涨点挂科边缘 YOLOv10改进 YOLO 计算机视觉目标检测人工智能 python 深度学习
摘要GhostNetV3是由华为诺亚方舟实验室的团队发布的，于2024年4月发布。摘要：紧凑型神经网络专为边缘设备上的应用设计，具备更快的推理速度，但性能相对适中。然而，紧凑型模型的训练策略目前借鉴自传统模型，这忽略了它们在模型容量上的差异，可能阻碍紧凑型模型的性能提升。在本文中，通过系统地研究不同训练成分的影响，我们介绍了一种用于紧凑型模型的强大训练策略。我们发现，适当的重参数化和知识蒸馏设计对
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

《Pytorch深度学习和图神经网络(卷 1)》学习笔记——第七章

大脑分级处理机制：

视觉神经网络中的离散积分

sobel算子原理

深层神经网络中的卷积核

卷积分

卷积神经网络的实现

实例6：卷积函数应用

完整代码：

实例7：使用卷积提取图片的轮廓

深层卷积神经网络

卷积神经网络的反向传播

池化操作

实例8：池化函数的应用

实例9：搭建卷积神经网络

循环神经网络(Recurrent Neural Network ,RNN)

实例10： 简单循环神经网络实现——设计一个退位减法器

完整代码：

常见的循环神经网络单元及结构

长短记忆（LSTM）单元

门控制循环单元（GRU）

只有忘记门的LSTM（JANET）单元

独立循环单元（IndRNN）单元

双向RNN结构

实例11：用循环神经网络训练语言模型

过拟合问题及优化技巧

实例12：训练具有过拟合问题的模型

改善模型过拟合的方法

了解正则化

正则化的分类和公式

L2正则化的实现

实例13：用L2正则改善模型的过拟合情况

实例14：通过增大数据集改善模型的过拟合状况

Dropout方法

实例15：通过Dropout方法改善模型的过拟合状况

全连接网络的深浅与泛化能力的联系

了解批量归一化（BN）算法

实例16：手动实现批量归一化的计算方法

实例17：通过批量归一化方法改善模型形状

注意力机制

实例18：利用注意力循环神经网络对图片分类

你可能感兴趣的:(PyTorch—学习笔记,深度学习,pytorch,神经网络)

实例10：简单循环神经网络实现——设计一个退位减法器