咬着棒棒糖闯天下

Pytorch-深度学习笔记

文章目录

Pytorch-深度学习笔记
- 环境搭建
- - 查看pytorch是否能使用cuda加速
  - Pytorch将模型和张量加载到GPU
  - - 方法1
    - 方法2
- Overview
- 线性模型
- - code
- 梯度下降算法
- - code
  - code
- 反向传播
- - code
- 用PyTorch实现线性回归
- - code
- 逻辑斯蒂（losgitic）回归
- - code
- 处理多维特征的输入
- - code
- 加载数据集
- - code
- 多分类问题
- - code
- 卷积神经网络（基础篇）
- - code
  - code
- 卷积神经网络（高级篇）
- - GoogLeNet
  - Residual Net
  - code
  - code
- 循环神经网络（基础篇）
- - code
  - code
  - code
- 循环神经网络（高级篇）
- - code
  - code

Pytorch-深度学习笔记

学习链接：

《PyTorch深度学习实践》完结合集
LEARNING PYTORCH WITH EXAMPLES

环境搭建

Pytorch

确定cuda版本

打开pytorch官网,根据需要确定下载指令

复制，在conda里下载即可
验证

import torch

查看pytorch是否能使用cuda加速

查看cuda是否安装正确并能被Pytorch检测到

import torch

print(torch.cuda.is_available())

看Pytorch能不能调用cuda加速

a = torch.Tensor(5, 3)
a = a.cuda()
print(a)

Pytorch将模型和张量加载到GPU

方法1

# 如果GPU可用，将模型和张量加载到GPU上
if torch.cuda.is_available():
    model = model.cuda()
    x = x.cuda()
    y = y.cuda()

方法2

# 分配到的GPU或CPU
device=torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# 将模型加到GPU
model=model.to(device)
# 将张量加到GPU
x=x.to(device)
y=y.to(device)

Overview

课程链接：01.Overview

传统：Features与Mapping from features是分开的

Deeplearning：Features与Mapping from features是一起的，因此被称为End to End。

传统策略：分类、聚类、回归、降维

反向传播的核心：计算图

将路径上的偏导进行相乘—>求导链式法则—>误差的反向传播

近些年来的进展：算法、数据集、算力

TensorFlow: static graph 静态图，灵活性低

PyTorch: Dynamic graph 动态图

线性模型

课程链接：02.线性模型

学习深度学习：

DataSet
Model
Training
Infering

为了评估模型，需要吧训练集分为两部分：训练集、开发集

损失函数常用：MSE（Mean Square Error）
$cost=\frac{1}{N} \sum_{n=1}^{N} \left(\hat{y}_{n}-y_{n}\right)^{2}$
vistom 可视化绘图提供web服务

code

线性模型

import numpy as np
import matplotlib.pyplot as plt
 
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
 
 
def forward(x):
    return x*w
 
 
def loss(x, y):
    y_pred = forward(x)
    return (y_pred - y)**2
 
 
# 穷举法
w_list = []
mse_list = []
for w in np.arange(0.0, 4.1, 0.1):
    print("w=", w)
    l_sum = 0
    for x_val, y_val in zip(x_data, y_data):
        y_pred_val = forward(x_val)
        loss_val = loss(x_val, y_val)
        l_sum += loss_val
        print('\t', x_val, y_val, y_pred_val, loss_val)
    print('MSE=', l_sum/3)
    w_list.append(w)
    mse_list.append(l_sum/3)
    
plt.plot(w_list,mse_list)
plt.ylabel('Loss')
plt.xlabel('w')
plt.show()

实现线性模型（y=wx+b）并输出loss的3D图像

import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

#这里设函数为y=3x+2
x_data = [1.0,2.0,3.0]
y_data = [5.0,8.0,11.0]

def forward(x):
    return x * w + b

def loss(x,y):
    y_pred = forward(x)
    return (y_pred-y)*(y_pred-y)

mse_list = []
W=np.arange(0.0,4.1,0.1)
B=np.arange(0.0,4.1,0.1)
[w,b]=np.meshgrid(W,B)

l_sum = 0
for x_val, y_val in zip(x_data, y_data):  # zip：打包为元组的列表
    y_pred_val = forward(x_val)
    print(y_pred_val)
    loss_val = loss(x_val, y_val)
    l_sum += loss_val

fig = plt.figure()
ax = Axes3D(fig)
ax.plot_surface(w, b, l_sum/3)
plt.show()

梯度下降算法

课程链接：03.梯度下降算法

导数：函数增加的方向

Gradient： $\frac{\partial cost}{\partial \omega}$ Update： $\omega=\omega-\alpha\frac{\partial cost}{\partial \omega}$ ( $\alpha$ :学习率)

核心思想：贪心，只关注目前的最优结果，非凸函数里容易陷入局部最优

不过在深度神经网络损失函数当中，并没有那么多局部最优点，很难陷入。不过有鞍点（梯度为0）。到达鞍点后无法继续迭代—>陷入鞍点。

局部最优并不是最大的问题，鞍点才是最大的问题。

code

梯度下降

import matplotlib.pyplot as plt
 
# prepare the training set
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
 
# initial guess of weight 
w = 1.0
 
# define the model linear model y = w*x
def forward(x):
    return x*w
 
#define the cost function MSE 
def cost(xs, ys):
    cost = 0
    for x, y in zip(xs,ys):
        y_pred = forward(x)
        cost += (y_pred - y)**2
    return cost / len(xs)
 
# define the gradient function  gd
def gradient(xs,ys):
    grad = 0
    for x, y in zip(xs,ys):
        grad += 2*x*(x*w - y)
    return grad / len(xs)
 
epoch_list = []
cost_list = []
print('predict (before training)', 4, forward(4))
for epoch in range(100):
    cost_val = cost(x_data, y_data)
    grad_val = gradient(x_data, y_data)
    w-= 0.01 * grad_val  # 0.01 learning rate
    print('epoch:', epoch, 'w=', w, 'loss=', cost_val)
    epoch_list.append(epoch)
    cost_list.append(cost_val)
 
print('predict (after training)', 4, forward(4))
plt.plot(epoch_list,cost_list)
plt.ylabel('cost')
plt.xlabel('epoch')
plt.show()

result

epoch: 98 w= 1.9999387202080534 loss= 2.131797981222471e-08
epoch: 99 w= 1.9999444396553017 loss= 1.752432687141379e-08
predict (after training) 4 7.999777758621207

损失值曲线，如下图：

实际上训练很少有平滑的cost function，可以使用指数加权均值的方式来进行平滑
$\begin{aligned} &C_{0}^{\prime}=C_{0} \\ &C_{i}^{\prime}=\beta C_{i}+(1-\beta) C_{i-1}^{\prime} \end{aligned}$
如果cost function最后发散了，说明本次学习失败。常见的原因是：学习率太大

现在常用随机梯度下降，使用单个样本的损失函数来对权重求导，并更新

**原因：**在鞍点处使用一个样本的情况，随机噪声可能会把我们向前推动，就有可能跨越鞍点。

code

随机梯度下降（SGD）

import matplotlib.pyplot as plt
 
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
 
w = 1.0
 
def forward(x):
    return x*w
 
# calculate loss function
def loss(x, y):
    y_pred = forward(x)
    return (y_pred - y)**2
 
# define the gradient function  sgd
def gradient(x, y):
    return 2*x*(x*w - y)
 
epoch_list = []
loss_list = []
print('predict (before training)', 4, forward(4))
for epoch in range(100):
    for x,y in zip(x_data, y_data):
        grad = gradient(x,y)
        w = w - 0.01*grad    # update weight by every grad of sample of training set
        print("\tgrad:", x, y,grad)
        l = loss(x,y)
    print("progress:",epoch,"w=",w,"loss=",l)
    epoch_list.append(epoch)
    loss_list.append(l)
 
print('predict (after training)', 4, forward(4))
plt.plot(epoch_list,loss_list)
plt.ylabel('loss')
plt.xlabel('epoch')
plt.show()

随机梯度下降法和梯度下降法的主要区别在于：

损失函数由cost()更改为loss()。cost是计算所有训练数据的损失，loss是计算一个训练函数的损失。对应于源代码则是少了两个for循环。
梯度函数gradient()由计算所有训练数据的梯度更改为计算一个训练数据的梯度。

本算法中的随机梯度主要是指，每次拿一个训练数据来训练，然后更新梯度参数。本算法中梯度总共更新100(epoch)x3 = 300次。梯度下降法中梯度总共更新100(epoch)次。

但是，随机梯度下降无法并行计算，时间复杂度比较高。因为 $f(x_i)$ 与 $f(x_{i+1})$ 之间有前后依赖关系，过程中权重w需要更新。

所以在深度学习中，采取了一种折中的方式：批量的随机梯度下降—>mini-batch。

batch本意指全体样本，mini-batch指部分的样本。

但现在也常用batch指代mini-batch

反向传播

课程链接：04.反向传播

函数计算模块中可以计算局部梯度，沿着计算模块的路径反向计算出变量的梯度。（在pytorch中梯度存到变量里）

计算路径如图所示

在计算过程中，loss一般也存一下，能体现出训练是否能进入收敛的程度。

在pytorch中，基本数据类型为tensor，用来存数据的。

tensor类里包括两个重要组成部分：data、grad，分别用来存本身的值和对权重的导数。

w = torch.Tensor([1.0])
W = requires_grad = (Ture)  # 需要计算梯度

张量之间的计算时，会创建计算图。每完成一次计算，都会把计算图给释放掉。

非张量之间的计算，不会创建计算图

上图中的梯度grad也是张量，w.grad.item()是为了避免产生计算图。

**注意：**不需要使用张量时要注意使用.item()来进行标量计算，避免计算图过长占用内存。

注意对梯度显式地进行清零，否则下一次计算会是 $\frac{\partial L_{1}}{\partial \omega}+\frac{\partial L_{2}}{\partial \omega}$

在Pytorch中，Tensor和tensor都用于生成新的张量

a = torch.Tensor([1, 2])
# tensor([1., 2.])
a=torch.tensor([1,2])
# tensor([1, 2])

但torch.tensor与torch.Tensor有区别：

torch.Tensor()是python类，更明确的说，是默认张量类型torch.FloatTensor()的别名，torch.Tensor([1,2]) 会调用Tensor类的构造函数__init__，生成单精度浮点类型的张量。

torch.tensor()仅仅是Python的函数，函数原型是：

torch.tensor(data, dtype=None, device=None, requires_grad=False)

其中data可以是：list, tuple, array, scalar等类型。
torch.tensor()可以从data中的数据部分做拷贝（而不是直接引用），根据原始数据类型生成相应的torch.LongTensor，torch.FloatTensor，torch.DoubleTensor。

参考链接：

Tensor和tensor的区别

torch.FloatTensor和torch.Tensor、torch.tensor

加深理解：

import torch

a = torch.tensor([1.0])
a.requires_grad = True  # 或者 a.requires_grad_()
print(a)
print(a.data)
print(a.type())  # a的类型是tensor
print(a.data.type())  # a.data的类型是tensor
print(a.grad)
print(type(a.grad))

结果如下

tensor([1.], requires_grad=True)
tensor([1.])
torch.FloatTensor
torch.FloatTensor
None

import torch
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
 
w = torch.tensor([1.0]) # w的初值为1.0
w.requires_grad = True # 需要计算梯度
 
def forward(x):
    return x*w  # w是一个Tensor
 
 
def loss(x, y):
    y_pred = forward(x)
    return (y_pred - y)**2
 
print("predict (before training)", 4, forward(4).item())
 
for epoch in range(100):
    for x, y in zip(x_data, y_data):
        l =loss(x,y) # l是一个张量，tensor主要是在建立计算图 forward, compute the loss
        l.backward() #  backward,compute grad for Tensor whose requires_grad set to True
        print('\tgrad:', x, y, w.grad.item())
        w.data = w.data - 0.01 * w.grad.data   # 权重更新时，需要用到标量，注意grad也是一个tensor
 
        w.grad.data.zero_() # after update, remember set the grad to zero
 
    print('progress:', epoch, l.item()) # 取出loss使用l.item，不要直接使用l（l是tensor会构建计算图）
 
print("predict (after training)", 4, forward(4).item())

w是Tensor， forward函数的返回值也是Tensor，loss函数的返回值也是Tensor。

本算法中反向传播主要体现在：l.backward()。调用该方法后w.grad由None更新为Tensor类型，且w.grad.data的值用于后续w.data的更新。

l.backward()会把计算图中所有需要梯度(grad)的地方都会求出来，然后把梯度都存在对应的待求的参数中，最终计算图被释放。

取tensor中的data是不会构建计算图的。

code

基于y=w*x线性模型，用pytorch实现反向传播

import numpy as np
import matplotlib.pyplot as plt
import torch

x_data = [1.0,2.0,3.0]
y_data = [2.0,4.0,6.0]

w = torch.Tensor([1.0])#初始权值
w.requires_grad = True#计算梯度，默认是不计算的

def forward(x):
    return x * w

def loss(x,y):#构建计算图
    y_pred = forward(x)
    return (y_pred-y) **2

print('Predict (befortraining)',4,forward(4))

for epoch in range(100):
    l = loss(1, 2)#为了在for循环之前定义l,以便之后的输出，无实际意义
    for x,y in zip(x_data,y_data):
        l = loss(x, y)
        l.backward()
        print('\tgrad:',x,y,w.grad.item())
        w.data = w.data - 0.01*w.grad.data #注意这里的grad是一个tensor，所以要取他的data
        w.grad.data.zero_() #释放之前计算的梯度
    print('Epoch:',epoch,l.item())

print('Predict(after training)',4,forward(4).item())

result

......
progress: 98 9.094947017729282e-13
	grad: 1.0 2.0 -7.152557373046875e-07
	grad: 2.0 4.0 -2.86102294921875e-06
	grad: 3.0 6.0 -5.7220458984375e-06
progress: 99 9.094947017729282e-13
predict (after training) 4 7.999998569488525

用PyTorch实现线性回归

课程链接：05.用PyTorch实现线性回归

**重点：**构建张量计算图
$\hat{y}=\omega* x +b$
要想知道 $\omega$ 的维度，需要先知道 $\hat{y}$ 与 $x$ 的维度

算出来的loss如果是向量，是没办法用backword的

所有的模型，都要继承自Module，最少都要实现两个函数：__init__()和forword()。

__init__()：构造函数，初始化对象

forward()：前馈过程中需要执行的计算

没有backword()函数：因为Module构造出的对象会自动根据计算图来自动实现backward。

如果需要自己计算梯度，可以继承自Functions类，构造自己的计算块。

torch. nn. Linear(1,1) ：构造一个对象，包含了权重和偏置。其中Linear也是继承自Module，能够自动实现反向传播。nn：neural network。

Module有个__call__方法，它使类的实例可以像函数一样被调用，里面通常会调用forward()。

自己定义forward()实际上是函数的重载。

此时model是可调用的：model(x)

其中criterion需要传参 $\hat{y}$ 与 $y$

优化器不会构建计算图，来自optimizor，是个类。

model.parameters()会检查所有的成员函数，如果有相应的权重，就会都加到需要训练的参数集合上。取Linear权重的时候是使用Linear.parameters()。

无论模型多复杂，都可用model.parameters()它能把参数都找到—>方便模型的嵌套

学习率lr一般设置为固定的，当然也能对模型的不同部分使用不同的学习率。

loss是个对象，打印loss的时候会自动调用__str__()，不会产生计算图

注意梯度归零

step()是用来进行更新的，会根据参数包含的梯度与设置的学习率来自动更新

步骤：

$\hat{y}$ —>loss—>zero_grad—>backword—>update

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-b1jwfRfk-1650706665863)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731494.png)]

model.linear.weight虽然是只有一个值，但其实还是个矩阵，需要.item来直接取得值

torch optim. Adaarad

不同优化器的损失过程不一样：

torch.optim. Adam
torch optim. Adamax
torch.optim.ASGD
torch.optim. LBFGS
torch. optim. Rmsprop
torch.optim Rprop
torch.optim SGD

可以通过网站学习更多的例子：

LEARNING PYTORCH WITH EXAMPLES

code

用Pytorch实现线性回归

import torch
# prepare dataset
# x,y是矩阵，3行1列 也就是说总共有3个数据，每个数据只有1个特征
x_data = torch.tensor([[1.0], [2.0], [3.0]])
y_data = torch.tensor([[2.0], [4.0], [6.0]])
 
#design model using class
"""
our model class should be inherit from nn.Module, which is base class for all neural network modules.
member methods __init__() and forward() have to be implemented
class nn.linear contain two member Tensors: weight and bias
class nn.Linear has implemented the magic method __call__(),which enable the instance of the class can
be called just like a function.Normally the forward() will be called 
"""
class LinearModel(torch.nn.Module):
    def __init__(self):
        super(LinearModel, self).__init__()
        # (1,1)是指输入x和输出y的特征维度，这里数据集中的x和y的特征都是1维的
        # 该线性层需要学习的参数是w和b  获取w/b的方式分别是~linear.weight/linear.bias
        self.linear = torch.nn.Linear(1, 1)
 
    def forward(self, x):
        y_pred = self.linear(x)
        return y_pred
 
model = LinearModel()
 
# construct loss and optimizer
# criterion = torch.nn.MSELoss(size_average = False)
criterion = torch.nn.MSELoss(reduction = 'sum')
optimizer = torch.optim.SGD(model.parameters(), lr = 0.01) # model.parameters()自动完成参数的初始化操作
 
# training cycle forward, backward, update
for epoch in range(100):
    y_pred = model(x_data) # forward:predict
    loss = criterion(y_pred, y_data) # forward: loss
    print(epoch, loss.item())
 
    optimizer.zero_grad() # the grad computer by .backward() will be accumulated. so before backward, remember set the grad to zero
    loss.backward() # backward: autograd，自动计算梯度
    optimizer.step() # update 参数，即更新w和b的值
 
print('w = ', model.linear.weight.item())
print('b = ', model.linear.bias.item())
 
x_test = torch.tensor([[4.0]])
y_test = model(x_test)
print('y_pred = ', y_test.data)

逻辑斯蒂（losgitic）回归

课程链接：06.逻辑斯蒂回归

叫回归，但是是做分类的

分类问题中，不能简单的输出0、1、2、3…9，因为这些类别中并没有实数中的数值大小概念：并没有说图片7和图片9有实数中7和9一样相差2的数值差别。

在分类问题中，输出的其实是概率P(0)、P(1)、P(2)、P(3)…P(9)

import torchvision
train_set = torchvision.datasets.MNIST(root="../dataset/mnist", train=True, download=True)
test_set = torchvision.datasets.MNIST(root="../dataset/mnist", train=False, download=True)

pytorch中有个模块torchvision，里面有很多主流数据集

import torchvision
train_set=torchvision. datasets. CIFAR10(...)
test_set =torchvision. datasets. CIFAR10(...)

losgitic function
$\sigma(x)=\frac{1}{1+e^{-x}}$
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xnz9B5Bz-1650706665873)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731498.jpg)]

想要计算概率，必须要使输出值在[0,1]

其它的sigmoid函数

饱和函数
[0,1]
单调递增

满足以上特点即为sigmoid函数

但是现在因为logistic function比较出名，因此logistic 也被称为sigmoid函数，其实只是sigmoid的其中一种。

与线性回归的差别就在于线性回归之后加了一个sigmoid用来做变换，将数值缩放到[0,1]

$\sigma$ 常被用作指代sigmoid函数

以前线性回归的loss是计算 $\hat{y}$ 与 $y$ 之间的距离，现在logistic不是输出数值了，而是输出一个分布。现在loss是要比较分布的差异。

KL散度、cross-entropy交叉熵

写模型的时候需要做什么改变？

线性部分没有什么改变，因为 $\sigma$ 部分没有参数，不需要在构造函数中初始化它

sigmoid函数在torch. nn. functional中

把sigmoid函数应用在线性变换的结果上

损失函数改成BCELoss（二分类问题交叉熵损失）

criterion = torch.nn.BCELOSS(size_average=False)

是否求平均会影响到将来的学习率设置，因为求平均意味着前面加了一个很小的数，将来求导的时候前面还是会有这个小的数。

基本上可归纳为这几个步骤：

Prepare dataset
we shall talk about this later
Design model using Class
inherit from nn.Module
Construct loss and optim
using Pytorch Apl
Training cycle
forward, backward, update

以后数据集的读取建立可能会比较复杂，可以自己封装起来，主程序中再import。

code

基于逻辑斯蒂回归实现二分类

import torch
# import torch.nn.functional as F
 
# prepare dataset
x_data = torch.Tensor([[1.0], [2.0], [3.0]])
y_data = torch.Tensor([[0], [0], [1]])
 
#design model using class
class LogisticRegressionModel(torch.nn.Module):
    def __init__(self):
        super(LogisticRegressionModel, self).__init__()
        self.linear = torch.nn.Linear(1,1)
 
    def forward(self, x):
        # y_pred = F.sigmoid(self.linear(x))
        y_pred = torch.sigmoid(self.linear(x))
        return y_pred
model = LogisticRegressionModel()
 
# construct loss and optimizer
# 默认情况下，loss会基于element平均，如果size_average=False的话，loss会被累加。
criterion = torch.nn.BCELoss(size_average = False) 
optimizer = torch.optim.SGD(model.parameters(), lr = 0.01)
 
# training cycle forward, backward, update
for epoch in range(1000):
    y_pred = model(x_data)
    loss = criterion(y_pred, y_data)
    print(epoch, loss.item())
 
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
 
print('w = ', model.linear.weight.item())
print('b = ', model.linear.bias.item())
 
x_test = torch.Tensor([[4.0]])
y_test = model(x_test)
print('y_pred = ', y_test.data)

注意:

[五分钟理解：BCELoss 和 BCEWithLogitsLoss的区别]

BCELoss 是CrossEntropyLoss的一个特例，只用于二分类问题，而CrossEntropyLoss可以用于二分类，也可以用于多分类

pytorch nn.BCELoss()详解

处理多维特征的输入

课程链接：07.处理多维特征的输入

变成矩阵运算有利于使用并行计算。

矩阵是一种空间变换的函数

本质上是想找一个8D—>1D的非线性变换， $\sigma$ 是一种引入非线性的方式

因此可以8D—>6D—>2D—>1D，或8D—>24D—>12D—>1D

一般来说，隐层越多，神经元越多，对非线性变换的学习能力越强。但不是学习能力越强越好，因为这样会把数据中的噪声学进去。我们要学的只是数据真值本身的规律。

必须要有泛化能力才是最好的

一般会使用超参数搜索的方式来确定说哪样更好

一般dtype = np.float32，因为一般显卡里面只支持float32，只有特斯拉这样的显卡才有double的数据

之前调用的是torch.nn.functional里的sigmoid，这次是nn下的sigmoid，也是继承自module。

torch.sigmoid、torch.nn.sigmoid、torch.nn.functional.sigmoid区别：

torch.sigmoid()、torch.nn.Sigmoid()和torch.nn.functional.sigmoid()三者之间的区别

torch.sigmoid是一个方法，包含了参数和返回值
torch.nn.sigmoid是一个类，在定义模型的初始化方法中使用，需要在_init__中定义，然后再使用
torch.nn.functional.sigmoid是一个方法，可以直接在正向传播中使用，而不需要初始化。

==注意：==建议一直用x，这是惯例，避免调用错误

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZBRVmHEL-1650706665875)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731509.png)]

这没使用mini_batch，直接全放进去训练了。以后再用DataLoader来制作mini_batch

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T53DhCBn-1650706665875)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731510.png)]

Activation Functions for Artificial Neural Networks

Visualising Activation Functions in Neural Networks

可以尝试不同的激活函数

pytorch中有很多的激活函数

https://pytorch.org/docs/stable/nn.html#non linear activations weighted sum nonlinearit

==注意：==ReLu是最小是会到0的，最后如果计算log0的话会有问题。如果要使用ReLu的话可以改最后一个为sigmoid避免这个问题。

code

糖尿病预测

import numpy as np
import torch
import matplotlib.pyplot as plt
 
# prepare dataset
xy = np.loadtxt('diabetes.csv', delimiter=',', dtype=np.float32)
x_data = torch.from_numpy(xy[:, :-1]) # 第一个‘：’是指读取所有行，第二个‘：’是指从第一列开始，最后一列不要
y_data = torch.from_numpy(xy[:, [-1]]) # [-1] 最后得到的是个矩阵
 
# design model using class
 
 
class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = torch.nn.Linear(8, 6) # 输入数据x的特征是8维，x有8个特征
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        self.sigmoid = torch.nn.Sigmoid() # 将其看作是网络的一层，而不是简单的函数使用
 
    def forward(self, x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x)) # y hat
        return x
 
 
model = Model()
 
# construct loss and optimizer
# criterion = torch.nn.BCELoss(size_average = True)
criterion = torch.nn.BCELoss(reduction='mean')  
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
 
epoch_list = []
loss_list = []
# training cycle forward, backward, update
for epoch in range(100):
    y_pred = model(x_data)
    loss = criterion(y_pred, y_data)
    print(epoch, loss.item())
    epoch_list.append(epoch)
    loss_list.append(loss.item())
 
    optimizer.zero_grad()
    loss.backward()
 
    optimizer.step()
 
 
plt.plot(epoch_list, loss_list)
plt.ylabel('loss')
plt.xlabel('epoch')
plt.show()

diabetesDatasets的格式如下：

如果想查看某些层的参数，可以这样

# 参数说明# 第一层的参数：
layer1_weight = model.linear1.weight.data 
layer1_bias = model.linear1.bias.data 
print("layer1_weight", layer1_weight)
print("layer1_weight.shape", layer1_weight.shape)
print("layer1_bias", layer1_bias)
print("layer1_bias.shape", layer1_bias.shape)

加载数据集

课程链接：08.加载数据集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UoNLC1Ks-1650706665876)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731512.png)]

Epoch：所有样本都进行了一次训练，叫一个Epoch

Batch_size：每次训练（前馈、反馈）的时候用的样本数量

Iteration：batch一共分了多少个

样本数 = Batch_size*Iteration。示例：10000个样本，batch_size取1000，则Iteration为10。

数据集需要支持索引，并且知道长度。只要能知道这两个信息，将来dataloader就可以对dataset自动进行小批量的数据集生成。

Dataset是一个抽象类，无法实例化，只能被子类继承。DataLoader是用来加载数据的。

实现__getitem__方法，将来实例化之后，这个对象可以进行下标操作进行索引。

__len__可以返回数据条数

__init__函数的两种设计思路：

先在__init__中读所有的data，再在__getitem__中按索引丢出去

适用数据量小的数据集

只做一些初始化，定义一些读写的操作。譬如构造一个文件列表，标签列表。等到__getitem__中再现读出来。保持内存的高效使用。

适合数据量大的，譬如图像语音等无结构数据

DataLoader一般要定义以下几个变量：

dataset
batch_size
shuffle：是否打乱。打乱可以引入随机性，不打乱方便观察。
num_works：是否需要并行的进程来进行读取mini_batch

注意：windows中使用spawn而不是fork

因此需要这样把代码封装进一个if语句中来执行，避免重复执行

input，label是会自动转换为tensor

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DwezAsV0-1650706665877)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731519.png)]

torchvision.datasets里有很多数据集

可以直接进行import并构造

code

糖尿病预测

import torch
import numpy as np
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
 
# prepare dataset
 
 
class DiabetesDataset(Dataset):
    def __init__(self, filepath):
        xy = np.loadtxt(filepath, delimiter=',', dtype=np.float32)
        self.len = xy.shape[0] # shape(多少行，多少列)
        self.x_data = torch.from_numpy(xy[:, :-1])
        self.y_data = torch.from_numpy(xy[:, [-1]])
 
    def __getitem__(self, index):
        return self.x_data[index], self.y_data[index]
 
    def __len__(self):
        return self.len
 
 
dataset = DiabetesDataset('diabetes.csv')
train_loader = DataLoader(dataset=dataset, batch_size=32, shuffle=True, num_workers=2) #num_workers 多线程
 
 
# design model using class
 
 
class Model(torch.nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.linear1 = torch.nn.Linear(8, 6)
        self.linear2 = torch.nn.Linear(6, 4)
        self.linear3 = torch.nn.Linear(4, 1)
        self.sigmoid = torch.nn.Sigmoid()
 
    def forward(self, x):
        x = self.sigmoid(self.linear1(x))
        x = self.sigmoid(self.linear2(x))
        x = self.sigmoid(self.linear3(x))
        return x
 
 
model = Model()
 
# construct loss and optimizer
criterion = torch.nn.BCELoss(reduction='mean')
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
 
# training cycle forward, backward, update
if __name__ == '__main__':
    for epoch in range(100):
        for i, data in enumerate(train_loader, 0): # train_loader 是先shuffle后mini_batch
            inputs, labels = data
            y_pred = model(inputs)
            loss = criterion(y_pred, labels)
            print(epoch, i, loss.item())
 
            optimizer.zero_grad()
            loss.backward()
 
            optimizer.step()

diabetesDatasets的格式如下：

多分类问题

课程链接：09.多分类问题

多分类问题一般会用到一种分类器：softmax

假设 $Z^{l} \in \mathbb{R}^{K}$ 是最后一个线性层的输出。则softmax为：
$P(y=i)=\frac{e^{z_{i}}}{\sum_{j=0}^{K-1} e^{z_{j}}}, i \in\{0, \ldots, K-1\}$
多分类问题一般需要具备“抑制”或是“互斥”，所以之前的二分类问题用的BCELoss（二分类问题大交叉熵损失）就不好用了

分类问题的核心：输出的是“分布”（每个输出的值都是大于等于0的，它们的和等于1）

分母指数部分会保证大于0,分子目的是为了满足求和后保证为1

之前在二分类问题时，实际上在计算时 $\operatorname{loss}=-(y \log \hat{y}+(1-y) \log (1-\hat{y}))$ ，最后求和时这两项只会有一项是非0的。

现在多分类问题中用NLLLoss（Negative Log Likelihood Loss，负对数似然损失）损失函数 $\operatorname{loss}(\hat{Y}, Y)=-Y \log \hat{Y}$ 来计算，最后只会保留一项。

基于numpy的实现

import numpy as np
y = np.array([1, 0, 0])
z = np.array([0.2, 0.1, -0.1])
y_pred = np.exp(z) / np.exp(z).sum()
loss = (- y * np.log(y_pred)).sum()
print(loss)

基于pytorch的实现

import torch
y = torch.LongTensor([0])
z = torch.Tensor([[0.2, 0.1, -0.1]])
criterion = torch.nn.CrossEntropyLoss() 
loss = criterion(z, y)
print(loss)

其中使用了CrossEntropyLoss（交叉熵损失），包括由类别生成独热向量，再进行计算的整个过程。

所以这时候神经网络最后一层不要做激活（非线性变换）。

关于交叉熵需要注意：

y需要是一个LongTensor，长整型的一个张量。
直接使用torch.nn.CrossEntropyLoss()

关于NLLLoss与CrossEntropyLoss，有CrossEntropyLoss <==> LogSoftmax + NLLLoss，

可见链接：

Pytorch损失函数NLLLoss()与CrossEntropyLoss()的关系
https://pytorch.org/docs/stable/nn.html#crossentropyloss
https://pytorch.org/docs/stable/nn.html#nllloss

样本为28*28一共784个像素的图片

torchvision中的transforms里面包含一些对图像的处理工具

神经网络喜欢输入的数值在0~1之间，符合正态分布，所以需要将原始图像转变为图像张量，像素值为0~1，可以使用transforms中一些关于PIL（Pillow）的一些功能

pytorch中transforms.Compose()使用

在使用卷积运算前，应该将w×h×c的图像转换成c×w×h的格式

transforms.Compose这个类可以将中括号中的一系列的calllable对象构成一个pipeline一样的处理：

单通道变多通道的过程可以由transforms.ToTensor实现
归一化的过程可以用transforms.Normalize实现，其中均值0.1307和标准差0.3081并不是随便设的，而是针对MNIST数据集样本算出的一个经验值。归一化：Pixel $_{\text {norm }}=\frac{\text { Pixel }_{\text {origin }}-\text { mean }}{\text { std } \mid}$

transform放进数据集中可以在以后拿到数据的时候直接进行转换处理。这里是因为这个数据集不大，要是大的可以放到getitem中进行处理

先把三阶张量变成二阶张量（向量）进行输入，可以使用view函数，改变张量形状

由于网络有点大了，因此优化器选用带**冲量（momentum）**的

现在又要训练又要测试，如果都丢进trainning cycle中会显得不便，因此现在把一轮训练封装成一个函数

记录损失，每300轮输出一次

取损失的时候记得用.item(),不然会构建计算图

测试的时候不用计算梯度，因此使用

with torch.no_grad():

这样就不会计算梯度了

预测的结果是个矩阵，每个样本占1行，共10列，需要求每一行的最大值的下标（对应的分类）

label是一个N×1的矩阵，因此label.size(0)是等于N

最后结果准确率会无法一直增加，停留在97％左右，因为使用全连接层来做图像，意味着每个像素之间都要产生联系，导致权重不够多；处理图像的时候，更关注一些高抽象级别的特征，可能需要做图像的特征提取，如人工的FFT（快速傅立叶变换），wavelet（小波），自动的CNN

code

全连接网络，MNIST手写数字识别

import torch
from torchvision import transforms
from torchvision import datasets
from torch.utils.data import DataLoader
import torch.nn.functional as F
import torch.optim as optim
 
# prepare dataset
 
batch_size = 64
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))]) # 归一化,均值和方差
 
train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)
 
# design model using class
 
 
class Net(torch.nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.l1 = torch.nn.Linear(784, 512)
        self.l2 = torch.nn.Linear(512, 256)
        self.l3 = torch.nn.Linear(256, 128)
        self.l4 = torch.nn.Linear(128, 64)
        self.l5 = torch.nn.Linear(64, 10)
 
    def forward(self, x):
        x = x.view(-1, 784)  # -1其实就是自动获取mini_batch
        x = F.relu(self.l1(x))
        x = F.relu(self.l2(x))
        x = F.relu(self.l3(x))
        x = F.relu(self.l4(x))
        return self.l5(x)  # 最后一层不做激活，不进行非线性变换
 
 
model = Net()
 
# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)
 
# training cycle forward, backward, update
 
 
def train(epoch):
    running_loss = 0.0
    for batch_idx, data in enumerate(train_loader, 0):
        # 获得一个批次的数据和标签
        inputs, target = data
        optimizer.zero_grad()
        # 获得模型预测结果(64, 10)
        outputs = model(inputs)
        # 交叉熵代价函数outputs(64,10),target（64）
        loss = criterion(outputs, target)
        loss.backward()
        optimizer.step()
 
        running_loss += loss.item()
        if batch_idx % 300 == 299:
            print('[%d, %5d] loss: %.3f' % (epoch+1, batch_idx+1, running_loss/300))
            running_loss = 0.0
 
 
def test():
    correct = 0
    total = 0
    with torch.no_grad():
        for data in test_loader:
            images, labels = data
            outputs = model(images)
            _, predicted = torch.max(outputs.data, dim=1) # dim = 1 列是第0个维度，行是第1个维度
            total += labels.size(0)
            correct += (predicted == labels).sum().item() # 张量之间的比较运算
    print('accuracy on test set: %d %% ' % (100*correct/total))
 
 
if __name__ == '__main__':
    for epoch in range(10):
        train(epoch)
        test()

结果

[1,   300] loss: 2.161
[1,   600] loss: 0.841
[1,   900] loss: 0.418
......
accuracy on test set: 97 % 
[10,   300] loss: 0.031
[10,   600] loss: 0.027
[10,   900] loss: 0.034
accuracy on test set: 97 %

卷积神经网络（基础篇）

课程链接：10.卷积神经网络（基础篇）

卷积：convolution

全连接：都是线性层连接起来的

卷积层：保留图像的空间特征

卷积过后依旧是一个三维的张量

下采样的时候通道数不变，但是图像的宽度和高度会变

下采样的目的是减少数据量，降低运算需求

特征提取器（feature extraction）：卷积、下采样

卷积之后的形状变化如上图所示

可以使用多个卷积核进行卷积运算，最后拼接到一起

注意：

每一个卷积核通道数要求和输入通道数一致，n
卷积核总数与输出通道数一致，m

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1WkDcjaP-1650706665879)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731535.png)]

卷积层是一个4维的 $4m \times n \times kernel\_size_{\text {width }} \times kernel\_size _{\text {height }}$

卷积层对输入图像的宽度与高度没有要求，对batch_size也没有要求，对输入通道数有要求

在pytorch中为：torch.nn.Conv2d

卷积层的一些参数：

padding：填充有多种方式，默认是零填充

bias：偏置量

stride：步长

import torch
input = [ 3, 4, 6, 5, 7
          2, 4, 6, 8, 2
          1, 6, 7, 8, 4
          9, 7, 4, 6, 2
          3, 7, 5, 4, 1 ]
input = torch.Tensor(input).view( 1, 1, 5, 5)
conv_layer = torch.nn.Conv2d( 1, 1, kernel_size=3, padding=1, bias =False)
kernel = torch.Tensor([ 1, 2, 3, 4, 5, 6, 7, 8, 9 ]). view(1, 1, 3, 3)
conv_layer.weight.data = kernel.data
output = conv_layer(input)
print(output)

下采样用的最多的叫maxPooling（最大池化层)，默认stride = 2

做maxPooling后通道数是不变的

在pytorch中为torch. nn.MaxPool2d

注意每一层之间的衔接

多大的图像都能丢进来算，只是最后全连接层的维度会产生变化

全连接层的维度可以手算，也可以使用pytorch计算卷积层之后输出结果的维度来算

无权重的层可以只做一个，但是有权重的层需要单独做一个实例

class Net(torch.nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = torch.nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = torch.nn.Conv2d(10, 20, kernel_size=5)
        self.pooling = torch.nn.MaxPool2d(2)
        self.fc = torch.nn.Linear(320, 10)
 
 
    def forward(self, x):
        # flatten data from (n,1,28,28) to (n, 784)
        batch_size = x.size(0)
        x = F.relu(self.pooling(self.conv1(x)))
        x = F.relu(self.pooling(self.conv2(x)))
        x = x.view(batch_size, -1) # flatten # -1 此处自动算出的是320
        x = self.fc(x)
        return x
    
model = Net()

要做交叉熵损失，因此最后一层不做激活。

如果要用GPU计算，需要

模型迁移到GPU

device = torch.device("cuda:0"if torch.cuda.is_available（）else "cpu")
model.to(device)

需要计算的张量也要迁移至GPU
```
inputs, target = inputs.to(device), target.to(device)
```
注意：模型与数据要放同一个显卡中
测试的时候也把数据放同一个显卡中

code

卷积神经网络，MNIST手写数字识别

# -*- encoding: utf-8 -*-
"""
@File    :   lecture_10.py    
@Contact :   [email protected]
@License :   (C)Copyright 2021-, None

@Modify Time      @Author    @Version    @Description
------------      -------    --------    -----------
2022/2/23 20:21   ZhouCanzong      1.0    卷积神经网络 MNIST
"""

# import lib
import torch
from torchvision import transforms
from torchvision import datasets
from torch.utils.data import DataLoader
import torch.nn.functional as F
import torch.optim as optim

# parameters
batch_size = 64

# prepare dataset
# transforms.Compose是一个类，Compose()类会将transforms列表里面的transform操作进行遍历。
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])

train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)


# design model

class Net(torch.nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = torch.nn.Conv2d(1, 10, kernel_size=3, padding=1, bias=False)  # 1,28,28
        self.conv2 = torch.nn.Conv2d(10, 20, kernel_size=3, padding=1, bias=False)
        self.conv3 = torch.nn.Conv2d(20, 30, kernel_size=3, padding=1, bias=False)
        self.pooling = torch.nn.MaxPool2d(2)
        self.l1 = torch.nn.Linear(270, 10)  # 通道数，10类

    def forward(self, x):
        # flatten data from (n,1,28,28) to (n, 784)
        # print(x.shape)
        batch_size = x.size(0)
        x = F.relu(self.pooling(self.conv1(x)))
        x = F.relu(self.pooling(self.conv2(x)))
        x = F.relu(self.pooling(self.conv3(x)))
        x = x.view(batch_size, -1)  # -1 此处自动算出的是270
        x = self.l1(x)
        return x


model = Net()

# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)


# training cycle forward, backward, update


def train(epoch):
    running_loss = 0.0
    for batch_idx, data in enumerate(train_loader, 0):
        # 获得一个批次的数据和标签
        inputs, target = data
        optimizer.zero_grad()
        # 获得模型预测结果
        outputs = model(inputs)
        # 交叉熵代价函数
        loss = criterion(outputs, target)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if batch_idx % 300 == 299:
            print('[%d, %5d] loss: %.3f' % (epoch + 1, batch_idx + 1, running_loss / 300))
            running_loss = 0.0


def test():
    correct = 0
    total = 0
    with torch.no_grad():
        for data in test_loader:
            images, labels = data
            outputs = model(images)
            _, predicted = torch.max(outputs.data, dim=1)  # dim = 1 列是第0个维度，行是第1个维度
            total += labels.size(0)
            correct += (predicted == labels).sum().item()  # 张量之间的比较运算
    print('accuracy on test set: %d %% ' % (100 * correct / total))


if __name__ == '__main__':
    for epoch in range(10):
        train(epoch)
        test()

code

卷积神经网络，MNIST手写数字识别,GPU

# -*- encoding: utf-8 -*-
"""
@File    :   lecture_10(2).py
@Contact :   [email protected]
@License :   (C)Copyright 2021-, None

@Modify Time      @Author    @Version    @Description
------------      -------    --------    -----------
2022/2/25 9:12   ZhouCanzong      1.0     卷积神经网络 MNIST GPU
"""

# import lib

# import lib
import torch
from torchvision import transforms
from torchvision import datasets
from torch.utils.data import DataLoader
import torch.nn.functional as F
import torch.optim as optim

# parameters
batch_size = 64
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# prepare dataset
# transforms.Compose是一个类，Compose()类会将transforms列表里面的transform操作进行遍历。
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])

train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)


# design model

class Net(torch.nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = torch.nn.Conv2d(1, 10, kernel_size=3, padding=1, bias=False)  # 1,28,28
        self.conv2 = torch.nn.Conv2d(10, 20, kernel_size=3, padding=1, bias=False)
        self.conv3 = torch.nn.Conv2d(20, 30, kernel_size=3, padding=1, bias=False)
        self.pooling = torch.nn.MaxPool2d(2)
        self.l1 = torch.nn.Linear(270, 10)  # 通道数，10类

    def forward(self, x):
        # flatten data from (n,1,28,28) to (n, 784)
        # print(x.shape)
        batch_size = x.size(0)
        x = F.relu(self.pooling(self.conv1(x)))
        x = F.relu(self.pooling(self.conv2(x)))
        x = F.relu(self.pooling(self.conv3(x)))
        x = x.view(batch_size, -1)  # -1 此处自动算出的是270
        x = self.l1(x)
        return x


model = Net()
model.to(device=device)

# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)


# training cycle forward, backward, update


def train(epoch):
    running_loss = 0.0
    for batch_idx, data in enumerate(train_loader, 0):
        # 获得一个批次的数据和标签
        inputs, target = data
        inputs, target = inputs.to(device), target.to(device)
        optimizer.zero_grad()
        # 获得模型预测结果
        outputs = model(inputs)
        # 交叉熵代价函数
        loss = criterion(outputs, target)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if batch_idx % 300 == 299:
            print('[%d, %5d] loss: %.3f' % (epoch + 1, batch_idx + 1, running_loss / 300))
            running_loss = 0.0


def test():
    correct = 0
    total = 0
    with torch.no_grad():
        for data in test_loader:
            images, labels = data
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, dim=1)  # dim = 1 列是第0个维度，行是第1个维度
            total += labels.size(0)
            correct += (predicted == labels).sum().item()  # 张量之间的比较运算
    print('accuracy on test set: %d %% ' % (100 * correct / total))


if __name__ == '__main__':
    for epoch in range(10):
        train(epoch)
        test()

卷积神经网络（高级篇）

课程链接：11.卷积神经网络（高级篇）

GoogLeNet

编程的时候要减少代码的冗余：函数/类

GoogLeNet：不知道哪一种卷积核好用，就都用一下，放到一起。如果将来3×3的好用，那自然3×3的权重自然会大一些。

1×1的卷积：数量与通道数一致，可以遍历所有通道相同位置的信息，融合在一起。改变通道数量。——>减少计算量。被称为network in network。

AveragePooling是没有参数的，使用函数就行了，函数原型为 F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)，stride=1, padding=1可以保证图像的宽度和高度不变

拼接到一起的运算叫Concatenate，函数使用方式为：

outputs = [branch1x1, branch5x5, branch3x3, branch_pool]
return torch.cat(outputs, dim= 1)

沿着dimension为1的方向拼接起来，因为张量维度为b,c,w,h，要沿着channel（从0开始数）拼起来。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DMe1yaE5-1650706665881)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731546.png)]

Residual Net

3×3网络一直叠加下去，20层要比56层要好。其中有一种可能是梯度消失

当一连串的小于1的梯度乘起来，会导致 $\alpha g$ 中的 $g$ 趋近于0，使得网络最开始的块没办法得到充分的训练，权重无法更新。

有一种方法是逐层训练，但是在深度神经网络里会很麻烦

residual net使用了一种跳连接，使得反向传播时导数会＞1，即便是很小的时候也会在1的附近

==注意：==这两层的输出要和x的输入张量维度要是一样的

residual block的构造如上图

如果网络基本结构很复杂，则可以给它做个新的类

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Put6hw2l-1650706665882)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731550.png)]

写网络建议增量式开发，否则调试起来会很麻烦

其它一些residual block：constant scaling和conv shortcut构造方式见下图

code

使用基于Inception Module的CNN实现MINIST

# -*- encoding: utf-8 -*-
"""
@File    :   lecture_11.py    
@Contact :   [email protected]
@License :   (C)Copyright 2021-, None

@Modify Time      @Author    @Version    @Description
------------      -------    --------    -----------
2022/2/26 17:04   ZhouCanzong      1.0      使用基于Inception Module的CNN实现MINIST
"""

# import lib
import torch
import torch.nn as nn
from torchvision import transforms
from torchvision import datasets
from torch.utils.data import DataLoader
import torch.nn.functional as F
import torch.optim as optim

# parameters
batch_size = 64
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# prepare dataset
# transforms.Compose是一个类，Compose()类会将transforms列表里面的transform操作进行遍历。
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])

train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)


# design model
class InceptionA(nn.Module):
    def __init__(self, inChannels):
        super(InceptionA, self).__init__()
        self.branch1x1 = nn.Conv2d(inChannels, 16, kernel_size=1)  # 只改变channel数

        self.branch5x5_1 = nn.Conv2d(inChannels, 16, kernel_size=1)
        self.branch5x5_2 = nn.Conv2d(16, 24, kernel_size=5, padding=2)

        self.branch3x3_1 = nn.Conv2d(inChannels, 16, kernel_size=1)
        self.branch3x3_2 = nn.Conv2d(16, 24, kernel_size=3, padding=1)
        self.branch3x3_3 = nn.Conv2d(24, 24, kernel_size=3, padding=1)

        self.branch_pool = nn.Conv2d(inChannels, 24, kernel_size=1)

    def forward(self, x):
        branch1x1 = self.branch1x1(x)

        branch5x5 = self.branch5x5_1(x)
        branch5x5 = self.branch5x5_2(branch5x5)

        branch3x3 = self.branch3x3_1(x)
        branch3x3 = self.branch3x3_2(branch3x3)
        branch3x3 = self.branch3x3_3(branch3x3)

        branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)
        branch_pool = self.branch_pool(branch_pool)

        outputs = [branch1x1, branch5x5, branch3x3, branch_pool]
        return torch.cat(outputs, dim=1)  # b,c,w,h  c对应的是dim=1


class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = nn.Conv2d(88, 20, kernel_size=5)  # 88 = 24x3 + 16

        self.incep1 = InceptionA(inChannels=10)  # 与conv1 中的10对应 channel:10to88
        self.incep2 = InceptionA(inChannels=20)  # 与conv2 中的20对应 channel:20to88

        self.mp = nn.MaxPool2d(2)
        self.fc = nn.Linear(1408, 10)

    def forward(self, x):
        in_size = x.size(0)  # x = (n,1,28,28)
        x = F.relu(self.mp(self.conv1(x)))
        x = self.incep1(x)
        x = F.relu(self.mp(self.conv2(x)))
        x = self.incep2(x)
        x = x.view(in_size, -1)
        x = self.fc(x)
        return x


model = Net()
model.to(device=device)

# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)


# training cycle forward, backward, update
def train(epoch):
    running_loss = 0.0
    for batch_idx, data in enumerate(train_loader, 0):
        inputs, target = data
        inputs, target = inputs.to(device), target.to(device)
        optimizer.zero_grad()

        outputs = model(inputs)
        loss = criterion(outputs, target)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if batch_idx % 300 == 299:
            print('[%d, %5d] loss: %.3f' % (epoch + 1, batch_idx + 1, running_loss / 300))
            running_loss = 0.0


def test():
    correct = 0
    total = 0
    with torch.no_grad():
        for data in test_loader:
            images, labels = data
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, dim=1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    print('accuracy on test set: %d %% ' % (100 * correct / total))


if __name__ == '__main__':
    for epoch in range(10):
        train(epoch)
        test()

code

使用基于ResidualBlock的CNN实现MINIST

# -*- encoding: utf-8 -*-
"""
@File    :   lecture_11(2).py    
@Contact :   [email protected]
@License :   (C)Copyright 2021-, None

@Modify Time      @Author    @Version    @Description
------------      -------    --------    -----------
2022/2/28 22:19   ZhouCanzong      1.0        使用基于ResidualBlock的CNN实现MINIST
"""

# import lib
import torch
import torch.nn as nn
from torchvision import transforms
from torchvision import datasets
from torch.utils.data import DataLoader
import torch.nn.functional as F
import torch.optim as optim

# parameters
batch_size = 64
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# prepare dataset
transform = transforms.Compose([transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,))])  # 归一化,均值和方差
train_dataset = datasets.MNIST(root='../dataset/mnist/', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, shuffle=True, batch_size=batch_size)
test_dataset = datasets.MNIST(root='../dataset/mnist/', train=False, download=True, transform=transform)
test_loader = DataLoader(test_dataset, shuffle=False, batch_size=batch_size)


# design model
class ResidualBlock(nn.Module):
    def __init__(self, channels):
        super(ResidualBlock, self).__init__()
        self.channels = channels
        self.conv1 = nn.Conv2d(channels, channels, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(channels, channels, kernel_size=3, padding=1)

    def forward(self, x):
        y = F.relu(self.conv1(x))
        y = self.conv2(y)
        return F.relu(x + y)


class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 16, kernel_size=5)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=5)  # 88 = 24x3 + 16

        self.rblock1 = ResidualBlock(16)
        self.rblock2 = ResidualBlock(32)

        self.mp = nn.MaxPool2d(2)
        self.fc = nn.Linear(512, 10)

    def forward(self, x):
        in_size = x.size(0)

        x = self.mp(F.relu(self.conv1(x)))
        x = self.rblock1(x)
        x = self.mp(F.relu(self.conv2(x)))
        x = self.rblock2(x)

        x = x.view(in_size, -1)
        x = self.fc(x)
        return x


model = Net()
model.to(device=device)

# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)


# training cycle forward, backward, update


def train(epoch):
    running_loss = 0.0
    for batch_idx, data in enumerate(train_loader, 0):
        inputs, target = data
        inputs, target = inputs.to(device), target.to(device)
        optimizer.zero_grad()

        outputs = model(inputs)
        loss = criterion(outputs, target)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if batch_idx % 300 == 299:
            print('[%d, %5d] loss: %.3f' % (epoch + 1, batch_idx + 1, running_loss / 300))
            running_loss = 0.0


def test():
    correct = 0
    total = 0
    with torch.no_grad():
        for data in test_loader:
            images, labels = data
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, dim=1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()
    print('accuracy on test set: %d %% ' % (100 * correct / total))


if __name__ == '__main__':
    for epoch in range(10):
        train(epoch)
        test()

循环神经网络（基础篇）

课程链接：12.循环神经网络（基础篇）

全连接网络也叫，Dense 稠密网络、Deep

全连接层参数比较多，用来做与序列模式有关的预测比较耗资源

具有序列关系：天气、自然语言

RNN使用了一种参数共享的思路

RNN Cell本质上还是一个线性层，只不过是参数共享的

因为tanh是-1到+1之间的，因此觉得tanh有更好的性能，循环神经网络中常用tanh

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-u2aLc8DR-1650706665883)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731554.png)]

两个hidden_size的向量进行融合的时候，常拼一起进行计算

关键在于弄清楚张量维度

dataset把seqlen（序列长度）放最前面，是循环的时候每次拿出当前时刻t的一组张量，比较符合理解

简单的一个示例，理解其中的维度。

RNN的运算比较耗时，因此要注意长度

注意cell的输出有两个，一个是out，一个是hidden

给定h0之后，RNN会自动循环，不需要我们自己操作

numlayers指几层的RNN，如下图所示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JfgzlTPq-1650706665884)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731560.png)]

**注意：**同样颜色的是同一个RNNcell，如上图只有3个RNNcell

==注意：==当设置了batch_first的时候，需要调整一下输入输出张量维度的顺序

自然语言处理的时候一般先根据字符构造词典，给每个词分配一个索引，得到索引后根据词典，将词变成相应的索引，然后变成向量（one-hot独热编码）。input_size与独热编码维度有关。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EurhIUOJ-1650706665884)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731563.png)]

输出是一个4维的向量，之后接一个交叉熵，就能训练了

model中定义一个工具，init_hidden，提供初始工具h0，实际上就是构造一个全0的初始隐层。batch_size这个也就只在构造h0的时候用一下。

如果是之前RNN不使用seqlen参数的方法：

训练的时候，记得先把梯度归零，然后初始化h0。写循环的时候，注意inputs是seq，batch，input_size。

Shape of inputs:(seqLen,batchSize,inputSize)
Shape of input:(batchSize,hiddenSize)
Shape of labels:(seqSize,1)
Shape of label:(1)

==注意：==loss没有写.item()，因为损失是整个序列相加的和是最终损失，而这个是需要构造计算图的。

如果是现在用RNN使用seqlen参数的方法：

就不必在epoch中进行再一次的循环，RNN会自己完成。

模型改为如下所示：

在模型中定义好num_layers。out,__=self.rnn(input,hidden)的主要目的是Reshape out to：(seqLen X batchSize,hiddenSize)，变为两维的。目的是在计算交叉熵的时候变成了一个矩阵，labels也要变成(seqLen X batchSize,1)，如下图所示：

one-hot编码有如下特点：

The one-hot vectors are high-dimension.太高维会引起“维度的诅咒”
The one-hot vectors are sparse. 稀疏
The one-hot vectors are hardcoded.硬编码的，不是学习出来的

而我们想要的是低维度的、稠密的、可学习的

比较受欢迎的是EMBEDDING（嵌入层），把高维稀疏的样本映射到低维稠密的空间里。——>数据降维

这时候隐层维度与要输出的结果不一样了，可以加个线性层。

embedding层主要需要初始化num_embedding（embedding字典的尺寸，input的独热向量是几维的）、embedding_dim。这两个就构成了矩阵的高度和宽度。

线性层、交叉熵可以支持RNN的维度来变换的，如下图所示

embedding的使用见图

LSTM见下图

看起来结构复杂，但实际上都是这几条公式
$\begin{aligned} &i_{t}=\sigma\left(W_{i i} x_{t}+b_{i i}+W_{h i} h_{(t-1)}+b_{h i}\right) \\ &f_{t}=\sigma\left(W_{i f} x_{t}+b_{i f}+W_{h f} h_{(t-1)}+b_{h f}\right) \\ &g_{t}=\tanh \left(W_{i g} x_{t}+b_{i g}+W_{h g} h_{(t-1)}+b_{h g}\right) \\ &o_{t}=\sigma\left(W_{i o} x_{t}+b_{i o}+W_{h o} h_{(t-1)}+b_{h o}\right) \\ &c_{t}=f_{t} c_{(t-1)}+i_{t} g_{t} \\ &h_{t}=o_{t} \tanh \left(c_{t}\right) \end{aligned}$
遗忘门本质上可能是旁路连接减少梯度消失

pytorch的LSTM输入有h_0,c_0，输出有h_n,c_n参数

LSTM计算比较复杂，时间复杂度高。

如果想在RNN和LSTM中求取一个平衡，可以考虑GRU

code

使用RNN 将hello映射为ohlolm，不使用seqlen参数

# -*- encoding: utf-8 -*-
"""
@File    :   lecture_12.py    
@Contact :   [email protected]
@License :   (C)Copyright 2021-, None

@Modify Time      @Author    @Version    @Description
------------      -------    --------    -----------
2022/3/18 16:29   ZhouCanzong      1.0     使用RNN 将hello映射为ohlol 不使用seqlen参数
"""
# import lib
import torch
import torch.nn as nn

# parameters
input_size = 4
hidden_size = 4
batch_size = 1
epochs = 15

# prepare dataset
idx2char = ['e', 'h', 'l', 'o']
x_data = [1, 0, 2, 3, 3]  # hello中各个字符的下标
y_data = [3, 1, 2, 3, 2]  # ohlol中各个字符的下标

one_hot_lookup = [[1, 0, 0, 0],
                  [0, 1, 0, 0],
                  [0, 0, 1, 0],
                  [0, 0, 0, 1]]
x_one_hot = [one_hot_lookup[x] for x in x_data]  # (seqLen, inputSize)

inputs = torch.Tensor(x_one_hot).view(-1, batch_size, input_size)
labels = torch.LongTensor(y_data).view(-1, 1)  # torch.Tensor默认是torch.FloatTensor是32位浮点类型数据，torch.LongTensor是64位整型


# print(inputs.shape, labels.shape)


# design model
class Model(nn.Module):
    def __init__(self, input_size, hidden_size, batch_size):
        super(Model, self).__init__()
        self.batch_size = batch_size
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.rnncell = nn.RNNCell(input_size=self.input_size, hidden_size=self.hidden_size)

    def forward(self, inputs, hidden):
        hidden = self.rnncell(inputs, hidden)  # (batch_size, hidden_size)
        return hidden

    def init_hidden(self):
        return torch.zeros(self.batch_size, self.hidden_size)


net = Model(input_size, hidden_size, batch_size)

# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(net.parameters(), lr=0.1)


# training cycle forward, backward, update
def train():
    for epoch in range(epochs):
        loss = 0
        optimizer.zero_grad()
        hidden = net.init_hidden()
        print('Predicted string:', end='')
        for input, label in zip(inputs, labels):
            hidden = net(input, hidden)
            # 注意交叉熵在计算loss的时候维度关系，这里的hidden是([1, 4]), label是 ([1])
            loss += criterion(hidden, label)
            _, idx = hidden.max(dim=1)
            print(idx2char[idx.item()], end='')
        loss.backward()
        optimizer.step()
        print(', Epoch [%d/15] loss=%.4f' % (epoch + 1, loss.item()))


# main
if __name__ == '__main__':
    train()

结果

Predicted:  loloh, Epoch [1/15] loss = 1.321
......
Predicted:  ohlol, Epoch [14/15] loss = 0.440
Predicted:  ohlol, Epoch [15/15] loss = 0.425

code

使用RNN 将hello映射为ohlolm，使用seqlen参数

# -*- encoding: utf-8 -*-
"""
@File    :   lecture_11.py
@Contact :   [email protected]
@License :   (C)Copyright 2021-, None

@Modify Time      @Author    @Version    @Description
------------      -------    --------    -----------
2022/2/26 17:04   ZhouCanzong      1.0      使用RNN 将hello映射为ohlol
"""
# import lib
import torch
import torch.nn as nn


# parameters
input_size = 4
hidden_size = 4
batch_size = 1
seq_len = 5
num_layers = 1

epochs = 15

# prepare dataset
idx2char = ['e', 'h', 'l', 'o']
x_data = [1, 0, 2, 3, 3]  # hello中各个字符的下标
y_data = [3, 1, 2, 3, 2]  # ohlol中各个字符的下标

one_hot_lookup = [[1, 0, 0, 0],
                  [0, 1, 0, 0],
                  [0, 0, 1, 0],
                  [0, 0, 0, 1]]
x_one_hot = [one_hot_lookup[x] for x in x_data]  # (seqLen, inputSize)

inputs = torch.Tensor(x_one_hot).view(seq_len, batch_size, input_size)
labels = torch.LongTensor(y_data)
# print(x_one_hot)
# print(inputs.shape, labels.shape)


# design model
class Model(nn.Module):
    def __init__(self, input_size, hidden_size, batch_size, num_layers=1):
        super(Model, self).__init__()
        self.num_layers = num_layers
        self.batch_size = batch_size
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.rnn = nn.RNN(input_size=self.input_size, hidden_size=self.hidden_size, )

    def forward(self, inputs):
        hidden = torch.zeros(self.num_layers, self.batch_size, self.hidden_size)
        out, _ = self.rnn(inputs, hidden)  # 注意维度是(seqLen, batch_size, hidden_size)
        return out.view(-1, self.hidden_size)  # 为了容易计算交叉熵这里调整维度为(seqLen * batch_size, hidden_size)


net = Model(input_size, hidden_size, batch_size)


# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(net.parameters(), lr=0.1)


# training cycle forward, backward, update
for epoch in range(epochs):
    optimizer.zero_grad()
    outputs = net(inputs)
    # print(outputs.shape, labels.shape)
    # 这里的outputs维度是([seqLen * batch_size, hidden]), labels维度是([seqLen])
    loss = criterion(outputs, labels)
    loss.backward()
    optimizer.step()

    _, idx = outputs.max(dim=1)
    idx = idx.data.numpy()
    print('Predicted: ', ''.join([idx2char[x] for x in idx]), end='')
    print(', Epoch [%d/15] loss = %.3f' % (epoch + 1, loss.item()))

code

使用RNN 将hello映射为ohlolm，使用Embedding

# -*- encoding: utf-8 -*-
"""
@File    :   lecture_12(3).py    
@Contact :   [email protected]
@License :   (C)Copyright 2021-, None

@Modify Time      @Author    @Version    @Description
------------      -------    --------    -----------
2022/3/18 16:58   ZhouCanzong      1.0         None
"""
# import lib
import torch
import torch.nn as nn

# parameters
num_class = 4
input_size = 4
hidden_size = 8
embedding_size = 10
num_layers = 2
batch_size = 1
seq_len = 5

epochs = 15

# prepare dataset
idx2char = ['e', 'h', 'l', 'o']
x_data = [[1, 0, 2, 2, 3]]  # (batch, seq_len)
y_data = [3, 1, 2, 3, 2]    # (batch * seq_len)

inputs = torch.LongTensor(x_data)   # Input should be LongTensor: (batchSize, seqLen)
labels = torch.LongTensor(y_data)   # Target should be LongTensor: (batchSize * seqLen)


# print(inputs.shape, labels.shape)


# design model
class Model(nn.Module):
    def __init__(self):
        super(Model, self).__init__()
        self.emb = torch.nn.Embedding(input_size, embedding_size)
        self.rnn = nn.RNN(input_size=embedding_size, hidden_size=hidden_size, num_layers=num_layers, batch_first=True)
        self.fc = nn.Linear(hidden_size, num_class)

    def forward(self, x):
        hidden = torch.zeros(num_layers, x.size(0), hidden_size)
        x = self.emb(x)                 # (batch, seqLen, embeddingSize)
        x, _ = self.rnn(x, hidden)      # 输出(, , hidden_size)
        x = self.fc(x)                  # 输出(, , )
        return x.view(-1, num_class)    # reshape to use Cross Entropy: (×, )



net = Model()

# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(net.parameters(), lr=0.1)


# training cycle forward, backward, update
def train():
    for epoch in range(epochs):
        optimizer.zero_grad()
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        _, idx = outputs.max(dim=1)
        idx = idx.data.numpy()
        print('Predicted: ', ''.join([idx2char[x] for x in idx]), end='')
        print(', Epoch [%d/15] loss = %.3f' % (epoch + 1, loss.item()))


# main
if __name__ == '__main__':
    train()

结果

Predicted:  ohehh, Epoch [1/15] loss = 1.446
Predicted:  ohlol, Epoch [2/15] loss = 0.927

收敛得比前两个方法快很多

循环神经网络（高级篇）

课程链接：13.循环神经网络（高级）

当在自然语言处理中，序列长短，输出难以确定。

可以使用以下这种结构

实现一个名字到国家的分类

首先要将名字分离，并做词典（这里都是字符，可用ascii码表）

表中的“数字”并不是数字，而是一个128维的向量。但是对于embedding层来说，只需要告诉它第几维为1就行了。因此这里直接放ascii码值。

第二个问题是序列长短不一，我们需要做个padding。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-onH53SO7-1650706665887)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731580.png)]

接下来要对国家转成一个分类索引

在init中，因为名字占用内存不多，可以直接一次性读进来。

读zip文件可以使用gzip.open，之后可以csv.reader读csv文件。针对不同格式（pickle/HDFS/HD5）用不同的包来读取。

行里面的信息是一个个的元组（name,country）

但是我们要对country做一个索引，set就是把列表变成集合，去除重复的元素，每个country只存在一个实例。接着排序，做成一个列表。接下来调用getCountry，将列表做成一个字典。

getitem中返回的时候返回两项，是输入样本name，输入样本country中的index。一个字符串和一个国家的索引。

getCountryDict很好实现：

def getCountryDict(self):
    country_dictdict()
    for idx,country_name in enumerate(self.country_list,0):
    country_dict[country_name]=idx
return country_dict

构建dataset实例，用dataloader来构建加载器

N_country作为一个常量，表示的是最后模型输出的维度

GRU中的bidirection参数表明这个是单向还是双向。双向2否则1

单向的RNNcell只包含过去的信息，但是自然语音处理等场景还包括未来的信息

输出的时候有out和hidden,hidden包括两项

GRU有一种提速方式：pack_padded_sequence(embedding, seq_lengths)，尤其是面对序列长短不一的情况下。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-j9R35KHc-1650706665888)(https://gitee.com/zhoucanzong/blogimage/raw/master/202204231731585.png)]

把所有为0的填充全去掉

但是这样无法打包，因为打包的程序里是按序列长短降序排列

要想使用，需要序列长度的数据seq_lengths

最后实现的模型如下图所示：

隐层输出再加个线性层

字符串——>字符——>ascii码值——>填充——>转置——>排序

padding：先做一个全0的，再复制粘贴过去

在分布中进行随机：重要性采样

code

使用双向RNN 基于人名来进行国家分类

# -*- encoding: utf-8 -*-
"""
@File    :   lecture_13.py    
@Contact :   [email protected]
@License :   (C)Copyright 2021-, None

@Modify Time      @Author    @Version    @Description
------------      -------    --------    -----------
2022/3/20 22:18   ZhouCanzong      1.0     使用双向RNN 基于人名来进行国家分类
"""
# import lib
import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
import gzip
import csv
import time
import math

# parameters
HIDDEN_SIZE = 100
BATCH_SIZE = 256
N_LAYER = 2
N_EPOCHS = 50
N_CHARS = 128  # 这个是为了构造嵌入层


# prepare dataset
class NameDataset(Dataset):
    def __init__(self, is_train_set):
        filename = '../files/names_train.csv.gz' if is_train_set else '../files/names_test.csv.gz'
        with gzip.open(filename, 'rt') as f:  # r表示只读，从文件头开始 t表示文本模式
            reader = csv.reader(f)
            rows = list(reader)
        self.names = [row[0] for row in rows]
        self.len = len(self.names)
        self.countries = [row[1] for row in rows]

        self.country_list = list(sorted(set(self.countries)))
        self.country_dict = self.getCountryDict()
        self.country_num = len(self.country_list)

    def __getitem__(self, index):  # 根据索引拿到的是 名字，国家的索引
        return self.names[index], self.country_dict[self.countries[index]]

    def __len__(self):
        return self.len

    def getCountryDict(self):
        country_dict = dict()
        for idx, country_name in enumerate(self.country_list, 0):
            country_dict[country_name] = idx
        return country_dict

    def idx2country(self, index):
        return self.country_list[index]

    def getCountriesNum(self):
        return self.country_num


trainSet = NameDataset(is_train_set=True)
trainLoader = DataLoader(trainSet, batch_size=BATCH_SIZE, shuffle=True)
testSet = NameDataset(is_train_set=False)
testLoader = DataLoader(testSet, batch_size=BATCH_SIZE, shuffle=False)

N_COUNTRY = trainSet.getCountriesNum()


# design model
class RNNClassifier(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size, n_layers=1, bidirectional=True):
        super(RNNClassifier, self).__init__()
        self.hidden_size = hidden_size
        self.n_layers = n_layers
        self.n_directions = 2 if bidirectional else 1  # 使用双向的GRU

        # 嵌入层（, ℎ） --> (, ℎ, hidden_size)
        self.embedding = torch.nn.Embedding(input_size, hidden_size)
        self.gru = torch.nn.GRU(hidden_size, hidden_size, n_layers, bidirectional=bidirectional)
        self.fc = torch.nn.Linear(hidden_size * self.n_directions, output_size)

    def _init_hidden(self, batch_size):
        hidden = torch.zeros(self.n_layers * self.n_directions, batch_size, self.hidden_size)
        return hidden

    def forward(self, input, seq_lengths):
        # input shape : B x S -> S x B
        input = input.t()
        batch_size = input.size(1)
        hidden = self._init_hidden(batch_size)
        embedding = self.embedding(input)

        # pack them up
        gru_input = torch.nn.utils.rnn.pack_padded_sequence(embedding, seq_lengths)
        output, hidden = self.gru(gru_input, hidden)
        if self.n_directions == 2:
            hidden_cat = torch.cat([hidden[-1], hidden[-2]], dim=1)
        else:
            hidden_cat = hidden[-1]
        fc_output = self.fc(hidden_cat)
        return fc_output


def name2list(name):
    arr = [ord(c) for c in name]
    return arr, len(arr)


def make_tensors(names, countries):
    sequences_and_lengths = [name2list(name) for name in names]
    name_sequences = [s1[0] for s1 in sequences_and_lengths]
    seq_lengths = torch.LongTensor([s1[1] for s1 in sequences_and_lengths])
    countries = countries.long()

    # make tensor of name, BatchSize * seqLen
    # 他这里补零的方式先将所有的0 Tensor给初始化出来，然后在每行前面填充每个名字
    seq_tensor = torch.zeros(len(name_sequences), seq_lengths.max()).long()
    # print("seq_lengths.max:", seq_lengths.max())
    for idx, (seq, seq_len) in enumerate(zip(name_sequences, seq_lengths), 0):
        seq_tensor[idx, :seq_len] = torch.LongTensor(seq)

    # sort by length to use pack_padded_sequence
    # 将名字长度降序排列，并且返回降序之后的长度在原tensor中的小标perm_idx
    seq_lengths, perm_idx = seq_lengths.sort(dim=0, descending=True)
    # 这个Tensor中的类似于列表中切片的方法神奇啊，直接返回下标对应的元素，相等于排序了
    seq_tensor = seq_tensor[perm_idx]
    countries = countries[perm_idx]

    # 返回排序之后名字Tensor，排序之后的名字长度Tensor，排序之后的国家名字Tensor
    return seq_tensor, seq_lengths, countries


classifier = RNNClassifier(N_CHARS, HIDDEN_SIZE, N_COUNTRY, N_LAYER)

# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(classifier.parameters(), lr=0.001)


def trainModel():
    def time_since(since):
        s = time.time() - since
        m = math.floor(s / 60)
        s -= m * 60
        return '%dm %ds' % (m, s)

    total_loss = 0
    for i, (names, countries) in enumerate(trainLoader, 1):
        # print(type(names), type(countries))
        # print(len(names), countries.shape)
        inputs, seq_lengths, target = make_tensors(names, countries)

        output = classifier(inputs, seq_lengths)
        # print("Shape:", output.shape, target.shape)
        # 注意输出和目标的维度：Shape: torch.Size([256, 18]) torch.Size([256])
        loss = criterion(output, target)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_loss += loss.item()
        if i % 10 == 0:
            print(f'[{time_since(start)}] Epoch {epoch} ', end='')
            print(f'[{i * len(inputs)}/{len(trainSet)}] ', end='')
            print(f'loss={total_loss / (i * len(inputs))}')
    return total_loss


def testModel():
    correct = 0
    total = len(testSet)
    print("evaluating trained model ... ")
    with torch.no_grad():
        for i, (names, countries) in enumerate(testLoader):
            inputs, seq_lengths, target = make_tensors(names, countries)
            output = classifier(inputs, seq_lengths)
            # 注意这个keepdim的使用，为了直接和target计算loss
            pred = output.max(dim=1, keepdim=True)[1]
            # 注意这个view_as 和 eq
            correct += pred.eq(target.view_as(pred)).sum().item()

        percent = '%.2f' % (100 * correct / total)
        print(f'Test set: Accuracy {correct}/{total} {percent}%')

    return correct / total


# main
if __name__ == '__main__':
    start = time.time()
    print("Training for %d epochs..." % N_EPOCHS)
    acc_list = []
    for epoch in range(1, N_EPOCHS + 1):
        # Train cycle
        trainModel()
        acc = testModel()
        acc_list.append(acc)

code

使用双向RNN 基于人名来进行国家分类 GPU

# -*- encoding: utf-8 -*-
"""
@File    :   lecture_13.py
@Contact :   [email protected]
@License :   (C)Copyright 2021-, None

@Modify Time      @Author    @Version    @Description
------------      -------    --------    -----------
2022/3/20 22:18   ZhouCanzong      1.0      使用双向RNN 基于人名来进行国家分类 GPU
"""
# import lib
import torch
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
import gzip
import csv
import time
import math

# parameters
HIDDEN_SIZE = 100
BATCH_SIZE = 256
N_LAYER = 2
N_EPOCHS = 50
N_CHARS = 128  # 这个是为了构造嵌入层

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# prepare dataset
class NameDataset(Dataset):
    def __init__(self, is_train_set):
        filename = '../files/names_train.csv.gz' if is_train_set else '../files/names_test.csv.gz'
        with gzip.open(filename, 'rt') as f:  # r表示只读，从文件头开始 t表示文本模式
            reader = csv.reader(f)
            rows = list(reader)
        self.names = [row[0] for row in rows]
        self.len = len(self.names)
        self.countries = [row[1] for row in rows]

        self.country_list = list(sorted(set(self.countries)))
        self.country_dict = self.getCountryDict()
        self.country_num = len(self.country_list)

    def __getitem__(self, index):  # 根据索引拿到的是 名字，国家的索引
        return self.names[index], self.country_dict[self.countries[index]]

    def __len__(self):
        return self.len

    def getCountryDict(self):
        country_dict = dict()
        for idx, country_name in enumerate(self.country_list, 0):
            country_dict[country_name] = idx
        return country_dict

    def idx2country(self, index):
        return self.country_list[index]

    def getCountriesNum(self):
        return self.country_num


trainSet = NameDataset(is_train_set=True)
trainLoader = DataLoader(trainSet, batch_size=BATCH_SIZE, shuffle=True)
testSet = NameDataset(is_train_set=False)
testLoader = DataLoader(testSet, batch_size=BATCH_SIZE, shuffle=False)

N_COUNTRY = trainSet.getCountriesNum()


# design model
class RNNClassifier(torch.nn.Module):
    def __init__(self, input_size, hidden_size, output_size, n_layers=1, bidirectional=True):
        super(RNNClassifier, self).__init__()
        self.hidden_size = hidden_size
        self.n_layers = n_layers
        self.n_directions = 2 if bidirectional else 1  # 使用双向的GRU

        # 嵌入层（, ℎ） --> (, ℎ, hidden_size)
        self.embedding = torch.nn.Embedding(input_size, hidden_size)
        self.gru = torch.nn.GRU(hidden_size, hidden_size, n_layers, bidirectional=bidirectional)
        self.fc = torch.nn.Linear(hidden_size * self.n_directions, output_size)

    def _init_hidden(self, batch_size):
        hidden = torch.zeros(self.n_layers * self.n_directions, batch_size, self.hidden_size)
        return hidden

    def forward(self, input, seq_lengths):
        # input shape : B x S -> S x B
        input = input.t()
        batch_size = input.size(1)
        hidden = self._init_hidden(batch_size).to(device)
        embedding = self.embedding(input)

        # pack them up
        gru_input = torch.nn.utils.rnn.pack_padded_sequence(embedding, seq_lengths.cpu())
        output, hidden = self.gru(gru_input, hidden)
        if self.n_directions == 2:
            hidden_cat = torch.cat([hidden[-1], hidden[-2]], dim=1)
        else:
            hidden_cat = hidden[-1]
        fc_output = self.fc(hidden_cat)
        return fc_output


def name2list(name):
    arr = [ord(c) for c in name]
    return arr, len(arr)


def make_tensors(names, countries):
    sequences_and_lengths = [name2list(name) for name in names]
    name_sequences = [s1[0] for s1 in sequences_and_lengths]
    seq_lengths = torch.LongTensor([s1[1] for s1 in sequences_and_lengths])
    countries = countries.long()

    # make tensor of name, BatchSize * seqLen
    # 他这里补零的方式先将所有的0 Tensor给初始化出来，然后在每行前面填充每个名字
    seq_tensor = torch.zeros(len(name_sequences), seq_lengths.max()).long()
    # print("seq_lengths.max:", seq_lengths.max())
    for idx, (seq, seq_len) in enumerate(zip(name_sequences, seq_lengths), 0):
        seq_tensor[idx, :seq_len] = torch.LongTensor(seq)

    # sort by length to use pack_padded_sequence
    # 将名字长度降序排列，并且返回降序之后的长度在原tensor中的小标perm_idx
    seq_lengths, perm_idx = seq_lengths.sort(dim=0, descending=True)
    # 这个Tensor中的类似于列表中切片的方法神奇啊，直接返回下标对应的元素，相等于排序了
    seq_tensor = seq_tensor[perm_idx]
    countries = countries[perm_idx]

    # 返回排序之后名字Tensor，排序之后的名字长度Tensor，排序之后的国家名字Tensor
    return seq_tensor, seq_lengths, countries


classifier = RNNClassifier(N_CHARS, HIDDEN_SIZE, N_COUNTRY, N_LAYER)
classifier = classifier.to(device=device)

# construct loss and optimizer
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(classifier.parameters(), lr=0.001)


def trainModel():
    def time_since(since):
        s = time.time() - since
        m = math.floor(s / 60)
        s -= m * 60
        return '%dm %ds' % (m, s)

    total_loss = 0
    for i, (names, countries) in enumerate(trainLoader, 1):
        # print(type(names), type(countries))
        # print(len(names), countries.shape)
        inputs, seq_lengths, target = make_tensors(names, countries)
        inputs, seq_lengths, target = inputs.to(device), seq_lengths.to(device), target.to(device)
        output = classifier(inputs, seq_lengths)
        # print("Shape:", output.shape, target.shape)
        # 注意输出和目标的维度：Shape: torch.Size([256, 18]) torch.Size([256])
        loss = criterion(output, target)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_loss += loss.item()
        if i % 10 == 0:
            print(f'[{time_since(start)}] Epoch {epoch} ', end='')
            print(f'[{i * len(inputs)}/{len(trainSet)}] ', end='')
            print(f'loss={total_loss / (i * len(inputs))}')
    return total_loss


def testModel():
    correct = 0
    total = len(testSet)
    print("evaluating trained model ... ")
    with torch.no_grad():
        for i, (names, countries) in enumerate(testLoader):
            inputs, seq_lengths, target = make_tensors(names, countries)
            inputs, seq_lengths, target = inputs.to(device), seq_lengths.to(device), target.to(device)
            output = classifier(inputs, seq_lengths)
            # 注意这个keepdim的使用，为了直接和target计算loss
            pred = output.max(dim=1, keepdim=True)[1]
            # 注意这个view_as 和 eq
            correct += pred.eq(target.view_as(pred)).sum().item()

        percent = '%.2f' % (100 * correct / total)
        print(f'Test set: Accuracy {correct}/{total} {percent}%')

    return correct / total


# main
if __name__ == '__main__':
    start = time.time()
    print("Training for %d epochs..." % N_EPOCHS)
    acc_list = []
    for epoch in range(1, N_EPOCHS + 1):
        # Train cycle
        trainModel()
        acc = testModel()
        acc_list.append(acc)

改动之处：

参数定义：device = torch.device(“cuda” if torch.cuda.is_available() else “cpu”)
第一处在模型中：hidden = self._init_hidden(batch_size).to(device)
第二处在模型中：gru_input = torch.nn.utils.rnn.pack_padded_sequence(embedding, seq_lengths.cpu())

使用torch.nn.utils.rnn.pack_padded_sequence，seq_lengths就只能用cpu。见nn.utils.rnn.pack_padded_sequence: RuntimeError: ‘lengths’ argument should be a 1D CPU int64 tensor, but got 1D cuda:0 Long tensor
第三处在实例化模型时：classifier = classifier.to(device=device)
第四五处在训练时、测试时：inputs, seq_lengths, target = inputs.to(device), seq_lengths.to(device), target.to(device)

你可能感兴趣的:(深度学习,笔记合集,机器学习,python,深度学习,机器学习,pytorch)

用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found