真不想再学了

NNDL 实验五前馈神经网络（1）二分类任务神经元与基于前馈神经网络的二分类任务

pytorch实现

4.1 神经元

4.1.1 净活性值

使用pytorch计算一组输入的净活性值z

净活性值z经过一个非线性函数f(·)后，得到神经元的活性值a

使用pytorch计算一组输入的净活性值，代码参考paddle例题：

import paddle
 
# 2个特征数为5的样本
X = paddle.rand(shape=[2, 5])
 
# 含有5个参数的权重向量
w = paddle.rand(shape=[5, 1])
# 偏置项
b = paddle.rand(shape=[1, 1])
 
# 使用'paddle.matmul'实现矩阵相乘
z = paddle.matmul(X, w) + b
print("input X:", X)
print("weight w:", w, "\nbias b:", b)
print("output z:", z)

torch

# coding:utf-8
import torch
X=torch.rand(1,5)
w=torch.rand(5,1)
b=torch.rand(1,1)
z=torch.mul(X,w)+b
print("input X:", X)
print("weight w:", w, "\nbias b:", b)
print("output z:", z)

运行结果：
input X: tensor([[0.4815, 0.9213, 0.1646, 0.5270, 0.3404]])
weight w: tensor([[0.1197],
[0.2219],
[0.7890],
[0.7074],
[0.0379]])
bias b: tensor([[0.2716]])
output z: tensor([[0.3292, 0.3819, 0.2913, 0.3347, 0.3123],
[0.3784, 0.4760, 0.3081, 0.3885, 0.3471],
[0.6515, 0.9985, 0.4014, 0.6874, 0.5402],
[0.6122, 0.9233, 0.3880, 0.6443, 0.5124],
[0.2899, 0.3065, 0.2778, 0.2916, 0.2845]])

在飞桨中，可以使用nn.Linear完成输入张量的上述变换。

在pytorch中学习相应函数torch.nn.Linear(features_in, features_out, bias=False)。

实现上面的例子，完成代码，进一步深入研究torch.nn.Linear()的使用。

在本例中输入通道数为5，输出通道数为1，同时传入参数。

torchvision 0.11.2下

# coding:utf-8

import torch
X=torch.rand([1,5])
w=torch.rand([5,1])
b=torch.rand([1,1])
z=torch.matmul(X,w)+b
print("output z:", z)
LN=torch.nn.Linear(5,1,weight=w,bias=False)
z=LN(X)+b
print("output z:", z)

会报错
Traceback (most recent call last):
File “C:/Users/lenovo/PycharmProjects/pythonProject1/deep_learning/实验五前馈神经网络/test.py”, line 12, in
LN=torch.nn.Linear(5,1,weight=w,bias=False)
TypeError: init() got an unexpected keyword argument ‘weight’

意思是Linear中没有weight参数，猜测是torch源代码实现的问题，看了一下源代码，果然是。

class Linear(Module):
   ''''''
    def __init__(self, in_features: int, out_features: int, bias: bool = True,
                 device=None, dtype=None) -> None:
        factory_kwargs = {'device': device, 'dtype': dtype}
        super(Linear, self).__init__()
        self.in_features = in_features
        self.out_features = out_features
        self.weight = Parameter(torch.empty((out_features, in_features), **factory_kwargs))
        if bias:
            self.bias = Parameter(torch.empty(out_features, **factory_kwargs))
        else:
            self.register_parameter('bias', None)
        self.reset_parameters()

问题出在这句，Linear随机初始化了权重，只要把这里改一下，应该就可以自己设置权重了，

self.weight = Parameter(torch.empty((out_features, in_features), **factory_kwargs))

观察一下pytorch版本，发现已经是最新版本了。

那就没办法了。
为了不破坏第三方库，我没有尝试修改库的源代码。其实这个权重的初始化对训练过程没有什么关系，我们自己设置的也w是随机数，他这里也是随机生成参数，也就是说效果一样，改了意义也不大。文章后面会介绍一种修改权重的方法。

【思考题】加权求和与仿射变换之间有什么区别和联系？

加权求和：

简单来说就是为求和的每一项带上权重再相+
例如：
若
$x=x_{0}+x_{1}+x_{2}+x_{3}+...+x_{n}$
$b=b_{0}+b_{1}+b_{2}+b_{3}+...+b_{n}$
则
$\varSigma_{i=0}^nx_i*b_i=x_{0}*b_0+x_1*b_1+x_2*b_2+...+x_n*b_n$
在神经网络中，一个神经层的输入通常作为x，那么经过这个神经层后，会带上参数加权求和，同时有一个偏置，输出会变成 $\\x_{0}*w_0+x_1*w_1+x_2*w_2+...+x_n*w_n+b=\varSigma_{i=0}^nx_i*w_i+b$

仿射变换：

变换后的图像的线段、弧线保持比例不变，在此前提下，允许图像的旋转、拉伸、位移、反转、缩放操作，也可以是这几种操作的复合操作，但是一定要保持比例不变。
学过图像处理我们知道，一个图像按中心旋转 $\theta$ 后的图像可以这样计算：
$img=\begin{bmatrix} cos(\theta) &-sin(\theta)&0\\ sin(\theta) &cos(\theta)&0\\ 0&0&1 \end{bmatrix}img$
这里的 $\begin{bmatrix} cos(\theta) &-sin(\theta)&0\\ sin(\theta) &cos(\theta)&0\\ 0&0&1 \end{bmatrix}$ 即是一个变换矩阵。
此外还有
平移变换：
$\begin{bmatrix} 1 &0&x\\ 0&1&y\\ 0&0&1 \end{bmatrix}$
缩放变换：sx、sy为缩放倍数
$\begin{bmatrix} sx &0&0\\ 0&sy&0\\ 0&0&1 \end{bmatrix}$
剪切变换：shx、shy为变换尺度
$\begin{bmatrix} 1 &shx&0\\ shy &1&0\\ 0&0&1 \end{bmatrix}$
旋转变换：
$\begin{bmatrix} cos(\theta) &-sin(\theta)&0\\ sin(\theta) &cos(\theta)&0\\ 0&0&1 \end{bmatrix}$

加权求和与仿射变换二者关系

我们有一个一维输入x，我们想把它旋转 $\theta$ 后输出，则有
$x=\begin{bmatrix} x1\\ x2\\ x3 \end{bmatrix} \begin{bmatrix} cos(\theta) &-sin(\theta)&0\\ sin(\theta) &cos(\theta)&0\\ 0&0&1 \end{bmatrix}= \begin{bmatrix} cos(\theta)*x1+sin(\theta)*x1+0\\ -sin(\theta)*x2+cos(\theta)*x2+0\\ x3 \end{bmatrix}$
如果把cos( $\theta$ )和sin( $\theta$ )看成参数，那么这个计算结果
$\begin{bmatrix} cos(\theta)*x1+sin(\theta)*x1+0\\ -sin(\theta)*x2+cos(\theta)*x2+0\\ x3 \end{bmatrix}$
中的每一项都可以看作一个加权求和，这也是为什么说神经元的每一层都可以看做是一次仿射变换和一个非线性变换，这里的加权求和是一次仿射变换，非线性变换是指激活函数的部分。关于激活函数参见前几篇文章。

4.1.2 激活函数

激活函数通常为非线性函数，可以增强神经网络的表示能力和学习能力。
常用的激活函数有S型函数和ReLU函数。

4.1.2.1 Sigmoid 型函数

常用的 Sigmoid 型函数有 Logistic 函数和 Tanh 函数。
使用python实现并可视化“Logistic函数、Tanh函数”
在飞桨中，可以通过调用paddle.nn.functional.sigmoid和paddle.nn.functional.tanh实现对张量的Logistic和Tanh计算。在pytorch中找到相应函数并测试。

import numpy as np
import math
import matplotlib.pyplot as plt

def Logistic(x):
    return 1/(1+math.e**x)

def Relu(X):
    for i,x in enumerate(X):
        if x<0:
            X[i] =0
        else:
            continue
    return X

if __name__=='__main__':
    x=np.array([-5,-4,-3,-2,-1,0,1,2,3,4,5])
    plt.figure()
    plt.plot(x,Logistic(x),label='Logistic')
    plt.plot(x,Relu(x),label='Relu')
    plt.legend()
    plt.show()

运行结果：

import torch

if __name__=='__main__':
    x=torch.tensor([-5,-4,-3,-2,-1,0,1,2,3,4,5])
    sig=torch.nn.Sigmoid()
    y1=sig(x)
    relu=torch.nn.ReLU()
    y2=relu(x)
    print('input:',x)
    print('Sigmoid output:',y1)
    print('relu output:',y2)

运行结果：
input: tensor([-5, -4, -3, -2, -1, 0, 1, 2, 3, 4, 5])
Sigmoid output: tensor([0.0067, 0.0180, 0.0474, 0.1192, 0.2689, 0.5000, 0.7311, 0.8808, 0.9526,
0.9820, 0.9933])
relu output: tensor([0, 0, 0, 0, 0, 0, 1, 2, 3, 4, 5])

4.1.2.2 ReLU型函数

常见的ReLU函数有ReLU和带泄露的ReLU（Leaky ReLU）

使用python实现并可视化可视化“ReLU、带泄露的ReLU的函数”

import numpy as np
import math
import matplotlib.pyplot as plt

def Logistic(x):
    return 1/(1+math.e**x)

def Relu(X):
    n_x = []
    for i in X:
        n_x.append(max(0, i))
    return n_x

def leakyRelu(X,leak=0.3):
    n_x=[]
    for i in X:
        n_x.append(max(0,i)+min(0,i*leak))
    return n_x

if __name__=='__main__':
    x=np.arange(-5,5)
    plt.figure()
    plt.plot(x,leakyRelu(x),label='leakyRelu')
    plt.plot(x,Relu(x),label='Relu')
    plt.legend()
    plt.show()

在飞桨中，可以通过调用paddle.nn.functional.relu和paddle.nn.functional.leaky_relu完成ReLU与带泄露的ReLU的计算。在pytorch中找到相应函数并测试。

import torch

if __name__=='__main__':
    x=torch.randn(5)
    leakyrelu=torch.nn.LeakyReLU(0.3)
    y1=leakyrelu(x)
    relu=torch.nn.ReLU()
    y2=relu(x)
    print('input:',x)
    print('lealkrelu output:',y1)
    print('relu output:',y2)

运行结果:

input: tensor([-0.4764, -0.7552, 2.0017, -0.0035, 0.4680])
lealkrelu output: tensor([-1.4293e-01, -2.2656e-01, 2.0017e+00, -1.0608e-03, 4.6801e-01])
relu output: tensor([0.0000, 0.0000, 2.0017, 0.0000, 0.4680])
动手实现《神经网络与深度学习》4.1节中提到的其他激活函数：

Hard-Logistic、Hard-Tanh、ELU、Softplus、Swish等。（选做）

import numpy as np
import math
import matplotlib.pyplot as plt

def Logistic(x):
    return 1/(1+math.e**x)

def Relu(X):
    n_x = []
    for i in X:
        n_x.append(max(0, i))
    return n_x

def leakyRelu(X,leak=0.3):
    n_x=[]
    for i in X:
        n_x.append(max(0,i)+min(0,i*leak))
    return n_x

def hard_logistic(X):
    n_x = []
    for i in X:
        n_x.append(max(min(0.3*i+0.5,1),0))
    return n_x

def hard_tanh(X):
    n_x = []
    for i in X:
        n_x.append(max(min(i,1),-1))
    return n_x

def elu(X,r=0.3):
    n_x = []
    for i in X:
        n_x.append(max(0,i)+min(0,r*(math.e**i-1)))
    return n_x

def softplus(X):
    n_x = []
    for i in X:
        n_x.append(math.log(1+math.e**i))
    return n_x

if __name__=='__main__':
    x=np.linspace(-5,5,50)
    plt.figure()
    plt.plot(x, Relu(x),'-', label='Relu')
    plt.plot(x, leakyRelu(x),':', label='leakyRelu')
    plt.plot(x,hard_logistic(x),'-',label='hard_logistic')
    plt.plot(x,hard_tanh(x),':',label='hard_tanh')
    plt.plot(x, elu(x), label='elu')
    plt.plot(x, softplus(x),':', label='softplus')
    plt.grid()
    plt.legend()
    plt.show()

def swish(X,beta=0.5):
    n_x = []
    for i in X:
        n_x.append(i*1/(1+math.e**(beta*i)))
    return n_x

if __name__=='__main__':
    x=np.linspace(-5,5,50)
    plt.figure()
    for i in [-1,-0.5,0,0.5,1]:
        plt.plot(x, swish(x,beta=i),':', label='swish beta={}'.format(i))
    plt.grid()
    plt.legend()
    plt.show()

4.2 基于前馈神经网络的二分类任务

用到了库：（以下过程没有特殊说明都调用了这几个包）

import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
import torch.nn as nn
import torch.optim as optim
import torch
import numpy as np

4.2.1 数据集构建

使用第3.1.1节中构建的二分类数据集：Moon1000数据集，其中训练集640条、验证集160条、测试集200条。该数据集的数据是从两个带噪音的弯月形状数据分布中采样得到，每个样本包含2个特征。

和以前一样：


def get_moon_data():
    X, y = make_moons(1000, noise=0.1)
    '''plt.figure()
    plt.scatter(X[:, 0], X[:, 1], c=y)
    plt.show()'''
    X=torch.from_numpy(X.astype(np.float32))
    y=torch.from_numpy(y.astype(np.float32)).reshape(len(y),1)
    '''将1000条样本数据拆分成训练集、验证集和测试集，其中训练集640条、验证集160条、测试集200条。'''
    train_X,verify_X,test_X=torch.split(X,[640,160,200])
    train_y, vertify_y, test_y = torch.split(y, [640, 160, 200])
    return [train_X,train_y],[verify_X,vertify_y],[test_X,test_y]


if __name__=='__main__':
    train_data, verify_data, test_data = get_moon_data()

4.2.2 模型构建

为了更高效的构建前馈神经网络，我们先定义每一层的算子，然后再通过算子组合构建整个前馈神经网络。

4.2.2.1 线性层算子

        self.linear=torch.nn.Linear(5,1)
        self.hide=torch.nn.Linear(10,1)

4.2.2.2 Logistic算子（激活函数）

        self.sigmoid=torch.nn.Sigmoid()

4.2.2.3 层的串行组合

实现一个两层的用于二分类任务的前馈神经网络，选用Logistic作为激活函数，可以利用上面实现的线性层和激活函数算子来组装

    def forward(self,x):
        x1=self.linear(x)
        x2=self.hide(x1)
        pre_y=self.sigmoid(x2)
        return pre_y

实例化一个两层的前馈网络，令其输入层维度为5，隐藏层维度为10，输出层维度为1。
并随机生成一条长度为5的数据输入两层神经网络，观察输出结果。


class BPNet(torch.nn.Module):
    def __init__(self):
        super(BPNet, self).__init__()
        self.linear=torch.nn.Linear(5,10)
        self.hide=torch.nn.Linear(10,1)
        self.sigmoid=torch.nn.Sigmoid()

    def forward(self,x):
        x1=self.linear(x)
        x2=self.hide(x1)
        pre_y=self.sigmoid(x2)
        return pre_y


if __name__=='__main__':
    #train_data, verify_data, test_data = get_moon_data()
    x=torch.randn(5)
    net=BPNet()
    y=net(x)
    print('input:',x)
    print('output:',y.item())

运行结果：
input: tensor([-0.5336, 0.2618, -0.6228, 0.4544, -0.2390])
output: 0.5595706701278687

4.2.3 损失函数

二分类交叉熵损失函数见第三章

和以前一样：

loss = nn.BCELoss()

4.2.4 模型优化

神经网络的层数通常比较深，其梯度计算和上一章中的线性分类模型的不同的点在于：

线性模型通常比较简单可以直接计算梯度，而神经网络相当于一个复合函数，需要利用链式法则进行反向传播来计算梯度。

关于反向传播算法之前写过，是基于pandas和numpy的，不过pandas只帮助了我数据分类，甚至复杂化了代码编写过程。pytorch作为专业的神经网络库，里面肯定可以更方便的进行反向传播过程，那么现在的问题是找到反向传播算法与pytorch的关系。
torch里面自带了梯度计算算法，那就是backward()，他的用法就是实现梯度的自动计算。那么实际上在之前的几次实验中都使用了反向传播法。为了更加深入的理解，在文章末尾会单独对这部分过程细化分析一下。

4.2.4.1 反向传播算法

第1步是前向计算，可以利用算子的forward()方法来实现；
第2步是反向计算梯度，可以利用算子的backward()方法来实现；
第3步中的计算参数梯度也放到backward()中实现，更新参数放到另外的优化器中专门进行。

4.2.4.2 损失函数

二分类交叉熵损失函数

实现损失函数的backward()

4.2.4.3 Logistic算子

为Logistic算子增加反向函数

4.2.4.4 线性层

线性层输入的梯度

计算线性层参数的梯度

4.2.4.5 整个网络

实现完整的两层神经网络的前向和反向计算

import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
import torch.nn as nn
import torch.optim as optim
import torch
import numpy as np

def get_moon_data():
    X, y = make_moons(1000, noise=0.1)
    '''plt.figure()
    plt.scatter(X[:, 0], X[:, 1], c=y)
    plt.show()'''
    X=torch.from_numpy(X.astype(np.float32))
    y=torch.from_numpy(y.astype(np.float32)).reshape(len(y),1)
    '''将1000条样本数据拆分成训练集、验证集和测试集，其中训练集640条、验证集160条、测试集200条。'''
    train_X,verify_X,test_X=torch.split(X,[640,160,200])
    train_y, vertify_y, test_y = torch.split(y, [640, 160, 200])
    return [train_X,train_y],[verify_X,vertify_y],[test_X,test_y]

class BPNet(torch.nn.Module):
    def __init__(self):
        super(BPNet, self).__init__()
        self.linear=torch.nn.Linear(2,5)
        self.hide=torch.nn.Linear(5,1)
        self.sigmoid=torch.nn.Sigmoid()

    def forward(self,x):
        x1=self.linear(x)
        x2=self.hide(x1)
        pre_y=self.sigmoid(x2)
        return pre_y

    def save_model(self, save_path):
        torch.save(self, save_path)

    def read_model(self, path):
        torch.load(path)

def acc(model, X, y):
    '''最大项的为预测的类别'''
    ct=0
    for i in range(len(y)):
        pre_y = model(X[i])
        if pre_y>=0.5:
            pre_y=1
        else:pre_y=0
        if pre_y==y[i]:
            ct+=1
    return ct/y.shape[0]

if __name__=='__main__':
    train_data, verify_data, test_data = get_moon_data()
    net=BPNet()
    X = train_data[0];
    y = train_data[1]
    epoches = 2000
    for i in range(epoches):
        loss = nn.BCELoss()
        optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9)
        pre_y = net(X)
        l = loss(pre_y, y)
        optimizer.zero_grad()  # 梯度清零
        l.backward()
        optimizer.step()
        if i % 50 == 0:
            print('epoch %d, loss: %f' % (i, l.item()))
            net.save_model('LNet.pt')
            print('Current acc in verify data:', acc(net, verify_data[0], verify_data[1]) * 100, '%')
    print('acc in test data :', acc(net, test_data[0], test_data[1]) * 100, '%')

4.2.4.6 优化器

optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9)#定义优化器

在计算好神经网络参数的梯度之后，我们将梯度下降法中参数的更新过程实现在优化器中。

与第3章中实现的梯度下降优化器SimpleBatchGD不同的是，此处的优化器需要遍历每层，对每层的参数分别做更新。

4.2.5 完善Runner类：RunnerV2_1

支持自定义算子的梯度计算，在训练过程中调用self.loss_fn.backward()从损失函数开始反向计算梯度；
每层的模型保存和加载，将每一层的参数分别进行保存和加载。

4.2.6 模型训练

使用训练集和验证集进行模型训练，共训练2000个epoch。评价指标为accuracy。

4.2.7 性能评价

使用测试集对训练中的最优模型进行评价，观察模型的评价指标。
函数如下：

def acc(model, X, y):
    '''最大项的为预测的类别'''
    ct=0
    for i in range(len(y)):
        pre_y = model(X[i])
        if pre_y>=0.5:
            pre_y=1
        else:pre_y=0
        if pre_y==y[i]:
            ct+=1
    return ct/y.shape[0]

过程思路与分析：
假如没有反向传播：把反向传播相关的代码注释掉。

if __name__=='__main__':
    train_data, verify_data, test_data = get_moon_data()
    net=BPNet()
    X = train_data[0];
    y = train_data[1]
    epoches = 250
    for i in range(epoches):
        loss = nn.BCELoss()
        #optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9)
        pre_y = net(X)
        l = loss(pre_y, y)
        #optimizer.zero_grad()  # 梯度清零
        #l.backward()
        #optimizer.step()
        if i % 50 == 0:
            print('epoch %d, loss: %f' % (i, l.item()))
            net.save_model('LNet.pt')
            print('Current acc in verify data:', acc(net, verify_data[0], verify_data[1]) * 100, '%')
    print('acc in test data :', acc(net, test_data[0], test_data[1]) * 100, '%')

epoch 0, loss: 0.783069
Current acc in verify data: 25.0 %
epoch 50, loss: 0.783069
Current acc in verify data: 25.0 %
epoch 100, loss: 0.783069
Current acc in verify data: 25.0 %
epoch 150, loss: 0.783069
Current acc in verify data: 25.0 %
epoch 200, loss: 0.783069
Current acc in verify data: 25.0 %
acc in test data : 23.5 %

发现参数不会自动更新，说明反向传播实际上是进行了参数更新的过程。如果只进行前向传播，那么最终结果只由初始化的参数w和b所决定，与训练次数无关，不信我们再运行一次：
epoch 0, loss: 0.560529
Current acc in verify data: 69.375 %
epoch 50, loss: 0.560529
Current acc in verify data: 69.375 %
epoch 100, loss: 0.560529
Current acc in verify data: 69.375 %
epoch 150, loss: 0.560529
Current acc in verify data: 69.375 %
epoch 200, loss: 0.560529
Current acc in verify data: 69.375 %
acc in test data : 72.5 %

发现结果虽然改变，但是正确率也并没有提高，此时迭代多少次的结果都是一样的。也就是说前向传播本身并不能够更新参数，只有反向传播过程才计算了损失的梯度，根据步长一步步向前更新参数。再换句话说，前向传播只是一个计算过程，反向传播是参数更新过程。
经过以上分析我们得出，torch中的反向传播过程是根据以下这些代码实现的。

		loss = nn.BCELoss()#定义损失函数
		optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9)#定义优化器
        pre_y = net(X)#计算预测值（正向传播）
        l = loss(pre_y, y)#计算损失
        optimizer.zero_grad()  # 梯度清零
        l.backward()#反向传播（误差逆传播）
        optimizer.step()# 相当于确认操作，没有这句不能反向传播

他的参数优化过程设计在了optimizer之中。下面我们不用他这个代码，用自己的函数取代这个过程，并在进行过程中打印参数进行观察。
首先我们想在每一次迭代中更新模型的参数w和b，这个过程可以用save_model和load_model来实现，即在进行完前馈计算后，根据损失函数计算出损失，由损失函数反向传播，逐步更新每一层的参数，即链式求导法则。
查阅相关资料得知，torch有一个函数是专门存储参数的，我们可以调用net.state_dict()来查看此时网络的参数。

print(net.state_dict())

调用一下试试：

OrderedDict([(‘linear.weight’, tensor([[-0.1062, 0.6874],
[-0.2676, -0.6546],
[ 1.0538, -0.0674]])), (‘linear.bias’, tensor([-0.3523, 0.1579, 0.0534])), (‘hide.weight’, tensor([[-0.3229, 0.4994, 0.8082]])), (‘hide.bias’, tensor([-0.2757]))])

这是一个有序字典，在这里它含有四个部分，
(‘linear.weight’, tensor([[-0.1062, 0.6874], [-0.2676, -0.6546], [ 1.0538, -0.0674]])),
(‘linear.bias’, tensor([-0.3523, 0.1579, 0.0534])),
(‘hide.weight’, tensor([[-0.3229, 0.4994, 0.8082]])),
(‘hide.bias’, tensor([-0.2757]))
分别对应线性层的权重和偏置、隐藏层的权重和偏置。

那么，我们对这个字典的值进行修改，是不是就完成了参数的更新了呢？
答案是否定的。
这里的字典实际上是一个‘’复制品‘’，我们对它进行修改的话并不能直接改变原来的值，所以我们对它进行修改后需要再读取一下，问题就解决了。

for example:
还是使用上边的双月数据集模拟logistic二分类任务
为了便于观察，我简化了网络，现在它只有一个线性层
我想每次迭代将权重每一项都加一，偏置都减一，那么代码如下啊

class testNet(nn.Module):
    def __init__(self):
        super(testNet, self).__init__()
        self.linear = nn.Linear(2, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x1 = self.linear(x)
        pre_y = self.sigmoid(x1)
        return pre_y

    def save_model(self, save_path):
        torch.save(self, save_path)

    def read_model(self, path):
        torch.load(path)

if __name__ == '__main__':
    net = testNet()
    train_data, verify_data, test_data=get_moon_data()
    X=train_data[0];y=train_data[1]
    epoches=10
    for i in range(epoches):
        loss = nn.BCELoss()
        #optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9)
        #optimizer.zero_grad()  # 梯度清零
        pre_y = net(X)
        l = loss(pre_y, y)
        #l.backward()
        #optimizer.step()
        dct=net.state_dict()
        dct['linear.weight']+=1
        dct['linear.bias'] -= 1
        net.load_state_dict(dct)
        print(net.state_dict())

OrderedDict([(‘linear.weight’, tensor([[0.8995, 0.4396]])), (‘linear.bias’, tensor([-0.7948]))])
OrderedDict([(‘linear.weight’, tensor([[1.8995, 1.4396]])), (‘linear.bias’, tensor([-1.7948]))])
OrderedDict([(‘linear.weight’, tensor([[2.8995, 2.4396]])), (‘linear.bias’, tensor([-2.7948]))])
OrderedDict([(‘linear.weight’, tensor([[3.8995, 3.4396]])), (‘linear.bias’, tensor([-3.7948]))])
OrderedDict([(‘linear.weight’, tensor([[4.8995, 4.4396]])), (‘linear.bias’, tensor([-4.7948]))])
OrderedDict([(‘linear.weight’, tensor([[5.8995, 5.4396]])), (‘linear.bias’, tensor([-5.7948]))])
OrderedDict([(‘linear.weight’, tensor([[6.8995, 6.4396]])), (‘linear.bias’, tensor([-6.7948]))])
OrderedDict([(‘linear.weight’, tensor([[7.8995, 7.4396]])), (‘linear.bias’, tensor([-7.7948]))])
OrderedDict([(‘linear.weight’, tensor([[8.8995, 8.4396]])), (‘linear.bias’, tensor([-8.7948]))])
OrderedDict([(‘linear.weight’, tensor([[9.8995, 9.4396]])), (‘linear.bias’, tensor([-9.7948]))])

结果说明了两点，
第一：参数更新过程确实是由注释掉的那几行代码实现的
第二：使用net.state_dict()和net.load_state_dict()来进行参数更新是可行的

接下来就到了最复杂的计算环节，我们需要计算出损失函数对每一个参数的导数，用这个导数乘以学习率lr再加到原参数上就完成了参数更新的过程。
还是刚才这个例子，
输入x1、x2,
激活函数为Sigmoid函数。
$y = s i g m o i d (x 1 * w 1 + x 2 * w 2 + b)$
$loss=1/2（y-y'）^2=1/2(sigmoid(x1*w1+x2*w2+b)-y')^2$

其中y’是实际值
我们要更新的参数有w1，w2和b
$\frac{\partial loss}{\partial w_1}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial w_1}$
$\frac{\partial loss}{\partial w_2}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial w_2}$
$\frac{\partial loss}{\partial b}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial b}$
或者写全了：
$\frac{\partial loss}{\partial w_1}=\frac{\partial loss}{\partial sigmoid(x1*w1+x2*w2+b)}*\frac{\partial sigmoid(x1*w1+x2*w2+b)}{\partial w_1}$
$\frac{\partial loss}{\partial w_2}=\frac{\partial loss}{\partial sigmoid(x1*w1+x2*w2+b)}*\frac{\partial sigmoid(x1*w1+x2*w2+b)}{\partial w_2}$
$\frac{\partial loss}{\partial b}=\frac{\partial loss}{\partial sigmoid(x1*w1+x2*w2+b)}*\frac{\partial sigmoid(x1*w1+x2*w2+b)}{\partial b}$

这里要注意到sigmoid也是一个函数，它也要求一次导
计算出来
$\frac{\partial loss}{\partial w_1}=(y-y')*y*(1-y)*x_1$
$\frac{\partial loss}{\partial w_2}=(y-y')*y*(1-y)*x_2$

用这几个结果乘上lr加到原参数上即可实现参数更新。
代码实现：

import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
import torch.nn as nn
import torch.optim as optim
import torch
import numpy as np

def get_moon_data():
    X, y = make_moons(1000, noise=0.1)
    '''plt.figure()
    plt.scatter(X[:, 0], X[:, 1], c=y)
    plt.show()'''
    X=torch.from_numpy(X.astype(np.float32))
    y=torch.from_numpy(y.astype(np.float32)).reshape(len(y),1)
    '''将1000条样本数据拆分成训练集、验证集和测试集，其中训练集640条、验证集160条、测试集200条。'''
    train_X,verify_X,test_X=torch.split(X,[640,160,200])
    train_y, vertify_y, test_y = torch.split(y, [640, 160, 200])
    return [train_X,train_y],[verify_X,vertify_y],[test_X,test_y]
def acc(model, X, y):
    '''最大项的为预测的类别'''
    ct=0
    for i in range(len(y)):
        pre_y = model(X[i])
        if pre_y>=0.5:
            pre_y=1
        else:pre_y=0
        if pre_y==y[i]:
            ct+=1
    return ct/y.shape[0]
    
class testNet(nn.Module):
    def __init__(self):
        super(testNet, self).__init__()
        self.linear = nn.Linear(2, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x1 = self.linear(x)
        pre_y = self.sigmoid(x1)
        return pre_y

    def save_model(self, save_path):
        torch.save(self, save_path)

    def read_model(self, path):
        torch.load(path)
        
def loss(prey,y):
    return abs(y-prey)

if __name__ == '__main__':
    net = testNet()
    train_data, verify_data, test_data=get_moon_data()
    #optimizer = optim.SGD(net.parameters(), lr=0.01, momentum=0.9)
    #optimizer.zero_grad()  # 梯度清零
    epoches=10
    for i in range(epoches):
        X = train_data[0];
        y = train_data[1]
        for x,y in zip(X,y):
            pre_y = net(x)
            #l = loss(pre_y, y)
            #l.backward()
            #optimizer.step()
            lr=0.1
            dct = net.state_dict()
            #参数更新
            dct['linear.weight']-=torch.tensor([[(pre_y-y)*pre_y * (1 - pre_y) * x[0],(pre_y-y)*pre_y * (1 - pre_y) * x[1]]])*lr
            net.load_state_dict(dct)
            print(net.state_dict())
            print('Current acc in train data:',acc(net,train_data[0],train_data[1])*100,'%')

可以预见的是训练速度会是非常慢的，因为这里是一个个训练的。
不过也是可以观察到参数在不断的更新。
一部分运行过程：
Current acc in train data: 44.375 %
OrderedDict([(‘linear.weight’, tensor([[25.9497, 25.9600]])), (‘linear.bias’, tensor([-15.7486]))])
Current acc in train data: 44.375 %
OrderedDict([(‘linear.weight’, tensor([[25.8815, 25.8917]])), (‘linear.bias’, tensor([-15.9691]))])
Current acc in train data: 44.53125 %
OrderedDict([(‘linear.weight’, tensor([[25.8744, 25.8846]])), (‘linear.bias’, tensor([-16.0578]))])
Current acc in train data: 44.6875 %
OrderedDict([(‘linear.weight’, tensor([[25.8744, 25.8846]])), (‘linear.bias’, tensor([-16.0578]))])
Current acc in train data: 44.6875 %
OrderedDict([(‘linear.weight’, tensor([[25.8744, 25.8846]])), (‘linear.bias’, tensor([-16.0578]))])
Current acc in train data: 44.6875 %

那如果加一层隐函数呢？
输入x1、x2,
隐含层h1 、h2、h3 ，激活函数为Sigmoid函数。
$h 1 = s i g m o i d (x 1 * w 1 + x 2 * w 2 + b 1)$
$h 2 = s i g m o i d (x 1 * w 3 + x 2 * w 4 + b 2)$
$h 3 = s i g m o i d (x 1 * w 5 + x 2 * w 6 + b 3)$
那么：
$y = s i g m o i d (h 1 * w 7 + h 2 * w 8 + h 3 * w 9 + b 4)$
$= s i g m o i d (s i g m o i d (x 1 * w 1 + x 2 * w 2 + b 1) * w 7 + s i g m o i d (x 1 * w 3 + x 2 * w 4 + b 2) * w 8 + s i g m o i d (x 1 * w 5 + x 2 * w 6 + b 3) * w 9 + b 4)$
则：
$loss=1/2(y-y')^2=1/2(sigmoid(sigmoid(x1*w1+x2*w2+b1)*w7+sigmoid(x1*w3+x2*w4+b2)*w8+sigmoid(x1*w5+x2*w6+b3)*w9+b4))-y')^2$

虽然式子很长，但是也是有迹可循的，只不过是求导的过程多了几步，越靠近输入层的参数计算越复杂。
例如：

我们想更新w7、w8、w9、b4
$\frac{\partial loss}{\partial w_7}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial w_7}=(y-y')*y*(1-y)*h_1$
$\frac{\partial loss}{\partial w_8}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial w_8}=(y-y')*y*(1-y)*h_2$
$\frac{\partial loss}{\partial w_9}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial w_9}=(y-y')*y*(1-y)*h_3$
$\frac{\partial loss}{\partial b_4}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial b_4}=(y-y')*y*(1-y)*1$
我们想更新w1、w2、b1
$\frac{\partial loss}{\partial w_1}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial h_1}*\frac{\partial h_1}{\partial w_1}=(y-y')*y*(1-y)*w_7*h_1*(1-h_1)*x_1$
$\frac{\partial loss}{\partial w_2}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial h_1}*\frac{\partial h_1}{\partial w_2}=(y-y')*y*(1-y)*w_7*h_1*(1-h_1)*x_2$
$\frac{\partial loss}{\partial b_1}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial h_1}*\frac{\partial h_1}{\partial b_1}=(y-y')*y*(1-y)*w_7*h_1*(1-h_1)*1$
我们想更新w3、w4、b2
$\frac{\partial loss}{\partial w_3}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial h_2}*\frac{\partial h_2}{\partial w_3}=(y-y')*y*(1-y)*w_8*h_2*(1-h_2)*x_1$
$\frac{\partial loss}{\partial w_4}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial h_2}*\frac{\partial h_2}{\partial w_4}=(y-y')*y*(1-y)*w_8*h_2*(1-h_2)*x_2$
$\frac{\partial loss}{\partial w_4}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial h_2}*\frac{\partial b_2}{\partial w_4}=(y-y')*y*(1-y)*w_8*h_2*(1-h_2)*1$
我们想更新w5、w6、b3
$\frac{\partial loss}{\partial w_5}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial h_3}*\frac{\partial h_3}{\partial w_5}=(y-y')*y*(1-y)*w_9*h_3*(1-h_3)*x_1$
$\frac{\partial loss}{\partial w_6}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial h_3}*\frac{\partial h_3}{\partial w_6}=(y-y')*y*(1-y)*w_9*h_3*(1-h_3)*x_2$
$\frac{\partial loss}{\partial w_5}=\frac{\partial loss}{\partial y}*\frac{\partial y}{\partial h_3}*\frac{\partial h_3}{\partial b_3}=(y-y')*y*(1-y)*w_9*h_3*(1-h_3)*1$

其他神经网络也可以像这样计算。
【思考题】对比

3.1 基于Logistic回归的二分类任务 4.2 基于前馈神经网络的二分类任务

谈谈自己的看法
对于不同的损失函数应该设计有不同的梯度计算法，因为不同损失函数的导数是不一样的。
总结：加权和是神经网络的常用名词而仿射变换是理解神经网络的一个方法，作者花了大部分时间编辑公式，编辑公式更流畅了，但这时候对于反向传播的理解还没有更多深入，对于torch的底层实现还不是很透彻，因此需要更多的学习。同时在补充总结的过程中发现了文章中很多纰漏，着重修改了一下。
补充：已补全损失对所有参数的偏导数。部分内容修缮。
ref：
何为仿射变换(Affine Transformation)
激活函数Relu 及 leakyRelu
sigmoid函数求导-只要四步

你可能感兴趣的:(神经网络,分类,深度学习)

深入详解：决策树算法的概念、原理、实现与应用场景猿享天开算法决策树机器学习
深入详解：决策树算法的概念、原理、实现与应用场景决策树（DecisionTree）是机器学习中一种直观且广泛应用的监督学习算法，适用于分类和回归任务。其树形结构易于理解，特别适合初学者。本文将从概念、原理、实现到应用场景，全面讲解决策树，并通过流程图和可视化示例增强理解，通俗易懂，帮助小白快速掌握决策树算法相关知识。1.决策树的概念1.1什么是决策树？决策树通过一系列条件判断（决策节点）将输入数据
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
008 【入门】算法和数据结构简介要天天开心啊算法专栏算法数据结构
算法与数据结构系统概览|[算法]-[基础]-[通用]一、算法分类与应用1.硬计算类算法|[算法]-[中级]-[通用]特点应用场景复杂度特征-精确求解问题-可能带来较高计算复杂度-大厂笔试/面试-ACM竞赛-所有程序员岗位必考⏱️通常为O(n)~O(n²)//[示例]快速排序算法-分治思想核心实现publicvoidquickSort(int[]arr,intleft,intright){if(le
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
linux日志文件详解 MagnumOvO 云计算 linux 5G linux 运维 centos
目录一、日志文件的分类二、日志文件位置三、常见日志文件1.分析日志文件2.内核及系统日志四、日志消息等级五、日志文件分析1.用户日志2.程序日志六、日志分析注意事项一、日志文件的分类日志文件是用于记录Linux系统中各种运行消息的文件,相当于Linux主机的“日记”。不同的日志文件记载了不同类型的信息,如Linux内核消息、用户登录事件、程序错误等·日志文件对于诊断和解决系统中的问题很有帮助,因为
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
10招提升SQL性能的实战技巧快乐才是自己的 sql mysql sql mysql oracle database hadoop 大数据
SQL语句常见性能优化方案在数据库应用中，SQL性能优化是核心技术要点。以下是经过验证的优化策略，按关键维度分类：一、索引优化精准索引覆盖对高频查询的WHERE、JOIN、ORDERBY字段建立索引复合索引遵循最左前缀原则：索引(a,b,c)仅支持WHEREa=?或WHEREa=?ANDb=?示例：将SELECT*FROMordersWHEREstatus='shipped'改为CREATEIND
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
Linux 命令：ls
Linuxls命令详细教程一、ls命令概述ls是Linux系统中最常用的命令之一，全称“list”，用于列出目录下的文件和子目录。它不仅能显示文件基本信息，还能通过丰富的选项控制显示格式、排序方式、隐藏文件等，是文件管理的基础工具。资料已经分类整理好：https://pan.quark.cn/s/26d73f7dd8a7二、ls命令基本语法ls[选项][文件或目录]核心选项分类说明（常用选项需熟练
MySQL索引分类有哪些？ java1234_小锋 mysql mysql
大家好，我是锋哥。今天分享关于【MySQL索引分类有哪些？】面试题。希望对大家有帮助；MySQL索引分类有哪些？超硬核AI学习资料，现在永久免费了！MySQL中的索引可以根据不同的分类标准分为以下几种类型：1.根据存储方式分类聚集索引（ClusteredIndex）：表中的数据行会按照索引顺序存储，即数据的物理顺序和索引顺序一致。每个表最多只能有一个聚集索引。在InnoDB存储引擎中，主键就是聚集
DAOS的组网（二层无损网络搭建） Flying Fish（HHH） DAOS相关的内容 DAOS的组网分布式
基于盛科E交换机搭建rdma网络配置（不同的交换机的配置操作不一样）一、交换机端配置：1、PFC配置（基于优先级的流量控制机制）配置qos类型的class-mappfc，进行流量分类，匹配dscpcs3#configureterminalEnterconfigurationcommands,oneperline.EndwithCNTL/Z.(config)#class-maptypeqospfc(
数据库技术演进史：从穿孔卡片到云原生小李独爱秋计算机那些事儿~数据库云原生 mysql
一、数据库的定义与核心地位数据库（Database）是“长期存储在计算机内、有组织的、可共享的统一管理数据集合”，与芯片、操作系统并称IT系统三大核心。其核心价值在于：结构化存储：通过数据模型组织信息，解决文件系统冗余问题；高效访问：支持并发查询与事务处理；安全共享：权限控制保障数据安全。分类维度全景图：分类维度类型代表产品数据模型关系型(SQL)MySQL,Oracle,PostgreSQL非关
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码算法 matlab 神经网络大数据人工智能深度学习机器学习
目录MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（多指标，多图）1项目背景介绍...1项目目标与意义...2项目挑战...3项目特点与创新...5<
顺序内聚是指模块内的处理元素密切相关，并且必须按照特定的顺序执行，前一个处理元素的输出是下一个处理元素的输入 Bol5261 JVM(Java Virtual Machine)JMM(Java Memory Model)JMS(Java Message Service)服务器
该模块的内聚类型为顺序内聚。顺序内聚是指模块内的处理元素密切相关，并且必须按照特定的顺序执行，前一个处理元素的输出是下一个处理元素的输入。这种内聚类型比功能内聚稍弱，但仍然具有较高的内聚性。根据模块内聚的分类标准，当模块中各个处理元素密切相关于同一功能，且必须顺序执行，前一处理元素的输出直接作为下一处理元素的输入时，这种内聚类型属于顺序内聚（SequentialCohesion）。模块内聚类型对比
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
macOS26 Tahoe召唤启动台教程華仔96 经验分享 macOS26 T Tahoe 启动台
苹果macOS26测试版已发布！代号为Tahoe经过update测试发现苹果将原来的启动台集成在聚焦搜索了，翻找软件并不能像以往点击启动台即可看到，现在变为聚焦搜索，且按下command+1也只是像iPhone上的资源库并不能自定义按需收纳软件分类。解决方案如上：1.先打开访达Finder，点击左侧的应用程序Application，在里面新建文件夹自定义归纳好软件。2.将访达Finder下的应用程
MySQL之锁机制详解:全局锁,表级锁,行级锁 AA-代码批发V哥 MySQL mysql 数据库
MySQL之锁机制详解:全局锁,表级锁,行级锁一、锁机制基础：从并发问题到锁分类1.1并发访问的三大问题1.2锁的核心作用1.3锁粒度分类二、全局锁：掌控整个数据库的"超级锁"2.1全局锁原理2.2全局锁语法与使用2.2.1显式加锁2.2.2隐式加锁（备份场景）2.3全局锁的双刃剑三、表级锁：粗粒度的高效控制3.1表级锁核心特性锁兼容性矩阵：3.2MyISAM表级锁实战3.2.1加锁示例3.2.2
RNN笔记 sjtu_哈基坤 LLM随笔 rnn 笔记人工智能
来源见此处概述RNN(RecurrentNeuralNetwork)RNN之所以称为循环神经网络,是因为一个序列的当前的输出与前面的输出也有关.具体表现是网络会对前面的信息进行记忆并且应用于当前输出的计算中.即隐藏层之间的节点也是有连接的.并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出.理论上RNN能对任何长度的序列进行处理,但是在实践中,为了降低复杂性,往往假设当前状态只与前面几
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

NNDL 实验五 前馈神经网络（1）二分类任务 神经元与基于前馈神经网络的二分类任务