hustlei

pytorch人工神经网络基础：线性回归神经网络(nn.Module+nn.Sequential+nn.Linear+nn.init+optim.SGD)

线性回归是人工神经网络的基础，线性回归属于有监督的学习，即根据有标签（已知结果的数据）拟合线性方程权重，然后根据拟合的方程预测未知数据。

通常步骤为：

准备数据：获取有标签的数据（有结果的数据）。
建立模型：根据线性方程设计模型。
配置模型：确定损失函数、优化方法、初始化参数。
训练模型：根据有标签的数据进行回归学习。
测试：根据训练好的（回归结果）线性方程模型计算，评估模型是否准确。

神经网络算法的

1 准备工作

导入必要的库。

import torch
from torch import nn, optim
import numpy as np
import matplotlib.pyplot as plt

pytorch的所有操作都是依据张量的，尤其是自动计算梯度的操作不能和numpy数组运算。导入troch，可以使用pytorch的张量操作。

nn模块包含

Module(自定义模型的父类)
层:比如Linear类（线性层类）以及卷积层等很多层类。
损失函数：比如MSELoss类（均方误差损失函数）以及交叉熵损失函数等很多损失函数类。
init模块：可以用于初始化Module的可学习参数，比如线性模型中的w和b。

optim模块包含用于训练模型的优化函数类，比如SGD(随机梯度下降)。

2 准备数据

2.1 线性方程说明

线性回归方程的形式为:

$y=wx+b 其中：y,w,x,b都可以是向量。即：y=w_1x_1+w_2x_2+...+w_nx_n+b$

当x为二元向量，y为一元向量时： $y=w_1x_1+w_2x_2+b$

当x,y均为二元向量时，相当于基于同一组x向量，回归两个二元方程（当然y可以是多元的，相当于多个二元方程）。即：

$y_1=w_11x_1+w_12x_2+b_1 \\ y_2=w_21x_1+w_22x_2+b_2$

本文取w=[[1,1],[0.5,0.8]], b=[[0.5],[1]]。即

$y_1=x_1+x_2+0.5 \\ y_2=0.5x_1+0.8x_2+1$

2.2 生成训练数据(带标签的数据)

在神经网络中通常输入数据为拟研究对象的特征(比如对房价进行回归时，影响房价的因素：价格、位置、大小等等)。因此，训练数据通常叫做feature。结果作为数据标签叫做label，尤其是对分类问题，叫标签更容易理解。

为了方便，本文把feature数据命名为x_train,结果命名为y_train。

在pytorch中，当x为m元向量时，N个训练数据组成的张量x_train的shape通常约定为[N,m]。
同样y_train为n元向量时，N个y组成的y_train张量shape通常约定为[N,n]。

通过计算方程，加噪声的方法生成数据。

pytorch都是基于张量数据的，尤其是需要自动求梯度的操作是不能和numpy数组相互运算的，会出错。
数据的维度、形状尽可能和模型一致，比如，本文中x,y,w,b都以矩阵形式(虽然用向量有些操作并不会有问题)，避免出错。

N = 1000  #训练数据样本个数。
in_features = 2  #单个输入样本的变量个数。
out_features = 2  #单个输出的变量个数。

x_train = torch.randn(N,2)  #形状为（N,in_features）
w = torch.tensor([[1,1],[0.5,0.8]])  #注意形状和方程顺序相同
b = torch.tensor([0.5,1])  #注意形状为(out_features)，这样y可以用[email protected]+b计算
y_train = x_train@w.T+b  #形状为（N,out_features）
y_train += torch.randn(N,2)  #增加数据噪声


# matplotlib绘图查看生成数据
fig = plt.figure()  #创建matplotlib画布
ax3d = fig.add_subplot(projection="3d")  #创建3d坐标系
ax3d.scatter(x_train[:,0],x_train[:,1],y_train[:,0],c='orange')  #第一个方程生成的数据点，绘制散点图
ax3d.plot_trisurf(x_train[:,0],x_train[:,1],(x_train@w.T+b)[:,0])

3 建立模型

3.1 pytorch建立模型的一般方法

通常直接继承pytorch的Module类，添加神经网络层创建模型。一般形式为：

class Net(nn.Module):
    def __init__(self):
        self.layer1 = ...
        
    def forward(self,x):
        return self.layer1(x)

根据Net类创建的对象可以直接像函数一样调用。net=Net(), y=net(x),实现forward操作，也就是根据输入计算输出的计算。模型对象的parameters()函数可以获取自身所有对象的可学习参数，用于后续训练作为优化函数的输入。

Module类支持嵌套，事实上pytorch预定义的层，比如Linear也是Module。

3.2 nn.Linear线性层类

pytorch预定义了很多层，可以直接调用，线性层是最常用的一个。nn.Linear类可以定义一个线性函数对象。它把通过 $y=xw^T+b$ ，把输入x转换为输出y。

构造函数：nn.Linear(in_features, out_features, bias=True, device=None, dtype=None)
- in_features：整数。输入x包含的变量个数。如果x有N个样本，则输入形状为(N,in_features)
- out_features：整数。每个样本计算后输出的y长度。如果x有N个样本，则输出形状为(N,out_features)
- bias：布尔值。是否设置偏置b。
Linear对象的参数
- weight：可学习的参数。形状为(out_features,in_features)。创建对象的时候会自动初始化一个随机值。
- bias：可学习的参数。形状为(out_features）。创建对象的时候会自动初始化一个随机值。

线性层对象可以像函数一样调用。即layer=nn.Linear(1,1); y=layer(x)

# nn.Linear用法示例

# 一元线性方程：in_features=1,out_features=1创建一元线性方程对象。

linear = nn.Linear(1,1) #创建输入为1元变量，输出也为1元变量的线性对象。

x = torch.tensor([2.])  #注意x必须是≥1维的浮点数张量。
y = linear(x)
print(y)

#通常数据样本会有多个，以(N,in_features)形式输入数据。注意x必须是浮点数。
x = torch.tensor([[2],[1],[3]],dtype=torch.float)  #（3,1）形状输入数据
y = linear(x)  #注意y的形状为(N,1)。
print(y.data)

#注意：x必须是至少一维的浮点数张量。不能是标量，不能是numpy数组，不能是整型张量。

tensor([-1.3209], grad_fn=)
tensor([[-1.3209],
        [-0.6011],
        [-2.0407]])

# 多元一次线性方程(in_features>1,out_features=1)

linear = nn.Linear(3,1,bias=False) #创建输入为3元变量，输出为1元变量的线性对象。
x=torch.arange(12,dtype=torch.float).reshape(4,3)  #输入样本包含4个元素，每个元素长度为3
y=linear(x)  #输出张量形状为(4,1),即4个元素，每个元素是一个值
print(y)

x=torch.ones(3,3,3) #输入样本形状为(3,3,3)
y=linear(x) #输出张量形状为(3,3,1)
print(y)

tensor([[0.5917],
        [2.0620],
        [3.5323],
        [5.0026]], grad_fn=)
tensor([[[0.4901],
         [0.4901],
         [0.4901]],

        [[0.4901],
         [0.4901],
         [0.4901]],

        [[0.4901],
         [0.4901],
         [0.4901]]], grad_fn=)

## 多元一次方程组(in_features>1,out_features>1)

linear = nn.Linear(3,2)  #创建输入为3元变量，输出为2元变量的线性对象。即两个三元一次方程组成的方程组。
x = torch.ones(2,3)
y = linear(x)  #输出y的形状为(2,2)
print(y)

#根据weight和bias参数计算

print(x@linear.weight.T+linear.bias)
print(torch.mm(x,linear.weight.T)+linear.bias)

tensor([[ 1.0342, -0.9466],
        [ 1.0342, -0.9466]], grad_fn=)
tensor([[ 1.0342, -0.9466],
        [ 1.0342, -0.9466]], grad_fn=)
tensor([[ 1.0342, -0.9466],
        [ 1.0342, -0.9466]], grad_fn=)

3.3 用nn.Linear创建线性模型

直接继承nn.Module可以创建神经网络模型，还可以用nn.Sequential创建模型，nn.Linear本身也是个模型，单层网络可以直接用nn.Linear。

3.3.1 继承nn.Module建立模型

class Net(nn.Module):
    def __init__(self, in_features, out_features): #两个参数是用于线性层创建
        super().__init__()
        self.layer1 = nn.Linear(in_features, out_features)  #注意必须是模型的成员，才能获取parameter
        
    def forward(self, x):
        return self.layer1(x)
    
# 简单试验模型
x = torch.ones(1,2)  #1个样本
net = Net(2,2)
y = net(x)
print(y)

tensor([[0.1891, 0.7207]], grad_fn=)

3.3.2 应用nn.Sequential建立模型

nn.Sequential是一个把Module包装成类似顺序字典的容器。可以用类似字典或列表的方式创建模型。创建的Sequential对象包含Module的所有功能。

nn.Sequential三种创建方式：

# 方法一
# 层对象按顺序当做Sequential参数
net = nn.Sequential(nn.Linear(2,2))

# 同时传入多个层(线性层、卷积层等都ok)也是可以的
net1 = nn.Sequential(nn.Linear(1,1),
                    nn.Linear(1,2))

# 方法二
# 用OrderedDict作为参数创建
from collections import OrderedDict
net = nn.Sequential(OrderedDict([
    ['layer1',nn.Linear(2,2)],
    ['layer2',nn.Linear(1,2)]
]))

# 方法三
# 动态添加层
net = nn.Sequential()
net.add_module('layer1',nn.Linear(1,1))
net.add_module('layer2',nn.Linear(2,1))

### 3.3.3 用nn.Module还是nn.Sequential

nn.Sequential继承自Module，像pytorch预定义的层一样，nn.Sequential可以直接作为模型使用，也可以作为层嵌套在Module中（通常对于复杂的模型非常有用）。

class Net(nn.Module):
def init(self, in_features, out_features):
super().init()
self.layer1 = nn.Sequentail(Linear(1,1))

def forward(self, x):
    return self.layer1(x)

3.3.3 创建线性模型

本文模型是一个非常简单的单层线性模型，用net=nn.Linear(2,2)创建模型对象也是ok的。但是通常模型都不是这样的，所以我们一般也不这么做。在这里我们还是使用Module类定义：

class Net(nn.Module):
    def __init__(self, in_features, out_features):
        super().__init__()
        self.layer1=nn.Linear(in_features, out_features)
        
    def forward(self,x):
        return self.layer1(x)
    
net = Net(in_features, out_features)  #创建神经网络对象

4 配置模型

训练模型前还需要:

初始化模型参数
定义损失函数(即优化目标)
定义优化方法(更新可学习参数的方法)

nn.init模块中包含了常数、随机数等初始化参数的方法。
nn模块中包含了很多常用的损失函数，比如均方误差、交叉熵等。
optim模块中包含了很多常用的优化方法，比如随机梯度下降方法。

nn.init.normal_(net.layer1.weight, mean=0, std=0.01)  #正态分布随机数初始化线性层权重
nn.init.constant_(net.layer1.bias, 0)  #常数初始化偏置项。net.layer1.bias.data.fill_(0)也ok
mseloss = nn.MSELoss()  #均方误差对象作为损失函数
sgd = optim.SGD(net.parameters(), lr=0.03)  #用随机梯度下降对象作为优化函数。

5 训练模型

训练模型通常采用循环迭代如下步骤完成：

前向传播，根据输入数据预测输出数据
反向传播，计算梯度
优化，更新参数
清零梯度数据

for epoch in range(1001):
    y_predict = net(x_train) #前向传播，自动调用Module的forward方法
    loss = mseloss(y_predict, y_train)  #计算损失函数
    loss.backward() #反向传播
    sgd.step() #更新参数(weight和bias)
    sgd.zero_grad() #清零梯度数据
    
    np.set_printoptions(precision=2)
    if(epoch%100==0):
        print(f"epoch:{epoch}, loss:{loss:.2f}, weight:{net.layer1.weight.data.numpy()}, bias:{net.layer1.bias.data.numpy()}")

epoch:0, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:100, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:200, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:300, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:400, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:500, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:600, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:700, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:800, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:900, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]
epoch:1000, loss:1.03, weight:[[0.97 1.03]
 [0.49 0.84]], bias:[0.51 0.99]

训练好的模型可以用于预测，即根据未知结果的x计算预测y。由于我们已知线性回归的系数。这里就不在预测了。

6 完整代码

import torch
from torch import nn, optim
import numpy as np
import matplotlib.pyplot as plt

# 生成训练数据

N = 1000  #训练数据样本个数。
in_features = 2  #单个输入样本的变量个数。
out_features = 2  #单个输出的变量个数。

x_train = torch.randn(N, 2)  #形状为（N,in_features）
w = torch.tensor([[1, 1], [0.5, 0.8]])  #注意形状和方程顺序相同
b = torch.tensor([0.5, 1])  #注意形状为(out_features)，这样y可以用[email protected]+b计算
y_train = x_train @ w.T + b  #形状为（N,out_features）
y_train += torch.randn(N, 2)  #增加数据噪声

#创建模型


class Net(nn.Module):

    def __init__(self, in_features, out_features):
        super().__init__()
        self.layer1 = nn.Linear(in_features, out_features)

    def forward(self, x):
        return self.layer1(x)


net = Net(in_features, out_features)  #创建神经网络对象

#配置模型

nn.init.normal_(net.layer1.weight, mean=0, std=0.01)  #正态分布随机数初始化线性层权重
nn.init.constant_(net.layer1.bias,
                  0)  #常数初始化偏置项。net.layer1.bias.data.fill_(0)也ok
mseloss = nn.MSELoss()  #均方误差对象作为损失函数
sgd = optim.SGD(net.parameters(), lr=0.03)  #用随机梯度下降对象作为优化函数。

#训练模型

for epoch in range(1001):
    y_predict = net(x_train)  #前向传播，自动调用Module的forward方法
    loss = mseloss(y_predict, y_train)  #计算损失函数
    loss.backward()  #反向传播
    sgd.step()  #更新参数(weight和bias)
    sgd.zero_grad()  #清零梯度数据

    np.set_printoptions(precision=2)
    if (epoch % 100 == 0):
        print(
            f"epoch:{epoch}, loss:{loss:.2f}, weight:{net.layer1.weight.data.numpy()}, bias:{net.layer1.bias.data.numpy()}"
        )

epoch:0, loss:2.92, weight:[[0.04 0.03]
 [0.02 0.02]], bias:[0.01 0.03]
epoch:100, loss:1.04, weight:[[0.96 0.91]
 [0.48 0.74]], bias:[0.48 0.97]
epoch:200, loss:1.03, weight:[[1.01 0.98]
 [0.52 0.79]], bias:[0.51 1.03]
epoch:300, loss:1.03, weight:[[1.01 0.98]
 [0.52 0.8 ]], bias:[0.51 1.03]
epoch:400, loss:1.03, weight:[[1.01 0.98]
 [0.52 0.8 ]], bias:[0.51 1.03]
epoch:500, loss:1.03, weight:[[1.01 0.98]
 [0.52 0.8 ]], bias:[0.51 1.03]
epoch:600, loss:1.03, weight:[[1.01 0.98]
 [0.52 0.8 ]], bias:[0.51 1.03]
epoch:700, loss:1.03, weight:[[1.01 0.98]
 [0.52 0.8 ]], bias:[0.51 1.03]
epoch:800, loss:1.03, weight:[[1.01 0.98]
 [0.52 0.8 ]], bias:[0.51 1.03]
epoch:900, loss:1.03, weight:[[1.01 0.98]
 [0.52 0.8 ]], bias:[0.51 1.03]
epoch:1000, loss:1.03, weight:[[1.01 0.98]
 [0.52 0.8 ]], bias:[0.51 1.03]

Transformer底层原理解析及基于pytorch的代码实现 LiRuiJie 人工智能 transformer pytorch 深度学习
1.Transformer底层原理解析1.1核心架构突破Transformer是自然语言处理领域的革命性架构，其核心设计思想完全摒弃了循环结构，通过自注意力机制实现全局依赖建模。整体架构图如下：以下是其核心组件：1）自注意力机制（Self-Attention）-输入序列的每个位置都能直接关注所有位置-数学公式（缩放点积注意力）：-Q：查询矩阵（当前关注点）-K：键矩阵（被比较项）-V：值矩阵（实际
pytorch-数学运算码啥码深度学习之pytorch pytorch 深度学习 python
四则运算加减乘除add+sub-mul*div/a=torch.rand(3,4)b=torch.rand(4)a,b'''(tensor([[0.2384,0.5022,0.7100,0.0400],[0.1716,0.0894,0.0795,0.1456],[0.7635,0.9423,0.7649,0.3379]]),tensor([0.8526,0.8296,0.1845,0.7922])
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码算法 matlab 神经网络大数据人工智能深度学习机器学习
目录MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（多指标，多图）1项目背景介绍...1项目目标与意义...2项目挑战...3项目特点与创新...5<
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
【PyTorch】保存和加载模型 Jackilina_Stone #Deep Learning pytorch python 人工智能深度学习模型
目录■state_dict■用于推理的保存和加载模型保存/加载state_dict保存/加载整个模型以TorchScript格式导出/加载模型■保存和加载用于推断和/或恢复训练的一般检查点(Checkpoint)■将多个模型保存在一个文件中■使用来自不同模型的参数进行暖启动(Warmstarting)模型■跨设备保存和加载模型保存在GPU,加载到CPU保存在GPU,加载到GPU保存在CPU,加载到
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
【大模型学习 | 量化】pytorch量化基础知识（1）九年义务漏网鲨鱼算法学习 pytorch 人工智能
pytorch量化[!note]官方定义：performingcomputationsandstoringtensorsatlowerbitwidthsthanfloatingpointprecision.支持INT8量化，可以降低4倍的模型大小以及显存需求，加速2-4倍的推理速度通俗理解：降低权重和激活值的精度（FP32→INT8），从而提高模型大小以及显存需求。一、前置知识1.1算子融合将多个
RNN笔记 sjtu_哈基坤 LLM随笔 rnn 笔记人工智能
来源见此处概述RNN(RecurrentNeuralNetwork)RNN之所以称为循环神经网络,是因为一个序列的当前的输出与前面的输出也有关.具体表现是网络会对前面的信息进行记忆并且应用于当前输出的计算中.即隐藏层之间的节点也是有连接的.并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出.理论上RNN能对任何长度的序列进行处理,但是在实践中,为了降低复杂性,往往假设当前状态只与前面几
从0开始学习计算机视觉--Day04--线性分类 Chef_Chen 学习计算机视觉分类
从宏观来看，卷积网络可以看做是由一个个不同的神经网络组件组合而成，就像积木一样通过不同类型的组件搭建形成，其中线性分类器是一个很重要的组件，在很多卷积网络中都有用到，所以了解清楚它的工作原理对我们后续的学习会有很大的帮助。线性分类器是参数模型中最简单，最基础的例子，下面我们用输入图片输出图片分类的模型的例子来更进一步地了解它。首先，我们输入一张图片到模型中，输入后我们就会得到f(x,W)，x指的是
如何设计和训练大模型（神经网络）：从入门到精通！
“学习一门技术，先找一套工具和理论研究下去；千万不要反复横跳，什么都想学”大模型作为未来重要的发展方向，很多人想学习大模型技术，但又苦于无从下手；而本公众号前前后后也写过一些怎么学习大模型技术的方法论；但大部分都是从应用的角度作为切入点。但是，有一个问题就是，如果你是一个技术从业者，想学习和设计一款属于自己的大模型，应该怎么做？设计一个自己的大模型大模型作为一门快速发展的新型技术，其理论与实现也是
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
VLLM：虚拟大型语言模型（Virtual Large Language Model）大霸王龙语言模型人工智能自然语言处理
VLLM：虚拟大型语言模型（VirtualLargeLanguageModel）VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型，这些模型能够处理和理解大量的文本数据。VLLM的核心是“大型语言模型”，这是一种通过深度神经网络训练的算法，能够在理解和生成人类语言方面表现出极高的能力。解释：虚拟：意味着这个模型不是在单个物理设备
深度学习计算机视觉开源系统OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置【详细、可运行】 nomoremorphine 深度学习计算机视觉开源
OpenMMLab（mmsegmentation、mmdetection、mmpose）环境配置OpenMMLab简介优势：一、Windows/Linux下环境配置（以mmsegmentationv1.2.2（最新版）为例）0.确认安装版本信息1）确认电脑显卡版本2）确认mmcv对应版本3）确认版本1.安装CUDA和cuDNN2.创建conda环境，下载pytorch3.安装mmcv4.安装MMS
Day7 神经网络的矩阵基础
神经网络的矩阵基础一、矩阵的基本概念1.矩阵的定义与类型矩阵是一个按照长方阵列排列的复数或实数集合。在神经网络中，矩阵是表示和操作数据的基本结构。常见的矩阵类型包括：方阵：行数和列数相等的矩阵，记作n×nn×nn×n矩阵。行向量：只有一行的矩阵，可以看作是一个n×1n×1n×1的矩阵。列向量：只有一列的矩阵，可以看作是一个1×n1×n1×n的矩阵。单位矩阵：主对角线上的元素为1，其余元素为0的方阵
【软件系统架构】系列四：嵌入式软件-NPU（神经网络处理器）系统及模板
目录一、什么是NPU？二、NPU与CPU/GPU/DSP对比三、NPU的工作原理核心结构：数据流架构：四、NPU芯片架构（简化图）五、NPU的优势六、NPU应用场景视觉识别语音识别自动驾驶智能监控AIoT设备七、主流NPU芯片/架构实例八、开发者工具生态（通用）九、NPU集成建议（嵌入式开发场景）十、NPU芯片选型对比+模型部署流程+嵌入式工程模板1.主流NPU芯片选型对比表2.模型部署流程（以T
DAY 33 简单的神经网络 2401_84854050 python打卡神经网络深度学习人工智能
1.数据预处理（0）准备数据、划分数据#仍然用4特征，3分类的鸢尾花数据集作为我们今天的数据集fromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitimportnumpyasnp#加载鸢尾花数据集iris=load_iris()X=iris.data#特征数据y=iris.target
入选 ICML 2025！哈佛医学院等推出全球首个 HIE 领域临床思维图谱模型，神经认知结果预测任务上性能提升 15% hyperai
在人工智能技术突飞猛进的当下，大型视觉-语言模型（LVLMs）正以惊人的速度重塑多个领域的认知边界。在自然图像与视频分析领域，这类模型依托先进的神经网络架构、海量标注数据集与强大算力支持，已能精准完成物体识别、场景解析等高阶任务。而在自然语言处理领域，LVLMs通过对TB级文本语料的学习，在机器翻译、文本摘要、情感分析等任务上达到专业级水准，其生成的学术摘要甚至能精准提炼医学文献的核心结论。然而当
（线性代数最小二乘问题）Normal Equation（正规方程）音程数学线性代数机器学习人工智能
NormalEquation（正规方程）是线性代数中的一个重要概念，主要用于解决最小二乘问题（LeastSquaresProblem）。它通过直接求解一个线性方程组，找到线性回归模型的最优参数（如权重或系数）。以下是详细介绍：1.定义与数学表达式给定一个超定方程组（方程数量多于未知数）：Ax=bA\mathbf{x}=\mathbf{b}Ax=b其中：A∈Rm×nA\in\mathbb{R}^{m
第2篇：路由基础——Gin的核心功能 GO兔 gin golang 后端
引言：为什么路由是Web框架的"神经网络"路由是Web应用的骨架，它决定了客户端请求如何被服务器处理和响应。想象一个没有路由的Web应用——就像一座没有路标和门牌的城市，用户根本无法找到目的地。Gin框架的高性能很大程度上归功于其基于RadixTree（基数树）实现的路由引擎，这使得路由匹配速度达到了O(logn)的时间复杂度。对于初中级工程师来说，掌握路由设计不仅是实现API的基础，更是写出高性
【深度学习解惑】训练RNN时如何解决梯度消失或梯度爆炸？
训练RNN时如何解决梯度消失或梯度爆炸？1.引言与背景介绍循环神经网络（RNN）是处理序列数据的核心模型，但在训练过程中面临两大挑战：梯度消失（GradientVanishing）和梯度爆炸（GradientExplosion）。梯度消失导致长距离依赖难以学习（如文本中相距50个词的关联），而梯度爆炸会造成参数剧烈震荡甚至数值溢出（NaN值）。本文系统分析问题根源并提供工程级解决方案。2.原理解释
深入理解AI人工智能深度学习的原理架构 AI学长带你学AI 人工智能深度学习 ai
深入理解AI人工智能深度学习的原理架构关键词：人工智能、深度学习、原理架构、神经网络、数学模型摘要：本文旨在深入剖析AI人工智能深度学习的原理架构。首先介绍了深度学习的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了深度学习的核心概念，如神经网络、激活函数等，并通过示意图和流程图进行直观展示。详细讲解了核心算法原理，如反向传播算法，并给出Python代码示例。同时，介绍了深度学习中的数学
【大模型】【机器学习】【面试宝典】曾小文机器学习面试人工智能
面试热点科普：BatchNorm和LayerNorm有什么区别？在深度学习面试中，经常会被问到模型训练稳定性相关的问题。其中两个关键词BatchNorm和LayerNorm绝对是高频词！今天就带大家快速梳理两者的核心区别，用最通俗的方式掌握它们的原理和应用场景，面试不再含糊！1.什么是归一化（Normalization）？归一化是神经网络训练过程中的一项重要技巧，目的是：缓解梯度爆炸/消失加快收敛
Python Robot Framework【自动化测试框架】简介老胖闲聊 Python库大全 python 开发语言
想全面了解DeepSeek的看过来【包邮】DeepSeek全攻略人人需要的AI通识课零基础掌握DeepSeek的实用操作手册指南【限量作者亲笔签名版售完即止】玩转DeepSeek这本就够了【自营包邮】DeepSeek实战指南deepseek从入门到精通实用操作指南现代科技科普读物AI普及知识读物人工智能使用教程中小学读物京东超级618Python初学者的入门教程动手学深度学习PyTorch版李沐和
PyTorch版本匹配终极指南：手把手教你避开99%的安装坑
被版本支配的恐惧（真实故事）上周我的学弟兴冲冲跑来：“师兄！我照着CSDN教程装PyTorch，结果训练时直接报错cudaruntimeerror！”我一看他的环境——Python3.12强行装PyTorch1.8，搭配CUDA11.6…（此时应有乌鸦飞过）这就像用Win11系统装XP时代的显卡驱动，能不翻车吗？！一、版本对应表（2024最新版）（掏出小本本记重点！！！）这是我整理的最新版本对应关
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p