Rainbow0210

深入理解人工神经网络——从原理到实现

王琦 QQ：451165431 计算机视觉&深度学习

转载请注明出处：http://blog.csdn.net/Rainbow0210/article/details/78396755。

本篇通过在MNIST上的实验，引出神经网络相关问题，详细阐释其原理以及常用技巧、调参方法。欢迎讨论相关技术&学术问题，但谢绝拿来主义。

代码是博主自己写的，因为倾向于详细阐述底层原理，所以没有用TensorFlow等主流DL框架。实验结果与TF等框架可能稍有不同，其原因在于权重初始化方式的差异等，但并不影响对于网络的本质的理解。

此外，值得注意的是博主在一年多前写的关于DBN的博客：
http://blog.csdn.net/rainbow0210/article/details/53010694
在本次实验中，也证明了使用 Relu 作为激活函数时可以达到 Sigmoid+DBN 近乎相同的性能。DBN所解决的是深度网络的参数初始化的问题，在传统激活函数中（Sigmoid系），随着网络权值的更新，会有相当一部分节点的值分布在激活函数值域的两侧，导致其梯度近乎为零，使得网络难以更新，即“梯度消亡”。而通过 DBN 去初始化网络权重，再 fine-tuning，可以很大程度上解决这个问题。但实际上，利用 Relu 激活函数替代 Sigmoid 可以更本质地解决这个问题。这也是为什么如今即便是很深的网络，也可以直接进行训练的原因（有足够多的训练样本）。

实验概述

数据集

MNIST：0-9共10个数字，其中，60000条训练样本，10000条测试样本，每条样本分辨率为 28×28 。拉伸为 1 维向量，因而为 28×28=784 维。

实验平台

Python 2.7

实验内容

通过MLP完成对MNIST数据集的分类。具体有需要实现一下三部分：

全连接层：实现并比较1层隐层的 MLP 与2层隐层的MLP的性能差异
激活函数：实现并比较 Relu 和 Sigmoid 两种激活函数的性能差异
损失函数：实现 EuclideanLoss

实验原理

上图是一个典型的包含两个隐层的MLP，其中，每个圆圈代表一个神经元，且每个神经元模型包含一个可微的非线性激活函数（如Sigmoid）；每两个神经元之间的连线具有一个权值 w ，且每个神经元具有一个偏置值 b 。 w 和 b 这两个值可以使得网络层与层之间产生映射关系，而激活函数则可以使得这种映射具有非线性，从而可以得到更复杂的输入与输出之间的映射表达。
MLP的训练往往基于反向传播算法，这也是本次试验的重点。其中，包含如下两个阶段

前向传播：网络参数（ w 和 b ）固定，输入信号在网络中一层一层传播（图中对应于自下向上），直到输出端。
反向传播：通过比较网络的输出信号和期望的输出信号所差生的一个误差信号（ loss )，该误差信号通过网络一层一层传播（图中对应于自上向下），网络参数（ w 和 b ）通过计算梯度不断修正，使得 loss 逐渐收敛于局部极小值，即误差信号逐步减小。

前向传播（Forward）

记第 k 层神经元第 k+1 层神经元与之间的权值为 W(k,k+1) ，其中， k=0,1 , 第 k 层神经元的偏置值为 b(k) ， x 为输出信号，是一个 n 维的向量。则激活前，第一个隐层的输出值 u(1) 为：

u (1) = x \cdot W (0, 1) + b (1)

注意到

x \cdot W (0, 1) + b (1) = [x, 1] \cdot [W (0, 1) T, b T] T

所以，可以将

x 和

W 作相应的增广，达到简化的效果（以下皆讨论增广后的表达）：

u (1) = x \cdot W (0, 1)

激活后，第一个隐层的输出值

y(1) 为：

y (1) = σ (u (1))

其中，

σ(⋅) 为激活函数，本次实验中为 Relu 函数或者 Sigmoid 函数, 其原函数及其导数可以表示为:

R e l u : S i g m o i d : σ (x) σ' (x) σ (x) σ' (x) = m a x (x, 0), = {1, x > 0 0, x \leq 0 = 1 1 + e - x = σ (x) (1 - σ (x))

类似地，第二个隐层的输出值 y(2) 和输出层的输出值 y(3) 可以表示为：

y (2) = σ (u (2)) = σ (y (1) \cdot W (1, 2))

y (3) = σ (u (3)) = σ (y (2) \cdot W (2, 3))

至此，即完成了前向传播的过程，我们通过网络的输入信号

x 得到了其相应的输出信号

y(3) ，简记为

y 。

反向传播（Backward）

在进行反向传播之前，我们需要定义误差信号，即损失函数（ loss ），在本次实验中为 EuclideanLoss。记真实概率分布（即标签）为 y¯ ，则 EuclideanLoss 可以表示为：

 (y, y ¯) = 1 2 ∣ ∣ y - y ¯ ∣ ∣ 2

欲更新权重系数，使得  达到极小值，则需要求  对 W(t,t+1) 的偏导，其中 t=0,1,2 。
对于输出层，由于其存在一个期望响应，即 y¯ ，所以可以直接通过损失函数结合链式法则求得偏导；但对于隐藏层，由于不存在期望相响应，所以隐藏层的误差信号要根据所有与隐藏层神经元相连的神经元的损失来向后递归求得，也就是根据损失函数从输出层逐步递归求得偏导。下面分别介绍对于输出层和隐藏层的权值更新方式。其中， w(t,t+1)i,j 表示第 t 层的第 i 个神经元和第 t+1 层的第 j 个神经元之间的连接的权值，其余变量定义同上，下标表示神经元的位置。

输出层

\partial  \partial w ( 2 , 3 ) i , j = \partial  \partial y ( 3 ) j \cdot \partial y ( 3 ) j \partial u ( 3 ) j \cdot \partial u ( 3 ) j \partial w ( 2 , 3 ) i , j

注意到:

\partial  \partial y ( 3 ) j = y (3) j - y ¯ j \partial y ( 3 ) j \partial u ( 3 ) j = σ' (u (3) j) \partial u ( 3 ) j \partial w ( 2 , 3 ) i , j = y (2) i

所以：

\partial  \partial w ( 2 , 3 ) i , j = (y (3) j - y ¯ j) \cdot σ' (u (3) j) \cdot y (2) i

则修正量 Δw(2,3)i,j 为：

Δ w (2, 3) i, j = - η \cdot \partial  \partial w ( 2 , 3 ) i , j = - η \cdot (y (3) j - y ¯ j) \cdot σ' (u (3) j) \cdot y (2) i

其中，负号意味着在权空间中梯度下降。定义局部梯度 δ(3)j ：

δ (3) j = \partial  \partial y ( 3 ) j \cdot \partial y ( 3 ) j \partial u ( 3 ) j = (y (3) j - y ¯ j) \cdot σ' (u (3) j)

则：

Δ w (2, 3) i, j = - η \cdot δ (2, 3) j \cdot y (2) i

其中， η 是学习速率，最终权重更新可以表示为：

w (2, 3) i, j \leftarrow w (2, 3) i, j + Δ w (2, 3) i, j

隐藏层

\partial  \partial w ( 1 , 2 ) i , j = \partial  \partial y ( 2 ) j \cdot \partial y ( 2 ) j \partial u ( 2 ) j \cdot \partial u ( 2 ) j \partial w ( 1 , 2 ) i , j

其中后两项的偏导是与输出层完全类似的：

\partial y ( 2 ) j \partial u ( 2 ) j = σ' (u (2) j) \partial u ( 2 ) j \partial w ( 1 , 2 ) i , j = y (1) i

对于 ∂∂y(2)j ，由于 y(2)j 并不存在期望响应，所以需要通过链式法则来求偏导：

\partial  \partial y ( 2 ) j = \sum k (\partial  \partial y ( 3 ) k \cdot \partial y ( 3 ) k \partial u ( 3 ) k \cdot \partial u ( 3 ) k \partial y ( 2 ) j) = \sum k (δ (3) k \cdot \partial u ( 3 ) k \partial y ( 2 ) j)

注意到：

\partial u ( 3 ) k \partial y ( 2 ) j = w (2, 3) j, k

所以：

\partial  \partial y ( 2 ) j = \sum k (δ (3) k \cdot w (2, 3) j, k)

进而有：

\partial  \partial w ( 1 , 2 ) i , j = (σ' (u (2) j) \cdot \sum k (δ (3) k \cdot w (2, 3) j, k)) \cdot y (1) i

则修正量 Δw(1,2)i,j 为：

Δ w (1, 2) i, j = - η \cdot \partial  \partial w ( 1 , 2 ) i , j = - η \cdot (σ' (u (2) j) \cdot \sum k (δ (3) k \cdot w (2, 3) j, k)) \cdot y (1) i

其中，负号意味着在权空间中梯度下降。定义局部梯度 δ(2)j ：

δ (2) j = σ' (u (2) j) \cdot \sum k (δ (3) k \cdot w (2, 3) j, k)

则：

Δ w (1, 2) i, j = - η \cdot δ (2) j \cdot y (1) i

其中， η 是学习速率，最终权重更新可以表示为：

w (1, 2) i, j \leftarrow w (1, 2) i, j + Δ w (1, 2) i, j

学习速率（ Learning Rate ）

通过网络训练的逐步迭代，反向传播算法可以得到在权空间中基于最速下降的轨迹的近似，所以，学习速率 η 越小，这种轨迹也就越平滑，网络权值的变化量也就越小，但是相应的训练回合（ epoch ）也会随之增加。反之，如果学习速率 η 越大，则有可能导致网络的权值的变化量过大，从而发生震荡现象，网络不能够收敛。所以，学习速率的选取在网络训练的过程中是十分重要的。

动量（ Momentom ）

一个既能加快学习速度，又能保证网络的稳定性的一个简单的方法就是为修正量增加动量项：

Δ w (t, t + 1) i, j (n) = - η \cdot δ (t + 1) j (n) \cdot y (t) i (n) + α Δ w (t, t + 1) i, j (n - 1)

其中，每一项后面的括号（即（n）和（n-1））表示在第n个回合（ epoch ）的修正量， α 称为动量常数，一般在 [0,1) 的区间内。

权值衰减（ Weight Decay ）

在极为有限的训练样本以及大量的网络参数的情况下，网络的训练非常容易发生过拟合的现象，导致泛化能力降低，而权值衰减可以一定程度地避免过拟合的发生。其通常的做法是在损失函数中加上 l2 正则项:

 (y, y ¯) = 1 2 ∣ ∣ y - y ¯ ∣ ∣ 2 + λ 2 \sum k ∣ ∣ W (k, k + 1) ∣ ∣ 2

其中， λ 为衰减系数。此时，修正量相应为：

Δ w (t, t + 1) i, j = - η \cdot (δ (t + 1) j \cdot y (t) i + λ w (t, t + 1) i, j)

代码实现

损失函数（ EuclideanLoss ）

class EuclideanLoss(object):
    def __init__(self, name):
        self.name = name

    def forward(self, input, target):
        return 0.5 * np.mean(np.sum(np.square(input - target), axis=1))

    def backward(self, input, target):
        return (input - target) / len(input)

全连接层

class Linear(Layer):
    def __init__(self, name, in_num, out_num, init_std):
        super(Linear, self).__init__(name, trainable=True)
        self.in_num = in_num
        self.out_num = out_num
        self.W = np.random.randn(in_num, out_num) * init_std
        self.b = np.zeros(out_num)

        self.grad_W = np.zeros((in_num, out_num))
        self.grad_b = np.zeros(out_num)

        self.diff_W = np.zeros((in_num, out_num))
        self.diff_b = np.zeros(out_num)

    def forward(self, input):
        self._saved_for_backward(input)
        output = np.dot(input, self.W) + self.b
        return output

    def backward(self, grad_output):
        input = self._saved_tensor
        self.grad_W = np.dot(input.T, grad_output)
        self.grad_b = np.sum(grad_output, axis=0)
        return np.dot(grad_output, self.W.T)

    def update(self, config):
        mm = config['momentum']
        lr = config['learning_rate']
        wd = config['weight_decay']

        self.diff_W = mm * self.diff_W + (self.grad_W + wd * self.W)
        self.W = self.W - lr * self.diff_W

        self.diff_b = mm * self.diff_b + (self.grad_b + wd * self.b)
        self.b = self.b - lr * self.diff_b

激活函数

Relu：

class Relu(Layer):
    def __init__(self, name):
        super(Relu, self).__init__(name)

    def forward(self, input):
        self._saved_for_backward(input)
        return np.maximum(0, input)

    def backward(self, grad_output):
        input = self._saved_tensor
        return grad_output * (input > 0)

Sigmoid：

class Sigmoid(Layer):
    def __init__(self, name):
        super(Sigmoid, self).__init__(name)

    def forward(self, input):
        output = 1 / (1 + np.exp(-input))
        self._saved_for_backward(output)
        return output

    def backward(self, grad_output):
        output = self._saved_tensor
        return grad_output * output * (1 - output)

实验结果

学习速率

将网络层数固定为 1 层，节点数为 512 ，激活函数为 Relu，动量为 0.9 ，权值衰减为 0.0005 ，迭代数( epoch )为 100 。探究学习速率对于模型性能的影响。实验数据如下表：

学习速率	训练集loss	训练集accuracy	测试集loss	测试集accuracy
0.01	0.0139	99.29	0.0213	98.47
0.005	0.0156	99.15	0.0222	98.28
0.001	0.0300	97.81	0.0222	97.36

相应的三个实验的函数曲线:

从图表中可以看出，随着学习速率的减小，网络的学习过程更加平稳，曲线更加光滑，但是，网络的收敛速度也会相应减小，需要训练的epoch数会变多。

激活函数

将网络层数固定为 1 层，节点数为 512 ，学习速率为 0.01 ，动量为 0.9 ，权值衰减为 0.0005 ，迭代数( epoch )为 100 。探究激活函数对于模型性能的影响。实验数据如下表：

激活函数	训练集loss	训练集accuracy	测试集loss	测试集accuracy
Relu	0.0139	99.29	0.0213	98.47
Sigmoid	0.0697	94.47	0.0704	94.14

相应的两个实验的函数曲线:

从图表中可以看出，相比于 Relu 作为激活函数，Sigmoid 作为激活函数时，网络的收敛速度更慢，性能也相对变差。这是因为当 Sigmoid 作为激活函数时，会有部分神经元达到“饱和”的状态：其值分布在 Sigmoid 函数的值域（即（0,1））的两端，梯度近乎为0，导致其值难以更新。但是 Relu 作为激活函数时则不会出现这种情况。

动量

将网络层数固定为 1 层，节点数为 512 ，激活函数为 Relu，学习速率为 0.01 ，权值衰减为 0.0005 ，迭代数( epoch )为 100 。探究动量参数对于模型性能的影响。实验数据如下表：

动量参数	训练集loss	训练集accuracy	测试集loss	测试集accuracy
0.1	0.0262	97.95	0.0294	97.57
0.5	0.0195	98.72	0.0251	97.90
0.9	0.0139	99.29	0.0213	98.47

相应的三个实验的函数曲线:

从图表中可以看出，适当增加动量参数的值可以加快网络的学习速度，但又不会使得网络震荡的太厉害，学习过程相对平稳。

权值衰减

将网络层数固定为 1 层，节点数为 512 ，激活函数为 Relu，学习速率为 0.01 ，动量为 0.9 ，迭代数( epoch )为 100 。探究权值衰减参数对于模型性能的影响。实验数据如下表：

权值衰减参数	训练集loss	训练集accuracy	测试集loss	测试集accuracy
0.001	0.0221	98.56	0.0254	98.00
0.0005	0.0139	99.29	0.0231	98.47
0.0001	0.0066	99.78	0.0188	98.67
0.00005	0.0062	99.67	0.0189	98.56
0.00001	0.0048	99.73	0.0186	98.55
0.000005	0.0051	99.64	0.0188	98.52

相应的六个实验的函数曲线:

从图表中可以看出，权值衰减系数不宜过大，当其小于 0.0005 时，其对实验结果几乎没有什么影响。

网络层数

单隐层网络节点数固定为 512 ，双隐层网络节点数固定为 512，128 ，激活函数为 Relu/Sigmoid，学习速率为 0.01 ，动量为 0.9 ，权值衰减为 0.0005 ，迭代数( epoch )为 100 。探究网络层数对于模型性能的影响。实验数据如下表：

网络层数	激活函数	训练集loss	训练集accuracy	测试集loss	测试集accuracy
1	Relu	0.0139	99.29	0.0231	98.47
2	Relu	0.0100	99.54	0.0169	98.62
1	Sigmoid	0.0697	94.47	0.0704	94.14
2	Sigmoid	0.0825	92.22	0.0781	92.87

相应的四个实验的函数曲线:

从图表中可以看出，相比于 Sigmoid，Relu作为激活函数时网络具有更好的性能。此外，双隐层的Sigmoid 训练难度很大，收敛速度极慢。而双隐层 Relu 网络相比于单隐层 Relu 网络具有更好的性能，这是因为多隐层可以更好地拟合高度非线性的分类面，从而使得模型具有更强的分类能力。

深度学习处理时间序列（2） yyc_audio 深度学习笔记深度学习人工智能
在数据中寻找周期性在多个时间尺度上的周期性，是时间序列数据非常重要且常见的属性。无论是天气、商场停车位使用率、网站流量、杂货店销售额，还是健身追踪器记录的步数，你都会看到每日周期性和年度周期性（人类生成的数据通常还有每周的周期性）。探索数据时，一定要注意寻找这些模式。（让人想到波，想到傅里叶变换）对于这个数据集，如果你想根据前几个月的数据来预测下个月的平均温度，那么问题很简单，因为数据具有可靠的年
机器视觉|手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计 RockLiu@805 机器视觉 YOLO
手势识别：基于YOLOv5的手部检测与MediaPipe的关键点估计在实时计算机视觉应用中，手部检测与关键点估计是实现手势识别的重要基础。本文将介绍一种基于深度学习的手势识别技术方案，通过结合YOLOv5物体检测网络和MediaPipe关键点检测框架，实现实时的手部定位与关键点提取。技术背景gesturerecognition作为计算机视觉领域的重要研究方向，在HCI（人机交互）、遥控行为分析、虚
基于深度学习的个性化新闻推荐系统设计与实现计算机毕设 sj52abcd 深度学习课程设计人工智能毕业设计
博主介绍：✌专注于VUE,小程序，安卓，Java,python,物联网专业，有17年开发经验，长年从事毕业指导，项目实战✌选取一个适合的毕业设计题目很重要。✌关注✌私信我✌具体的问题，我会尽力帮助你。研究的背景:随着互联网技术的发展和普及,人们越来越依赖互联网获取信息。然而,随着信息量的不断增加,用户在查找新闻时面临着信息过载的问题。为了解决这个问题,个性化新闻推荐系统被广泛应用。个性化新闻推荐系
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
《Python深度学习》第四讲：计算机视觉中的深度学习 earthzhang2021 2025讲书课专栏 python 深度学习计算机视觉 1024程序员节 numpy 算法人工智能
计算机视觉是深度学习中最酷的应用之一，它让计算机能够像人类一样“看”和理解图像。想象一下，计算机可以自动识别照片中的物体、人脸，甚至可以读懂交通标志。这一切听起来是不是很神奇？其实，这一切都离不开深度学习中的卷积神经网络（CNN）。今天，我们就来深入了解一下CNN是如何工作的。5.1卷积神经网络简介先来看下卷积神经网络（CNN）是什么。CNN是一种专门用于处理图像数据的神经网络。它的灵感来源于人类
基于人工智能的智能视频内容分析系统小彭律师 python
基于人工智能的智能视频内容分析系统系统功能1.视频数据预处理降噪与滤波：去除视频画面中的噪点和干扰画质增强：调整亮度、对比度和色彩平衡关键帧提取：减少数据量，提取关键信息2.目标识别检测基于深度学习模型（YOLO、FasterR-CNN等）识别多种目标类型（人、车辆、物品等）适应不同光照、角度和遮挡情况输出目标位置、类别和置信度3.行为分析研判基于时序模型（LSTM、3D-CNN等）分析目标动作规
FastDVDnet：基于深度学习的视频去噪框架陆可鹃Joey
FastDVDnet：基于深度学习的视频去噪框架项目地址:https://gitcode.com/gh_mirrors/fa/fastdvdnet项目介绍FastDVDnet是一个高效、开源的深度学习模型，专注于视频去噪。该项目由MatteoTassano开发并维护，旨在提供一种快速且有效的解决方案，以消除视频中的噪声，同时保持图像细节和自然纹理。它利用了时间域的连续性和深层神经网络的力量，确保在
手撕multi-head self attention 代码心若成风、自然语言处理语言模型 transformer
在深度学习和自然语言处理领域，多头自注意力（Multi-HeadSelf-Attention）机制是Transformer模型中的核心组件之一。它允许模型在处理序列数据时，能够同时关注序列中的不同位置，从而捕获到丰富的上下文信息。下面，我们将详细解析多头自注意力机制的实现代码。一、概述多头自注意力机制的核心思想是将输入序列进行多次线性变换，然后分别计算自注意力得分，最后将所有头的输出进行拼接，并通
深度学习 Deep Learning 第2章线性代数 odoo中国 AI编程人工智能深度学习线性代数人工智能
深度学习第2章线性代数线性代数是深度学习的语言。张量操作是神经网络计算的基石，矩阵乘法是前向传播的核心，范数约束模型复杂度，而生成空间理论揭示模型表达能力的本质。本章介绍线性代数的基本内容，为进一步学习深度学习做准备。主要内容2.1标量、向量、矩阵和张量标量：单个数字，用斜体表示，通常赋予小写字母变量名。向量：数字数组，按顺序排列，用粗体小写字母表示，元素通过下标访问。矩阵：二维数字数组，用粗体大
MATLAB算法实战应用案例精讲-【深度学习】归一化林聪木 matlab 算法深度学习
目录为什么要做特征归一化/标准化？常用featurescaling方法计算方式上对比分析featurescaling需要还是不需要什么时候需要featurescaling？什么时候不需要FeatureScaling？归一化基础知识点1.什么是归一化2.为什么要归一化3.为什么归一化能提高求解最优解的速度4.归一化有哪些类型5.不同归一化的使用条件6.归一化和标准化的联系与区别层归一化综述提出背景概
必看！一文读懂知识蒸馏技术小天才学习机打游戏人工智能知识图谱神经网络 langchain windows
导读最近，DeepSeek的爆火让大家对人工智能领域的技术发展又有了新的关注。而知识蒸馏作为深度学习中一项重要的技术，也在背后默默地发挥着作用，今天就来给大家详细介绍一下知识蒸馏及其相关原理。1.知识蒸馏是什么在深度学习领域，大型模型（如DeepSeek）通常具有强大的性能，但它们的计算量和参数量都非常庞大，这使得它们难以在资源受限的设备（如移动设备或嵌入式设备）上部署。例如，GPT-3在570G
从零开始大模型开发与微调：PyTorch 2.0深度学习环境搭建 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch2.0深度学习环境搭建作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习在各个领域的广泛应用，大模型开发与微调成为了当前研究的热点。大模型能够学习到丰富的知识，并在各个下游任务上取得优异的性能。然而，大模型开发与微调需要强大的计算资源和专业的知识背景，这对于许多初学者和研究
AI大模型学习路线及相关资源推荐 python游乐园学习资源学习 Python AI AI编程人工智能
哈喽，大家好！本文为大家带来AI大模型学习路线及相关资源推荐，这对于学习掌握AI大模型很有帮助呦，希望大家多多点赞收藏～感谢～～1AI大模型的基础信息1.1什么是AI大模型AI大模型，即人工智能大型模型，是一种基于深度学习技术，具有海量参数、强大算力支持、能够处理和生成复杂数据的人工智能模型。1.2AI大模型的主要特点规模庞大：AI大模型通常包含海量的参数。例如，谷歌的BERT模型在最初发布时就有
【深度学习与大模型基础】第3章-张量 lynn-66 深度学习与大模型基础深度学习人工智能
大家好！今天我们来聊聊张量（Tensor）。别被这个词吓到，其实它没那么复杂。什么是张量？简单来说，张量就是一个多维数组。你可以把它看作是一个装数据的容器，数据的维度可以是一维、二维，甚至更高。标量（0维张量）：就是一个单独的数字，比如3。向量（1维张量）：一串数字，比如[1,2,3]。矩阵（2维张量）：一个表格，比如[[1,2],[3,4]]。更高维张量：比如[[[1,2],[3,4]],[[5
OpenCV 深度学习模块 cv2.dnn 与其他深度学习框架的优缺点对比及适用场景白.夜深度学习 opencv
OpenCV提供了一个深度学习模块cv2.dnn，让开发者能够在计算机视觉项目中轻松加载和推理深度学习模型。相比于TensorFlow、PyTorch等其他深度学习框架，cv2.dnn有其独特的优点与缺点，适用于不同的应用场景。在这篇文章中，我们将详细分析cv2.dnn的优缺点，并讨论它的适用场景。一、cv2.dnn的优点1.简单易用cv2.dnn提供了一个相对简单且易于使用的接口，适合已经在使用
深度学习中的 blob 格式：与普通 image 的区别及转换原因白.夜深度学习人工智能
在深度学习模型推理过程中，我们经常会用到cv2.dnn.blobFromImage函数将普通图像转换为blob格式。那么，blob格式到底是什么？它和普通image有什么区别？为什么在模型推理中需要这种转换？本文将用通俗的语言为你解答这些问题。1.什么是blob格式？blob是OpenCV中用于深度学习模型输入的一种特殊数据格式，全称为BinaryLargeObject。它本质上是一个多维数组（通
小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程 kaui52066 kaui52066精品源码人工智能 uni-app 前端小程序 php 小狐狸AI数字人数字人源码
一.系统介绍小狐狸AI数字人分身系统源码独立部署支持PC端、小程序端、H5端，一键克隆真人形象+声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音，实现口型同步0门槛SAAS化操作无需专业设备，网页端一键生成数字人视频海量模板库：电商
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
OpenAI 团队组织架构和研发技术栈 AI天才研究院 ChatGPT 人工智能
OpenAI是一家致力于推动人工智能技术发展的公司，成立于2015年。其目标是确保人工智能技术造福全人类。为了实现这一目标，OpenAI采用了多种先进的技术和组织架构来推动其研发工作。目录OpenAI组织架构和研发技术栈概述1OpenAI团队的世界顶尖科学家IlyaSutskever：Ilya是OpenAI的联合创始人之一，也是深度学习领域的先驱。他在神经网络和深度学习方面的研究具有重要影响，曾与
深度学习-服务器训练SparseDrive过程记录 weixin_40826634 深度学习服务器人工智能
1、cuda安装1.1卸载安装失败的cuda参考：https://blog.csdn.net/weixin_40826634/article/details/127493809注意：因为/usr/local/cuda-xx.x/bin/下没有卸载脚本，很可能是apt安装的，所以通过执行下面的命令删除：apt-get--purgeremove"cuda*"apt-getautoremove然后执行f
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms) （initial）大模型科普算法人工智能量化
1模型量化的必要性：降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大，其在资源受限的设备（如移动端、嵌入式设备）上的部署面临着巨大的挑战。即使在服务器端，部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（
《探秘人工智能与鸿蒙系统集成开发的硬件基石》程序猿阿伟人工智能 harmonyos 华为
在科技飞速发展的当下，人工智能与鸿蒙系统的集成开发开辟了创新的前沿领域。这一融合不仅代表着技术的演进，更预示着智能设备生态的全新变革。而在这场技术盛宴的背后，坚实的硬件配置是确保开发顺利进行的关键，它就像一座大厦的基石，决定了上层建筑的高度和稳定性。处理器：运算核心的澎湃动力处理器作为硬件系统的核心，在人工智能与鸿蒙系统集成开发中扮演着至关重要的角色。对于模型训练任务，尤其是深度学习模型，其复杂的
嵌入式AI必备技能2-模型的压缩与加速奥德彪123 嵌入式AI 人工智能嵌入式
嵌入式AI必备技能2-模型的压缩与加速引言随着嵌入式AI设备的广泛应用，模型的计算效率和存储需求成为核心挑战。由于嵌入式系统通常资源受限，传统的深度学习模型往往难以直接部署。因此，模型压缩和加速技术应运而生，旨在减少计算量、降低存储需求，同时尽可能保持模型的准确性。本文介绍几种常见的模型压缩与加速方法，包括剪枝、低秩分解、量化、权值共享、知识蒸馏等，并探讨如何综合应用这些技术来优化AI模型。1.常
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

深入理解人工神经网络——从原理到实现

实验概述

数据集

实验平台

实验内容

实验原理

前向传播（Forward）

反向传播（Backward）

输出层

隐藏层

学习速率（ Learning Rate ）

动量（ Momentom ）

权值衰减（ Weight Decay ）

代码实现

损失函数（ EuclideanLoss ）

全连接层

激活函数

Relu：

Sigmoid：

实验结果

学习速率

激活函数

动量

权值衰减

网络层数

你可能感兴趣的:(深度学习)