大黄

机器学习（十二）：人工神经网络（ANN）

一、人工神经元

1. 感知器
2. S型神经元
3. $tanh$ 神经元

4. 修正线性神经元（rectified linear neuron）或者修正线性单元（rectified linear unit），简记为 ReLU

二、神经网络

1. 神经网络的架构
2. 神经网络的代数形式

三、反向传播算法（backpropagation）

1. Hadamard 乘积
2. 代价函数
3. 梯度下降算法
4. 关于代价函数的两个假设
5. 误差
6. 反向传播的四个方程式
7. 反向传播算法

四、过度拟合和规范化

1. L2规范化
2. L1规范化

一、人工神经元

1. 感知器

感知器是一种人工神经元，在 20 世纪五、六⼗年代由科学家Frank Rosenblatt发明。⼀个感知器接受⼏个二进制输⼊ $x_1, x_2, . . .$ ，并产⽣⼀个二进制输出：

⽰例中的感知器有三个输⼊： $x_1, x_2, x_3$ ，引入权重 $w_1, w_2, w_3$ 表⽰相应输⼊对于输出重要性的实数。输出值0或者1，则由分配权重后的总和 $\sum_jw_jx_j$ 小于或者大于一些阈值决定。和权重⼀样，阈值是⼀个实数，⼀个感知器的参数。⽤更精确的代数形式：

把阈值移到不等式的另⼀边，并⽤感知器的偏置 $b \equiv - t h r e s h o l d$ 代替。⽤偏置⽽不是阈值，那么感知器的规则可以重写为：

2. S型神经元

S 型神经元和感知器类似，但是被修改为权重和偏置的微⼩改动只引起输出的微⼩变化。正如⼀个感知器，S 型神经元有多个输⼊ $x_1, x_2, . . .$ ，但是这些输⼊可以取0和1中的任意值，如0.618…是⼀个 S 型神经元的有效输⼊，⽽不仅仅是二进制输入0或1。同样，S 型神经元对每个输⼊有权重 $w_1, w_2, . . .$ 和⼀个总的偏置 $b$ ，但输出不再是0或1，而是 $σ (w \cdot x + b)$ ，这⾥ $σ$ 被称为S型函数，定义为：
$\frac1{1+e^{-z}}$
把它们放在⼀起来更清楚地说明，⼀个具有输⼊ $x_1, x_2, . . .$ ，权重 $w_1, w_2, . . .$ 和偏置 $b$ 的S型神经元的输出是：
$\frac1{1+e^{-\sum_jw_jx_j-b}} = \frac1{1+exp(-\sum_jw_jx_j-b)}$

3. $t a n h$ 神经元

$t a n h$ 函数的定义为：
$\frac{e^z - e^(-z)}{e^z + e^(-z)}$ S型神经元和 $t a n h$ 神经元之间的⼀个差异就是 $t a n h$ 神经元的输出的值域是 (−1, 1) ⽽⾮ (0, 1)。这意味着如果你构建基于 $t a n h$ 神经元，你可能需要正规化最终的输出（取决于应⽤的细节，还有你的输⼊），跟S型神经元略微不同。

4. 修正线性神经元（rectified linear neuron）或者修正线性单元（rectified linear unit），简记为 ReLU

输⼊为 $x$ ，权重向量为 $w$ ，偏置为 $b$ 的 $R e L U$ 神经元的输出是：
$max\ (\ 0, w · x + b\ )$

二、神经网络

本文我们讨论的神经⽹络，都是以上⼀层的输出作为下⼀层的输⼊。这种⽹络被称为前馈神经⽹络。这意味着⽹络中是没有回路的，信息总是向前传播，从不反向回馈。

1. 神经网络的架构

上图⽹络中最左边的称为输⼊层，其中的神经元称为输⼊神经元。最右边的称为输出层，其中的神经元称为输出神经元，在本例中，输出层只有⼀个神经元。中间层既不是输⼊也不是输出，被称为隐藏层。

2. 神经网络的代数形式

我们⾸先给出⽹络中权重的清晰定义。我们使⽤ $w_{jk}^l$ 表⽰从 $l − 1)^{th}$ 层的 $k^{th}$ 个神经元到 $l^{th}$ 层的 $j^{th}$ 个神经元的链接上的权重。例如，下图给出了⽹络中第⼆层的第四个神经元到第三层的第⼆个神经元的链接上的权重：

我们对⽹络的偏置和激活值也会使⽤类似的表⽰。显式地，我们使⽤ $b_j^{l}$ 表⽰在 $l^{th}$ 层第 $j^{th}$ 个神经元的偏置，使⽤ $a_j^{l}$ 表⽰ $l^{th}$ 层第 $j^{th}$ 个神经元的激活值（即神经元的输出）。下⾯的图清楚地解释了这样表⽰的含义：

有了这些表⽰， $l^{th}$ 层的第 $j^{th}$ 个神经元的激活值 $a_j^{l}$ 就和 $l − 1)^{th}$ 层的激活值通过⽅程关联起来了（其中 $σ$ 称为激活函数，本文选用S型神经元进行讨论，即选择激活函数为S型函数）
${a_j}^l = σ(\sum_kw_{jk}^la_k^{l-1}+b_j^l)$ 其中求和是在 $l − 1)^{th}$ 层的所有 $k$ 个神经元上进⾏的。为了⽤矩阵的形式重写这个表达式，我们对每⼀层 $l$ 都定义⼀个权重矩阵 $w^l$ 。权重矩阵 $w^l$ 的元素正是连接到 $l^{th}$ 层神经元的权重，更确切地说，在第 $j^{th}$ ⾏第 $k^{th}$ 列的元素是 $w_{jk}^l$ 。类似的，对每⼀层 $l$ ，定义⼀个偏置向量， $b^l$ ，偏置向量的每个元素其实就是前⾯给出的 $b_j^{l}$ ，每个元素对应于 $l^{th}$ 层的每个神经元。最后，我们定义激活向量 $a^l$ ，其元素是那些激活值 $a_j^{l}$ 。最后引入激活函数（如 σ）来按照矩阵形式重写上述公式，得
$a^l = σ(w^la^{l−1} + b^l)$ 在计算 $a^l$ 的过程中，我们计算了中间量 $z^l ≡ w^la^{l−1} + b^l$ ，我们称 $z^l$ 为 $l$ 层神经元的带权输⼊。同样要指出的是 $z^l$ 的每个元素是 ${z_j}^l ≡ \sum_kw_{jk}^l{a_k}^{l-1}+b_j^l$ ，其实 $z_j^l$ 就是第 $l$ 层第 $j$ 个神经元的激活函数的带权输⼊。

三、反向传播算法（backpropagation）

1. Hadamard 乘积

特别地，假设 $s$ 和 $t$ 是两个同样维度的向量。那么我们使⽤ $s ⊙ t$ 来表⽰按元素的乘积。所以 $s ⊙ t$ 的元素就是$ (s ⊙ t)_j = s_j t_j$。给个例⼦，

这种类型的按元素乘法有时候被称为 Hadamard 乘积，或者 Schur 乘积。我们这⾥取前者。好的矩阵库通常会提供 Hadamard 乘积的快速实现，在实现反向传播的时候⽤起来很⽅便。

2. 代价函数

在神经网络的代数形式中，我们希望有⼀个算法，能让我们找到权重和偏置，以⾄于⽹络的输出 $y (x)$ 能够拟合所有的训练输⼊ x。为了量化我们如何实现这个⽬标，在使用神经网络做项目的时候，我们往往需要定义一个代价函数。
为了便于接下来的讨论，本文定义一个二次代价函数。 $\frac1{2n}\sum_x||y(x)-a^L(x)||^2$ 从上式可以看出，训练的⽬的，应该是最⼩化代价函数。我们使⽤梯度下降算法来最小化代价函数。

3. 梯度下降算法

在线性模型一文已经详细介绍过梯度下降算法，这里只做简单描述。
梯度下降算法是一种迭代算法，选取适当的初值w和b，不断迭代，更新w和b的值，进行目标函数的极小化，直到收敛。由于负梯度方向是使函数值下降最快的方向，在迭代的每一步，以负梯度方向更新w和b的值，从而达到减少函数值的目的。即每一次迭代，新的w和b都会由旧的w和b减去梯度乘以步长（或称速率eta）得到，代数形式为：
$新 w = 旧 w - \partial C / \partial w * e t a$ $新 b = 旧 b - \partial C / \partial b * e t a$ 而反向传播算法，可用于快速计算代价函数C梯度，从而能够更快地更新w和b的值。

4. 关于代价函数的两个假设

反向传播的⽬标是计算代价函数 $C$ 分别关于 $w$ 和 $b$ 的偏导数 $\partial C / \partial w$ 和 $\partial C / \partial b$ 。为了让反向传播可⾏，我们需要做出关于代价函数的两个主要假设。
第一个假设是代价函数可以被写成⼀个在每个训练样本 $x$ 上的代价函数 $C_x$ 的均值 $\frac1{n}\sum_xC_x$ 。以⼆次代价函数为例，其中对每个独⽴的训练样本其代价是 $C_x = \frac12||y(x)-a^L(x)||^2$ 。
第二个假设是代价可以写成神经⽹络输出的函数。例如对于一个单独的训练样本x，可以写作：
$\frac12||y-a^L||^2 = \frac12\sum_j(y_j-a_j^L)^2$

5. 误差

反向传播其实是对权重和偏置变化影响代价函数过程的理解。最终极的含义其实就是计算偏导数 $C/∂w_{jk}^l$ 和 $C/∂b_j^l$ 。但是为了计算这些值，我们⾸先引⼊⼀个中间量， $δ_j^l$ ，这个我们称为在 $l^{th}$ 层第 $j^{th}$ 个神经元上的误差。
为了理解误差是如何定义的，假设在神经⽹络上有⼀个调⽪⻤：

这个调⽪⻤在 $l$ 层的第 $j^{th}$ 个神经元上。当输⼊进来时，调⽪⻤对神经元的操作进⾏搅局。他会增加很⼩的变化 $z_j^l$ 在神经元的带权输⼊上，使得神经元输出由 $σ(z_j^l)$ 变成 $σ(z_j^l + ∆z_j^l)$ 。这个变化会向⽹络后⾯的层进⾏传播，最终导致整个代价产⽣ $\frac{∂C}{∂z_j^l}∆z_j^l$ 的改变。
现在，这个调⽪⻤变好了，试着帮助你来优化代价，它试着找到可以让代价更⼩的 $z_j^l$ 。假设 $\frac{∂C}{∂z_j^l}$ 有⼀个很⼤的值（或正或负）。那么这个调⽪⻤可以通过选择与 $\frac{∂C}{∂z_j^l}$ 相反符号的 $z_j^l$ 来降低代价。相反，如果 $\frac{∂C}{∂z_j^l}$ 接近 0，那么调⽪⻤并不能通过扰动带权输⼊ $z_j^l$ 来改善太多代价。在调⽪⻤看来，这时候神经元已经很接近最优了。所以这⾥有⼀种启发式的认识， $\frac{∂C}{∂z_j^l}$ 是神经元的误差的度量。
按照上⾯的描述，我们定义 $l$ 层的第 $j^{th}$ 个神经元上的误差 $δ_j^l$ 为：
$δ_j^l ≡ \frac{∂C}{∂z_j^l}$
证明：
代价函数C是关于z的函数，此处不妨假设 $C = (1 - z)^2$ ，函数图像如下图。 $\frac{∂C}{∂z}$ 为函数的斜率，则 $z$ 带来的微小变化 $∆ z$ ，会如图中所示，导致整个C产生 $\frac{∂C}{∂z}∆z$ 的变化。

6. 反向传播的四个方程式

① 输出层误差 $δ^L$ 的⽅程
$δ^L = ∇_aC ⊙ σ′(z^L)$ 证明：
$δ_j^L = \frac{∂C}{∂z_j^L} = \sum_k\frac{∂C}{∂a_k^L}\frac{∂a_k^L}{∂z_j^L}$ 因为
$a_k^L = σ(z_k^L)$ 当 $k ̸ = j$ ， $\frac{∂a_k^L}{∂z_j^L}$ 消失；当 $k = j$ ， $\frac{∂a_k^L}{∂z_j^L} = σ′(z_j^L)$ 。
固输出层 $L$ 层每个元素定义如下：
$δ_j^L = \frac{∂C}{∂a_j^L}σ′(z_j^L)$ 以矩阵形式定义 $L$ 层误差得：
$δ^L = ∇_aC ⊙ σ′(z^L)$
② 使⽤下⼀层的误差 $δ^{l+1}$ 来表⽰当前层的误差 $δ^l$
$δ^l = ((w^{l+1})^Tδ^{l+1}) ⊙ σ′(z^l)$ 证明：
$δ_j^l = \frac{∂C}{∂z_j^l} = \sum_k\frac{∂C}{∂z_k^{l+1}}\frac{∂z_k^{l+1}}{∂z_j^l} = \sum_k\frac{∂z_k^{l+1}}{∂z_j^l}δ_k^{l+1}$ 因为
$z_k^{l+1} = \sum_jw_{kj}^{l+1}a_j^l + b_k^{l+1} = \sum_jw_{kj}^{l+1}σ(z_j^l) + b_k^{l+1}$ 做微分，得到
$\frac{∂z_k^{l+1}}{∂z_j^l} = w_{kj}^{l+1}σ′(z_j^l)$ 代入 $δ_j^l$ ，得出当前层 $l$ 层每个元素误差定义如下：
$δ_j^l = \sum_kw_{kj}^{l+1}δ_k^{l+1}σ′(z_j^l)$
③ 代价函数关于⽹络中任意偏置的改变率
$\frac{∂C}{∂b_j^l} = δ_j^l$ 证明：
$δ_j^l = \frac{∂C}{∂z_j^l} = \sum_k\frac{∂C}{∂b_k^l}\frac{∂b_k^l}{∂z_j^l}$ 因为
$z_j^l = \sum_kw_{jk}^la_k^{l-1} + b_j^l\ \ \ \ \ \Rightarrow \ \ \ \ \ b_j^l = z_j^l - \sum_kw_{jk}^la_k^{l-1}$ 当 $k ̸ = j$ ， $\frac{∂b_k^l}{∂z_j^l}$ 消失；当 $k = j$ ， $\frac{∂b_k^l}{∂z_j^l} = 1$ 。
代入 $δ_j^l$ ，得：
$δ_j^l = \frac{∂C}{∂b_j^l}$
④ 代价函数关于任何⼀个权重的改变率
$\frac{∂C}{∂w_{jk}^l} = a_k^{l-1}δ_j^l$ 证明：
$\frac{∂C}{∂w_{jk}^l} = \sum_i\frac{∂C}{∂z_i^l}\frac{∂z_i^l}{∂w_{jk}^l}$ 因为
$z_i^l = \sum_kw_{ik}^la_k^{l-1} + b_i^l$ 当 $i ̸ = j$ ， $\frac{∂z_i^l}{∂w_{jk}^l}$ 消失；当 $i = j$ ， $\frac{∂z_i^l}{∂w_{jk}^l} = a_k^{l-1}$ 。再将 $δ_j^l = \frac{∂C}{∂z_j^l}$ 代入得：
$\frac{∂C}{∂w_{jk}^l} = a_k^{l-1}δ_j^l$

7. 反向传播算法

算法1 （反向传播算法）
输入：输入层向量 $x$
输出：代价函数的梯度 $C/∂w_{jk}^l$ 和 $C/∂b_j^l$
① 计算各层对应的激活值 $a^l$
② 前向传播：对每个 $l = 2, 3, . . ., L$ 计算相应的 $z^l = w^la^{l-1} + b^l$ 和 $a^l = σ(z^l)$
③ 输出层误差 $δ^L$ ：计算向量 $δ^L = ∇_aC ⊙ σ′(z^L)$
④ 反向误差传播：对每一个 $l = L - 1, L - 2, . . ., 2$ ，计算 $δ^l = ((w^{l+1})^Tδ^{l+1}) ⊙ σ′(z^l)$
⑤ 根据 $\frac{∂C}{∂b_j^l} = δ_j^l$ 和 $\frac{∂C}{∂w_{jk}^l} = a_k^{l-1}δ_j^l$ 计算可得代价函数的梯度

四、过度拟合和规范化

增加训练样本的数量是⼀种减轻过度拟合的⽅法。另外的，本文要介绍的减轻过度拟合的方法为L1规范化和L2规范化。

1. L2规范化

L2规范化也叫权重衰减（weight decay）。L2 规范化的想法是增加⼀个额外的项到代价函数上，这个项叫做规范化项。下⾯是规范化的代价函数，其中 $C_0$ 是原始代价函数： $C_0 + \frac{λ}{2n}\sum_ww^2$ 其中第⼀个项就是原始代价函数的表达式。第⼆个现在加⼊的就是所有权重的平⽅的和。然后使⽤⼀个因⼦ $λ / 2 n$ 进⾏量化调整，其中 $λ > 0$ 可以称为规范化参数，⽽ $n$ 就是训练集合的⼤⼩。
$λ$ 越小，偏向于最小化原始代价函数，反之，倾向于小的权重。

2. L1规范化

L1规范化是在未规范化的代价函数上加上⼀个权重绝对值的和： $C_0 + \frac{λ}{n}\sum_w|w|$

以上全部内容参考书籍如下：
Michael Nielsen《Neural Networks and Deep Learning》

微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Python自动化机器学习平台库之mindsdb使用详解
概要MindsDB是一个开源的自动化机器学习平台，它通过SQL接口简化了机器学习模型的创建、训练和预测过程。该库的核心理念是将机器学习功能直接集成到数据库中，让开发者无需深入了解复杂的机器学习算法，就能够快速构建和部署预测模型。MindsDB支持多种数据源连接，包括MySQL、PostgreSQL、MongoDB等主流数据库，同时提供了丰富的PythonAPI接口，使得数据科学家和开发者能够在熟悉
堡垒机操作行为异常检测的机器学习算法应用
一、传统检测模式的困境与机器学习的破局价值在数字化转型浪潮中，堡垒机作为运维安全的核心防线，面临着操作行为复杂度激增与检测能力滞后的双重挑战。传统检测手段主要依赖静态规则库与统计模型，存在三大致命缺陷：规则固化与误报泛滥：某金融机构曾因规则库未及时更新，导致运维人员正常批量操作被误判为“暴力破解”，单日误报量超2000次，消耗安全团队60%的精力。动态行为适应性弱：微服务架构下，运维人员访问路径呈
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
Python设置国内镜像教程 wh3933 python 开发语言
####引言Python是一种广泛使用的高级编程语言，用于各种编程任务，从简单的脚本到复杂的机器学习算法。在安装Python包时，通常需要从Python包索引（PyPI）下载。由于网络原因，直接从PyPI下载可能速度较慢，因此，使用国内的镜像源可以显著提高下载速度。本文将详细介绍如何在Python中设置国内镜像。####文章目的本篇文章旨在指导用户如何将Python的包管理工具`pip`的默认源切
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
机器学习算法_支持向量机
一、支持向量机支持向量机只能做二分类任务SVM全称支持向量机，即寻找到一个超平面使样本分成两类，且间隔最大硬间隔：如果样本线性可分，在所有样本分类都正确的情况下，寻找最大间隔；如果出现异常值或样本线性不可分，此时硬间隔无法实现软间隔：允许部分样本，在最大间隔之内，甚至在错误的一边，寻找最大间隔；目标是尽可能保持间隔宽阔和限制间隔违例之间寻找良好的平衡惩罚系数：通过惩罚系数来控制这个平衡，C值越小，
机器学习在智能金融风险评估中的应用：信用评分与欺诈检测 Blossom.118 机器学习与人工智能机器人机器学习人工智能 python 深度学习 sklearn 计算机视觉
在金融行业，风险评估是确保金融机构稳健运营的关键环节。随着大数据和机器学习技术的快速发展，金融机构开始探索如何利用机器学习算法来提高风险评估的准确性和效率。本文将探讨机器学习在智能金融风险评估中的应用，特别是信用评分和欺诈检测方面的最新进展，并分析其带来的机遇和挑战。一、智能金融风险评估中的信用评分（一）传统信用评分方法的局限性传统的信用评分主要依赖于人工规则和简单的统计模型，如逻辑回归。这些方法
面了字节跳动的数据挖掘岗，感觉真的很难。。。大模型爱好者社区机器学习深度学习面试宝典数据挖掘人工智能数据分析算法面试
节前，我们社群组织了一场技术&面试讨论会，邀请了一些互联网大厂同学、参加社招和校招面试的同学，针对新手如何入门机器学习算法、该如何备战、面试常考点分享等热门话题进行了深入的讨论。基于社群的讨论，今天我整理了一个同学的面试题，分享给大家，希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习，可以文末加入我们交流群。一面40min【编程题】有两种数据，分别是被转发的用户和转发的
【学习】《算法图解》第十二章学习笔记：K近邻算法程序员
前言《算法图解》第十二章介绍了一种简单而强大的机器学习算法——K近邻算法（K-NearestNeighbors，简称KNN）。这是一种基于实例的学习方法，也是机器学习领域中最基础、最直观的算法之一。本章不仅讲解了KNN的基本原理和实现方式，还探讨了特征提取、归一化等重要概念，为读者打开了机器学习的大门。本笔记将梳理KNN算法的核心思想、实现步骤以及应用场景。一、K近邻算法概述（一）基本思想K近邻算
AppML 案例简介沐知全栈开发开发语言
AppML案例简介引言AppML，全称为“应用程序机器学习”，是一种将机器学习技术与移动应用开发相结合的技术框架。它旨在简化移动应用的机器学习功能集成，使得开发者无需深入了解复杂的机器学习算法，即可将强大的AI功能引入他们的应用中。本文将简要介绍AppML的一些成功案例，展示其在不同领域的应用和价值。AppML案例一：健康监测应用案例概述：一款名为“HealthMate”的健康监测应用利用AppM
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
常见机器学习算法与应用场景计算机软件程序设计知识科普机器学习算法人工智能
当然可以。下面是对常见机器学习算法的全面详细阐述，包括每种算法的基本原理、特点以及典型应用场景。1.监督学习（SupervisedLearning）1.1线性回归（LinearRegression）原理：通过拟合一条直线来表示输入和输出之间的关系，适用于预测连续值输出。特点：简单易懂，计算速度快，但只能捕捉线性关系。应用场景：房价预测股票价格预测销售额预测1.2逻辑回归（LogisticRegre
**基于Python的数据分析与机器学习实战教程****一、引言**随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言， 2401_89451588 python 数据分析机器学习
基于Python的数据分析与机器学习实战教程一、引言随着大数据时代的到来，数据处理和分析能力已经成为现代软件开发人员的必备技能之一。Python作为一种高效、简洁且功能丰富的编程语言，在数据分析领域得到了广泛的应用。本文将介绍如何使用Python进行数据分析，并结合机器学习算法实现数据驱动的应用。二、Python基础首先，我们需要掌握Python的基本语法和常用的库。Python的语法简洁易懂，上
机器学习，支持向量机svm和决策树xgboost介绍 suixinm 支持向量机机器学习决策树
支持向量机(SVM)和XGBoost都是非常强大且应用广泛的机器学习算法，但它们基于不同的原理，各有其优势和劣势，适用于不同的场景。以下是两者的主要区别和优劣势对比：1.核心思想与模型类型:SVM:核心思想:找到一个最优的超平面（在特征空间中），将不同类别的样本分隔开，并且使得该超平面到两类样本中最近的样本点（支持向量）的距离（间隔）最大化。核心是几何间隔最大化。模型类型:单个模型（虽然是核方法，
【机器学习第四期（Python）】LightGBM 方法原理详解 WW、forever 机器学习原理及代码实现机器学习 python 人工智能
LightGBM概述一、LightGBM简介二、LightGBM原理详解⚙️核心原理LightGBM的主要特点三、LightGBM实现步骤（Python）可调参数推荐完整案例代码（回归任务+可视化）参考LightGBM是由微软开源的基于梯度提升框架（GBDT）的机器学习算法，专为高性能、高效率设计，适用于大规模数据处理任务。它在准确率、训练速度和资源使用上都优于传统GBDT实现（如XGBoost）
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
【机器学习算法】XGBoost原理
一、基本内容基本内容：GBDT的基础上，在损失函数上加入树模型复杂度的正则项与GBDT一样，也是使用新的弱学习器拟合残差（当前模型负梯度，残差方向）GBDT损失函数Loss=∑i=1NL(yi,yit)Loss=\sum_{i=1}^{N}L(y_i,y_i^{t})Loss=i=1∑NL(yi,yit)XGboost损失函数Loss=∑i=1SL(yi,yit)+∑j=1NΩ(fj))Loss=
大语言模型(LLM)量化基础知识(一) -派神- RAG NLP ChatGPT 语言模型人工智能自然语言处理
承接各类AI相关应用开发项目(包括但不限于大模型微调、RAG、AI智能体、NLP、机器学习算法、运筹优化算法、数据分析EDA等)!!!有意愿请私信!!!随着大型语言模型(LLM)的参数数量的增长,与其支持硬件（加速器内存）增长速度之间的差距越来越大，如下图所示：上图显示，从2017年到2022年，语言模型的大小显著增加：2017年：Transformer模型（0.05B参数）2018年：GPT（0
ICBDDM2025：大数据与数字化管理前沿峰会鸭鸭鸭进京赶烤学术会议大数据图像处理计算机视觉 AI编程人工智能机器人考研
在选择大学专业时，可以先从自身兴趣、能力和职业规划出发，初步确定几个感兴趣的领域。然后结合外部环境因素，如专业前景、教育资源和就业情况等，对这些专业进行深入的分析和比较。大数据专业：是一个热门且前沿的学科领域，它涉及到数据的收集、存储、处理、分析和应用等多个方面。课程设置基础课程数学基础：高等数学、线性代数、概率论与数理统计等。这些课程为大数据分析提供了必要的数学工具，例如线性代数在机器学习算法中
【PyCharm 使用技巧】PyCharm 基本功能详解 || 【Jupyter Notebook】如何进入其它盘，如D盘？H盘？|| 【机器学习】聚类算法详解及其应用 || 道路交通流量模拟预测追光者♂ Python从入门到人工智能工具技巧解决办法百题千解计划(项目实战案例）PyCharm使用技巧 Jupyter如何进入其它盘聚类算法练习 PyCharm详解时空交通流预测模拟
作者主页：追光者♂个人简介：在读计算机专业硕士研究生、CSDN-人工智能领域新星创作者、2022年CSDN博客之星人工智能领域TOP4、阿里云社区专家博主【无限进步，一起追光！】欢迎点赞收藏⭐留言本篇的目录一，是请看目录四——PyCharm基础设置回顾的续篇，继续记录讲解PyCharm的基本功能。目录二回顾了在使用Jupyter时的问题。目录三练习了机器学习算法中的聚类算法。目录一、再次了解PyC
XGBoost算法原理及Python实现法号清水算法 python 开发语言
一、概述 XGBoost是一种基于梯度提升框架的机器学习算法，它通过迭代地训练一系列决策树来构建模型。核心思想是通过不断地在已有模型的基础上，拟合负梯度方向的残差（真实值与预测值的差）来构建新的弱学习器，达到逐步优化模型的目的。 XGBoost在构建决策树时，利用了二阶导数信息。在损失函数的优化过程中，不仅考虑了一阶导数（梯度），还引入了二阶导数（海森矩阵），这使得算法能够更精确地找到损失函数
GBDT：梯度提升决策树——集成学习中的预测利器大千AI助手人工智能 Python #OTHER 决策树集成学习算法 GBDT 梯度提升人工智能机器学习
核心定位：一种通过串行集成弱学习器（决策树）、以梯度下降方式逐步逼近目标函数的机器学习算法，在结构化数据预测任务中表现出色。本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、GBDT是什么？全称：GradientBoostingDecisionTree（梯度提升决策树）本质：Boosting集成学
机器学习算法-逻辑回归模型在交通领域的应用是一个Bug 机器学习算法逻辑回归
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档逻辑回归模型在交通领域的应用：车流数量和平均速度之间的关系前言结果分析代码分析逻辑回归可视化：交通拥堵预测的动态建模过程一、交通数据生成与预处理二、逻辑回归核心算法实现三、动态可视化：决策边界的演变过程四、特征标准化与模型评估五、实验结果与模型解读六、拓展思考：逻辑回归的局限性结语：从代码到交通智能前言紧接上文的逻辑回归原理分析讲一讲
LeRobot: 让机械臂接入大模型小众AI AI开源人工智能 AI编程
HuggingFace推出的开源项目LeRobot引发了业界广泛关注。这一项目通过整合最先进的机器学习算法和便捷的开发工具链，为开发者提供了一个高效、易用的机器人AI开发平台，堪称机器人领域的“Transformer时刻”。LeRobot旨在为PyTorch中的真实机器人技术提供模型、数据集和工具。目标是降低机器人技术的准入门槛，以便每个人都可以从共享数据集和预训练模型中受益。LeRobot包含最
AI智能时代SEO优化，AISEO-人工智能搜索引擎优化 weixin_ggwwsscc 人工智能搜索引擎 deepseek AI seo
AI驱动的关键词精准匹配与语义理解传统的关键词排名规则主要依赖于关键词的字面匹配，即网站内容中出现的关键词与用户搜索词完全一致或高度相似时，才有可能获得较好的排名。然而，随着AI技术在搜索引擎中的广泛应用，这一局面正在发生深刻改变。如今的搜索引擎借助自然语言处理（NLP）和机器学习算法，能够深入理解用户搜索词背后的语义和意图，实现更精准的内容匹配。AI智能时代SEO优化，AISEO-人工智能搜索引
机器学习15-XGBoost 吹风看太阳机器学习机器人人工智能
XGBOOST学习笔记一、引言在机器学习的集成学习算法中，XGBoost（eXtremeGradientBoosting）凭借其高效性、可扩展性和卓越的性能，成为数据科学竞赛和工业界应用的热门选择。XGBoost本质上是一种基于梯度提升框架（GradientBoostingFramework）的机器学习算法，它通过不断拟合残差来构建多个弱学习器（通常是决策树），并将这些弱学习器进行累加，从而形成一
机器学习算法实战系列：异常检测全攻略——从统计方法到深度学习的异常发现技术全息架构师 AI 行业应用实战先锋机器学习算法深度学习
机器学习算法实战系列：异常检测全攻略——从统计方法到深度学习的异常发现技术引言“数据中的异常往往蕴含着最有价值的信息！从金融欺诈检测到工业设备故障预警，从网络安全到医疗诊断，异常检测技术正在守护着各个领域的安全底线。”异常检测是机器学习中极具挑战性又极具价值的领域，它旨在识别数据中与大多数实例显著不同的异常模式。本文将系统讲解异常检测的核心算法，从传统的统计方法到前沿的深度学习技术，通过金融反欺诈
【C语言练习】100. 使用C语言实现简单的自然语言理解算法视睿从零开始学习机器人 c语言算法开发语言排序算法
100.使用C语言实现简单的自然语言理解算法100.使用C语言实现简单的自然语言理解算法关键词匹配算法简介示例代码：简单的关键词匹配算法代码说明示例运行扩展功能其他方法基于规则的方法统计机器学习方法C语言中统计机器学习方法概述常见统计机器学习算法的C实现贝叶斯定理基础算法核心思想常见变体实现示例（Python）优缺点优化库与工具性能与注意事项有限状态自动机（FSA）深度学习接口调用混合方法100.
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo