盼小辉丶

Keras深度学习实战（1）——神经网络基础与模型训练过程详解

- 0. 前言
- 1. 神经网络基础
- - 1.1 简单神经网络的架构
  - 1.2 神经网络的训练
  - 1.3 神经网络的应用
- 2. 从零开始构建前向传播
- - 2.1 计算隐藏层节点值
  - 2.2 应用激活函数
  - 2.3 计算输出层值
  - 2.4 计算损失值
  - - 2.4.1 在连续变量预测过程中计算损失
    - 2.4.2 在分类(离散)变量预测中计算损失
    - 2.4.3 计算网络损失值
  - 2.5 使用 Python 实现网络前向传播
- 3. 从零开始构建反向传播
- 小结

0. 前言

神经网络是一种性能强大的学习算法，其灵感来自大脑的运作方式。类似于神经元在大脑中彼此连接的方式，神经网络获取输入后，通过某些函数在网络中进行传递输入信息，连接在其后的一些神经元会被激活，从而产生输出。

1. 神经网络基础

1.1 简单神经网络的架构

人工神经网络受到人脑运作方式的启发。从本质上讲，它是对线性回归和逻辑回归的一种改进，神经网络在计算输出时引入了多种非线性函数。此外，神经网络在修改网络体系结构以利用结构化和非结构化数据跨多个域解决问题方面具有极大的灵活性。函数越复杂，网络对于输入的数据拟合能力就越大，因此预测的准确性就越高。神经网络的典型结构如下：

神经网络中的层 (layer) 是一个或多个节点(或称计算单元)的集合，层中的每个节点都连接到下一层中的每个节点。输入层由预测输出值所需的输入变量组成。输出层中节点的数量取决于我们要预测连续变量还是分类变量。如果输出是连续变量，则输出层一个节点。
如果输出结果是 $n$ 个类别的预测类的分类，则输出层中将有 $n$ 个节点。隐藏层用于将输入层的值转换为高维空间中的值，以便我们可以从输入中了解数据的更多特征。隐藏层中节点的工作方式如下：

在上图中， $x_1, x_2, ..., x_n$ 是自变量， $x_0$ 是偏置项，类似于线性方程 $y = k x + b$ 里的 $b$ ， $w_1, w_2, ..., w_n$ 是赋予每个输入变量的权重。如果 $a$ 是隐藏层中的节点之一，则计算方法如下所示：

$a=f(\sum _{w_i} ^N w_ix_i)$

$f$ 函数是激活函数，用于在输入和它们相应的权重值的总和上引入非线性。可以通过使用多个隐藏层实现更强的非线性能力。
综上，神经网络是相互连接的层中节点权重的集合。该集合分为三个主要部分：输入层，隐藏层和输出层。神经网络中可以具有 $n$ 个隐藏层，术语“深度学习”通常表示具有多个隐藏层的神经网络。当神经网络需要学习具有复杂上下文(例如图像识别)或上下文不明显的任务时，就必须具有隐藏层，隐藏层也被称为中间层。

1.2 神经网络的训练

训练神经网络实际上就是通过重复两个关键步骤来调整神经网络中的权重：前向传播和反向传播。

在前向传播中，我们将一组权重应用于输入数据，将其传递给隐藏层，对隐藏层计算后的输出使用非线性激活，通过若干个隐藏层后，将最后一个隐藏层的输出与另一组权重相乘，就可以得到输出层的结果。对于第一次正向传播，权重的值将随机初始化。
在反向传播中，尝试通过测量输出的误差，然后相应地调整权重以降低误差。神经网络重复正向传播和反向传播以预测输出，直到获得令误差较小的权重为止。

1.3 神经网络的应用

最近，神经网络在各种应用中的广泛采用。神经网络可以通过多种方式进行构建。以下是一些常见的构建方法：

底部的紫色框代表输入，其后是隐藏层(中间的黄色框)，顶部的粉色框是输出层。一对一的体系结构是典型的神经网络，在输入和输出层之间具有隐藏层。不同体系结构的示例如下：

架构	示例
one-to-many	输入是图像，输出是图像的预测类别概率
many-to-one	输入是电影评论，输出评论是好评或差评
many-to-many	将一种语言的句子使用神经网络翻译成另一种语言的句子

现代神经网络中经常用到的一种架构称为卷积神经网络 (Convolutional Neural Networks, CNN)，可以用来理解图像中的内容并检测目标内容所在的位置，该体系架构如下所示(在之后的学习中会进行详细介绍)：

神经网络在推荐系统，图像分析，文本分析和音频分析的都有着广泛的应用，神经网络能够灵活地使用多种体系结构解决问题，可以预料的是，神经网络的使用范围将会越来越广。
接下来，我们将根据神经网络训练的两个关键步骤——前向传播和反向传播——介绍神经网络模型的构建。

2. 从零开始构建前向传播

为了进一步了解前向传播的工作方式，我们将通过一个简单的示例来构建神经网络，其中神经网络的输入为 (1, 1)，对应的输出为 0。
我们使用的神经网络具有一个隐藏层，一个输入层和一个输出层。由于要使输入层能够以更大的维度表示，因此隐藏层中的神经元数量多于输入层中的神经元。

2.1 计算隐藏层节点值

第一次进行正向传播时，首先需要为所有连接分配权重，这些权重是基于高斯分布随机选择的，但是神经网络训练过程之后的最终权重不需要服从特定分布，假定初始网络权重如下：

接下来，我们将输入与权重相乘以计算隐藏层中隐藏单元的值，隐藏层的节点单位值计算结果如下：

$h_1=1\times 0.8+1\times 0.2 = 1\\ h_2=1\times 0.4+1\times 0.9 = 1.3\\ h_3=1\times 0.3+1\times 0.5 = 0.8$

下图展示了计算隐藏层的节点值后的网络示意图：

在以上步骤中，我们计算了隐藏节点的值。为简单起见，我们并未在隐藏层的节点中添加偏置项。接下来，我们将通过激活函数传递隐藏层的值，以便在输出中增加非线性。
NOTE：如果我们不在隐藏层中应用非线性激活函数，则神经网络本质上将成为从输入到输出线性连接。

2.2 应用激活函数

可以在网络中的多个网络层中应用激活函数，使用它们可以实现高度非线性，这对于建模输入和输出之间的复杂关系非常关键。在我们的示例中，使用 Sigmoid 激活函数如下所示：
$sigmoid(x)=\frac 1 {1+e^{-x}}$
通过将 Sigmoid 激活函数应用于隐藏层，我们得到以下结果：

$final\_h_1 = sigmoid(1.0) = 0.73\\ final\_h_2 = sigmoid(1.3) = 0.78\\ final\_h_3 = sigmoid(0.8) = 0.69$
下图展示了隐藏层的应用非线性激活函数后节点值的情况：

关于更多激活函数的介绍，参考《深度学习常用激活函数》。

2.3 计算输出层值

现在我们已经计算了隐藏层的值，最后将计算输出层的值。在下图中，我们将隐藏层值通过随机初始化的权重值连接到输出层。计算隐藏层值和权重值乘积的总和，得到输出值：

$0.73\times 0.3+0.79\times 0.5 + 0.69\times 0.9= 1.235$

使用隐藏层值和权重值，我们可以得到网络的输出值，如下图所示：

因为第一次正向传播使用随机权重，所以输出神经元的值与目标相差很大，相差为 +1.235 (目标值为0)。

2.4 计算损失值

损失值(也称为成本函数)是在神经网络中优化的值。为了了解如何计算损失值，我们分析以下两种情况：

连续变量预测
分类(离散)变量预测

2.4.1 在连续变量预测过程中计算损失

通常，当预测值为连续变量时，损失函数使用平方误差，也就是说，我们尝试通过更改与神经网络相关的权重值来最小化均方误差：

$J(\theta)=\frac 1 m \sum _{i=1} ^m(h(x_i)-y_i)^2$

其中， $y_i$ 是实际值， $h (x)$ 是我们对输入 $x$ 进行变换以获得预测值 $y$ 的网络模型， $m$ 是输入数据集中的数据个数。

2.4.2 在分类(离散)变量预测中计算损失

当要预测的变量是离散变量时(也就是说，变量中只有几个类别)，我们通常使用分类交叉熵损失函数。当要预测的变量具有两个不同的值时，损失函数为二分类交叉熵，而当要预测的变量具有多个不同的值时，损失函数为多分类交叉熵。

二分类交叉熵公式如下：

$(y l o g (p) + (1 - y) l o g (1 - p))$

多分类交叉熵定义如下：

$-\sum _{i=1} ^n y_i log(p_n)$

其中， $y$ 是输入实际对应的真实值， $p$ 是输出的预测值， $n$ 是数据量的总数。

2.4.3 计算网络损失值

由于我们在以上示例中预测的结果是连续的，因此损失函数值是均方误差，其计算方法如下：

$error = 1.235^2 = 1.52$

2.5 使用 Python 实现网络前向传播

通过以上学习，我们知道了通过在输入数据之上执行以下步骤以在前向传播中可以得出误差值：

随机初始化权重
通过将输入值乘以权重来计算隐藏层节点值
对隐藏层值执行激活
将隐藏层值连接到输出层
计算平方误差损失

计算所有数据点的平方误差损失值：

import numpy as np
def feed_forward(inputs, outputs, weights):
     pre_hidden = np.dot(inputs,weights[0])+ weights[1]
     hidden = 1/(1+np.exp(-pre_hidden))
     out = np.dot(hidden, weights[2]) + weights[3]
     squared_error = (np.square(pred_out - outputs))
     return squared_error

在前面的函数中，我们将输入变量值、权重(如果是第一次迭代，则随机初始化)以及数据集中的实际输出作为 feed_forward 函数的输入。
我们通过对输入和权重进行矩阵乘法来计算隐藏层的值。此外，将偏置值添加到隐藏层中：

pre_hidden = np.dot(inputs,weights[0])+ weights[1]

其中 weights[0] 是权重值，weights[1] 是偏置值，利用此权重和偏置就可以将输入层连接到隐藏层。计算隐藏层的值后，就可以在隐藏层的值上使用激活函数：

hidden = 1/(1+np.exp(-pre_hidden))

通过将隐藏层的输出乘以将隐藏层连接到输出的权重，然后在输出上添加偏置项，来计算隐藏层的输出：

pred_out = np.dot(hidden, weights[2]) + weights[3]

一旦计算出输出，我们就可以计算出每一输入的平方误差损失，如下所示：

squared_error = (np.square(pred_out - outputs))

在前面的代码中，pred_out 是预测输出，而 outputs 是输入应对应的实际输出。通过以上简单的步骤，我们便可以在网络前向传播时计算损失值。

3. 从零开始构建反向传播

在正向传播中，我们将输入层与隐藏层连接到输出层。在反向传播中，我们使用相反的过程。每次将神经网络中的每个权重进行少量更改。权重值的变化将对最终损失值(增加或减少的损失)产生影响，我们需要朝着减少损失的方向更新权重。通过每次轻微更新权重并测量权重更新导致的误差变化，我们可以完成以下操作：

确定权重更新的方向
确定权重更新的幅度

在实施反向传播之前，我们首先了解神经网络的另一重要概念：学习率。学习率有助于我们建立更稳定的算法。例如，在确定权重更新的大小时，我们不会一次性就对其进行大幅度更改，而是采取更谨慎的方法来缓慢地更新权重。这使模型获得更高的稳定性；在之后的学习中，我们还将研究学习率如何帮助提高稳定性。
更新权重以减少误差的整个过程称为梯度下降技术，随机梯度下降是将误差最小化的手段。更直观地讲，梯度代表差异(即实际值和预测值之间的差异)，而下降则表示差异减小；随机代表选择随机样本进行训练，并据此做出决策。除了随机梯度下降外，还有许多其他优化技术可以用于减少损失值。之后的学习中，还将讨论不同的优化技术。

反向传播的工作原理如下：

利用前向传播过程计算损失值。
略微改变所有的权重。
计算权重变化对损失函数的影响。
根据权重更新是增加还是减少了损失值，在损失减少的方向上更新权重值。

对数据集中的所有数据执行 1 次训练过程(前向传播+反向传播)，称为 1 个 epoch。
为了进一步巩固我们对神经网络中反向传播的理解，让我们拟合一个已知的简单函数，查看如何得出权重。假设，待拟合函数为 $y = 3 x$ ，我们期望得出权重值和偏置值(分别为 3 和 0)。

x	1	3	4	8	10
y	3	9	12	24	30

以上数据集可以表示为线性回归 $y = a x + b$ ，我们将尝试计算 $a$ 和 $b$ 的值(虽然我们已知它们分别是 2 和 0，但我们的目的是研究如何使用梯度下降获得这些值)，将 $a$ 和 $b$ 参数随机初始化为 $2.269$ 和 $1.01$ 的值。接下来，我们将从零构建反向传播算法，以便清楚地了解如何在神经网络中计算权重。简单起见下，将构建一个没有隐藏层的简单神经网络。

初始化数据集，如下所示：

x = np.array([[1], [3], [4], [8], [10]])
y = np.array([[3], [9], [12], [24], [30]])

随机初始化权重和偏差值(在尝试确定 $y = a x + b$ 方程中 $a$ 和 $b$ 的最优值时，只需要一个权重和一个偏置值)：

w = np.array([[[2.269]], [[1.01]]])

定义神经网络并计算平方误差损失值：

import numpy as np
def feed_forward(inputs, outputs, weights):
    out = np.dot(inputs, weights[0]) + weights[1]
    squared_error = np.square(out - outputs)
    return squared_error

在上述代码中，对输入与随机初始化的权重值进行了矩阵乘法，然后将其与随机初始化的偏置值相加。得到输出值后，便可以计算出实际值与预测值之差的平方误差值。

少量增加每个权重和偏置值，并针对每个权重和偏差更新一次计算一个平方误差损失值。
如果平方误差损失值随权重的增加而减小，则权重值应增加，权重值应增加的大小与权重变化减少的损失值的大小成正比。反之亦然。另外，通过学习率确保增加的权重值小于因权重变化而导致的损失值变化，这样可以确保损失值更平稳地减小。
接下来，创建一个名为 update_weights 的函数，该函数执行反向传播过程以更新在权重，该函数运行 epochs 次：

from copy import deepcopy
def update_weights(inputs, outputs, weights, epochs):  
    for epoch in range(epochs):

将输入通过神经网络传递，以计算权重未更新时的损失：

        org_loss = feed_forward(inputs, outputs, weights)

确保对权重列表进行深复制，由于权重将在后续步骤中进行操作，深复制可解决由于子变量的更改而影响父变量的问题：

        wts_tmp = deepcopy(weights)
        wts_tmp2 = deepcopy(weights)

循环遍历所有权重值，然后对其进行较小的更改 (+0.0001)：

        for ix, wt in enumerate(weights): 
            wts_tmp[ix] += 0.0001

当权重修改后，计算更新的前向传播损失。计算由于权重的微小变化而造成的损失变化，因为我们要计算所有输入采样的均方误差，因此将损失的变化除以输入的数据数量：

            loss = feed_forward(inputs, outputs, wts_tmp)
            del_loss = np.sum(org_loss - loss)/(0.0001*len(inputs))

以较小的值更新权重，然后计算其对损失值的影响，等效于计算权重变化的导数(即反向梯度传播)。

通过损失变化来更新权重。通过将损失的变化乘以一个很小的数字(0.01)来缓慢更新权重，这就是学习率参数：

            wts_tmp2[ix] += del_loss*0.01
            wts_tmp = deepcopy(weights)

返回更新的权重和偏差值：

        weights = deepcopy(wts_tmp2)
return wts_tmp2

整体 update_weights() 函数如下所示：

from copy import deepcopy
def update_weights(inputs, outputs, weights, epochs):  
    for epoch in range(epochs):
        org_loss = feed_forward(inputs, outputs, weights)
        wts_tmp = deepcopy(weights)
        wts_tmp2 = deepcopy(weights)
        for ix, wt in enumerate(weights): 
            wts_tmp[ix] += 0.0001
            loss = feed_forward(inputs, outputs, wts_tmp)
            del_loss = np.sum(org_loss - loss)/(0.0001*len(inputs))
            wts_tmp2[ix] += del_loss*0.01
            wts_tmp = deepcopy(weights)

        weights = deepcopy(wts_tmp2)
return wts_tmp2

通过更新网络 1000 次，查看训练后网络中的参数和偏置值：

weights = update_weights(x, y, w, 1000)
print(weights)

打印权重如下所示，可以看到其与预期的结果 (w=3.0, b=0.0) 非常接近：

[[[2.99929065]]
 [[0.00478785]]]

神经网络中的还有一个重要参数是在计算损失值时需要考虑的批大小 (batch size)。在以上示例中，我们同时为所有数据计算损失值。但是，当我们有成千上万个数据时，在计算损失值时增加大量数据的增量贡献将导致训练困难，甚至可能超出内存上限无法计算，因此通常在一个 epoch 中将数据分为多个 batch 送入网络进行训练，建立模型时常用的 batch 大小在 16 ~ 512 之间。

小结

在本文中，我们了解了神经网络的相关基础知识，同时看到了神经网络常见的模型架构与其在实际中的广泛应用，同时利用 Python 从零开始实现了神经网络的训练过程——前向传播和反向传播，了解了神经网络的通用训练流程。

量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
一文搞懂 Cursor 内部工作原理~ zz_jesse
介绍了Cursor，一个结合了AI技术的代码编辑器，它通过深度学习和语义索引的方式，提升了开发者的工作效率。Cursor通过与VSCode相似的界面和功能，以及自己的AI特性，实现了代码的智能化编辑和错误检查。译文从这开始～～你可能已经看到新闻：OpenAI正以高达30亿美元的价格收购Windsurf！与此同时，Cursor的母公司Anysphere也正在以90亿美元估值融资9亿美元！这对于代码生
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
深度学习核心知识简介和模型调参研术工坊深度学习知识和技巧深度学习人工智能 python
深度学习模型调优就像调制一道复杂的菜肴，需要掌握多种"调料"的用法。本文将为您详解这些关键"调料"，帮助您烹饪出高性能的模型。###核心参数及其影响####1️⃣Loss（损失函数）**基本介绍**：衡量模型预测与真实值差距的指标，是模型优化的指南针。**生活类比**：想象你在教小孩认识动物：-**完美情况**：小孩看到猫说"猫"，看到狗说"狗"→Loss=0-**有错误**：小孩看到猫说"狗"→
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
2025年跑深度学习电脑配置-深度学习显卡推荐 OpenCV图像识别人工智能深度学习智能电视人工智能
2025年跑深度学习任务，电脑配置需从处理器、内存、显卡、存储、散热与电源、扩展性、网络连接等多方面综合考量，以下是具体分析：处理器（CPU）多核高性能：深度学习涉及大量并行计算任务，需要处理器具备强大的多核处理能力。英特尔至强Scalable处理器（SapphireRapids或后续架构）和AMDEPYC处理器（Genoa或后续架构）是不错的选择。英特尔至强Scalable处理器提供卓越的单核性
【零基础学AI】第30讲：生成对抗网络(GAN)实战 - 手写数字生成 1989 0基础学AI 人工智能生成对抗网络神经网络 python 机器学习近邻算法深度学习
本节课你将学到GAN的基本原理和工作机制使用PyTorch构建生成器和判别器DCGAN架构实现技巧训练GAN模型的实用技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtorchvisionmatplotlibnumpyGPU推荐（可大幅加速训练）前置知识第21讲TensorFlow基础第23讲神经网络原理基本PyTorch使用经验核心概念什么是GAN？GAN就像
【深度学习第六期深度学习中的归一化与正则化技术：原理、实践与应用】码上有前 Python 深度学习 Pytorch 深度学习人工智能 cnn
作者：“码上有前”文章简介：深度学习欢迎小伙伴们点赞、收藏⭐、留言深度学习中的归一化与正则化技术：原理、实践与应用摘要：本文深入探讨深度学习中批量归一化（BN）、层归一化（LN）、标准化以及正则化等关键技术。详细阐述它们的基本原理，包括如何调整数据分布、控制模型复杂度等；通过丰富的实例和对应代码，展示在不同网络架构中这些技术的具体实现方式，以及对模型训练和性能的影响；同时，对比分析各项技术的特点和
10、量子神经网络：从理论到实践安检量子神经网络 PennyLane Qiskit
量子神经网络：从理论到实践1.量子神经网络简介量子神经网络（QuantumNeuralNetworks,QNNs）是量子计算与经典机器学习相
深度神经网络课程设计：从理论到实践 Vita Libre
本文还有配套的精品资源，点击获取简介：深度神经网络是深度学习预测的核心技术，本课程设计项目旨在教授学生如何构建和应用深度神经网络进行各种预测任务，包括图像识别和自然语言处理。学生将通过源代码示例学习从网络架构设计、数据预处理到模型训练与评估的完整流程，并掌握深度学习的基本概念、组件及技巧。1.深度神经网络定义和在深度学习预测中的角色深度神经网络（DeepNeuralNetworks,DNNs）是深
深度学习基础与应用：从理论到实战创新工场
本文还有配套的精品资源，点击获取简介：深度学习是人工智能的核心分支，通过模拟人脑神经网络处理大量数据以执行复杂任务。Python因其简洁性和强大的库支持成为深度学习研究的首选语言。本文概述了深度学习基础概念、核心算法、Python框架，并假设了一个包含教程、示例代码、数据集、交互式学习环境、性能评估指标和进阶主题的“deep-learning-study-main”压缩包内容，旨在帮助学习者深入理
深层神经网络：原理与传播机制详解网安spinage 深度学习神经网络人工智能机器学习深度学习
网络架构概述本文探讨的深层神经网络结构如下：输入层：3个神经元第一隐藏层：5个神经元第二隐藏层：5个神经元第三隐藏层：3个神经元输出层：1个神经元输出层隐藏层3隐藏层2隐藏层1输入层输出神经元3.1神经元3.2神经元3.3神经元2.1神经元2.2神经元2.3神经元2.4神经元2.5神经元1.1神经元1.2神经元1.3神经元1.4神经元1.5输入1输入2输入3数学符号定义符号含义维度XXX输入数据3
大模型与智能体：螺旋共生，绘就智能新蓝图东锋17 人工智能大模型智能体人工智能
大模型与智能体：螺旋共生，绘就智能新蓝图在人工智能的前沿领域，大模型与智能体宛如两颗璀璨的星辰，以一种精妙的螺旋共生关系，重塑着智能世界的格局，深刻影响着我们生活与工作的方方面面。大模型：构筑智能大厦的基石大语言模型，像广为人知的GPT-4、通义千问等，凭借在海量数据中深度学习的锤炼，展现出卓越的语言理解与生成天赋。它们就像知识渊博的学者，能熟练应对各类自然语言任务。无论是洋洋洒洒的文章创作，还是
深度学习之迁移学习路溪非溪人工智能迁移学习机器学习
认识迁移学习迁移学习（TransferLearning）是机器学习中的一种重要技术，其核心思想是将在一个任务上学习到的知识（模型参数、特征表示等），迁移应用到另一个相关但不同的任务中，从而提升新任务的学习效率和性能，尤其是在新任务数据有限的情况下。一、迁移学习的核心动机传统机器学习通常要求为每个新任务收集大量标注数据并从头训练模型，但现实中面临以下挑战：数据稀缺：例如医疗影像分析（罕见疾病样本少）
【深度学习-Day 35】实战图像数据增强：用PyTorch和TensorFlow扩充你的数据集吴师兄大模型深度学习入门到精通深度学习 pytorch tensorflow 人工智能 python 大模型 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【深度学习】【入门】Linear和flatten 学习中的阿陈深度学习人工智能
1.Linear1.Linear的概念Linear层，通常也被称为全连接层，是神经网络中一种经典且基础的层结构。它的核心特点是每一个神经元都与上一层的所有神经元相连接，这种全连接的方式使得信息能够在层与层之间充分传递和整合2.Linear层的作用Linear层在神经网络中主要承担着特征整合与输出映射的重任。在经过卷积、池化等层提取出数据的局部特征后，Linear层能够将这些分散的局部特征进行整合，
SUNDAE-一种称为“光谱剪枝”的技术来优化和压缩3DGS模型 huarzail 3DGS 剪枝 3d 算法
清华大学人工智能产业研究院、伦敦帝国理工学院、北京航空航天大学、北京理工大学、中国科学院大学、香港中文大学（深圳）、中国电信人工智能研究院（TeleAI）EVOL实验室的研究人员联合推出了一种新的3D场景表示方法-SUNDAE，它通过一种称为“光谱剪枝”的技术来优化和压缩3D高斯溅射（3DGaussianSplatting，简称3DGS）模型，同时使用神经网络补偿来保持渲染质量。项目主页：SUND
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
粒子群算法的原理与实现示例禺垣人工智能算法粒子群算法群体智能优化算法
粒子群算法（ParticleSwarmOptimization，PSO）是一种基于群体智能的优化算法，由Kennedy和Eberhart于1995年提出，其灵感来源于鸟群觅食、鱼群游动等自然界中群体行为的协作与信息共享机制。该算法通过模拟群体中个体（粒子）的运动和信息交互，在解空间中搜索最优解，具有实现简单、收敛速度快、参数少等特点，被广泛应用于函数优化、神经网络训练、工程设计等领域。一、算法
深度学习基础2 TY-2025 深度学习深度学习人工智能
5.张量索引操作（1）索引操作行列索引列表索引print(data[[0,2],[1,2]])#返回(0,1)，(2,2)两个位置的元素print(data[[[0],[1]],[1,2]])#返回0，1行的1，2列共4个元素范围索引print(data[:3,:2])#前3行前2列数据print(data[2:,:2])#第2行到最后的前2列数据布尔索引tensor([[0,7,6,5,9],[
MATLAB 实现 SRCNN 图像超分辨率重建 leo__520 matlab 超分辨率重建开发语言
SRCNN代码实现。该代码使用三层卷积神经网络，进行图像的超分辨率重建，效果比双三次插值好很多SRCNN/Readme.txt,1494SRCNN/SRCNN.m,1267SRCNN/Set14/baboon.bmp,720054SRCNN/Set14/barbara.bmp,1244214SRCNN/Set14/bridge.bmp,263222SRCNN/Set14/coastguard.bm
英伟达终为 CUDA 添加原生 Python 支持，他有什么目的？朱卫军 AI python 开发语言
CUDA原来只支持C/C++/Fortran，在2025的CES上宣布支持原生Python其实是不得已而为之，一方面现在Python的AI开发者数量过于庞大，达到数千万级别，而CUDA仅几百万，CUDA想扩大自己的用户圈子，只能拉Python入伙。另一方面，Python生态的计算库实在太强大，比如numpy，几乎垄断了数组计算，还有像scipy、keras等，已经成为机器学习的主流工具，CUDA必
Python 领域 vllm 安装与环境配置全攻略 Python编程之道 Python编程之道 python 开发语言 ai
Python领域vllm安装与环境配置全攻略关键词：Python、vllm、安装、环境配置、深度学习摘要：本文围绕Python领域中vllm的安装与环境配置展开，全面且深入地介绍了vllm的相关知识。首先阐述了背景信息，包括目的范围、预期读者、文档结构和术语表。接着详细讲解了vllm的核心概念与联系，分析其核心算法原理并给出具体操作步骤，还引入了相关数学模型和公式进行说明。通过项目实战，提供代码实
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

Keras深度学习实战（1）——神经网络基础与模型训练过程详解