SusanLovesTech

深度学习基础之-4.2非线性回归-单入单出双层神经网络回归/拟合实例全过程

提出问题

目的：验证前馈神经网络的万能近似定理。
神经网络的万能近似定理:一个前馈神经网络如果具有线性层和至少一层具有"挤压"性质的激活函数（如signmoid等），给定网络足够数量的隐藏单元，它可以以任意精度来近似任何从一个有限维空间到另一个有限维空间的borel可测函数。

要相符上面的定理，也就是想拟合任意函数，一个必须点是“要有带有“挤压”性质的激活函数”。这里的“挤压”性质是因为早期对神经网络的研究用的是sigmoid类函数，所以对其数学性质的研究也主要基于这一类性质：将输入数值范围挤压到一定的输出数值范围。（后来发现，其他性质的激活函数也可以使得网络具有普适近似器的性质，如ReLU 。

问题：给出如下一批训练数据，如何使用神经网络方法来拟合这条曲线？

样本	1	2	3	…	1000
特征X	0.606	0.129	0.643	…	0.199
标签Y	-0.113	-0.269	-0.217	…	-0.281

训练数据：

$y=0.4x^2 + 0.3xsin(15x) + 0.01cos(50x)-0.3$
我们特意把数据限制在[0,1]之间，避免做归一化的麻烦。

1.前向计算

$\cdot X+B1$

$A 1 = S i g m o i d (Z 1)$

$\cdot A1+B2$

$\tag{没有激活函数}$

以及均方差损失函数：

$\frac{1}{2m}\sum^m_{i=1}(z_i-y_i)^2$
前向计算图：

1）为什么要用两层神经网络？

首先，一层神经网络肯定不能完成这个复杂函数的拟合过程。**因为一层神经网络，只能完成线性任务。**这里的“线性任务”的定义，从简单到复杂，列表如下：

名称	形式	能力
单变量线性回归	$y=w_0+w_1·x$	拟合二维平面直线
多变量线性回归	$y=w_0+w_1·x_1+w_2·x_2...$	拟多高维空间直线或平面
高阶线性回归	$y=w_0+w_1·x_1+w_2·x^2_1...$	拟合二维平面高阶曲线
多变量高阶线性回归	$y=w_0+w_1·x_1+w_2·x_2+w_3·x^2_1+w_4·x^2_2...$	拟合多维空间高阶曲线或曲面

所谓的“高阶”，指的是特征变量其实只有一个x1，但是把x1的平方也算作第二个特征向量。比如一栋房子的长度x1，宽度x2，占地面积x3=x1*x2。这里的x3并不是独立存在的，真正的自变量只有x1和x2。

这些高次线性回归问题，可以用单层的神经网络来解决，但是是有前提条件的，即假设函数必须和实际问题吻合。满足这个条件的实际工程问题并不多见，并且这种情况完全可以用两层的神经网络来解决，所以我们没有在单层的神经网络中涉及这个问题。

2）为什么在输出层没有用到激活函数？

神经网络不管有多少层，最后的输出层决定了这个神经网络能干什么。在单层神经网络中，我们学习到了以下示例：

网络	输入	输出	激活函数	功能
单层	单变量	单输出	无	二维线性回归/拟合
单层	多变量	单输出	无	多维线性回归/拟合
单层	多变量	单输出	二分类函数	二分类
单层	多变量	多输出	多分类函数	多分类

对于多层神经网络也是如此，我们要完成拟合任务，而不是分类，所以用不到激活/分类函数。通常把激活函数和分类函数混淆在一起说，如果明确地区分二者，则可以这样说：神经网络的最后一层不用激活函数，只可能用到分类函数。Sigmoid既是激活函数，又是分类函数，是个特例。

神经网络的拟合原理是这样的：在第一层神经网络，通过 $W 1 * X + B 1$ 的计算做线性变化，把非线性问题转换成线性问题；在第二层神经网络做线性回归。所以在第二层是不需要激活函数的，否则就没法画出一条直线来。这个可以想象两个独立的神经网络，第一个网络已经把数据处理成线性的了，以便让我们使用上一章的方法，做一次线性回归就好了。

简言之：

神经网络最后一层不需要激活函数
激活函数只用于连接前后两层神经网络 （非常重要）

2.1）对激活函数在多层神经网络中做线性分类或回归的进一步解释：

在两层神经网络的输出层，可以用和单层神经网络一样的结构来完成分类任务，而用隐层来完成非线性到线性的转换工作。我们可以通过以下几张图的比较来理解一下非线性到线性的转换。
假设有两组点组成的红蓝两色曲线如下图：

我们如何用神经网络画一条直线或者曲线来把红蓝两线分开呢？

一层的神经网络	两层神经网络

为什两层神经网络可以做到这样呢？第二层也是一个线性的变化，关键在于第一层添加了激活函数之后，做到了坐标转换和空间扭曲：（第一层计算，把坐标空间扭曲，然后第二层神经网络轻松地画了一条直线，就把二者完美分开了）

3）为什么用均方差而不是交叉熵损失函数？

我们把上面的表格拿来再扩充一下：

网络	输入	输出	激活函数	损失函数	功能
单层	单变量	单输出	无	均方差	二维线性回归/拟合
单层	多变量	单输出	无	均方差	多维线性回归/拟合
单层	多变量	单输出	二分类函数	交叉熵	二分类
单层	多变量	多输出	多分类函数	交叉熵	多分类

交叉熵函数是用于分类的，均方差函数是用于拟合的，可以理解为计算拟合的点和样本标签点的距离之平方和。
拟合/回归的目的是减少预测值和样本标签值之间的差距，差距通过均方差的欧氏距离来表示。
在多层神经网络模型中，不论是回归/拟合问题还是分类问题，最后一层均不需要激活函数，需要激活函数的都是前面几层，最后一层如果做分类，则会添加分类函数如sigmoid/softmax，如果是拟合/回归问题则什么都不需要添加（个人见解，如有不妥，敬请指正）

2.反向传播

梯度生成

对损失函数求导，可以得到损失函数对输出层的梯度值，即上图中的Z2部分。

因为：

$\frac{1}{2m} \sum (z_i-y_i)^2$

${\partial{J} \over \partial{z_i}}=\frac{1}{2m} \sum {\partial{(z_i-y_i)^2} \over \partial{z_i}}=\frac{1}{m} \sum (z_i-y_i)$

用于矩阵运算，可以简写为：

$\frac{\partial{J}}{\partial{Z2}} = Z2-Y \tag{1}$

求W2的梯度

$\cdot A1+B2$

${\partial{Z2} \over \partial{W2}}=\frac{\partial{(W2 \cdot A1+B2)}}{\partial{W2}}$

$=\frac{\partial{(W2 \cdot A1)}}{\partial{W2}}+\frac{\partial{(B2)}}{\partial{W2}}$

$A1^T+0=A1^T$

结合损失函数对Z2的偏导结果，使用链式法则：

$\frac{\partial{J}}{\partial{W2}} = \frac{\partial{J}}{\partial{Z2}} \cdot \frac{\partial{Z2}}{\partial{W2}}$ $=(Z2-Y)A1^T \tag{2}$

求B2的梯度

$\frac{\partial{J}}{\partial{B2}} = \frac{\partial{J}}{\partial{Z2}} \cdot \frac{\partial{Z2}}{\partial{B2}}$

$\cdot 1=Z2-Y \tag{3}$

求损失函数对隐层的梯度

对于深度神经网络，需要把梯度从最后一层逐层向前传递，经过激活函数的导数，直接达到线性计算部分，即下图中的Z1部分：

链式求导公式如下：

$\frac{\partial{J}}{\partial{Z1}} = \frac{\partial{J}}{\partial{Z2}} \cdot \frac{\partial{Z2}}{\partial{A1}} \cdot \frac{\partial{A1}}{\partial{Z1}}$

公式(1)已经有了第一项的结果，现在来解决后面两项：

$\frac{\partial{Z2}}{\partial{A1}} = \frac{\partial{(W2 \cdot A1 + B2)}}{\partial{A1}}=W2^T$

$\frac{\partial{A1}}{\partial{Z1}}=\frac{\partial{(Sigmoid(Z1))}}{\partial{Z1}}=A1 \odot (1-A1)$

所以：

$dZ1=\frac{\partial{J}}{\partial{Z1}} = \frac{\partial{J}}{\partial{Z2}} \cdot \frac{\partial{Z2}}{\partial{A1}} \cdot \frac{\partial{A1}}{\partial{Z1}}$ $=W2^T \times dZ2 \odot A1 \odot (1-A1) \tag{4}$

求W1的梯度

$\frac{\partial{Z1}}{\partial{W1}} = \frac{\partial{(W1 \cdot X+B1)}}{\partial{W1}} = X^T$

$dW1=\frac{\partial{J}}{\partial{W1}} = \frac{\partial{J}}{\partial{Z1}} \frac{\partial{Z1}}{\partial{W1}}= dZ1 \times X^T \tag{5}$

求B1的梯度

$\frac{\partial{Z1}}{\partial{B1}} = \frac{\partial{(W1 \cdot X+B1)}}{\partial{B1}} = 1$

$dB1=\frac{\partial{J}}{\partial{B1}} = \frac{\partial{J}}{\partial{Z1}} \frac{\partial{Z1}}{\partial{B1}}= dZ1 \tag{6}$

用于拟合的双层神经网络的实现

观察样本：

样本	1	2	3	…	1000
特征X	0.606	0.129	0.643	…	0.199
标签Y	-0.113	-0.269	-0.217	…	-0.281

首先观察一下样本数据的范围，x是在[0,1]，y是[-0.5,0.5]，这样我们就不用做数据归一化了。这条线看起来像一条处于攻击状态的眼镜蛇！

定义神经网络结构

我们定义一个两层的神经网络，输入层不算，一个隐藏层，含4个神经元，一个输出层。

输入层

输入层就是一个标量x值。

权重矩阵W1/B1

$\begin{pmatrix} w_{1,1} \ w_{2,1} \ w_{3,1} \ w_{4,1} \ \end{pmatrix}$

其实这里的B1所在的圆圈里应该是个常数1，而B1连接到Z1-1…Z1-4的权重线B1-1…B1-4应该是个浮点数。我们为了说明问题方便，就写了个B1，而实际的B1是指B1-1…B1-4的矩阵/向量。

$\begin{pmatrix} b_{1,1} \ b_{2,1} \ b_{3,1} \ b_{4,1} \ \end{pmatrix}$

隐藏层

我们用一个4个神经元的网络来模拟函数，每个神经元的输入 $\cdot X + B1$ ，我们在这里使用sigmoid函数，所以输出是 $A 1 = S i g m o i d (Z 1)$ 。

$\begin{pmatrix} z_{1,1} \ z_{2,1} \ z_{3,1} \ z_{4,1} \end{pmatrix}, A1 = \begin{pmatrix} a_{1,1} \ a_{2,1} \ a_{3,1} \ a_{4,1} \end{pmatrix}$

权重矩阵W2/B2

W2的尺寸是1x4，B2的尺寸是1x1。 $\begin{pmatrix}w_{1,1} & w_{1,2} & w_{1,3} & w_{1,4} \end{pmatrix}$

$\begin{pmatrix} b_{1,1} \end{pmatrix}$

输出层

由于我们只想完成一个拟合任务，所以输出层只有一个神经元， $\cdot A1+B2$ 。

前向计算图

刚开始学习神经网络时，总没有矩阵尺寸的概念，所以建议大家用下图的方式来加强一下认识，其中矩形的宽和高象征性地表示了这个矩阵的形状。

至此，我们得到了以下一串公式：

$\cdot X+B1$

$A 1 = S i g m o i d (Z 1)$

$\cdot A1+B2$

$\tag{这一步可以省略}$

代码结构

四个底层模块

Data Reader 读取数据，处理数据
Activations 激活函数库，包括正向和反向
Loss Function
损失函数库，损失值历史记录
WeightsBias 权重参数，初始化，更新

双层网络主模块

流程说明：

def train(self, dataReader, params, loss_history):
        # 初始化权重参数
        wb1 = WeightsBias(params.num_input, params.num_hidden, params.eta)
        wb1.InitializeWeights()
        wb2 = WeightsBias(params.num_hidden, params.num_output, params.eta)
        wb2.InitializeWeights()

        # 初始化损失值记录器
        loss = 0 
        lossFunc = CLossFunction(params.loss_func_name)

        # 计算批大小和内循环次数
        max_iteration = (int)(dataReader.num_example / params.batch_size)
        # 外循环，控制epoch次数
        for epoch in range(params.max_epoch):
            # 每个epoch都要打乱数据顺序
            #dataReader.Shuffle()
            # 控制内循环次数
            for iteration in range(max_iteration):
                # 获得当前批次的样本数据和标签
                batch_x, batch_y = dataReader.GetBatchSamples(params.batch_size,iteration)
                # 前向计算
                dict_cache = self.ForwardCalculationBatch(batch_x, wb1, wb2)
                # 反向计算梯度
                self.BackPropagationBatch(batch_x, batch_y, dict_cache, wb1, wb2)
                # 更新权重数组
                self.UpdateWeights(wb1, wb2)
            # end for            
            # 计算全批量损失值并记录
            output = self.ForwardCalculationBatch(dataReader.X, wb1, wb2)
            loss = lossFunc.CheckLoss(dataReader.Y, output["Output"])
            print("epoch=%d, loss=%f" %(epoch,loss))
            loss_history.AddLossHistory(loss, epoch, iteration, wb1, wb2)            
            # 检查停止条件
            if loss < params.eps:
                break
            # end if
        # end for
        # 返回训练好的权重值
        return wb1, wb2
    # end def

运行结果

损失函数值	拟合结果

参数调优

可调的参数

参数	缺省值	是否可调	注释
输入层神经元数	1	No
隐层神经元数	4	Yes	影响迭代次数
输出层神经元数	1	No
学习率	0.1	Yes	影响迭代次数
批样本量	10	Yes	影响迭代次数
最大epoch	30000	Yes	影响终止条件,建议不改动
损失门限值	0.001	Yes	影响终止条件,建议不改动
损失函数	MSE	No
参数初始化方法	Xavier	Yes	下一章提到

初始化

初始化是神经网络训练非常重要的环节之一，不同的初始化方法，甚至是相同的方法但不同的随机值，都会给结果带来或多或少的影响。

在后面的几组比较中，都是用Xavier方法初始化的。另外，两次使用Xavier初始化，也会得到不同的结果，为了避免这个随机性，我们在代码Level0_TwoLayerFittingNet.py中，使用了一个小技巧，调用下面这个函数：

 def InitializeWeights(self, create_new = False):
        self.__GenerateWeightsArrayFileName()
        if create_new:
            self.__CreateNew()
        else:
            self.__LoadExistingParameters()
        # end if
        self.dW = np.zeros(self.W.shape)
        self.dB = np.zeros(self.B.shape)

第一次调用时，会得到一个随机初始化矩阵。以后再次调用时，如果参数值为False，只要隐层神经元数量不变并且初始化方法不变，就会用第一次的初始化结果，否则后面的各种参数调整的结果就没有可比性了（笔者不大清楚这是为什么）。

学习率调整

我们固定其它参数，改变学习率，下面是损失函数值的曲线：

学习率	迭代次数	说明
0.1	9540	学习率小，收敛最慢
0.3	4360	学习率增大，收敛增快
0.5	2780	最快
0.7	3040	学习率进一步增大，但收敛不一定快

对于拟合曲线这个特定问题，较大的学习率可以带来很快的收敛速度，但是有两点：

并不是对所有问题都这样，有的问题可能需要0.001或者更小的学习率
学习率大时，开始时收敛快，但是到了后来有可能会错失最佳解

批大小的调整

我们固定其它参数，调整批大小，比较结果如下：

批大小	迭代次数	说明
1	4680	批数据量小到1，收敛慢
5	2540	批数据量增大，收敛最快
10	2780	批数据量进一步增大，收敛变慢
20	4670	批数据量太大，反而会降低收敛速度

合适的批样本量会带来较快的收敛，前提是我们固定了学习率。如果想用较大的批数据，底层数据库计算的速度较快，但是需要同时调整学习率，才会相应地提高收敛速度。

这个结论的前提是我们用了0.5的学习率，如果用0.1的话，将会得到不同结论。

隐层神经元数量的调整

这次我们调整隐层神经元的数量：

隐层神经元数量	迭代次数	说明
2	9990	神经元数量少，拟合能力低
4	2540	神经元数量对于这个问题最合适
6	4200	神经元多了不一定能帮上忙，还有可能帮倒忙
8	3470	再多一些神经元会有一些用处

https://github.com/microsoft/ai-edu/blob/master/B-教学案例与实践/B6-神经网络基本原理简明教程/09.3-参数调优.md
https://github.com/microsoft/ai-edu/blob/master/B-教学案例与实践/B6-神经网络基本原理简明教程/09.2-双层拟合网络的实现.md

一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
大规模语言模型从理论到实践分布式训练的集群架构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大规模语言模型从理论到实践分布式训练的集群架构作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModels,LLMs）在自然语言处理（NaturalLanguageProcessing,NLP）领域取得了突破性进展。LLMs，如BERT、GPT-3等，通
图生视频技术的发展与展望：从技术突破到未来图景 Liudef06 Stable Diffusion 音视频人工智能深度学习 stable diffusion
一、技术发展现状图生视频（Image-to-VideoGeneration）是生成式人工智能（AIGC）的重要分支，其核心是通过单张或多张静态图像生成动态视频序列。近年来，随着深度学习、多模态融合和计算硬件的进步，图生视频技术经历了从基础研究到商业落地的快速演进。早期探索与GAN的奠基早期图生视频技术主要基于生成对抗网络（GAN），通过对抗训练生成低分辨率的视频片段。例如，DeepMind的DVD
Moodle + Websoft9：创新教育的强大组合，助力教学与学习开源软件
Moodle+Websoft9：构建未来课堂的技术基石一、Moodle：开源生态的深度解析•模块化设计：支持超800个官方插件，如H5P交互内容创作、BigBlueButton虚拟课堂，满足个性化教学需求。•学习分析引擎：内置LearningAnalyticsAPI，可集成Python/R语言进行深度学习，预测学生学业风险。•移动优先战略：MoodleApp支持离线学习、扫码签到，2023年新增A
书籍-《动手学深度学习（英文版）》
书籍：DiveintoDeepLearning作者：AstonZhang，ZacharyC.Lipton，MuLi，AlexanderJ.Smola出版：CambridgeUniversityPress编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《动手学深度学习（英文版）》01书籍介绍深度学习已经彻底改变了模式识别，为计算机视觉、自然语言处理和自动语音识别等领域提供了强大的工具。应用深度学
图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
目前市场上主流的机器视觉的框架有哪些？他们的特点及优劣 yuanpan 机器学习计算机视觉
目前市场上主流的机器视觉框架和工具可以分为商业软件、开源工具和深度学习框架三大类。以下是它们的总结及特点对比：1.商业软件(1)Halcon(MVTec)特点：专注于工业机器视觉，提供高精度、高效率的算法。支持复杂的工业应用，如缺陷检测、3D视觉、深度学习等。提供图形化开发工具HDevelop和多种编程接口。优势：算法优化好，适合实时工业应用。硬件兼容性强，支持多种工业相机和设备。劣势：商业软件，
1.1PaddleTS_环境配置：一个易用的深度时序建模的Python库 pythonQA python paddlepaddle
PaddleTS是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验。PaddleTS的主要特性包括：设计统一数据结构，实现对多样化时序数据的表达，支持单目标与多目标变量，支持多类型协变量封装基础模型功能，如数据加载、回调设置、损失函数、训练过程控制等公共方法，帮助开发
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
代码逐行解析 | 教你在C++中使用深度学习提取特征点 3Ｄ视觉工坊 3D视觉从入门到精通 c++深度学习开发语言人工智能
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达扫描下方二维码，加入3D视觉技术星球，星球内汇集了众多3D视觉实战问题，以及各个模块的学习资料：最新顶会论文、书籍、源码、视频（近20门系统课程[星球成员可免费学习]）等。想要入门3D视觉、做项目、搞科研，就加入我们吧。作者：泡椒味的口香糖|来源：3DCV添加微信：dddvision
深度学习-130-RAG技术之基于Anything LLM搭建本地私人知识库的应用策略问题总结(一) 皮皮冰燃深度学习深度学习人工智能 RAG
文章目录1AnythingLLM的本地知识库1.1本地知识库应用场景1.2效果对比及思考1.3本地体现在哪些方面1.3.1知识在本地1.3.2分割后的文档在本地1.3.3大模型部署运行在本地2问错问题带来的问题2.1常见的问题2.2原因分析3为什么LLM不使用我的文件？3.1LLM不是万能的【omnipotent】3.2LLM不会自省【introspect】3.3AnythingLLM是如何工作的
3DMAX点云算法：实现毫米级BIM模型偏差检测（附完整代码）夏末之花人工智能
摘要本文基于激光雷达点云数据与BIM模型的高精度对齐技术，提出一种融合动态体素化与多模态特征匹配的偏差检测方法。通过点云预处理、语义分割、模型配准及差异分析，最终实现建筑构件毫米级偏差的可视化检测。文中提供关键代码实现，涵盖点云处理、特征提取与深度学习模型搭建。一、核心算法流程点云预处理与特征增强去噪与下采样：采用统计滤波与体素网格下采样，去除离群点并降低数据量。语义分割：基于PointNet++
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
Docker打包深度学习项目 FLY_LTL docker 深度学习容器
文章目录Docker打包深度学习项目1.Docker和NVIDIAContainerToolkit的安装1.Docker2.NVIDIAContainerToolkit3.添加国内镜像源2.使用Dockerfile打包并保存镜像1.Dockerfile2.通过Dockerfile生成镜像3.保存镜像和加载4.运行Docker并测试参考Docker打包深度学习项目本文来源于个人实践总结，供各位同学参
深度革命：ResNet 如何用 “残差连接“ 颠覆深度学习安意诚Matrix 机器学习笔记深度学习人工智能
一文快速了解ResNet创新点在深度学习的历史长河中，2015年或许是最具突破性的一年。这一年，微软亚洲研究院的何恺明团队带着名为ResNet（残差网络）的模型横空出世，在ImageNet图像分类竞赛中以3.57%的错误率夺冠，将人类视觉的识别误差（约5.1%）远远甩在身后。更令人震撼的是，ResNet将神经网络的深度推至152层，彻底打破了"深层网络无法训练"的魔咒。这场革命的核心，正是一个简单
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算【超级详细版】 AI筑梦师计算机视觉算法深度学习人工智能机器学习计算机视觉 python
智能形状匹配技术全解析：从经典算法到深度学习与神经形态计算1.引言1.1研究背景在计算机视觉、模式识别、医学影像分析和自动驾驶等领域，形状匹配是核心任务之一。然而，现实世界的形状往往存在可变性（Variability），主要体现在以下几个方面：形变（Deformation）：物体可能由于柔性材料、外力作用或生物运动发生非刚性形变。尺度变化（ScaleVariation）：目标形状在不同场景下可能大
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是机器视觉3D引导大模型视觉人机器视觉机器视觉3D 3d 数码相机机器人人工智能大数据
机器视觉3D引导大模型是结合深度学习、多模态数据融合与三维感知技术的智能化解决方案，旨在提升工业自动化、医疗、物流等领域的操作精度与效率。以下从技术架构、行业应用、挑战与未来趋势等方面综合分析：一、技术架构与核心原理多模态数据融合与深度学习3D视觉引导大模型通常整合RGB图像、点云数据、深度信息等多模态输入，通过深度学习算法（如卷积神经网络、Transformer）进行特征提取与融合。例如，油田机
深度学习在医学影像分析中的应用：DeepSeek系统的实践与探索 Evaporator Core #深度学习 #DeepSeek快速入门 DeepSeek进阶开发与应用深度学习人工智能
随着人工智能技术的迅猛发展，深度学习在医学领域的应用逐渐成为研究热点。医学影像分析作为医疗诊断的重要组成部分，正受益于深度学习技术的突破。DeepSeek系统是一种基于深度学习的医学影像分析平台，旨在通过高效、精准的算法辅助医生进行疾病诊断和治疗决策。本文将深入探讨DeepSeek系统的技术原理、实现方法及其在医学影像分析中的实际应用，并结合代码示例展示其核心功能。1.DeepSeek系统的技术架
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
PyTorch 深度学习博客 Zoro｜ PyTorch Deep Learning 人工智能
PyTorch深度学习博客欢迎来到我的PyTorch深度学习博客！在这里，我将分享使用PyTorch学习和实践深度学习项目的点滴经验。本博客适用于初学者和有一定基础的开发者，旨在帮助大家快速搭建环境、掌握核心概念，并通过实例了解实际应用。环境配置为了确保项目的稳定性和兼容性，我选择了Python3.9环境，并在conda创建的虚拟环境中运行最新且稳定的PyTorch版本2.6.0。1.创建Pyth
深度学习五大模型：CNN、Transformer、BERT、RNN、GAN详细解析深度学习
卷积神经网络（ConvolutionalNeuralNetwork,CNN）原理：CNN主要由卷积层、池化层和全连接层组成。卷积层通过卷积核在输入数据上进行卷积运算，提取局部特征；池化层则对特征图进行下采样，降低特征维度，同时保留主要特征；全连接层将特征图展开为一维向量，并进行分类或回归计算。CNN利用卷积操作实现局部连接和权重共享，能够自动学习数据中的空间特征。适用场景：广泛应用于图像处理相关的
算力技术创新驱动多场景应用演进智能计算研究中心其他
内容概要算力技术创新正成为数字经济时代的基础性驱动力，从异构计算架构的多元融合到量子计算的颠覆性突破，技术演进不断突破物理与算法的双重边界。在工业互联网场景中，边缘计算通过分布式节点实现毫秒级响应，支撑智能制造产线的实时控制；智能安防系统依托深度学习模型与流计算技术，完成海量视频数据的动态解析；而科学计算领域通过分布式计算与模型压缩技术，将基因测序、气候模拟等复杂任务的效率提升至新量级。值得注意的
AI模型技术前沿与跨场景应用实践智能计算研究中心其他
内容概要当前AI模型技术正呈现多维度突破与跨领域融合的特征。从技术演进角度看，可解释性模型与量子计算框架的协同发展正在突破传统黑箱限制，而联邦学习、自适应优化等技术则为复杂场景建模提供了新的方法论支撑。应用层面，TensorFlow与PyTorch框架在医疗影像诊断、金融时序预测等领域的实战案例，验证了深度学习模型在垂直行业的泛化能力。值得关注的是，工具链整合已成为技术落地的关键环节，MXNet与
融合AMD与NVIDIA GPU集群的MLOps：异构计算环境中的分布式训练架构实践
在深度学习的背景下，NVIDIA的CUDA与AMD的ROCm框架缺乏有效的互操作性，导致基础设施资源利用率显著降低。随着模型规模不断扩大而预算约束日益严格，2-3年更换一次GPU的传统方式已不具可持续性。但是Pytorch的最近几次的更新可以有效利用异构计算集群，实现对所有可用GPU资源的充分调度，不受制于供应商限制。本文将深入探讨如何混合AMD/NVIDIAGPU集群以支持PyTorch分布式训
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
深度学习框架PyTorch——从入门到精通（5）构建神经网络 Fansv587 Torch框架学习深度学习 pytorch 神经网络经验分享
构建神经网络获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax模型参数补充说明argmax神经网络是由一些层或者模块组成的，这些层和模块会对数据进行各种操作。在PyTorch里，torch.nn这个命名空间提供了你搭建自己神经网络所需要的所有基础组件。PyTorch里的每一个模块都是nn.Module类的子类。一个神经网络本身
深度学习框架PyTorch——从入门到精通（5）自动微分 Fansv587 深度学习 pytorch 人工智能
使用torch.autograd自动微分张量、函数和计算图计算梯度禁用梯度追踪关于计算图的更多信息张量梯度和雅可比乘积在训练神经网络时，最常用的算法是反向传播。在该算法中，参数（模型权重）根据损失函数的梯度相对于给定参数进行调整。为了计算这些梯度，PyTorch有一个内置的微分引擎，名为torch.autograd。它支持为任何计算图自动计算梯度。考虑最简单的一层神经网络，具有输入x、参数w和b以
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】 kay_545 YOLO11改进有效涨点 python 人工智能机器学习
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转本专栏所有程序均经过测试，可成功执行专栏地址：YOLO11入门+改进涨点——点击即可跳转欢迎订阅目录json2txt脚本xml2txttxt2json
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

深度学习基础之-4.2非线性回归-单入单出双层神经网络回归/拟合实例全过程

提出问题

问题：给出如下一批训练数据，如何使用神经网络方法来拟合这条曲线？

1.前向计算

1）为什么要用两层神经网络？

2）为什么在输出层没有用到激活函数？

2.1）对激活函数在多层神经网络中做线性分类或回归的进一步解释：

3）为什么用均方差而不是交叉熵损失函数？

2.反向传播

梯度生成

求W2的梯度

求B2的梯度

求损失函数对隐层的梯度

求W1的梯度

求B1的梯度

用于拟合的双层神经网络的实现

定义神经网络结构

输入层

权重矩阵W1/B1

隐藏层

权重矩阵W2/B2

输出层

前向计算图

代码结构

四个底层模块

双层网络主模块

运行结果

参数调优

可调的参数

初始化

学习率调整

批大小的调整

隐层神经元数量的调整

你可能感兴趣的:(深度学习)