Lingjie Fan

对于 ResNet 残差网络的思考——残差网络可以解决梯度消失的原因

导言：
1.问题：
2.计算图：

2.1 求导链式法则的图形化表示
2.2 全链接网络反向传播计算图
2.2 全链接网络正向传播计算图

3. relu 和 ResNet 各自解决了什么问题

3.1 relu 解决梯度分布不均匀
3.2 ResNet 解决梯度整体变小

4.小结

导言：

从神经网络的历史上来看，深层网络由于梯度消失无法训练这个问题目前为止一共有两次很大的突破。第一次是神经网络开山鼻祖 Hinton 先生提出的 $r e l u$ 激活函数取代了原来的 $s i g m o i d$ 和 $t a n h$ 函数，使得对于激活函数的导数变为了 $1$ 。第二次是何凯明大神在 2015 年的论文 Deep Residual Learning for Image Recognition 中使用残差模块利用 shortcut 解决了深层网络梯度消失的问题，使得训练数百层甚至数千层的网络成为了可能。

深入思考了 ResNet 残差网络是如何解决梯度消失问题的，同时本文也对神经网络反向传播的计算提出了一种计算图，方便在以后研究过程中，可以通过直接看图，来了解在所构建的神经网络在反向传播过程中的具体细节。

1.问题：

最近读神经网络文章时遇到了一个问题。一开始神经网络使用 $s i g m o i d$ 以及 $t a n h$ 函数，如下图所示为 $s i g m o i d$ 以及 $t a n h$ 函数及其导数示意图。

这种激活函数正如网上的大多数博文所说的一样，由于其导数在大部分区域内小于 $1$ ，会使得多层网络在反向传播时很多个小于1的导数不断相乘最后使得梯度越来越小，反向传播最后到输入层附近时几乎不更新。

历史上，深度学习开山祖师 Hinton 为了解决这个问题提出了一种新的激活函数就是 $r e l u$ ，它的函数及其导数图如下所示。

可以看到这种激活函数的导数在大于 $0$ 的时候恒为1，这样就不会出现小于 $1$ 的导数不断相乘导致梯度消失的问题。

按道理来说，梯度消失的问题就已经解决了呀，Happy Ending 本文完。但梯度消失的故事才刚刚开始 -_-！。即使有了 $r e l u$ 这一大神器之后，梯度消失的问题也曾一度将深度学习开山鼻祖 Hinton 先生逼到一层一层的训练其在 Science 提出的自编码器(auto-encoder)。这也是我一直困惑的问题，都有了 $r e l u$ 激活函数解决梯度消失问题了，那后面何凯明大神提出来的 ResNet 为什么又将梯度消失问题解决了一遍？什么意思只用 $r e l u$ 激活函数为什么不能训练深层网络呀？毕竟 $r e l u$ 激活函数的导数都是 $1$ 呀，问题出在了哪里？

2.计算图：

为了更深入的理解这个问题。

PS: 而不是像其他分析 ResNet 残差网络的博文那样直接说残差网络通过引入恒等映射，恒等映射求导是 $1$ 解决了梯度消失的问题。其实想想也知道这个解释不靠谱，因为 $r e l u$ 在大于 0 的时候也是恒等映射。那不是说 ResNet 残差网络是多余的吗。

我创造了一种能够清楚表示神经网络反向传播时计算细节以及正向传播计算细节的计算图。

2.1 求导链式法则的图形化表示

在开始画出神经网络的计算图之前，我们首先来用计算图画出高等数学中经常会用到的多元函数求导链式法则。这也是神经网络反向传播算法的基础。

对于多元函数求导链式法则来说，其数学表示式如下：

$\frac{\partial F}{\partial x}=\frac{\partial F}{\partial m}\frac{\partial m}{\partial x}+\frac{\partial F}{\partial n}\frac{\partial n}{\partial x}$

其中 m，n 为中间变元。这样一个求导链式法则可以用如下的图形化的语言描述

可以看到从 $F$ 走到 $x$ 一共有两条路，可以先由 $F$ 走到 $m$ 最终到 $x$ ，也可以选择中间经过 $n$ 到 $x$ 。两种不同路径的选择用加号 $+$ 相加，从 $F$ 走到 $m$ 用 $\frac{\partial F}{\partial m}$ 表示，从 $m$ 走到 $x$ 用 $\frac{\partial m}{\partial x}$ 表示。同一条路径的先后次序用乘号 $\times$ 相乘。由此可以得到上面的数学表达式。同时我们使用方框来表示各个变量，由此来和神经网络示意图中表示神经元的符号圆圈相区分。

2.2 全链接网络反向传播计算图

如下图所示，左边是一个全链接神经网络示意图，右边是一个全链接网络计算图。由于在电脑上画图实在太难画了，我没有将它补充完整。

由此我们可以直接通过看图来得到反向传播过程中权重是如何具体更新的。

比如图中的权重 $w^{11}_{n-1}$ 来说，我们可以通过看图很容易写出它反向传播更新时的数学表达式。

$\frac{\partial Loss}{\partial w^{11}_{n-1}}=\frac{\partial Loss}{\partial y^{1}_{n}}\frac{\partial y^{1}_{n}}{\partial x^{1}_{n}}\frac{\partial x^{1}_{n}}{\partial w^{11}_{n-1}}$

其在图中的意义为：从 $L o s s$ 出发走到 $w^{11}_{n-1}$ 只有一条路，它从 $L o s s$ 出发经过 $y^{1}_{n}$ 再经过 $x^{1}_{n}$ 即可到达 $w^{11}_{n-1}$ 。

同时在上图的表示中我们可以看到这样的三叉路口一样的图形。

它在正向传播计算中表示加权求和，但是在反向传播计算图中的规则更为简单，满足以下关系。

$\frac{\partial x^{1}_{n}}{\partial w^{11}_{n-1}}=y^{1}_{n-1}$

$\frac{\partial x^{1}_{n}}{\partial y^{1}_{n-1}}=w^{11}_{n-1}$

表示从 $x_{n}^{1}$ 走到 $w^{11}_{n-1}$ 的结果为 $y^{1}_{n-1}$ ，从 $x_{n}^{1}$ 走到 $y^{1}_{n-1}$ 的结果为 $w^{11}_{n-1}$ 。

同样，我们也可以通过直接看计算图。从图中我们可以看到从 $L o s s$ 走到 $w^{11}_{n-2}$ 存在着多条不同路径， $y^{1}_{n}$ 、 $y^{2}_{n}$ 、 $y^{3}_{n}$ 、 $y^{4}_{n}$ 所代表的路径都可能，如下图红色线条所示。

由此我们可以得到权重 $w^{11}_{n-2}$ 反向传播时的数学表达式。

$\frac{\partial Loss}{\partial w^{11}_{n-2}}= \frac{\partial Loss}{\partial y^{1}_{n}}\frac{\partial y^{1}_{n}}{\partial x^{1}_{n}}\frac{\partial x^{1}_{n}}{\partial y^{1}_{n-1}}\frac{\partial y^{1}_{n-1}}{\partial x^{1}_{n-1}}\frac{\partial x^{1}_{n-1}}{\partial w^{11}_{n-2}} \\+\frac{\partial Loss}{\partial y^{2}_{n}}\frac{\partial y^{2}_{n}}{\partial x^{2}_{n}}\frac{\partial x^{2}_{n}}{\partial y^{1}_{n-1}}\frac{\partial y^{1}_{n-1}}{\partial x^{1}_{n-1}}\frac{\partial x^{1}_{n-1}}{\partial w^{11}_{n-2}} \\+\frac{\partial Loss}{\partial y^{3}_{n}}\frac{\partial y^{3}_{n}}{\partial x^{3}_{n}}\frac{\partial x^{3}_{n}}{\partial y^{1}_{n-1}}\frac{\partial y^{1}_{n-1}}{\partial x^{1}_{n-1}}\frac{\partial x^{1}_{n-1}}{\partial w^{11}_{n-2}} \\+\frac{\partial Loss}{\partial y^{4}_{n}}\frac{\partial y^{4}_{n}}{\partial x^{4}_{n}}\frac{\partial x^{4}_{n}}{\partial y^{1}_{n-1}}\frac{\partial y^{1}_{n-1}}{\partial x^{1}_{n-1}}\frac{\partial x^{1}_{n-1}}{\partial w^{11}_{n-2}}$

使用 $r e l u$ 函数以及使用上面的三叉路口的化简方法，我们可以得到。

$\frac{\partial Loss}{\partial w^{11}_{n-1}}=\frac{\partial Loss}{\partial y^{1}_{n}}y^{1}_{n-1}$

$\frac{\partial Loss}{\partial w^{11}_{n-2}}= \frac{\partial Loss}{\partial y^{1}_{n}}w^{11}_{n-1}y^{1}_{n-2} \\+\frac{\partial Loss}{\partial y^{2}_{n}}w^{12}_{n-1}y^{1}_{n-2} \\+\frac{\partial Loss}{\partial y^{3}_{n}}w^{13}_{n-1}y^{1}_{n-2} \\+\frac{\partial Loss}{\partial y^{4}_{n}}w^{14}_{n-1}y^{1}_{n-2}$

上面式子中的 $y^{1}_{n-1}$ ， $y^{1}_{n-2}$ 需要通过正向传播计算得到。下面我们利用计算图来计算正向传播的结果。

2.2 全链接网络正向传播计算图

下面我们再来看看如何利用我们刚才画出的计算图来计算正向传播过程。

非常惊讶的是只需要将前面的求偏导操作替换成乘法即可在计算图中完成正向传播的操作。和反向传播一样，在计算图中计算正向传播也是一个寻找路径的过程不同路径的结果应当相加。

下面我们利用计算图来完成 $y^{1}_{n-1}$ ， $y^{1}_{n-2}$ 的计算（这里将 $y_{n-2}$ 当做输入）。所以 $y^{1}_{n-2}$ 就是其本身。而 $y^{1}_{n-1}$ 的计算图路径如下所示。

最后得到的 $y^{1}_{n-1}$

$y^{1}_{n-1} = w^{11}_{n-2}y^{1}_{n-2}+w^{21}_{n-2}y^{2}_{n-2}+w^{31}_{n-2}y^{3}_{n-2}+w^{41}_{n-2}y^{4}_{n-2}$

最后得到的梯度计算结果为

$\frac{\partial Loss}{\partial w^{11}_{n-1}}=\frac{\partial Loss}{\partial y^{1}_{n}}(w^{11}_{n-2}y^{1}_{n-2}+w^{21}_{n-2}y^{2}_{n-2}+w^{31}_{n-2}y^{3}_{n-2}+w^{41}_{n-2}y^{4}_{n-2})$

3. relu 和 ResNet 各自解决了什么问题

由于我们可以从计算图中很容易得到权重更新的数学计算式。我们可以很清晰地思考 $r e l u$ 激活函数和 ResNet 残差网络分别解决了什么问题。

3.1 relu 解决梯度分布不均匀

对于 $r e l u$ 来说主要是使得激活函数的导数为 $1$ , 从上面的梯度计算图中来说是使得下面这一类的路径的导数为 $1$ ，即直接变为一条直线。

即对于没有死掉的神经元来说 $\frac{\partial y^{1}_{n}}{\partial x^{1}_{n}}=1$ ，对于死掉的神经元(relu dead) $\frac{\partial y^{1}_{n}}{\partial x^{1}_{n}}=0$ 直接从求和计算中去掉。

由此我们可以简化上面的 $w^{11}_{n-1}$ 和 $w^{11}_{n-2}$ 的数学计算式。

$\frac{\partial Loss}{\partial w^{11}_{n-1}}=\frac{\partial Loss}{\partial y^{1}_{n}}\frac{\partial x^{1}_{n}}{\partial w^{11}_{n-1}}$

$\frac{\partial Loss}{\partial w^{11}_{n-2}}= \frac{\partial Loss}{\partial y^{1}_{n}}\frac{\partial x^{1}_{n}}{\partial y^{1}_{n-1}}\frac{\partial x^{1}_{n-1}}{\partial w^{11}_{n-2}} \\+\frac{\partial Loss}{\partial y^{2}_{n}}\frac{\partial x^{2}_{n}}{\partial y^{1}_{n-1}}\frac{\partial x^{1}_{n-1}}{\partial w^{11}_{n-2}} \\+\frac{\partial Loss}{\partial y^{3}_{n}}\frac{\partial x^{3}_{n}}{\partial y^{1}_{n-1}}\frac{\partial x^{1}_{n-1}}{\partial w^{11}_{n-2}} \\+\frac{\partial Loss}{\partial y^{4}_{n}}\frac{\partial x^{4}_{n}}{\partial y^{1}_{n-1}}\frac{\partial x^{1}_{n-1}}{\partial w^{11}_{n-2}}$

同时使用上面我们提到的三叉路口的化简方法
我们可以得到如下非常优美的式子

$\frac{\partial Loss}{\partial w^{11}_{n-1}}=\frac{\partial Loss}{\partial y^{1}_{n}}y^{1}_{n-1}$

此后通过正向传播计算得到最后的梯度计算结果为

$\frac{\partial Loss}{\partial w^{11}_{n-1}}=\frac{\partial Loss}{\partial y^{1}_{n}}(w^{11}_{n-2}y^{1}_{n-2}+w^{21}_{n-2}y^{2}_{n-2}+w^{31}_{n-2}y^{3}_{n-2}+w^{41}_{n-2}y^{4}_{n-2})$

可以从上述最后的梯度计算结果中看到，通过使用 $r e l u$ 函数使得不同网络不同深度处的梯度形式相近，不会出现随着反向传播的进行越往后面梯度越小。

但为什么留下来的这个简洁的式子仍然有梯度消失的问题呢？

3.2 ResNet 解决梯度整体变小

我们接着分析上面得到最后的梯度计算结果，可以看到其中有很多权重因子。这是因为在计算图中经过了如下的权重层导致有多条路径可以选择的结果。由于上述计算过程同时设计正向传播和反向传播会贯穿整个网络，导致网络越深，最后的梯度计算结果中前面乘上的权重系数也会越来越多。

我们可以简单分析一下上面得到的最终计算 $w^{11}_{n-2}$ 以及 $w^{11}_{n-1}$ 梯度的计算式

$\frac{\partial Loss}{\partial w^{11}_{n-1}}=\frac{\partial Loss}{\partial y^{1}_{n}}(w^{11}_{n-2}y^{1}_{n-2}+w^{21}_{n-2}y^{2}_{n-2}+w^{31}_{n-2}y^{3}_{n-2}+w^{41}_{n-2}y^{4}_{n-2})$

我们可以看到通过 $r e l u$ 解决反向传播时梯度衰减问题后，不同深度的权重感受到的梯度形式相近。不会出现一开始有梯度，而反向传播到后面的层就感受不到梯度了。但是随着网络深度的增加上面的式子有什么问题呢？

结果是前面乘的权重系数会越来越多。因为不管是正向传播还是反向传播，每条路径经过一个权重因子都会乘上这个权重因子。随着层数的增加，路径变得越来越长，在这条路上走一走遇到的权重因子也会越来越多，梯度会整体的变小。

也就是说网络变深了，梯度虽然每层的相同但是整体变小了。如果网络足够深，每一层的梯度都变小到感受不到了。这也就是当初 Hinton 祖师爷虽然用 $r e l u$ 这个神器解决了梯度分布不均匀的问题，但是却留下了一个更大的问题，权重分布是均匀了但是整体变小了-_-)?

那么 2015 年横空出世的 ResNet 是如何解决这一问题的呢?

ResNet 的解决方法非常粗暴，就是加入 shortcut 。这个 shortcut 在梯度计算图中相当于增加了一条可以跳过权重的层的路径。使得最终计算所得的权重处的梯度加上一项没有经过权重层衰减的梯度。话不多说，下面我们就画一画 ResNet 残差网络中的一个残差模块的计算图。

可以看到同样我们计算 $w^{11}_{n-2}$ 处的梯度。相比于此前的计算图，由于 ResNet 残差模块中加入了 shortcut 导致梯度计算图中出现了一条可以不用经过中间的权重层的捷径（如图红色的线条所示）。这解决了经过权重层梯度消失的问题。

同样对于正向传播来说这样的 shortcut 也增加一条跳过权重层的路径，由于最后的结果是不同路径相加，所以即使其他路径足够小也没什么，梯度也没整体减少。

4.小结

从上面对于计算图的分析中，我们可以看出在神经网络反向传播过程中，一共有两个因素会导致梯度消失问题。一是激活函数导数小于 $1$ ，二是经过权重层。前者会导致反向传播过程中越往后传播梯度越小梯度分布不均匀，后者会导致随着网络深度的增加每一层的梯度都整体减少。 $r e l u$ 函数解决了第一个问题，而 ResNet 解决了第二个问题。

同时上面提出的计算图使得我们可以方便的了解神经网络反向传播过程中的具体细节。

量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
AI人工智能遇上TensorFlow：技术融合新趋势 AI大模型应用之禅人工智能 tensorflow python ai
AI人工智能遇上TensorFlow：技术融合新趋势关键词：人工智能、TensorFlow、深度学习、神经网络、机器学习、技术融合、AI开发摘要：本文深入探讨了人工智能技术与TensorFlow框架的融合发展趋势。我们将从基础概念出发，详细分析TensorFlow在AI领域的核心优势，包括其架构设计、算法实现和实际应用。文章包含丰富的技术细节，如神经网络原理、TensorFlow核心算法实现、数学
【零基础学AI】第30讲：生成对抗网络(GAN)实战 - 手写数字生成 1989 0基础学AI 人工智能生成对抗网络神经网络 python 机器学习近邻算法深度学习
本节课你将学到GAN的基本原理和工作机制使用PyTorch构建生成器和判别器DCGAN架构实现技巧训练GAN模型的实用技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtorchvisionmatplotlibnumpyGPU推荐（可大幅加速训练）前置知识第21讲TensorFlow基础第23讲神经网络原理基本PyTorch使用经验核心概念什么是GAN？GAN就像
【深度学习-Day 35】实战图像数据增强：用PyTorch和TensorFlow扩充你的数据集吴师兄大模型深度学习入门到精通深度学习 pytorch tensorflow 人工智能 python 大模型 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
基于Abp Vnext、FastMCP构建一个企业级的模型即服务（MaaS）平台方案 NetX行者 Abp vnext Maas Abp vnext FastMCP 企业级平台解决方案开源 python
企业级MaaS平台技术可行性分析报告一、总体技术架构HTTP/WebSocketgRPC/RESTgRPC/RESTgRPCVue3前端ABPvNextAPI网关.NET9业务微服务ABPvNextMCPClientFastMCP模型仓库PyTorch/TensorFlowHuggingFaceHeyGem/ChatGLM自定义模型统一鉴权中心二、核心框架与中间件组件技术选型官方链接作用前端框架V
服务器无对应cuda版本安装pytorch-gpu[自用] 片月斜生梦泽南 pytorch
服务器无对应cuda版本安装pytorch-gpu服务器无对应cuda版本安装pytorch-gpu网址下载非root用户安装tmux查看服务器ubuntu版本conda安装tensorflow-gpu安装1.x版本服务器无对应cuda版本安装pytorch-gpu网址GPU版本的pytorch、pytorchvision的下载链接https://download.pytorch.org/whl/
Ubuntu下安装多版本CUDA及灵活切换全攻略芯作者 D2：ubuntu linux ubuntu
——释放深度学习潜能，告别版本依赖的烦恼！**为什么需要多版本CUDA？在深度学习、科学计算等领域，不同框架（TensorFlow、PyTorch等）对CUDA版本的要求各异。同时升级框架或维护旧项目时，版本冲突频发。多版本CUDA共存+一键切换是高效开发的刚需！本文将手把手教你实现这一能力，并分享独创的“动态软链接+环境隔离”技巧，让版本管理行云流水！环境准备硬件要求NVIDIA显卡（支持CUD
ubuntu22.04从新系统到tensorflow GPU支持澍龑 tensorflow 人工智能
ubuntu22.04CUDA从驱动到tensorflow安装0系统常规设置和软件安装0.1挂载第二硬盘默认Home0.2软件安装0.3安装指定版本的python0.4python虚拟环境设置1直接安装1.1配置信息1.2驱动安装1.3集显显示，独显运算（其它debug用）1.4卸载驱动(备用，未试)日常使用ssh后台运行（断联不中断）0系统常规设置和软件安装0.1挂载第二硬盘默认Homesudo
【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战 1989 0基础学AI 人工智能机器翻译自然语言处理 python tensorflow 机器学习神经网络
本节课你将学到理解注意力机制的核心思想掌握注意力计算的数学原理实现基于注意力机制的Seq2Seq模型构建英语到法语的神经翻译系统开始之前环境要求Python3.8+需要安装的包：tensorflow==2.8.0numpy==1.21.0matplotlib==3.4.0pandas==1.3.0前置知识RNN/LSTM原理（第26讲）序列数据处理（第26讲）自然语言处理基础（第14讲）核心概念为
TensorFlow图神经网络(GNN)入门指南 AI天才研究院 AI人工智能与大数据 tensorflow 神经网络人工智能 ai
TensorFlow图神经网络(GNN)入门指南关键词：TensorFlow、图神经网络、GNN、深度学习、图数据、节点嵌入、图卷积网络摘要：本文全面介绍如何使用TensorFlow实现图神经网络(GNN)。我们将从图数据的基本概念开始，深入探讨GNN的核心原理，包括图卷积网络(GCN)、图注意力网络(GAT)等流行架构，并通过TensorFlow代码示例展示如何构建和训练GNN模型。文章还将涵盖
mediapipe流水线分析三江太翁 Android NDK 人工智能 mediapipe android
目标检测Graph一流水线上游输入处理1TfLiteConverterCalculator将输入的数据转换成tensorflowapi支持的TensorTfLiteTensor并初始化相关输入输出节点，该类的业务主要通过interpreterstd::unique_ptrtflite::Interpreterinterpreter_=nullptr;实现类完成数据在cpu/gpu上的推理1.1Tf
JuPyter(IPython) Notebooks中使用pip安装Python的模块 weixin_34218890 开发工具 python 人工智能
问题描述：没有带GPU的电脑，搞深度学习不是耍流氓嘛，我网上看到有个云平台，免费使用了一下，小姐姐很热情。使用过程如下：他们给的接口是Jupyter编辑平台，我就在上面跑了一个小例子。tensorflow和python环境是他们配置好的，不过我的例子中需要导入matplotlib.pylot模块。可是他们没有提供，怎么办呢？网上查了一下啊解决方法：采用如下方法：importpipdefMyPipi
TensorFlow武林志第一卷：入门篇 - 初入江湖第一章：真气初现空中湖 tensorflow武林志 tensorflow 人工智能 python
第一卷：入门篇-初入江湖第一章：真气初现林枫揉了揉酸痛的胳膊，将最后一捆柴火堆放在灶房角落。这是他来到青霄剑宗做杂役的第三个月，每日劈柴挑水的生活让他原本白皙的皮肤变得黝黑粗糙。"喂，新来的！掌门要的热水怎么还没送去？"门外传来管事的呵斥声。"马上就好！"林枫急忙提起铜壶，滚烫的热水溅在他手背上，他却浑然不觉疼痛。自从上月在后山偶然吞服了那枚奇异的朱果后，他对冷热疼痛的感知就变得异常迟钝。穿过曲折
TensorFlow 零基础入门：手把手教你跑通第一个AI模型蓑笠翁001 人工智能人工智能 tensorflow python 机器学习深度学习分类
今天用最直白的语言，带完全零基础的同学走进TensorFlow的世界。不用担心数学公式，先学会"开车"，再学"造车"！1.准备工作：安装TensorFlow就像玩游戏需要先安装游戏客户端一样，我们需要先安装TensorFlow。打开你的电脑（Windows/Mac都行），按下Win+R，输入cmd打开命令提示符，然后输入：pipinstalltensorflow看到"Successfullyins
「日拱一码」017 深度学习常用库——TensorFlow
目录基础操作张量操作：tf.constant用于创建常量张量tf.Variable用于创建可训练的变量张量tf.reshape可改变张量的形状tf.concat可将多个张量沿指定维度拼接tf.split则可将张量沿指定维度分割数学运算：tf.add张量的加运算tf.subtract张量的减运算tf.multiply张量的乘运算tf.divide张量的除运算tf.pow计算张量的幂tf.sqrt计算
强化学习【chapter0】-学习路线图明朝百晓生算法人工智能机器学习
前言：主要总结一下西湖大学赵老师的课程【强化学习的数学原理】课程：从零开始到透彻理解（完结）_哔哩哔哩_bilibili1️⃣基础阶段（Ch1-Ch7）：掌握表格型算法，理解TD误差与贝尔曼方程2️⃣进阶阶段（Ch8-Ch9）：动手实现DQN/策略梯度，熟悉PyTorch/TensorFlow3️⃣前沿阶段（Ch10：阅读论文（OpenAISpinningUp/RLlib文档）Chapter1：基
【深度学习pytorch-6】张量与numpy相互转换超华东算法王 DL-pytorch 深度学习 pytorch numpy
张量与Numpy数组之间的互相转换在深度学习中，张量（tensor）和Numpy数组（numpyarray）是两种常见的数据结构。张量通常用于深度学习框架（如PyTorch、TensorFlow等），而Numpy数组在科学计算中被广泛使用。为了便于数据处理和计算，常常需要在它们之间进行转换。下面介绍张量和Numpy数组之间的互相转换。1.PyTorch张量与Numpy数组的互相转换PyTorch提
NumPy 或 PyTorch/TensorFlow 中的张量理解栖霖涧 numpy pytorch tensorflow
(2,2,3)形状的3D数组（或张量）的结构。个人理解：2个2维数组（张量），2维数组（张量）里面有2个1维向量（张量），1维向量（张量）里面有3个元素。注：由于最后一个维度值3代表的是元素个数，左侧括号后的第1个2代表的是第n-1个[（中括号，即n-1维数组）的数量，左侧括号后的第2个2代表的是第n-2个[（中括号，即n-2维数组）的数量。这段文字中，n代表的是数组的维度，这里是3维。维度解析：
Tensorflow 回归模型 FLASK + DOCKER 部署至 Ubuntu 虚拟机
准备工作：安装虚拟机，安装ubuntu，安装python3.x、pip和对应版本的tensorflow和其他库文件,安装docker。注意事项：1.windows系统运行的模型文件不能直接运行到虚拟机上，需在虚拟机上重新运行并生成模型文件2.虚拟机网络状态改为桥接Flask代码如下：fromflaskimportFlask,request,jsonifyimportpickleimportnump
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
KANN 是一个独立的轻量级 C 语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括 LSTM 和 GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归等
一、软件介绍文末提供程序和源码下载KANN是一个独立的轻量级C语言库，用于构建和训练中小型人工神经网络，例如多层感知器、卷积神经网络和递归神经网络（包括LSTM和GRU）。它实现了基于图的逆模自动微分，并允许构建具有递归、共享权重和多个输入/输出/成本的拓扑复杂神经网络。与TensorFlow等主流深度学习框架相比，KANN的可扩展性较低，但它的灵活性接近，代码库要小得多，并且仅依赖于标准C库。与
在浏览器中使用TensorFlow.js 魏铁锤chui tensorflow javascript 人工智能
TensorFlow.js简介介绍光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。TensorFlow.js是一个库，用于使用JavaScript开发和训练机器学习模型，并将其部署在浏览器中或Node.js上。您可以使用现有模型、转换PythonTensorFlow模型、使用迁移学习用您自己的
深刻解析如何解决在pycharm中导入tensorflow的子模块keras时的报错（导入语法正确） lovingf pycharm python tensorflow keras
只是导入时报错，但代码仍可以运行1.导入方式正确，但pycharm将其标红2.通过查看tensorflow的官方文件，猜测可能是python版本不适配python需为python3.6-3.9，而我的为python3.113.配置python3.9的环境（详情可看我的另一篇文章），但依然报错4.经过仔细分析，觉得可能是pycharm与tensorflow的适配问题，pycharm无法寻找到tens
TensorFlow运行时核心：DirectSession::Run全解析 Jay Kay tfserving c++tensorflow 分布式
TensorFlow运行时核心：DirectSession::Run全解析TensorFlow的本地执行模式通过DirectSession::Run实现高效计算图处理，其核心流程分为三个阶段：图剪枝生成ClientGraph、设备间图分裂、跨设备并发执行。下面结合源码层设计深入剖析各环节实现原理。一、图剪枝：从FullGraph到ClientGraph目标：根据Session::Run指定的输入（
深入理解AI技术与实践：如何贡献代码 Wurenyu957 人工智能
在现代AI技术的开发过程中，贡献代码是推动项目发展、提升技术能力的重要方式。在这篇文章中，我们将结合AI技术实践，深入探讨如何有效地为开源项目贡献代码，尤其是那些使用AI模型的项目。技术背景介绍AI技术的迅猛发展得益于开源社区的共享和协作。诸如TensorFlow、PyTorch等开源框架，极大地降低了AI模型开发的门槛。与此同时，越来越多的项目通过GitHub等平台开放源码，接受来自全球开发者的
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
DAY 43 复习日 yizhimie37 python训练营打卡笔记深度学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710第一步：寻找并准备图像数据集在Kaggle等平台上，你可以找到大量用于图像分类任务的数据集，例如英特尔图像分类数据集(IntelImageClassification)或手写数字识别数据集(DigitRecognizer)。对于初学者，一个更便捷的选择是使用像TensorFlow或PyTorch这样深度学习框架内
用Tensorflow进行线性回归和逻辑回归（十） lishaoan77 tensorflow 线性回归 tensorboard 可视化
用TensorBoard可视化线性回归模型TensorBoard是一种可视化工具，用于了解、调试和优化模型训练过程。它使用在执行程序时编写的摘要事件。上面定义的模型使用tf.summary.FileWriter来写日志到日志目录/tmp/lr-train.我们可以用命令调用日志目录的TensorBoard，见Example3-13(TensorBoard已黙认安装与TensorFlow一起).Ex
强化学习 16G实践以下是基于CQL（Conservative Q-Learning）与QLoRA（Quantized Low-Rank Adaptation）结合的方案相关开源项目及资源，【ai技】行云流水AI笔记开源人工智能
根据你提供的CUDA版本（11.5）和NVIDIA驱动错误信息，以下是PyTorch、TensorFlow的兼容版本建议及环境修复方案：1.版本兼容性表框架兼容CUDA版本推荐安装命令（CUDA11.5）PyTorch11.3/11.6pipinstalltorchtorchvisiontorchaudio--extra-index-urlhttps://download.pytorch.org/
TensorFlow Serving学习笔记3: 组件调用关系
一、整体架构TensorFlowServing采用模块化设计，核心组件包括：Servables：可服务对象（如模型、查找表）Managers：管理Servable生命周期（加载/卸载）Loaders：负责Servable的初始化状态管理Sources：提供新版本Servable的LoaderAspiredVersions：Servable的期望状态集合Core：连接所有组件的核心枢纽APIs：gR
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d

对于 ResNet 残差网络的思考——残差网络可以解决梯度消失的原因