长竹Danko

通俗易懂的RNN

目录

一、什么是RNN
二、为什么要发明RNN
三、RNN的基础知识
- 1、循环核介绍
- 2、循环核按时间步展开
- 3、记忆体
- 4、循环计算层
- 5、TF描述循环计算层
二、RNN的补充知识
- 1、RNN梯度消失的原因

一、什么是RNN

RNN（Recurrent Neural Network）是一类用于处理序列数据的神经网络。首先我们要明确什么是序列数据，摘取百度百科词条：时间序列数据是指在不同时间点上收集到的数据，这类数据反映了某一事物、现象等随时间的变化状态或程度。这是时间序列数据的定义，当然这里也可以不是时间，比如文字序列，但总归序列数据有一个特点——后面的数据跟前面的数据有关系。

RNN是神经网络的一种，类似的还有深度神经网络DNN，卷积神经网络CNN，生成对抗网络GAN，等等。RNN对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，利用了RNN的这种能力，使深度学习模型在解决语音识别、语言模型、机器翻译以及时序分析等NLP领域的问题时有所突破。

举几个具有序列特性的例子：

拿人类的某句话来说，也就是人类的自然语言，是不是符合某个逻辑或规则的字词拼凑排列起来的，这就是符合序列特性。
语音，我们发出的声音，每一帧每一帧的衔接起来，才凑成了我们听到的话，这也具有序列特性。
股票，随着时间的推移，会产生具有顺序的一系列数字，这些数字也是具有序列特性。

二、为什么要发明RNN

我们先来看一个NLP很常见的问题，命名实体识别，举个例子，现在有两句话：

第一句话：I like eating apple！（我喜欢吃苹果！）

第二句话：The Apple is a great company！（苹果真是一家很棒的公司！）

现在的任务是要给apple打Label，我们都知道第一个apple是一种水果，第二个apple是苹果公司，假设我们现在有大量的已经标记好的数据以供训练模型，当我们使用全连接的神经网络时，我们做法是把apple这个单词的特征向量输入到我们的模型中（如下图），在输出结果时，让我们的label里，正确的label概率最大，来训练模型，但我们的语料库中，有的apple的label是水果，有的label是公司，这将导致，模型在训练的过程中，预测的准确程度，取决于训练集中哪个label多一些，这样的模型对于我们来说完全没有作用。问题就出在了我们没有结合上下文去训练模型，而是单独的在训练apple这个单词的label，这也是全连接神经网络模型所不能做到的，于是就有了我们的循环神经网络。

【全连接神经网络结构】

三、RNN的基础知识

1、循环核介绍

循环核具有记忆力，通过不同时刻的参数共享，实现了对时间序列的信息提取

ht：记忆体内当前时刻存储的状态信息
xt：当前时刻输入特征
ht-1：记忆体上一时刻存储的状态信息
yt：当前时刻循环核的输出特征

2、循环核按时间步展开

按时间步展开，就是把循环核按照时间轴方向展开。每个时刻记忆体状态信息ht被刷新，记忆体周围的参数矩阵wxh、whh和why是固定不变的。要训练优化的就是这些参数矩阵。训练完成后，使用效果最好的参数矩阵，执行前向传播，输出预测结果。循环神经网络，就是借助循环核提取时间特征后，送入全连接网络，实现连续数据的预测。

3、记忆体

循环核按照时间步展开后，可以发现，循环核是由多个记忆体构成，记忆体是循环神经网络储存历史状态信息的载体，每个记忆体都可以设定相应的个数，这个个数决定了记忆体可以存储历史状态信息的能力，记忆体个数越多，训练效果越好，但是由于记忆体的个数决定了参数矩阵的维度，因此记忆体个数越多，需要训练的参数量就越多，所需要消耗的资源就越大，训练时间就越长，因此需酌情评估。图中的例子中记忆体的个数为3，这个记忆体的个数，决定了ht的维度，进一步决定了Wxh、Whh以及Why的维度。

对于记忆体，还有一种更好的理解方式，输入xt+记忆体ht+输出yt这一个结构其实对应的就是全连接神经网络，其中输入层就是输入xt，隐藏层就是记忆体，隐藏层神经元的个数即是记忆体的个数，输出层就是输出yt，具体图示如下：

图中的Wxh维度是3x4，Whh维度是4x4，Why维度是4x2。

4、循环计算层

每个循环核构成一层循环计算层。循环计算层的层数时是向输出方向增长的。

5、TF描述循环计算层

tf.keras.layers.SimpleRNN(记忆体个数,
                          activation = '激活函数',  # 其中默认为tanh
                          return_sequences = Ture or False  # 是否每个时刻输出ht到下一层，
                                                            # 如果不是则仅最后时间步输出ht，False为默认值
                          
)

（1）每个时间步都会输出ht：一般是中间层

（2）仅最后时间步输出ht：一般是输出层

二、RNN的补充知识

1、RNN梯度消失的原因

RNN和DNN梯度消失的原因是不同的，DNN梯度消失及梯度爆炸的原因可见之前的文章，这里我们介绍RNN梯度消失的原因。

RNN结构如图：

【注】：图中的隐藏层标记St与上面图片中的标识ht不同，标识只是用于推导RNN梯度消失的原因，无其他含义。

假设我们的时间序列只有三段， [公式] 为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下：

$S_{1}=W_{x}X_{1}+W_{s}S_{0}+b_{1}$
$O_{1}=W_{o}S_{1}+b_{2}$
$S_{2}=W_{x}X_{2}+W_{s}S_{1}+b_{1}$
$O_{2}=W_{o}S_{2}+b_{2}$
$S_{3}=W_{x}X_{3}+W_{s}S_{2}+b_{1}$
$O_{3}=W_{o}S_{3}+b_{2}$

输入时间序列长度为t的数据，假设在t时刻，损失函数为 $L_{t}=\frac{1}{2}(Y_{t}-O_{t})^{2}$ 。

使用随机梯度下降算法训练RNN，其实就是对 $W_{x}、W_{s}、W_{o}$ 以及 $b_{1}、b_{2}$ 求偏导，并不断调整它们，使得 $L_{t}$ 尽可能小的过程。
现在假设我们的时间序列只有3段， $t_{1}、t_{2}、t_{3}$ 。

我们对 $t_{3}$ 时刻的 $W_{x}、W_{s}、W_{o}$ 求偏导（其他时刻类似）：

$\frac{\partial{L_{3}}}{\partial{W_{0}}}=\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{W_{o}}}$

$\frac{\partial{L_{3}}}{\partial{W_{x}}}=\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{W_{x}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{W_{x}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{S_{1}}}\frac{\partial{S_{1}}}{\partial{W_{x}}}$

$\frac{\partial{L_{3}}}{\partial{W_{s}}}=\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{W_{s}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{W_{s}}}+\frac{\partial{L_{3}}}{\partial{O_{3}}}\frac{\partial{O_{3}}}{\partial{S_{3}}}\frac{\partial{S_{3}}}{\partial{S_{2}}}\frac{\partial{S_{2}}}{\partial{S_{1}}}\frac{\partial{S_{1}}}{\partial{W_{s}}}$

可以看出对于 $W_{0}$ 求偏导并没有长期依赖，但是对于 $W_{x}、W_{s}$ 求偏导，会随着时间序列产生长期依赖。因为 $S_{t}$ 随着时间序列向前传播，而 $S_{t}$ 又是 $W_{x}、W_{s}$ 的函数。

根据上述求偏导的过程，我们可以得出任意时刻对 $W_{x}、W_{s}$ 求偏导的公式：

$\frac{\partial{L_{t}}}{\partial{W_{x}}}=\sum_{k=0}^{t}{\frac{\partial{L_{t}}}{\partial{O_{t}}}\frac{\partial{O_{t}}}{\partial{S_{t}}}}(\prod_{j=k+1}^{t}{\frac{\partial{S_{j}}}{\partial{S_{j-1}}}})\frac{\partial{S_{k}}}{\partial{W_{x}}}$

$\frac{\partial{L_{t}}}{\partial{W_{s}}}=\sum_{k=0}^{t}{\frac{\partial{L_{t}}}{\partial{O_{t}}}\frac{\partial{O_{t}}}{\partial{S_{t}}}}(\prod_{j=k+1}^{t}{\frac{\partial{S_{j}}}{\partial{S_{j-1}}}})\frac{\partial{S_{k}}}{\partial{W_{s}}}$

如果加上激活函数， $S_{j}=tanh(W_{x}X_{j}+W_{s}S_{j-1}+b_{1})$ ，

则 $\prod_{j=k+1}^{t}{\frac{\partial{S_{j}}}{\partial{S_{j-1}}}}=\prod_{j=k+1}^{t}{tanh^{'}}W_{s}$

由于激活函数tanh的导数是小于1的，因此随着累乘的增加，RNN会出现梯度消失的情况。

现在来解释一下，为什么说RNN和DNN的梯度消失问题含义不一样？

先来说DNN中的反向传播：在DNN梯度消失及梯度爆炸的文章中，我推导了两个权重的梯度，第一个梯度是直接连接着输出层的梯度，求解起来并没有梯度消失或爆炸的问题，因为它没有连乘，只需要计算一步。第二个梯度出现了连乘，也就是说越靠近输入层的权重，梯度消失或爆炸的问题越严重，可能就会消失会爆炸。一句话总结一下，DNN中各个权重的梯度是独立的，该消失的就会消失，不会消失的就不会消失。
再来说RNN：RNN的特殊性在于，它的权重是共享的。抛开 $W_o$ 不谈，因为它在某时刻的梯度不会出现问题（某时刻并不依赖于前面的时刻），但是 $W_s$ 和 $W_x$ 就不一样了，每一时刻都由前面所有时刻共同决定，是一个相加的过程，这样的话就有个问题，当距离长了，计算最前面的导数时，最前面的导数就会消失或爆炸，但当前时刻整体的梯度并不会消失，因为它是求和的过程，当下的梯度总会在，只是前面的梯度没了，但是更新时，由于权值共享，所以整体的梯度还是会更新，通常人们所说的梯度消失就是指的这个，指的是当下梯度更新时，用不到前面的信息了，因为距离长了，前面的梯度就会消失，也就是没有前面的信息了，但要知道，整体的梯度并不会消失因为当下的梯度还在，并没有消失。
一句话概括：RNN的梯度不会消失，RNN的梯度消失指的是当下梯度用不到前面的梯度了，但DNN靠近输入的权重的梯度是真的会消失，RNN 所谓梯度消失的真正含义是，梯度被近距离梯度主导，导致模型难以学到远距离的依赖关系。

【注】RNN实战可参考B站技术视频：北京大学-Tensorflow2.0-曹健老师

你可能感兴趣的:(深度学习,神经网络,rnn)

从底层到实践：深度解析 Vue Composition API 与 React Hooks 的异同
一、设计哲学与底层原理差异1.1响应式系统的基因差异Vue3的CompositionAPI建立在Proxy-based响应式系统之上，通过劫持对象的getter/setter实现依赖收集。当访问响应式对象时，Vue会自动建立组件与数据的依赖关系。//Vue响应式原理简版实现functionreactive(obj){returnnewProxy(obj,{get(target,key){track
小狐狸AI数字人源码独立SAAS部署全开源+搭建环境教程 kaui52066 kaui52066精品源码人工智能 uni-app 前端小程序 php 小狐狸AI数字人数字人源码
一.系统介绍小狐狸AI数字人分身系统源码独立部署支持PC端、小程序端、H5端，一键克隆真人形象+声音核心功能亮点：1:1真人级克隆技术声音克隆：上传3分钟音频，AI深度学习声纹特征，复刻语气、情感、方言形象克隆：通过照片/视频建模，生成动态3D数字人，表情自然，动作流畅智能口型同步引擎AI算法精准匹配唇形与语音，实现口型同步0门槛SAAS化操作无需专业设备，网页端一键生成数字人视频海量模板库：电商
【PyTorch】PyTorch 中改变张量形状的几种方法 shengchao0920 pytorch 人工智能 python
PyTorch中改变张量形状的几种方法在深度学习领域，PyTorch是一个广泛使用的框架，它提供了丰富的API来处理张量（tensor）。在模型开发过程中，我们经常需要改变张量的形状以满足特定的需求。本文将介绍在PyTorch中改变张量形状的几种方法，并给出推荐的使用场景。比如：我们想合并一个张量的最后两个维度。一、方法1.使用reshape方法reshape方法可以改变张量的形状而不改变其数据。
OpenAI 团队组织架构和研发技术栈 AI天才研究院 ChatGPT 人工智能
OpenAI是一家致力于推动人工智能技术发展的公司，成立于2015年。其目标是确保人工智能技术造福全人类。为了实现这一目标，OpenAI采用了多种先进的技术和组织架构来推动其研发工作。目录OpenAI组织架构和研发技术栈概述1OpenAI团队的世界顶尖科学家IlyaSutskever：Ilya是OpenAI的联合创始人之一，也是深度学习领域的先驱。他在神经网络和深度学习方面的研究具有重要影响，曾与
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
深度学习-服务器训练SparseDrive过程记录 weixin_40826634 深度学习服务器人工智能
1、cuda安装1.1卸载安装失败的cuda参考：https://blog.csdn.net/weixin_40826634/article/details/127493809注意：因为/usr/local/cuda-xx.x/bin/下没有卸载脚本，很可能是apt安装的，所以通过执行下面的命令删除：apt-get--purgeremove"cuda*"apt-getautoremove然后执行f
模型量化 (Model Quantization) 算法 (Model Quantization Algorithms) （initial）大模型科普算法人工智能量化
1模型量化的必要性：降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大，其在资源受限的设备（如移动端、嵌入式设备）上的部署面临着巨大的挑战。即使在服务器端，部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（
百度快速收录2025最新科普 SEORoal 百度
跨境物流的智能突围战宁波某RCEP跨境物流平台接入214维特征矩阵后：✅'智能清关系统’72小时冲进TOP3✅'东盟电子报关’长尾词覆盖量暴涨4.2倍✅日均有效询盘突破300+技术三板斧：标题智能提取引擎（支持38种语义变异）动态阻抗参数混淆（误差≤0.15μΩ）实时工商特征同步（每2小时更新）2025生存指南：采用神经网络语义映射（NLP准确率98.2%）部署质量监控系统（误差率≤0.15%）加
vue 动态加载插件及插件样式解决插件样式造成的全局污染问题看客随心 vue.js 前端 javascript
1工具方法/***动态加载第三方js.css*@param{*}src路径*@param{*}isCss是否为css文件*/exportfunctionasynLoad(src,isCss=false){returnnewPromise(res=>{if(isCss){letlist=Array.from(document.documentElement.getElementsByTagName(
《探秘人工智能与鸿蒙系统集成开发的硬件基石》程序猿阿伟人工智能 harmonyos 华为
在科技飞速发展的当下，人工智能与鸿蒙系统的集成开发开辟了创新的前沿领域。这一融合不仅代表着技术的演进，更预示着智能设备生态的全新变革。而在这场技术盛宴的背后，坚实的硬件配置是确保开发顺利进行的关键，它就像一座大厦的基石，决定了上层建筑的高度和稳定性。处理器：运算核心的澎湃动力处理器作为硬件系统的核心，在人工智能与鸿蒙系统集成开发中扮演着至关重要的角色。对于模型训练任务，尤其是深度学习模型，其复杂的
嵌入式AI必备技能2-模型的压缩与加速奥德彪123 嵌入式AI 人工智能嵌入式
嵌入式AI必备技能2-模型的压缩与加速引言随着嵌入式AI设备的广泛应用，模型的计算效率和存储需求成为核心挑战。由于嵌入式系统通常资源受限，传统的深度学习模型往往难以直接部署。因此，模型压缩和加速技术应运而生，旨在减少计算量、降低存储需求，同时尽可能保持模型的准确性。本文介绍几种常见的模型压缩与加速方法，包括剪枝、低秩分解、量化、权值共享、知识蒸馏等，并探讨如何综合应用这些技术来优化AI模型。1.常
UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力听风吹等浪起 AI 改进系列 transformer 深度学习人工智能
目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前馈神经网络。这两个组件协同工作，处理和转换输入序列。多头注意力机制负责从输入序列中捕
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
英伟达系列显卡大解析B100、H200、L40S、A100 2301_78234743 java
家里有了变故。。。快手数分秋招一面面经我发现算法岗也不很难进啊(深度学习)算法想转数开…Java零基础校招学习路线突击版（吐血整理）等的花都谢了的华子最后给开了22k，武汉，应该是14a。不过在这几个月里我坚定了搞几年快钱回家和np朋友因骂了hr，boos被封了哈哈哈在央企想被开除需要做什么？2024小米分布式存储研发急招华为2012被毁意向我发现算法岗也不很难进啊(深度学习)在央企想被开除需要做
eBest AI Hub全场景接入Deepseek eBest数字化转型方案人工智能
一、技术赋能，智创未来Deepseek的强大基因将为eBest产品注入新的活力即时智能响应：融合海量行业智慧与互联网搜索精华，提供秒级智能建议；多模态理解能力：突破界限，无缝融合文本、代码与图像理解，精准解析用户的需求；进化式深度学习：不断学习，持续进化，为用户提供日益完善、超越期待的服务体验。二、全场景赋能，体验再次跃升1.智能报表-数据洞察，指尖掌控升级后的智能报表功能，能够根据查询和检
Prompt工程：大模型沟通指南（人工智能到大模型） Harry技术 AI prompt 人工智能
文章目录人工智能到大模型机器学习深度学习大模型Prompt工程：大模型沟通的桥梁在人工智能的广袤领域中，大模型无疑是最为璀璨的明珠之一。它仿佛是一座连接人类与人工智能的桥梁，让我们能够更加深入地探索和利用人工智能的强大能力。而要实现与大模型的高效沟通，Prompt工程扮演着至关重要的角色。让我们一起走进Prompt工程的奇妙世界，探寻大模型沟通的奥秘。人工智能到大模型“人工智能是一种模拟人类智能的
神经网络完成训练的详细过程每天五分钟玩转人工智能神经网络人工智能深度学习 pytorch 机器学习优化算法包括梯度下降法
神经网络完成训练的详细过程一、神经网络的基本概念神经网络是一种模拟人脑神经系统的计算模型，由大量的神经元（节点）和它们之间的连接（权重）组成。神经元接收输入信号，通过加权求和和激活函数的处理，产生输出信号。这些输出信号又可以作为其他神经元的输入，从而形成一个复杂的网络结构。神经网络的训练过程就是调整这些权重和偏置（每个神经元除了有权重外，还有一个偏置项，用于调整输出的阈值），使得网络的输出能够尽可
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
PINN物理信息网络 | 利用物理信息神经网络进行流体动力学建模算法如诗物理信息网络（PINN）神经网络机器学习人工智能流体动力学建模 PINN物理信息网络
背景物理信息神经网络（Physics-InformedNeuralNetworks，PINN）是一种结合了神经网络和物理方程的方法，用于建模和求解物理问题。传统的基于物理方程的数值方法在处理复杂的非线性偏微分方程时可能面临数值稳定性、高计算复杂度和网格依赖性等问题。而PINN作为一种数据驱动的方法，通过使用神经网络来近似物理方程，能够有效地解决这些问题。在流体动力学建模中，PINN可以应用于求解N
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、 *Major* 机器视觉
谈为什么KLA和Camtech公司为什么可以做到，半导体那边，晶圆，键合可以做到不管哪款新产品进来。编程2小时，上线后准确率可以直接做到99.9%、这么里面的AI原理没什么，还是这些公司把AI技术层面用出花了，一是他们有公司可能比较成立时间长，数据丰富。二是像AI深度学习网络冻结，或者自适应调参，都是一些AI技巧，他们用的比较好。三什么跨层特征解耦，实现的基础是他们对半导体理解比较深刻KLA和Ca
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
PyTorch 深度学习实战（13）：Proximal Policy Optimization (PPO) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们介绍了Actor-Critic算法，并使用它解决了CartPole问题。本文将深入探讨ProximalPolicyOptimization(PPO)算法，这是一种更稳定、更高效的策略优化方法。我们将使用PyTorch实现PPO算法，并应用于经典的CartPole问题。一、PPO算法基础PPO是OpenAI提出的一种强化学习算法，旨在解决策略梯度方法中的训练不稳定问题。PPO通过
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他