zhong_ddbb

RNN详解

文章目录

回顾FNN
RNN基本模型
- 基本结构
- 通过时间反向传播
几种特殊RNN
- 基于上下文的RNN
- 双向RNN
基于编码—解码的序列到序列架构
RNN缺陷：无法做到长期依赖
- 权值 $W$ 角度
- 梯度消失/爆炸角度
RNN应用

回顾FNN

先来回顾一下前馈神经网络（FNN），网络结构如下图所示：

对于每个神经元进行如下运算：

先进行加权求和
$\sum_{i=1}^N w_i x_i$
在进行非线性变换：
$\sigma(x)=\frac{1}{1+e^{-x}}\\ a_{out} = g(z) = \sigma(\sum_{i=1}^N w_i x_i +b) \\$
所以，整个神经网络相当于一个复合函数。

RNN基本模型

基本结构

循环神经网络的结构如下：

将输入序列 $x$ 映射到输出值 $o$ 的对应序列。损失 $L$ 衡量每个输出 $o$ 与相应的训练目标 $y$ 的距离。

输入到隐藏的连接由权重矩阵为 $U$ ，隐藏到隐藏的循环连接由权重矩阵为 $W$ ，隐藏到输出的连接由权重矩阵为 $V$ 。RNN是共用一组参数。

该模型中的前向传播定义如下：
$\begin{aligned} &\mathbf a^{(t)} = \mathbf b + \mathbf W \mathbf h^{(t-1)} + \mathbf U \mathbf x^{(t)} \\ &\mathbf h^{(t)} = \tanh(\mathbf a^{(t)}) \\ &\mathbf o^{(t)} = \mathbf c + \mathbf V \mathbf h^{(t)} \\ & \hat {\mathbf y} ^{(t)} = softmax(\mathbf o^{(t)}) \end{aligned}$

这个循环网络将一个输入序列映射到相同长度的输出序列。与 $x$ 序列配对的 $y$ 的总损失是所有时间步的损失之和。采用极大似然函数的负数作为损失函数：
$\begin{aligned} &L(\{x^{(1)},\ldots,x^{(\tau)}\},\{y^{(1)},\ldots,y^{(\tau)}\}) \\ &= \sum_{t} L^{(t)} \\ &= -\sum_{t} \log P_{model}(y^{(t)}|\{x^{(1)},\ldots,x^{(\tau)}\}) \end{aligned}$
接下来通过时间反向传播（back-propagation through time，BPTT）来更新网络参数。

每一次梯度计算涉及执行一次前向传播，接着是由右到左的反向传播。运行时
间是 $O (τ)$ ，并且不能通过并行化来降低，因为前向传播图是固有循序的; 每个时间
步只能一前一后地计算。前向传播中的各个状态必须保存，直到它们反向传播中被
再次使用，因此内存代价也是 $O(\tau)$ 。

通过时间反向传播

循环神经网络的参数包括 $\mathbf U,\mathbf V,\mathbf W,\mathbf b,\mathbf c$ ，对于每一个节点N，需要基于N后面的节点的梯度，递归进行计算。

从最终的损失的节点开始递归：
$\frac{\partial L}{\partial L^{(t)}} = 1$

如下图所示：

可知通过时间反向传播梯度，注意 $\mathbf h^{(t)}$ 同时具有 $\mathbf o^{(t)}$ 和 $\mathbf h^{(t+1)}$ 后续两个节点，所以 $L$ 对 $\mathbf h^{(t)}$ 的求导包括两个部分 $L^{(t)}$ 对 $\mathbf h^{(t)}$ 的求导和 $L^{(t+1)}$ 对 $\mathbf h^{(t)}$ 的求导。

（1）损失函数 $L$ 关于时间步 $t$ 的输出 $\mathbf o^{(t)}$ d的梯度，先给出求导结果：
$(\nabla_{\mathbf o^{(t)}} L)_i = \frac{\partial L}{\partial o_{i}^{(t)}} = \frac{\partial L}{\partial L^{(t)}} \frac{\partial L^{(t)}}{\partial o_{i}^{(t)}} = \hat {y}_i ^{(t)} -\mathbf 1_{i,y^{(t)}} = \begin{cases} \hat {y}_i ^{(t)} - 1 \\ \hat {y}_i ^{(t)} - 0 \end{cases}$
上式可以理解为：期望输出的概率—该位置对应的真实label， $1_{i,y^{(t)}}$ 表示label，有两种取值0或1。

这个求导过程比较复杂，可以参考softmax回归详解，文中详细推导了以下结论：

若：
$s_{i} = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_i}} \quad i=1,2,\ldots,K\\ L(w) = - \log P(y^{(i)}|x^{(i)};w) \\$
则：
$\frac{\partial \mathrm{L}}{\partial \mathrm{z}_{i}}= s_i - y_i$
其中:

$s_i$ 为经过softmax的结果，可以理解为概率，对应RNN中的 $\hat {y}_i ^{(t)}$ 。

$y_i=1 或 y_i =0$ ，对应RNN中的 $1_{i,y^{(t)}}$ 。

$z_i$ 对应RNN的输出 $\mathbf o^{(t)}$ 。

（2）所以 $L$ 对 $\mathbf h^{(\tau)}$ 求导
$\nabla_{\mathbf h^{(\tau)}}L = \mathbf V^T \nabla_{\mathbf o^{(\tau)}} L$
（3）最终的梯度下降包括两个部分。
$\begin{array}{l} \nabla_{h^{(t)}} L=\left(\frac{\partial \boldsymbol{h}^{(t+1)}}{\partial \boldsymbol{h}^{(t)}}\right)^{\top}\left(\nabla_{\boldsymbol{h}^{(t+1)}} L\right)+\left(\frac{\partial \boldsymbol{o}^{(t)}}{\partial \boldsymbol{h}^{(t)}}\right)^{\top}\left(\nabla_{\boldsymbol{o}^{(t)}} L\right) \\ =\boldsymbol{W}^{\top}\left(\nabla_{\boldsymbol{h}^{(t+1)}} L\right) \operatorname{diag}\left(1-\left(\boldsymbol{h}^{(t+1)}\right)^{2}\right)+\boldsymbol{V}^{\top}\left(\nabla_{\boldsymbol{o}^{(t)}} L\right) \end{array}$
其中：
$\begin{aligned} \frac{\partial \boldsymbol{h}^{(t+1)}}{\partial\boldsymbol{h}^{(t)}} &= \frac{\partial \tanh(\mathbf b + \mathbf W \boldsymbol h^{(t)} + \mathbf U \mathbf x^{(t+1)} )}{\partial\boldsymbol{h}^{(t)}} \\ &= \mathbf W^T diag(1-(\boldsymbol h^{(t+1)})^2) \end{aligned}$
注： $tanh'(x) = 1- (tanh(x))^2$

$diag(1-(\boldsymbol h^{(t+1)})^2)$ 是包含元素 $1-(h_i^{(t+1)})^2$ 的对角矩阵。

（4）更新参数

通过前面的步骤，可以得到以下参数梯度：
$\begin{aligned} \nabla_{c} L &=\sum_{t}\left(\frac{\partial \boldsymbol{o}^{(t)}}{\partial \boldsymbol{c}}\right)^{\top} \nabla_{\boldsymbol{o}^{(t)}} L=\sum_{t} \nabla_{\boldsymbol{o}^{(t)}} L \\ \nabla_{\boldsymbol{b}} L &=\sum_{t}\left(\frac{\partial \boldsymbol{h}^{(t)}}{\partial \boldsymbol{b}^{(t)}}\right)^{\top} \nabla_{\boldsymbol{h}^{(t)}} L=\sum_{t} \operatorname{diag}\left(1-\left(\boldsymbol{h}^{(t)}\right)^{2}\right) \nabla_{\boldsymbol{h}^{(t)}} L \\ \nabla_{\boldsymbol{V}} L &=\sum_{t} \sum_{i}\left(\frac{\partial L}{\partial o_{i}^{(t)}}\right) \nabla_{\boldsymbol{V}} o_{i}^{(t)}=\sum_{t}\left(\nabla_{o^{(t)}} L\right) \boldsymbol{h}^{(t)^{\top}} \\ \nabla_{\boldsymbol{W}} &=\sum_{t} \sum_{i}\left(\frac{\partial L}{\partial h_{i}^{(t)}}\right) \nabla_{\boldsymbol{W}^{(t)}} h_{i}^{(t)} \\ &=\sum_{t} \operatorname{diag}\left(1-\left(\boldsymbol{h}^{(t)}\right)^{2}\right)\left(\nabla_{\boldsymbol{h}^{(t)}} L\right) \boldsymbol{h}^{(t-1)^{\top}} \\ \nabla_{U} L &=\sum_{t} \sum_{i}\left(\frac{\partial L}{\partial h_{i}^{(t)}}\right) \nabla_{\boldsymbol{U}^{(t)}} h_{i}^{(t)} \\ &=\sum_{t} \operatorname{diag}\left(1-\left(\boldsymbol{h}^{(t)}\right)^{2}\right)\left(\nabla_{\boldsymbol{h}^{(t)}} L\right) \boldsymbol{x}^{(t)^{\top}} \end{aligned}$

几种特殊RNN

基于上下文的RNN

将向量序列 $\mathbf X = (\boldsymbol x^{(1)},\ldots,\boldsymbol x^{(n_x)})$ 作为输入，而不是仅接收单个向量 $\boldsymbol x$ 作为输入。这类RNN适用于很多任务如图注，其中单个图像作为模型的输入，然后产生描述图像的词序列。观察到的输出序列的每个元素 $y^{(t)}$ 同时用作输入（对于当前时间步）和训练期间的目标（对于前一时间步）。

此RNN包含从前一个输出到当前状态的连接。

双向RNN

双向RNN是指结合时间上从序列起点开始移动的RNN和另一个时间上从序列末尾开始移动的RNN，典型的双向RNN如下图所示：

其中 $\boldsymbol h^{(t)}$ 代表通过时间向前移动的子RNN的状态， $\boldsymbol g^{(t)}$ 代表通过时间向后移动的子RNN的状态，此时，输出单元 $\boldsymbol o^{(t)}$ 可以受益于输入 $\boldsymbol h^{(t)}$ 关于过去的相关信息以及输入 $\boldsymbol g^{(t)}$ 中关于未来的相关信息。

基于编码—解码的序列到序列架构

这种RNN最大的特点是输入序列和输出序列不一定等长。

主要想法是：

（1）编码器RNN处理输入序列，编码器输出上下文C，这个C是一个概况输入序列 $\mathbf X = (\boldsymbol x^{(1)},\ldots,\boldsymbol x^{(n_x)})$ 的向量或向量序列。

（2）解码器RNN则以固定长度向量为条件产生输出序列 $\mathbf Y = (\boldsymbol y^{(1)},\ldots,\boldsymbol y^{(n_y)})$ 。

（3）两个RNN共同训练以最大化 $\log P(\boldsymbol y^{(1)},\ldots,\boldsymbol y^{(n_y)}|\boldsymbol x^{(1)},\ldots,\boldsymbol x^{(n_x)})$

主要应用有语音识别，机器翻译和问答系统。

RNN缺陷：无法做到长期依赖

权值 $W$ 角度

回顾RNN模型

循环联系：
$\boldsymbol h^{(t)} = \boldsymbol W^T \boldsymbol h^{(t-1)}$
可以简化为：
$\boldsymbol h^{(t)} = (\boldsymbol W^t)^T \boldsymbol h^{(0)}$

当 $\boldsymbol W$ 符合下列形式的特征分解：
$\boldsymbol W = \boldsymbol Q \boldsymbol \Sigma \boldsymbol Q^T$
其中 $\boldsymbol Q$ 是正交矩阵。

所以：
$\boldsymbol h^{(t)} = \boldsymbol Q^T \boldsymbol \Sigma^t \boldsymbol Q \boldsymbol h^{(0)}$
对于 $\boldsymbol \Sigma^t$ ，经过 $t$ 次相乘后，即：经过多个阶段的传播后：如果特征值小于1，特征值将衰减到零。如果特征值大于1，经过 $t$ 次相乘后，特征值将激增。任何不与最大特征向量对齐的 $\boldsymbol h^{(0)}$ 的部分将最终被丢弃，无法做到长期依赖。

梯度消失/爆炸角度

如下图所示：

如上图(1)-(4)的反向传播过程：
$\frac{\partial J}{\partial y_0} = \frac{\partial J}{\partial h_3}\frac{\partial h_3}{\partial h_2} \frac{\partial h_2}{\partial h_1} \frac{\partial h_1}{\partial y_0}$
如果这个过程中：

（1）这一连串偏导数都小于1，这些小数连乘，可能会导致最终的结果趋于0，甚至等于0，造成梯度消失。梯度消失意味着无法通过加深网络层数来提升预测效果，只有靠近输出的几层才真正起到学习的作用，这样RNN很难学习到输入序列中的长距离依赖关系。

（2）这一连串偏导数都大于1，这些数连乘，可能会导致最终的结果趋于无穷大，造成梯度爆炸。以通过梯度裁剪来缓解，即当梯度的范式大于某个给定值的时候，对梯度进行等比缩放。

为了解决以上两个问题，我们引入LSTM。

RNN应用

RNN通常用于处理离散序列数据（离散线性，长度可变）；

从RNN结构来理解其应用：

（1）词性标注，输入是每个词对应的向量，输出是词对应的词性。网络结构如下：

（2）情感分析，输入一句话，输出其情感的倾向标签。网络结构如下：

（3）机器翻译，输入是一种语言，输出是另一种语言。网络结构如下：

（4）图片文字生成，输入是一张图片，生成图片的描述。网络结构如下：

从功能的角度理解RNN应用：

（1）序列数据的分析，如市场趋势预测。

（2）序列数据的生成，如基于图片的诗歌创作。

（3）序列数据的转换，如语音识别，机器翻译。

你可能感兴趣的:(深度学习,自然语言处理,神经网络,深度学习,算法)

密码学网络安全科普网络安全密码技术黑客-秋凌密码学 web安全安全
网络加密包括密码技术和网络加密方法两个方面。一、密码技术密码技术一般分为常规密码和公钥密码。常规密码是指收信方和发信方使用相同的密钥，即加密密钥和解密密钥是相同或等价的。比较著名的常规密码算法有DES及其各种变形、IDEA、FEAL、Skipjack、RC4、RC5等。在众多的常规密码中影响最大的是DES密码。常规密码的优点是有很强的保密强度，且能经受住时间的检验和攻击，但其密钥必须通过安全的途径
DeepSeek开源：FlashMLA深度解析：Hopper架构上的大模型推理革命花生糖@ AIGC学习资料库 AI·未来 DeepSeek 实用集开源架构 FlashMLA DeepSeek 技术 AI AIGC
2025年2月24日，DeepSeek以「开源周」首日发布的FlashMLA技术，重新定义了Hopper架构GPU在AI推理领域的性能极限。这款专为NVIDIAH800/H100系列优化的MLA（Multi-headLatentAttention）解码内核，通过突破性算法设计与硬件协同优化，在可变长度序列处理场景中实现了3000GB/s内存带宽与580TFLOPS计算吞吐的里程碑式突破。其开源策略
大模型生成人物关系思维导图的实战教程 herosunly 大模型生成人物关系生成思维导图实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了大模型生成人物关系思维导图的实战教程，希望对使用大语言模型的同学们有所帮
Python使用pycryptodome库来进行AES加密解密飞起来fly呀 Python python
在现代通信和数据存储中，加密技术是保障数据安全的核心手段。AES（AdvancedEncryptionStandard）是一种对称加密算法，广泛应用于各种信息安全领域。Python提供了丰富的加密库，其中PyCryptodome是一个功能强大且常用的库，它支持多种加密算法和模式。以下指南将详细介绍如何在Python中使用PyCryptodome库进行AES加密和解密。一、安装PyCryptodom
《算法笔记》8.1小节——搜索专题-＞深度优先搜索（DFS）问题 C: 【递归入门】组合+判断素数圣保罗的大教堂《算法笔记》算法
题目描述已知n个整数b1,b2,…,bn以及一个整数k（k＜n）。从n个整数中任选k个整数相加，可分别得到一系列的和。例如当n=4，k＝3，4个整数分别为3，7，12，19时，可得全部的组合与它们的和为：3＋7＋12=223＋7＋19＝297＋12＋19＝383＋12＋19＝34。现在，要求你计算出和为素数共有多少种。例如上例，只有一种的和为素数：3＋7＋19＝29。输入第一行两个整数：n,k（1
征程 6 基于 Linux 和 Node-Locked License 配置 DSP 开发环境自动驾驶算法
说明：该文档以征程6上使用的Q8DSP安装为例，同样的步骤在征程5上使用方法类似只是征程6使用的DSP为VP61.获取所需文件在配置征程6的DSP开发环境前，您需要获取以下文件：标准工具链发布包部分（请联系地平线项目对接人获取）OpenExplorer算法工具链Docker镜像OpenExplorer算法工具链交付包（OE包中提供了大量示例，包括DSP示例）OpenExplorer算法工具链中文文
[论文解读] 多机器人系统动态任务分配综述「已注销」算法
https://www.emerald.com/insight/content/doi/10.1108/IR-04-2020-0073/full/html多机器人/多智能体动态环境任务分配决策动态任务调度策略该文章主要是想对目前stateoftheart多机器人动态任务调度策略做一个全面的评价，注意定语挺多的，里面的方法也较多为近几年的智能调度那些算法。衡量方法主要考虑到了应用场景、限制、目标方程
【动态规划】任务分配问题精神小猿动态规划
题目来自贵大OJ题目描述：给定n个零件需要的加工时间，分配到两台机床上加工，使得两台机床完成加工的时间尽可能同步。设计一个穷举搜索算法求解该问题。例如，有3个零件，加工时间分别为2、5和3，那么把加工时间为2、3的两个零件分配到一台机床上加工，把加工时间为5的零件分配到另一台机床上加工，两台机床能同时完工。输入描述：每组数据的第一行是一个整数n(1#includeusingnamespacestd
PCL 点云OBB包围盒（二）大鱼BIGFISH 点云进阶 C++PCL 点云OBB包围盒
文章目录一、简介二、实现步骤二、实现代码三、实现效果参考资料一、简介包围盒是一种求解离散点集最优包围空间的算法，基本思想是用体积稍大且特性简单的几何体（称为包围盒）来近似地代替复杂的几何对象。（来源于百度）常用的求解包围盒的算法主要有AABB和OOB算法，但AABB算法容易受到物体朝向的影响，产生较大的空隙，因此本文将以OOB算法思想实现最小包围盒的求取。包围盒的应用有很多，如机械上的碰撞测试、物
MATLAB 操作指南（结尾附实操案例） vvvae1234 信息可视化
一、MATLAB简介MATLAB（矩阵实验室）是一个高级技术计算语言和交互环境，它主要用于数值计算、数据分析、算法开发和可视化。MATLAB的核心功能是矩阵运算，它能够处理向量和矩阵为中心的数学问题，方便用户进行算法的开发和数据可视化。主要特点高效的数值计算：MATLAB内置了许多用于数学和工程计算的函数，用户可以轻松地进行数值运算。可视化功能：MATLAB提供了丰富的工具，用于生成各种类型的图形
C++枚举算法详解卫青~护驾！算法数据结构 c++青少年编程枚举算法
一、枚举算法核心思想枚举算法是一种通过遍历所有可能情况来解决问题的暴力搜索方法，其核心特点是：全面性：不遗漏任何可能性简单性：逻辑直接易实现低效性：时间复杂度通常较高（O(n^k)）适用场景：问题规模有限且可穷举的情况（如数值范围小、维度低）二、经典案例：福尔摩斯密码破解问题描述ABCDE×?=EDCBA其中A,E,?∈[1,9]，B,C,D∈[0,9]所有字符互不相同算法实现（6层嵌套循环）fo
解读Layout Method of Met Mast Based on Macro Zoning and Micro Quantitative Siting in a Wind Farm 赵孝正风资源与微观选址 paper
目录1.风电场气象塔布局方法流程图（简略）内容细化2.风电场气象塔布局方法详细流程图（详细）核心算法和公式详解2.2解读流程（深入浅出）第一阶段：把大风电场分成几个小区域1.看看风在哪里吹得不一样️2.看看风机的位置分布️3.测量风机之间有多"像"4.用智能方法分区第二阶段：在每个区域内找到最好的位置放测量杆5.画格子找可能的位置6.用电脑模拟风的吹动7.筛选出好位置8.找出最最好的位置9.检验我
pytorch实现cifar10多分类总结 L_pyu 人工智能 pytorch 分类
cifar-10简介：CIFAR-10是一个常用的图像分类数据集，每张图片都是3×32×32，3通道彩色图片，分辨率32×32。它包含了10个不同类别，每个类别有6000张图像，其中5000张用于训练，1000张用于测试。这10个类别分别为：飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车。CIFAR-10分类任务是将这些图像正确地分类到它们所属的类别中。对于这个任务，可以使用深度学习模型，如卷积
DeepSeek面试——分词算法 mzgong 人工智能算法
DeepSeek-V3分词算法一、核心算法：字节级BPE（Byte-levelBPE，BBPE）DeepSeek-V3采用字节级BPE（BBPE）作为核心分词算法，这是对传统BPE（BytePairEncoding）算法的改进版本。其核心原理是将文本分解为字节（Byte）序列，通过统计高频相邻字节对的共现频率进行逐层合并，最终形成128K扩展词表。二、BBPE的核心优势1.多语言统一处理能力跨语言
自然语言处理（NLP）技术介绍风吹晚风悠 gpt 人工智能 nlp 自然语言处理
自然语言处理（NLP）是一种涉及计算机和人类语言之间交流的技术。NLP技术可以应用于多个领域，例如机器翻译、情感分析、文本分类、问答系统等。以下是一些NLP技术的示例：机器翻译：NLP技术可用于将一个语言的文本自动翻译成另一个语言。例如，GoogleTranslate和百度翻译等在线翻译工具就使用了NLP技术。情感分析：NLP技术可用于分析文本中的情感和情感倾向。这可以帮助企业了解公众对其产品或服
数据挖掘技术介绍柒柒钏数据挖掘数据挖掘人工智能
数据挖掘技术介绍分类聚类关联规则挖掘预测异常检测特征选择与降维文本挖掘序列模式挖掘深度学习集成学习数据挖掘（DataMining）是一种从大量数据中提取有用信息和模式的技术，旨在从数据中发现隐藏的规律、趋势或关系，从而为决策提供支持。分类定义：是一种监督学习方法，用于将数据分为不同的类别。功能：根据已标记的训练数据，学习一个模型，用于预测新数据的类别。方法：决策树、支持向量机、神经网络、逻辑回归、
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
PINN物理信息网络 | 基于物理信息神经网络PINN求解Burger方程算法如诗物理信息网络（PINN）神经网络人工智能深度学习物理信息网络
基于物理信息神经网络（PINN）求解Burger方程的研究背景源于对非线性偏微分方程（PDE）求解方法的不断探索和改进。传统的数值方法，如有限差分法和有限元法，通常需要进行网格离散化和迭代求解，对于复杂的非线性问题计算成本较高。因此，研究人员开始探索基于机器学习和神经网络的新方法来求解PDEs。神经网络在近年来取得了显著的发展，能够通过学习大量数据来建立输入和输出之间的复杂映射关系。然而，将神经网
PINN物理信息网络 | 利用物理信息神经网络进行流体动力学建模算法如诗物理信息网络（PINN）神经网络机器学习人工智能流体动力学建模 PINN物理信息网络
背景物理信息神经网络（Physics-InformedNeuralNetworks，PINN）是一种结合了神经网络和物理方程的方法，用于建模和求解物理问题。传统的基于物理方程的数值方法在处理复杂的非线性偏微分方程时可能面临数值稳定性、高计算复杂度和网格依赖性等问题。而PINN作为一种数据驱动的方法，通过使用神经网络来近似物理方程，能够有效地解决这些问题。在流体动力学建模中，PINN可以应用于求解N
图神经网络学习笔记—高级小批量处理（专题十四） AI专题精讲图神经网络入门到精通人工智能
小批量（mini-batch）的创建对于让深度学习模型的训练扩展到海量数据至关重要。与逐条处理样本不同，小批量将一组样本组合成一个统一的表示形式，从而可以高效地并行处理。在图像或语言领域，这一过程通常通过将每个样本缩放或填充为相同大小的形状来实现，然后将样本在一个额外的维度中分组。该维度的长度等于小批量中分组的样本数量，通常称为batch_size。由于图是能够容纳任意数量节点或边的最通用的数据结
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
每天五分钟玩转深度学习PyTorch：基于GoogLeNet完成CAFIR10分类每天五分钟玩转人工智能深度学习框架pytorch 深度学习 pytorch 分类 GoogLeNet 人工智能 CAFIR10
本文重点前面我们终于使用pytorch搭建了GoogLeNet，本文我们使用该网络模型解决一个实际问题，也就是使用它完成CAFIR10分类，其实就这些任务而言，我们只要搭建好模型，然后把数据喂进去就行了，其它的地方都是一样的，就是网络模型不一样。代码
Deepseek:物理神经网络PINN入门教程天一生水water 神经网络人工智能深度学习
一、物理信息网络（PINN）的概念与原理1.定义与来源物理信息网络（Physics-InformedNeuralNetworks,PINN）是一种将物理定律（如偏微分方程、守恒定律等）嵌入神经网络训练过程的深度学习方法。其核心思想是通过神经网络同时拟合观测数据并满足物理约束，从而解决传统数值方法难以处理的高维、噪声数据或复杂边界条件问题。来源：PINN起源于对传统数值方法局限性的改进需求（如网格生
基于Transformer的医学文本分类：从BERT到BioBERT Evaporator Core 人工智能 #深度学习 #DeepSeek快速入门 transformer 分类 bert
随着自然语言处理（NLP）技术的快速发展，Transformer模型在文本分类、情感分析、机器翻译等任务中取得了显著成果。在医学领域，文本数据（如电子病历、医学文献、临床报告）具有高度的专业性和复杂性，传统的NLP方法往往难以处理。Transformer模型，尤其是BERT及其变体，通过预训练和微调的方式，能够有效捕捉医学文本中的语义信息，为医学文本分类提供了强大的工具。本文将探讨Transfor
TF-IDF：文本挖掘中的关键词提取利器巷955 tf-idf
引言在自然语言处理（NLP）和文本挖掘中，TF-IDF是一种常用的技术，用于评估一个词在文档中的重要性。它不仅在信息检索领域广泛应用，还在文本分类、关键词提取等任务中发挥着重要作用。本文将详细介绍TF-IDF的原理，并通过一个实际的代码示例来展示如何使用TF-IDF从《红楼梦》中提取核心关键词。1.什么是TF-IDF？TF-IDF是一种统计方法，用于评估一个词在文档中的重要性。它由两部分组成：-T
算力网络技术创新驱动生态协同发展智能计算研究中心其他
内容概要算力网络作为数字经济发展的核心基础设施，正经历从单一性能提升向体系化技术协同的范式转变。当前技术创新主要聚焦三大维度：在架构层面，通过异构计算、量子计算与神经形态计算的融合，突破传统芯片制程限制；在调度层面，依托分布式计算与流批处理技术，实现跨边缘节点、工业互联网平台与超算中心的资源动态编排；在生态层面，围绕能效管理、安全标准与算法优化构建全链条能力，支撑金融风险评估、基因测序等高复杂度场
金融风控可解释性算法安全优化实践智能计算研究中心其他
内容概要在金融风险控制领域，算法的可解释性与安全性已成为技术落地的核心挑战。本文从实际业务场景出发，系统性梳理可解释性算法与联邦学习、特征工程的协同框架，通过超参数优化与动态模型评估机制，构建透明化决策链路。在技术实现层面，重点解析支持向量机与随机森林的改进方案，结合数据清洗与标注的标准化流程，强化风险预测模型在准确率、F1值等关键指标的表现，同时兼顾合规性与安全边界的设计要求。提示：金融机构在部
生成对抗网络优化医疗影像分析方法智能计算研究中心其他
内容概要生成对抗网络（GAN）在医疗影像分析中的应用正经历从理论验证到临床落地的关键转型。本研究通过整合联邦学习算法与动态数据增强技术，构建了跨机构医疗影像协同分析框架，在保证患者隐私的前提下实现了数据资源的有效扩展。值得注意的是，算法优化过程中采用的三阶段特征工程策略——包括基于注意力机制的特征选择、多尺度特征融合以及可解释性特征映射——使模型决策透明度提升约37.6%。临床实践表明，将联邦学习
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他