simpsun

GRU和LSTM

GRU和LSTM

LSTM与GRU的存在是为了解决简单RNN面临的长期依赖问题（由于反向传播存在的梯度消失或爆炸问题，简单RNN很难建模长距离的依赖关系），一种比较有效的方案是在RNN基础上引入门控机制来控制信息的传播。

更通俗地说,比如很长一句话,靠后的某个词和靠前的某个词存在某种关联,简单RNN模型很难把这个靠前的这个词的信息传递到后面

GRU门控循环单元

他能够让你可以在序列中学习非常深的连接

GRU相当于LSTM的简化版

基本原理

引入两个信息控制门

$\Gamma_{u}=\sigma\left(\omega_{u}\left[c^{\langle t-1\rangle}, x^{\langle t\rangle}\right]+b_{u}\right)$

$\Gamma_{r}=\sigma\left(\omega_{u}\left[ {c^{\langle t-1\rangle}}, x^{\langle t\rangle}\right]+b_{u}\right)$

(1) 更新门 $\Gamma_{u}$ : 控制当前状态 $c^t$ 需要从上一时刻状态 $c^{t-1}$ 中保留多少信息,以及需要从候选状态 $\tilde{\boldsymbol{c}}^{(t)}$ 中接收多少信息

(2）重置门 $\Gamma_{u}$ : 控制候选状态 $\tilde{\boldsymbol{c}}^{(t)}$ 的计算是否依赖上一时刻 $c^{}$

生成候选状态

$\tilde {c}^{(t)}=\tanh \left(\omega_{c}\left[{\Gamma_r }c^{\langle t-1\rangle}, x^{(t)}\right]+b_{c}\right)$

候选值即记忆细胞的候选值,存储的是新的信息,当 $\Gamma_{u}$ 等于1时,即完全抛弃旧值时, $c^{\langle t\rangle} =\tilde{c}^{(t)}$ ,不严格的说,存储的就是当前层的激活值.

${\Gamma_r }$ 表示是否候选值是否依赖于上一时刻的值

$c^{\langle t\rangle}=\Gamma_{u} * \hat{c}^{(t)}+\left(1-\Gamma_{u}\right) * c^{\langle t-1)}$

$u$ 表示update

$\Gamma_{u}$ 等于0时, 等于 $c^{\langle t-1)}$ ,即不要更新值,使用旧值

$\Gamma_{u}$ 等于1时,等于$ \tilde{c}^{(t)}$

作为一个门,如果这个门不开,即为0,那么说明记忆细胞还要存储之前存的信息,如果这门要开一点,那么就要"挤进"一点当前层的信息,"赶走"一点原来的信息,如果这个门完全打开,就用当前层的信息覆盖记忆细胞的信息

$c^{\langle t\rangle}=a^{\langle t\rangle}$

改进版

$\Gamma_{r}$ 其中 $r$ 表示相关性

长短时记忆网络LSTM (Long Short Term Memory )

传统RNN中的存储着历史信息 $a_t$ ，但是 $a_t$ 每个时刻都会被重写，因此可以看做一种短期记忆。长期记忆可以看做是网络内部的某些参数，隐含了从数据中学到的经验，其更新周期要远远比短期记忆慢。

比GRU更强大和通用

基本原理

为保持一致性,均使用吴恩达深度学习课程中的符号

$h_{t-1} =a_{t-1},\Gamma_{f} = f_t ,\Gamma_{u} = f_i,\Gamma_{o} = f_t$

GRU和LSTM_第4张图片

LSTM引入三个门来控制信息传递

(1) 遗忘门 $\Gamma_{f}$ 控制上一时刻的内部状态 $c_{t-1}$ ,需要遗忘多少信息

(2) 输入门 $\Gamma_{u}$ 控制当前时刻的候选状态 $\tilde{\boldsymbol{c}}_{t}$ ,需要保留多少信息

(2) 输入门 $\Gamma_{o}$ 控制当前时刻的内部状态 $\boldsymbol{c}_{t}$ ,需要输出多少信息到外部状态 $a_t$

计算

$\Gamma_{u}=\sigma\left(W_{u}\left[a^{}, x^{}\right]+b_{u}\right)$
$\Gamma_{f}=\sigma\left(W_{f}\left[a^{}, x^{}\right]+b_{f}\right)$
$\left.\Gamma_{o}=\sigma(W_{o}\left[a^{}, x^{}\right]+b_{o}\right)$

$\tilde{c}^{=\tanh \left(W_{c}\left[a^{}, x^{}\right]+b_{c}\right)$

$\left.c^{}=\Gamma_{u} * \tilde{c}^{}+\Gamma_{f} * c^{}\right\rangle$
$a^{}=\Gamma_{o} * \tanh c^{}$

(1) 先利用上一时刻外部状态 $a_{t-1}$ 和当前时刻的输入,计算三个门和候选状态 $\tilde{c}^{}$ 的值

(2) 结合遗忘门和输入门来更新内部状态(记忆单元) $c_t$

(3) 结合输出门控制内部状态的信息传递到外部状态 $h_t$

问题: 点乘,叉乘

GRU和LSTM对比

GRU在对于当前的信息和过去的信息面临着二选一的状况,选了90%的现在的信息,那么过去的信息大多就要被舍弃,只通过加入一个门 $g_t$ 来实现

LSTM这点上是做的更全面,通过三个门 $g_u,g_f,g_o$ 来实现,以独立的门来控制当前层的信息需要多少,记忆细胞中原来的信息保留多少

$c^{}$ 是记忆单元,是LSTM的核心部分,可以在某个状态捕捉到关键信息,并有能力将此关键信息保存一定的时间间隔

如何保存关键信息可以通过遗忘门 $\Gamma_{f}$ 和输入门 $\Gamma_{u}$ 控制,因此内部状态 $c^{}$ 保存信息的周期要长于短期记忆,但又短于长期记忆,(或者说,关键信息中既有长期记忆的部分,也有短期记忆的部分),因此成为长短期记忆

GRU和LSTM_第9张图片

代码来看LSTM

LSTM的输入

batch_size
time_step
input_embedding_size : 输入词向量维度
num_units: 隐层神经元个数

对于每个时间步:

$\Gamma_{u}=\sigma\left(W_{u}\left[a^{}, x^{}\right]+b_{u}\right)$
$\Gamma_{f}=\sigma\left(W_{f}\left[a^{}, x^{}\right]+b_{f}\right)$
$\left.\Gamma_{o}=\sigma(W_{o}\left[a^{}, x^{}\right]+b_{o}\right)$

$\tilde{c}^{=\tanh \left(W_{c}\left[a^{}, x^{}\right]+b_{c}\right)$

$\left.c^{}=\Gamma_{u} * \tilde{c}^{}+\Gamma_{f} * c^{}\right\rangle$
$a^{}=\Gamma_{o} * \tanh c^{}$

输入数据维度为 [batch_size*input-embedding_size]

矩阵 $W_x$ 维度为[input-embedding_size*num_untis]

隐层输出数据:[batch_size*num_units]

矩阵 $W_h$ 的维度为[num_units*num_units]

上一时刻的输出 $h_{t-1}$ 数据维度为**[num_units](实际上是[batch_size*num_units]**)

每个时间步都是这样的，所以隐层在所有时间步(堆叠)乘上权重后，形成的Tensor为

[time_step，batch_size，num_units]或者[batch_size，time_step，num_units]

LSTM内部网络

GRU和LSTM_第10张图片

门gate即实际上就是一层全连接层，它的输入是一个向量，输出是一个0到1之间的实数向量

可以看到中间的cell 里面有四个黄色小框，每一个小黄框代表一个前馈网络层，num_units(即HIDDEN_SIZE, 隐藏层结点个数)就是这个层的隐藏神经元个数,其中1、2、4的激活函数是sigmoid,3的激活函数是tanh

cell的权重是共享的，这是什么意思呢？这是指这张图片上有三个绿色的大框，代表三个 cell对吧，但是实际上，它只是代表了一个 cell在不同时序时候的状态，所有的数据只会通过一个cell然后不断更新它的权重。

nn.LSTM()参数解析

参数
– input_size
– hidden_size
– num_layers
– bias
– batch_first
– dropout
– bidirectional

输入

input,( $h_0,c_0$ ),其中,如果 $h_0,c_0$ 未提供,那么以0矩阵为初始化矩阵

input (seq_len, batch, input_size)
h_0 (num_layers * num_directions, batch, hidden_size)

t=0时候没有上一时刻信息可用,所以通过随机初始化方式,定义 $h_0,c_0$

$h_0$ 表示上一时刻的输出,是短期记忆信息
c_0 (num_layers * num_directions, batch, hidden_size)

$h_0$ 表示之前的记忆信息,是长期记忆信息

输出

output (seq_len, batch, num_directions * hidden_size)
h_n (num_layers * num_directions, batch, hidden_size)
c_n (num_layers * num_directions, batch, hidden_size)

参数详解

input_size:

输入x的向量里有多少个元素输入的x一般为一个字的embedding 或者说就是embedding size
hidden_size: The number of features in the hidden state h
num_layers: Number of recurrent layers. E.g., setting num_layers=2would mean stacking two LSTMs together to form a stacked LSTMwith the second LSTM taking in outputs of the first LSTM and computing the final results. Default: 1

LSTM 堆叠的层数，默认值是1层，如果设置为2，第二个LSTM接收第一个LSTM的计算结果。

相当于多个Lstm串联
batch_first: If True, then the input and output tensors are provided as (batch, seq, feature) instead of (seq, batch, feature).Note that this does not apply to hidden or cell states. See the Inputs/Outputs sections below for details. Default: False

判断输入输出的第一维是否为 batch_size，默认值 False。故此参数设置可以将 batch_size 放在第一维度。

torch.LSTM 中 batch_size 维度默认是放在第二维度，故此参数设置可以将 batch_size 放在第一维度。
dropout: If non-zero, introduces a Dropout layer on the outputs of each LSTM layer except the last layer, with dropout probability equal to :attr:dropout. Default: 0

默认值0。是否在除最后一个 RNN 层外的其他 RNN 层后面加 dropout 层。输入值是 0-1 之间的小数，表示概率。0表示0概率dripout，即不dropout

bidirectional – If True, becomes a bidirectional LSTM. Default: False


num_layers: Number of recurrent layers. E.g., setting ``num_layers=2``
            would mean stacking two LSTMs together to form a `stacked LSTM`,
            with the second LSTM taking in outputs of the first LSTM and
            computing the final results. Default: 1
        bias: If ``False``, then the layer does not use bias weights `b_ih` and `b_hh`.
            Default: ``True``

     
        bidirectional: If ``True``, becomes a bidirectional LSTM. Default: ``False``
        proj_size: If ``> 0``, will use LSTM with projections of corresponding size. Default: 0

双向LSTM

单向LSTM仅保留过去的信息，因为它只能看到过去的信息.

使用双向将以两种方式运行您的输入，一种从过去到将来，另一种从将来到过去，这种方法与单向的不同之处在于，在向后运行的LSTM中，您保留了未来的信息并结合使用两个隐藏状态，您可以在任何时间点保存过去和将来的信息.

双向卷积神经网络的隐藏层要保存两个值， A 参与正向计算， A’ 参与反向计算。
最终的输出值 y 取决于 A 和 A’：

即正向计算时，隐藏层的 s_t 与 s_t－1 有关；反向计算时，隐藏层的 s_t 与 s_t＋1 有关

举例说明

前向的LSTM与后向的LSTM结合成BiLSTM。比如，我们对“我爱中国”这句话进行编码，模型如图6所示

你可能感兴趣的:(深度学习原理,深度学习实战,自然语言处理,nlp,深度学习,deep,learning)

PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines
PL-SLAM文章目录PL-SLAM摘要系统介绍综述方法综述LINE-BASEDSLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD直线检测算法**一、核心原理**⚙️**二、实现方法****三、应用场景**⚖️**四、优缺点与优化****优缺点对比****总结**End摘要译文——众所周知，低纹理场景是依赖点对应的几何计算机视觉算法的主
PWM技术全解析：从零到企业级开发实战 Android洋芋 PWM技术原理电机控制 SPWM/SVPWM优化高效调制应用电源管理
简介PWM（脉冲宽度调制）技术是现代电子控制系统的核心技术之一，通过调节数字信号的占空比来实现对模拟信号的控制。PWM技术以其高精度、高效率和灵活性优势，广泛应用于电机控制、电源管理、LED调光和通信协议模拟等领域。无论您是电子工程初学者还是资深开发者，掌握PWM技术都将为您的项目带来显著优势。本文将从PWM基础原理出发，深入讲解其核心公式，提供企业级开发实战案例，并附有详细代码及解释，助您从零到
MVI+Compose架构实战 Android洋芋 MVI JetpackCompose Kotlin Flow 状态管理声明式UI
简介本文将深入探讨为什么LiveData不适合在JetpackCompose中使用，并通过完整代码示例展示MVI+Compose架构的实现。从Android架构演进历史到Composable函数的重组机制，从单向数据流原理到StateFlow的线程安全特性，全面解析这一技术趋势背后的深层原因。一、为什么LiveData不适合在JetpackCompose中使用？LiveData与Compose的单
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
IDS检测原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！！！IDS（入侵检测系统）的核心使命是**从海量网络/主机行为中精准识别攻击企图**，其技术本质是**异常行为模式识别引擎**。以下从检测原理、系统架构到技术演进进行深度解析：---###⚙️IDS核心检测原理####1.**双引擎协同机制**|**检测类型**|**原理**|**优势/局限**|**典型算法**||--------------------|---
IPS防御原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！IPS（入侵防御系统）是网络安全防御体系的**主动盾牌**，其核心突破在于将IDS的“检测告警”升级为“实时阻断”，通过**深度流量解析+智能决策+硬拦截**实现攻击链的熔断式处置。以下从原理到架构的深度解析：---###⚙️IPS核心防御原理####1.**三位一体拦截机制**|**拦截层级**|**技术实现**|**典型防御场景**||------------
香港服务器查询缓存禁用-性能优化关键技术解析 cpsvps_net linux
在香港服务器运维过程中，查询缓存禁用是提升数据库性能的关键操作。本文将深入解析禁用查询缓存的原理、操作步骤、适用场景及注意事项，帮助管理员优化MySQL服务器配置，解决高并发环境下的性能瓶颈问题。香港服务器查询缓存禁用-性能优化关键技术解析查询缓存的工作原理与性能影响香港服务器上的MySQL查询缓存(QueryCache)机制会将SELECT语句及其结果存储在内存中。当完全相同的查询再次执行时，系
深度学习之分类手写数字的网络 newyork major 卷积神经网络CNN 深度学习人工智能
面临的问题定义神经⽹络后，我们回到⼿写识别上来。我们可以把识别⼿写数字问题分成两个⼦问题：把包含许多数字的图像分成⼀系列单独的图像，每个包含单个数字；也就是把图像，分成6个单独的图像分类单独的数字我们将专注于编程解决第⼆个问题，分类单独的数字。这样是因为，⼀旦你有分类单独数字的有效⽅法，分割问题是不难解决的。⼀种⽅法是尝试不同的分割⽅式，⽤数字分类器对每⼀个切分⽚段打分；如果数字分类器对每⼀个⽚段
微信小程序实现websocket及单人聊天功能蝶妹妹微信小程序 websocket 小程序
一、什么是websocket：WebSocket是HTML5下一种新的协议（websocket协议本质上是一个基于tcp的协议）它实现了浏览器与服务器全双工通信，能更好的节省服务器资源和带宽并达到实时通讯的目的Websocket是一个持久化的协议二、websocket的原理：websocket约定了一个通信的规范，通过一个握手的机制，客户端和服务器之间能建立一个类似tcp的连接，从而方便它们之间的
JVM调优实战 Day 14 ：大数据处理中的JVM调优在未来等你 JVM调优实战 JVM Java 性能优化调优虚拟机
【JVM调优实战Day14】大数据处理中的JVM调优文章标签jvm调优,大数据处理,Java性能优化,JVM参数配置,JVMGC调优,Java开发,大数据架构,Jvm实战文章简述在大数据处理场景中，Java应用通常面临内存占用高、GC频率频繁、堆内存不足等挑战。本文作为“JVM调优实战”系列的第14天，深入探讨了大数据处理中的JVM调优策略。文章从概念解析、技术原理、常见问题、诊断方法、调优策略到
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
【Tkinter从入门到精通】Python原生GUI开发全指南满怀1015 python 开发语言 Tkinter GUI开发桌面应用界面设计
目录前言️技术背景与价值当前技术痛点️解决方案概述目标读者说明一、技术原理剖析核心概念图解核心作用讲解关键技术模块说明⚖️技术选型对比️二、实战演示⚙️环境配置要求核心代码实现案例1：基础窗口创建案例2：网格布局计算器案例3：文件选择对话框✅运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四、最佳实践✅推荐方案❌常见错误调试技巧五、应用场景扩展适用领域创新应用方向生态工具链✨结语⚠️技术局
SpringBoot返回文件让前端下载的几种方式一朵梨花压海棠go spring boot 前端后端
01背景在后端开发中，通常会有文件下载的需求，常用的解决方案有两种：不通过后端应用，直接使用nginx直接转发文件地址下载（适用于一些公开的文件，因为这里不需要授权）通过后端进行下载，同时进行一些业务处理本篇主要以方法2进行介绍，方法2的原理步骤如下：读取文件，得到文件的字节流将字节流写入到响应输出流中02一次性读取到内存，通过响应输出流输出到前端@GetMapping("/file/downlo
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
深度学习流体力学【干货】人工智能交叉前沿技术，人工智能深度学习 python 机器学习
深度学习作为一种新兴的机器学习技术，为流体科学的研究提供了新的思路和方法。通过对大量数据的学习和分析，深度学习模型可以自动提取特征和模式，为流体科学中的复杂问题提供解决方案。然而，深度学习在流体科学中的应用还面临一些挑战，需要进一步研究和探索。未来，深度学习与传统流体力学方法的结合将成为流体科学研究的重要方向，多模态数据的融合、模型的可解释性、实时预测和控制等将是深度学习在流体科学中发展的重点。相
【Python GUI框架全解析】六大主流工具对比与实战指南满怀1015 python 开发语言 GUI开发 PyQt wxPython Kivy
目录前言️技术背景与价值当前技术痛点️解决方案概述目标读者说明一、技术原理剖析核心框架对比图框架定位分析关键技术指标️二、实战演示⚙️环境配置核心代码实现案例1：PyQt5现代化窗口案例2：wxPython文件管理器案例3：Kivy移动风格界面案例4：DearPyGui实时仪表盘✅运行结果验证⚡三、性能对比测试方法论量化数据对比结果分析四、最佳实践✅框架选型建议❌常见误区️调试技巧五、应用场景扩展
【Linux】写时拷贝——干货解析代码程序猿RIP Linux linux 运维服务器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、写时拷贝核心概念1.什么是写时拷贝？2.COW解决的问题二、写时拷贝工作原理1.内存管理基础结构2.COW工作流程3.页表状态变化图示初始状态（共享只读）子进程写入后（写时拷贝）三、写时拷贝的优势分析1.性能优势对比2.实际性能数据3.资源利用率提升四、内核实现深度解析1.COW核心代码逻辑2.关键数据结构五、应用场景与最
DAY 40 训练和测试的规范写法 acstdm python打卡60天人工智能深度学习机器学习
目录一、单通道图片的规范写法图像任务中的张量形状NLP任务中的张量形状1.Flatten操作2.view/reshape操作总结二、彩色图片的规范写法知识点回顾：彩色和灰度图片测试和训练的规范写法：封装在函数中展平操作：除第一个维度batchsize外全部展平dropout操作：训练阶段随机丢弃神经元，测试阶段eval模式关闭dropout昨天我们介绍了图像数据的格式以及模型定义的过程，发现和之前
DAY 45 Tensorboard使用介绍 HINOTOR_ Python训练营 python 开发语言
目录DAY45Tensorboard使用介绍1.tensorboard的发展历史和原理2.tensorboard的常见操作3.tensorboard在cifar上的实战：MLP和CNN模型作业：对resnet18在cifar10上采用微调策略下，用tensorboard监控训练过程。DAY45Tensorboard使用介绍1.tensorboard的发展历史和原理2.tensorboard的常见操
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
详解FreeRTOS：FreeRTOS列表和列表项（基础篇—13）不脱发的程序猿详解FreeRTOS FreeRTOS列表和列表项 FreeRTOS RTOS
目录1、列表和列表项是什么？1.1、列表1.2、列表项2、初始化列表和列表项2.1、初始化列表2.2、初始化列表项3、列表项插入3.1、列表项插入过程原理3.2、列表项插入源码4、列表项末尾插入4.1、列表项末尾插入过程原理4.2、列表项末尾插入源码5、删除列表项6、遍历列表7、实验：列表项的插入和删除本篇博文是《详解FreeRTOS》专栏基础篇最后一篇，下篇博文将进入进阶篇阶段。列表和列表项是直
【大模型学习 | BLIP2原理】九年义务漏网鲨鱼人工智能深度学习语言模型多模态大模型
BLIP-2:BootstrappingLanguage-ImagePre-trainingwithFrozenImageEncodersandLargeLanguageModels目前（2023）的图文模型都是基于端到端训练方式，大规模的模型和数据集导致了在预训练过程需要的大量计算。作者提出一种从离线、梯度冻结的图像、语言模型中提升图文的预训练模型。为了联系两个不同模态预训练模型，作者提出一种使
【大模型学习 | BLIP原理】九年义务漏网鲨鱼 pytorch 人工智能深度学习大模型多模态
BLIP:BootstrappingLanguage-ImagePre-trainingforUnifiedVision-LanguageUnderstandingandGeneration作者指出，现有的视觉-语言预训练（Vision-LanguagePre-training,VLP）模型在语言理解与生成任务上难以同时取得优异表现：一方面，基于编码器（encoder-based）的模型在生成任务
数据恢复软件：Recuva使用全攻略丹力
本文还有配套的精品资源，点击获取简介：在IT领域，误删除重要软件或文件是常见问题。为解决这一难题，Recuva数据恢复软件应运而生，它由Piriform公司开发，支持多种文件类型和文件系统的恢复。其工作原理是利用Windows文件系统的特性，寻找尚未被覆盖的已删除文件。用户可以使用Recuva的标准模式或深度扫描模式进行高效恢复，并将其保存至指定位置。尽管Recuva能有效恢复大部分文件，但定期备
入门pytorch-联邦学习四代机您发多少 pytorch 人工智能 python
本文联邦学习的代码引用于https://github.com/shaoxiongji/federated-learning本篇文章相当于带大家读一遍联邦学习的代码，同时加深了大家对联邦学习和Pytorch框架的理解。这里想简单介绍一下联邦学习。联邦学习说白了，就是假如有NNN个数据拥有者F1,...,FN{F_1,...,F_N}F1,...,FN，他们希望使用这些数据来训练机器学习模型，但是又各
数据结构day6——内核链表 LZA185 数据结构数据结构链表
在Linux内核开发中，链表是最基础且重要的数据结构之一。与普通链表不同，Linux内核采用了一种非常巧妙的"通用链表"设计，它不直接包含数据，而是将数据结构嵌入其中，从而实现了一种高度灵活、可复用的链表机制。本文将深入解析Linux内核链表的设计思想、实现原理及应用场景。一、传统链表的局限性传统链表的实现方式通常是将数据直接包含在节点结构中：//传统链表节点结构typedefstructStud
Go语言中的defer关键字
在Go语言中，defer关键字是一个独特而强大的特性，它可以将代码块推迟到函数返回之前执行。这种机制可以用于资源的释放、错误处理、性能优化等多种场景。本文将详细介绍defer的用法和工作原理，并通过实际示例来展示其在不同情况下的应用。defer的基本用法在Go语言中，使用defer关键字可以将一个函数调用推迟到当前函数执行结束前执行。defer语句由关键字defer和一个函数在上述代码中，当函数d
报告下载丨北京大学：2025年DeepSeek在教育和学术领域的应用场景与案例（上）报告下载丨德勤：2025年生成式AI档案报告下载丨SuperCLUE 中文大模型基准测评 2025 智能计算研究中心人工智能
该报告全面探讨了DeepSeek在教育和学术领域的应用。DeepSeek在2024-2025年推出的模型引发国际关注，其通过提升推理能力、全量开源、降低成本及国产自主研发等优势，在教育行业推动了范式革命。报告涵盖了从学前教育到特殊教育的各个阶段，列举了高校如北京大学的学科专业问答工具、北大青鸟的实训平台等应用案例。为教育工作者提供了系统指导，有助于推动教育创新，培养适应AI时代的各类人才。
Java开发的智能新时代——如何利用AI工具提升编程效率 inscode_055
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：Java开发的智能新时代——如何利用AI工具提升编程效率引言在当今快速发展的科技时代，Java作为一门广泛应用的编程语言，在企业级应用、Web开发、移动应用等领域占据着重要地位。然而，随着项目复杂度的增加和开发周期的缩短，传统的开发方式已难以满足现代开发的需求。幸运的是，智能化的工具软件如InsCodeAIIDE正逐
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他