秃顶的码农

白话机器学习-循环神经网络从RNN、LSTM到GRU

一背景

大抵是去年底吧，收到了几个公众号读者的信息，希望能写几篇介绍下Attention以及Transformer相关的算法的文章，当时的我也是满口答应了，但是确实最后耽误到了现在也没有写。

前一阵打算写这方面的文章，不过发现一个问题，就是如果要介绍Transformer，则必须先介绍Self Attention，亦必须介绍下Attention，以及Encoder-Decoder框架，以及GRU、LSTM、RNN和CNN，所以开始漫长的写作之旅。

截止目前，已经完成几篇文章的输出

《白话机器学习-卷积神经网络CNN》
《白话机器学习-循环神经网络RNN》
《白话机器学习-长短期记忆网络LSTM》

那么接下来，需要把GRU、Encoder-Decoder框架、Attention机制、Self Attention以及Transformer一一介绍了。计划周期在2-3周吧，不好意思，让大家久等了。

关于机器学习算法这块后续的文章规划，大致是会继续介绍下图神经网络相关、强化学习相关、对抗学习相关以及元学习相关等相关文章。

GRU（Gate Recurrent Unit）是循环神经网络（Recurrent Neural Network, RNN）的一种。和LSTM（Long-Short Term Memory）一样，也是为了解决长期记忆和反向传播中的梯度等问题而提出来的。GRU是新一代的循环神经网络，与LSTM非常相似。GRU抛弃了Cell State，仅仅使用隐藏状态来传递信息。它比LSTM少一个门，仅仅有两个门，reset gate和update gate（如上图）。

GRU和LSTM在很多情况下实际表现上相差无几，那么为什么我们要使用新人GRU（2014年提出）而不是相对经受了更多考验的LSTM（1997提出）呢。

下图1-1引用论文中的一段话来说明GRU的优势所在。

相比LSTM，使用GRU能够达到相当的效果，并且相比之下更容易进行训练，能够很大程度上提高训练效率，因此很多时候会更倾向于使用GRU。

下面我们来一起回顾下RNN以及LSTM相关的知识，然后自然的引出GRU。

二循环神经网络-Recurrent Neural Networks

人类的思维模式都是具备连续性与关联性的。比如在我们阅读一篇文章的过程中，当理解一段话的时候，我们不会孤立的仅仅针对这段话进行理解，而是会结合上下文进行全局的逻辑推断，判断这话是什么含义。

但是传统的神经网络不能做到这一点，因为传统的神经网络包含全连接和卷积神经网络在同层之间都是没关联的。循环神经网络横空出世解决了这个问题。基于它的同层之间连接的网络结构，同层之间设计成带有循环体的的网络，可以对于具备时序关系的序列进行区间的上下文综合理解，更好的拟合人类的思维模式过程。

循环神经网络的关键结构是循环体，循环体如下构造：

以上图为例，循环体A是一个大的NN网络，它的输入是 $x_{t}$ ，输出是 $h_t$ ，同时输出亦作为循环体的输入，这样相当于将信息不断的从网络的一个时刻传递到下一个时刻，实现了信息的记忆与传递。上面的这个图比较抽象，现在我们把这个图展开来看看。

在过去的几年内，循环神经网络在各个领域取得了令人兴奋的成功：语音识别、语言建模、翻译、图像字幕……等等。

同时，在技术的演进过程中，循环神经网络也在不断的升级，下面我们介绍下循环神经网络的又一悍将LSTM。

三长期记忆的难题

RNN的一个吸引人之处在于，它可以将之前的信息与当前的任务联系起来，比如使用之前的视频帧可以帮助理解当前的帧。如果rnn能够做到这一点，它们将非常有用。但他们能吗?视情况而定。

**RNN的优点在于可以将之前的信息与当前的信息关联起来，实现记忆区间内的联动。**不过也存在一些问题，我们分两种场景来分析：

短期关联

有时我们只需要查看最近的信息来推演当前的信息。例如，假设一个语言模型试图根据前面的单词预测下一个单词。如果我们试图预测“the clouds are in the sky”中的最后一个单词，我们不需要任何进一步的语境——很明显，下一个单词将是sky。在这种情况下，相关信息和需要信息的地方之间的差距很小，RNN可以学会使用过去的信息。

长期关联

但是也有一些情况我们需要关联更长的信息。比如预测文章的最后一个词“我在法国长大……我能说一口流利的法语”。最近的信息表明只能推演出下一个单词可能是一种语言的名称，但如果我们想要明确具体的语言，需要更早的信息”法国“。相关信息和需要它的信息之间的时序差距完全有可能变得非常大。

不幸的是，针对时序差距的较长的信息链，RNN无法很好的进行学习，模型的表征能力收到极大的限制，亟需进行模型结构的突破，才能解决这些问题。

结合人类的思维记忆模式，RNN的问题在于只有记忆没有遗忘，所有的信息一股脑的灌进模型里面，数据少的情况还好，但是数据多了自然就没重点了。下面针对这种情况，我们设计了长短期记忆网络-LSTM，格言：只要忘记，才能记忆；若要记忆，学会忘记。

四长短期记忆网络-LSTM

长期短期记忆网络LSTM可以理解为一种特殊的RNN，能够学习长期依赖关系。是由 Hochreiter & Schmidhuber （1997）发明的，并且在实践中取得了优秀的效果。LSTM被明确地设计为避免长期依赖问题，下面我们对比下RNN与LSTM的网络结构。

RNN网络结构

LSTM网络结构

LSTM也是这种循环体的链式结构，但是循环体里面的NN结构不同。RNN里面有一个全连接，而LSTM有四个全连接网络。

图的含义如下：

黄色的盒子代表全连接神经网络；
粉红色的圆圈代表逐点操作，比如矩阵按位加法与矩阵按位乘法；
标准箭头代表数据的流动。
行合并箭头代表数据的拼接；
行分叉箭头代表数据被复制成多个副本，并将副本发送到不同的位置。

五 LSTM背后的核心思想

LSTM的关键是Cell State，即下图中贯穿图顶部的水平线。

Cell State就像是一条传送带。它作用于整个时序链条，在运行的过程中保留着深度的记忆。

LSTM之所以可以将长期记忆有选择性的加入到Cell中，关键的结构是一个称之为门（Gate）的结构。门是一种选择性地让信息通过的方式，由一个激活函数是Sigmoid的神经网络层和一个逐点乘法运算组成。

Sigmoid激活函数使得神经网络层的输出是0到1之间的数字，描述每个组件应该允许多少通过。值为0表示“不让任何东西通过”，值为1表示“让所有东西通过”!

一个LSTM有三个这样的门，用来控制Cell State。

六逐步推导LSTM

在上篇《白话机器学习-长短期神经网络LSTM》中我们已经详细推导过LSTM，不过这里为了整体介绍循环神经网络以及GRU，所以再简单复习下。

遗忘阶段

在LSTM中，第一步是决定将从Cell State中遗忘哪些信息。这个决定是由“遗忘门”来判断的。遗忘门是全连接神经网络，激活函数是Sigmoid函数，输入是 $h_{t-1}和x_t$ ，输出是 $f_t$ （一个0到1之间的参数矩阵，值为0表示“不让任何东西通过”，值为1表示“让所有东西通过”）,即 $f_t = \sigma（W_f[h_{t-1}, x_t] + b_f)$

记忆阶段 - 前置计算阶段

在LSTM中，第二步是决定向Cell State添加哪些信息。这个阶段包含两个结构：

输入门：输入门是全连接神经网络，激活层是Sigmoid，输入是输入是 $h_{t-1}和x_t$ ，输出是 $i_t$ （一个0到1之间的参数矩阵，值为0表示“不让任何东西通过”，值为1表示“让所有东西通过”!）,即 $i_t = \sigma（W_i[h_{t-1}, x_t] + b_i)$
候选向量：生成候选向量是全连接神经网络，激活函数是tanh，输入是输入是 $h_{t-1}和x_t$ ，输出是 ${\overset{\sim}{C}}_t$ , 即 ${\overset{\sim}{C}}_t = \sigma（W_C[h_{t-1}, x_t] + b_C)$

两个神经网络的生成的向量（不考虑Batch），相互按位乘就可以得到我们想要添加的信息，已替换以往忘记的信息。

更新Cell State

LSTM的第三步，就是需要更新Cell State，这个更新从两个方面进行，遗忘和记忆，结合我们上面的描述，主要是有两个部分：

遗忘，通过与遗忘门产生的向量进行按位乘法，即 $f_t * C_{t-1}$
记忆，通过候选向量与输入门进行按位乘法，即 $i_t * {\overset{\sim}{C}}_t$
更新Cell State，将上面计算的两个结果进行按位相加，即 $C_t = f_t * C_{t-1} + i_t * {\overset{\sim}{C}}_t$

输出

LSTM的最后一步，需要决定要输出什么。

输出门：输入门是全连接神经网络，激活层是Sigmoid，输入是输入是 $h_{t-1}和x_t$ ，输出是 $o_t$ （一个0到1之间的参数矩阵，值为0表示“不让任何东西通过”，值为1表示“让所有东西通过”!），即 $o_t = \sigma（W_o[h_{t-1}, x_t] + b_o)$
Cell State的当前状态，即 $C_t$
最终输出： $h_t = o_t * tanh(C_t)$

七 GRU

到目前为止，我描述的是一个非常普通的LSTM。但并不是所有的lstm都和上面的一样。事实上，似乎几乎每一篇涉及lstm的论文都使用了稍微不同的版本。差别很小，但其中有一些还是值得一提的。

LSTM的一个稍微更引人注目的变化是门控循环单元，或GRU，由Cho等人(2014)引入。它将遗忘门和输入门合并成一个“更新门”。它还合并了单元格状态和隐藏状态，并进行了一些其他更改。得到的模型比标准的LSTM模型更简单，但是效果缺没有本质的差异，并且越来越受欢迎。

从整体上来说，GRU的输入输出结构与普通的RNN是一样的，与LSTM不同，同时它只有两个门控，而LSTM有三个门控。

有一个当前的输入 $x_t$ ，和上一个节点传递下来的隐状态（hidden state） $h_{t-1}$ ，这个隐状态包含了之前节点的相关信息。根据 $x_t$ 和 $h_{t-1}$ ，GRU会得到当前隐藏节点的输出 $y_t$ 和传递给下一个节点的隐状态 $h_t$ 。

具体的计算过程参考下图，其中通过 $1-Z_t$ 和 $Z_t$ 用来遗忘和记忆。不过门控 $Z_t$ 主要控制历史信息和当前信息的权重的功能，通过和上个时刻的隐状态 $h_{t-1}$ 进行按位乘法，进行部分遗忘，例如如果 $r_t=0$ ，则只输入当前的信息。

流程如下：

重置门计算：主要用于控制历史信息和当前信息的权重，网络结构是全连接神经网络，激活函数是Sigmond，即 $r_t = \sigma(W_r *[h_{t-1}, x_t])$ 。
更新门控：主要用于计算历史信息的遗忘程度，网络结构是全连接神经网络，激活函数是Sigmoid，即 $Z_t = \sigma(W_z *[h_{t-1}, x_t])$
候选向量计算：主要是记忆的功能，记忆当前需要记录的信息，即 ${\overset{\sim}{h}}_t = tanh(W*[r_t * h_{t-1}, x_t])$
遗忘门控，用于计算以往历史信息的权重参数，即 $1-Z_t$
输出与下一个隐藏状态：在GRU中输出与下一时刻的隐藏状态是一个值，使用以往门控按位乘以上个时刻的隐藏状态，并且按位加候选向量乘以更新门控（记忆，不用1去减），即 $h_t = (1-z_t)* h_{t-1} + z_t * {\overset{\sim}{h}}_t$

八参考资料

http://colah.github.io/posts/2015-08-Understanding-LSTMs/
https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21
http://arxiv.org/pdf/1406.1078v3.pdf

九番外篇

个人介绍：杜宝坤，隐私计算行业从业者，从0到1带领团队构建了京东的联邦学习解决方案9N-FL，同时主导了联邦学习框架与联邦开门红业务。
框架层面：实现了电商营销领域支持超大规模的工业化联邦学习解决方案，支持超大规模样本PSI隐私对齐、安全的树模型与神经网络模型等众多模型支持。
业务层面：实现了业务侧的开门红业务落地，开创了新的业务增长点，产生了显著的业务经济效益。
个人比较喜欢学习新东西，乐于钻研技术。基于从全链路思考与决策技术规划的考量，研究的领域比较多，从工程架构、大数据到机器学习算法与算法框架均有涉及。欢迎喜欢技术的同学和我交流，邮箱：[email protected]

十公众号导读

自己撰写博客已经很长一段时间了，由于个人涉猎的技术领域比较多，所以对高并发与高性能、分布式、传统机器学习算法与框架、深度学习算法与框架、密码安全、隐私计算、联邦学习、大数据等都有涉及。主导过多个大项目包括零售的联邦学习，社区做过多次分享，另外自己坚持写原创博客，多篇文章有过万的阅读。公众号秃顶的码农大家可以按照话题进行连续阅读，里面的章节我都做过按照学习路线的排序，话题就是公众号里面下面的标红的这个，大家点击去就可以看本话题下的多篇文章了，比如下图（话题分为：一、隐私计算二、联邦学习三、机器学习框架四、机器学习算法五、高性能计算六、广告算法七、程序人生），知乎号同理关注专利即可。

一切有为法，如梦幻泡影，如露亦如电，应作如是观。

rnn-人名案例实现 Ai玩家hly rnn python 深度学习
模型训练实现:coding:utf-8导入torch工具importjsonimporttorch导入nn准备构建模型importtorch.nnasnnimporttorch.nn.functionalasFimporttorch.optimasoptim导入torch的数据源数据迭代器工具包fromtorch.utils.dataimportDataset,DataLoader用于获得常见字母
人名分类器（RNN案例） Turbo_O. rnn 深度学习人工智能
案例介绍：人名分类案例是多分类问题，根据人名预测属于哪个国家人名->x,国家->y监督学习，历史数据中已知y案例步骤：1.数据预处理获取常用字符以及国家类别#导入torch工具fromcProfileimportlabelimporttorch#导入nn准备构建模型importtorch.nnasnnimporttorch.optimasoptimfromjax.experimental.rnni
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能机器学习
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构引言欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要参加学术会议，发
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.1数据欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习人工智能
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.2深度学习模型2.2.1GlacierNet模型2.2.2DeepLabV3+模型欢迎铁子们点赞、关注、收藏！祝大
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k? 努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记人工智能
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?文章目录【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?一、什么是K折交叉验证？✅目的：二、K折交叉验证的发展背景三、K折交叉验证的步骤详解步骤如下：数学
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记机器学习人工智能
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。文章目录【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。一、背景与发展：为什么需要
RNN人名分类器案例
RNN人名分类器案例1任务目的：目的:给定一个人名，来判定这个人名属于哪个国家典型的文本分类任务:18分类---多分类任务2数据格式注意：两列数据，第一列是人名，第二列是国家类别，中间用制表符号"\t"隔开AngChineseAuYongChineseYuasaJapaneseYuharaJapaneseYunokawaJapanese3任务实现流程1.获取数据:案例中是直接给定的2.数据预处理:
CNN-LSTM神经网络多输入单输出回归预测【MATLAB】沅_Yuan 炼丹师神经网络 cnn lstm
1CNN（卷积神经网络）部分作用：特征提取：CNN主要用于从输入数据中提取空间特征。它能够处理图像、视频帧或其他形式的空间数据。组成部分：卷积层：使用卷积核对输入数据进行卷积操作，生成特征图。激活函数：通常使用ReLU（线性整流单元）激活函数，增加非线性。池化层：通过最大池化（MaxPooling）或平均池化（AveragePooling），减少特征图的尺寸，保留最重要的特征，减少计算复杂度。流程
学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
RNN循环神经网络原理解读 zhishidi ai笔记 rnn 人工智能深度学习
我们把循环神经网络想象成一个有记忆的助手，特别擅长处理按顺序出现的信息，比如句子、语音、股票价格、音乐旋律等。核心思想：记住过去的信息，帮助理解现在。普通神经网络的局限（没有记忆）想象一个普通的神经网络（比如用于识别图片的）：输入：你给它一张图片。处理：它分析这张图片的像素。输出：告诉你图片里是“猫”还是“狗”。问题：它每次只看一个独立的输入（一张图片），输入之间没有联系。给它看一个视频（连续很多
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
如何看待机器学习方法在超分子化学领域的日渐流行？ cda2024 机器学习人工智能
大家好，今天咱们来聊聊一个既时髦又接地气的话题：如何看待机器学习方法在超分子化学领域的日渐流行？想象一下，你是一位超分子化学家，正忙于设计一种新型的分子结构，这个结构需要具备特定的功能。传统的方法是通过反复实验和理论计算来优化这个结构，但过程可能非常耗时且复杂。而现在，借助机器学习，你可以更快、更准确地找到最优解。这就是为什么机器学习在超分子化学领域变得越来越受欢迎的原因之一。一、超分子化学是什么
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
【大模型】Transformer架构完全解读：从“盲人摸象“到“通晓万物“的AI进化论全栈追梦人大模型 #提示工程 transformer 架构深度学习
Transformer架构完全解读：从"盲人摸象"到"通晓万物"的AI进化论——一位大模型探索者的技术日记☕第一章：为什么说Transformer是AI界的"蒸汽机革命"？1.1从RNN到Transformer：一场效率革命场景：咖啡厅里两位开发者的对话实习生小雨：“学长，为什么现在都用Transformer？RNN不是也能处理文本吗？”资深工程师老张：（掏出纸巾画图）“想象RNN是个严格的图书管
算法大厨日记：猫猫狐狐带你用代码做一锅香喷喷的“预测汤” Gyoku Mint AI修炼日记猫猫狐狐的小世界人工智能人工智能机器学习 python 算法 database 深度学习数据挖掘
️【开场·今天的料理名叫“预测炖汤”】猫猫：“咱今天突发奇想，决定用机器学习代码给你炖一锅‘预测汤’喵！这不是教你代码，是要告诉你怎么把‘算法’吃进肚子里~”狐狐：“别急，她又在打比方了。这锅汤从数据准备到调参优化，就跟你平常做饭的过程没两样，只不过食材都被咱们用代码换了一遍。”【第一步·数据准备，就是挑菜啦】猫猫：“首先是挑菜（数据预处理），不能什么菜都扔进去锅里吧？要洗干净去皮（数据清洗），再
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
因果推理与因果学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
因果推理与因果学习原理与代码实战案例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：因果关系发现、因果推断、因果学习、机器学习、统计方法1.背景介绍1.1问题的由来在现实世界的数据分析中，我们经常面临这样的挑战：从观察数据中识别出潜在的原因与效果之间的关联，并理解这些关联背后的实际机制。传统的预测建模关注于基于输入变量对输出变量进行预测，
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
从决策树到随机森林：Python机器学习里的“树形家族“深度实战与原理拆解小张在编程机器学习决策树随机森林
引言在机器学习的算法森林中，有一对"树形兄弟"始终占据着C位——决策树像个逻辑清晰的"老教授"，用可视化的树状结构把复杂决策过程拆解成"是/否"的简单判断；而它的进阶版随机森林更像一支"精英军团"，通过多棵决策树的"投票表决"，在准确性与抗过拟合能力上实现了质的飞跃。无论是医疗诊断中的疾病预测，还是金融风控里的违约判别，这对组合都用强大的适应性证明着自己的"算法常青树"地位。今天，我们就从原理到实
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

白话机器学习-循环神经网络从RNN、LSTM到GRU

一 背景

二 循环神经网络-Recurrent Neural Networks

三 长期记忆的难题

四 长短期记忆网络-LSTM

五 LSTM背后的核心思想

六 逐步推导LSTM

七 GRU

八 参考资料

九 番外篇

十 公众号导读

你可能感兴趣的:(机器学习算法,机器学习,深度学习,rnn,lstm,gru)

一背景