ZN_daydayup

2020李宏毅机器学习笔记-Recurrent Neural Network

RNN（循环神经网络）

摘要

Introduction（介绍）

LSTM

Three-gate

Memory Cell

LSTM Example

LSTM Structure

Learning Target

Loss Function

Training

Error Surface

Help Techniques

RNN的应用

Many to one

Many to many

RNN v.s. Structured Learning

总结与展望

RNN（循环神经网络）

有记忆力的神经网络，就叫做Recurrent Neural Network(RNN)

摘要

本节内容主要是讲讲解RNN或者说最常用的LSTM。
首先举了例子，比如Slot Filling，为了应对复杂得语句，我们希望我们的NN有记忆力，这就是RNN。
其次，讲解LSTM的组成，它由四部分组成，每个LSTM本质上就是一个neuron，特殊之处在于有4个输入，以及LSTM的工作过程和原理。
接着，讲解了如何训练RNN（LSTM），以及训练会遇到的问题梯度消失和梯度爆炸以及解决办法使用Clipping方法。
然后，讲解了RNN的各种应用，特别是在语音方面的应用。
最后，对比RNN和Structured Learning，得出结论Deep and structure is future。

Introduction（介绍）

Slot Filling

在智能客服、智能订票系统中，往往会需要slot filling技术，它会分析用户说出的语句，将时间、地址等有效的关键词填到对应的槽上，并过滤掉无效的词语。

词汇要转化成vector，可以使用1-of-N编码等方式，此外我们可以尝试使用Feedforward Neural Network来分析词汇，判断出它是属于时间或是目的地的概率。

但这样做会有一个问题，该神经网络会先处理“arrive”和“leave”这两个词汇，然后再处理“Taipei”，这时对NN来说，输入是相同的，它没有办法区分出“Taipei”是出发地还是目的地，

这个时候我们就希望神经网络是有记忆的，如果NN在看到“Taipei”的时候，还能记住之前已经看过的“arrive”或是“leave”，就可以根据上下文得到正确的答案。

这种有记忆力的神经网络，就叫做Recurrent Neural Network(RNN)。

在RNN中，hidden layer每次产生的output a1、a2，都会被存到memory里，下一次有input的时候，这些neuron就不仅会考虑新输入的x1、x2，还会考虑存放在memory中的a1、a2。

注意到，每次NN的输出都要考虑memory中存储的临时值，而不同的输入产生的临时值也尽不相同，

因此改变输入序列的顺序会导致最终输出结果的改变(Changing the sequence order will change the output)。

用RNN处理Slot Filling的流程举例如下：

“arrive”的vector作为x1输入RNN，通过hidden layer生成a1，再根据a1生成y1，表示“arrive”属于每个slot的概率，其中a1会被存储到memory中

“Taipei”的vector作为x2输入RNN，此时hidden layer同时考虑和存放在memory中的a1，生成a2，再根据a2生成y2，表示“Taipei”属于某个slot的概率，此时再把a2存到memory中
以此类推

注意：上图为同一个RNN在三个不同时间点被分别使用了三次，并非是三个不同的NN

这个时候，即使输入同样是“Taipei”，我们依旧可以根据前文的“leave”或“arrive”来得到不一样的输出

RNN有不同的变形：

Elman Network：将hidden layer的输出保存在memory里
Jordan Network：将整个neural network的输出保存在memory里

Bidirectional RNN

RNN 还可以是双向的，你可以同时训练一对正向和反向的RNN，把它们对应的hidden layer xt 拿出来，都接给一个output layer，得到最后的 yt。

使用Bi-RNN的好处是，NN在产生输出的时候，它能够看到的范围是比较广的，这就相当于RNN在看了整个句子之后，

才决定每个词汇具体要被分配到哪一个槽中，这会比只看句子的前一半要更好。

LSTM

前文提到的RNN只是最简单的版本，并没有对memory的管理多加约束，可以随时进行读取，而现在常用的memory管理方式叫做长短期记忆(Long Short-term Memory)，简称LSTM。

Three-gate

LSTM有三个gate：

当某个neuron的输出想要被写进memory cell，它就必须要先经过一道叫做input gate的闸门，如果input gate关闭，则任何内容都无法被写入，而关闭与否、什么时候关闭，都是由神经网络自己学习到的

output gate决定了外界是否可以从memory cell中读取值，当output gate关闭的时候，memory里面的内容同样无法被读取

forget gate则决定了什么时候需要把memory cell里存放的内容忘记清空，什么时候依旧保存

整个LSTM可以看做是4个input，1个output：

4个input=想要被存到memory cell里的值+操控input gate的信号+操控output gate的信号+操控forget gate的信号
1个output=想要从memory cell中被读取的值

Memory Cell

如果从表达式的角度看LSTM，它比较像下图中的样子

z是想要被存到cell里的输入值
zi是操控input gate的信号
zo是操控output gate的信号
zf是操控forget gate的信号
a是综合上述4个input得到的output值

把z、zi、zo、zf通过activation function，分别得到g(z)、f(zi)、f(zo)、f(zf)

其中对zi、zo和zf来说，它们通过的激活函数一般会选sigmoid function，因为它的输出在0~1之间，代表gate被打开的程度，

令g(z)与f(zi)相乘得到g(z)f(zi)，然后把原先存放在cell中的c与f(zf)相乘得到cf(zf)，两者相加得到存在memory中的新值c' = g(z)f(zi) + cf(zf)

若f(zi) = 0，则相当于没有输入，若f(zi) = 1，则相当于直接输入g(z)
若f(zf) = 1，则保存原来的值c并加到新的值上，若f(zf) = 0，则旧的值将被遗忘清除

从中也可以看出，forget gate的逻辑与我们的直觉是相反的，控制信号打开表示记得，关闭表示遗忘。

此后，c' 通过激活函数得到h( c' )，与output gate的f(zo)相乘，得到输出h( c' )f(zo)

LSTM Example

下图演示了一个LSTM的基本过程，x1、x2、x3是输入序列，y是输出序列，基本原则是：

当时x2=1，将x1的值写入memory
当时x2=-1，将memory里的值清零
当时x3=1，将memory里的值输出

LSTM Structure

你可能会觉得上面的结构与平常所见的神经网络不太一样，实际上我们只需要把LSTM整体看做是下面的一个neuron即可:

假设目前我们的hidden layer只有两个neuron，则结构如下图所示：

输入x1、x2会分别乘上四组不同的weight，作为neuron的输入以及三个状态门的控制信号
在原来的neuron里，1个input对应1个output，而在LSTM里，4个input才产生1个output，并且所有的input都是不相同的
从中也可以看出LSTM所需要的参数量是一般NN的4倍

LSTM for RNN

从上图中你可能看不出LSTM与RNN有什么关系，接下来我们用另外的图来表示它

假设我们现在有一整排的LSTM作为neuron，每个LSTM的cell里都存了一个scalar值，把所有的scalar连接起来就组成了一个vector c ^ t-1

在时间点t，输入了一个vector xt ，它会乘上一个matrix，通过转换得到z，而z的每个dimension就代表了操控每个LSTM的输入值，

同理经过不同的转换得到、和，得到操控每个LSTM的门信号,同理经过不同的转换得到zi、zf和zo，得到操控每个LSTM的门信号。

下图是单个LSTM的运算情景，其中LSTM的4个input分别是z、zi、zf和zo的其中1维，每个LSTM的cell所得到的input都是各不相同的，

但它们却是可以一起共同运算的，整个运算流程如下图左侧所示：

f(zf)与上一个时间点的c^t-1 cell值相乘，并加到经过input gate的输入g(z)f(zi)上，得到这个时刻cell中的值c^t，最终再乘上output gate的信号f(zo)，得到输出yt。

上述的过程反复进行下去，就得到下图中各个时间点上，LSTM值的变化情况，其中与上面的描述略有不同的是，

这里还需要把hidden layer的最终输出yt以及当前cell的值ct都连接到下一个时间点的输入上。

因此在下一个时间点操控这些gate值，不只是看输入的x t+1，还要看前一个时间点的输出ht和cell值ct，你需要把x t+1、ht和ct这3个vector并在一起，

乘上4个不同的转换矩阵，去得到LSTM的4个输入值z、zi、zf、zo，再去对LSTM进行操控。

注意：下图是同一个LSTM在两个相邻时间点上的情况

上图是单个LSTM作为neuron的情况，事实上LSTM基本上都会叠多层，如下图所示，

左边两个LSTM代表了两层叠加，右边两个则是它们在下一个时间点的状态。

Learning Target

Loss Function

依旧是Slot Filling的例子，我们需要把model的输出yi与映射到slot的reference vector求交叉熵，

比如“Taipei”对应到的是“dest”这个slot，则reference vector在“dest”位置上值为1，其余维度值为0

RNN的output和reference vector的cross entropy之和就是损失函数，也是要minimize的对象,

需要注意的是，word要依次输入model，比如“arrive”必须要在“Taipei”前输入，不能打乱语序。

Training

有了损失函数后，训练其实也是用梯度下降法，为了计算方便，这里采取了反向传播(Backpropagation)的进阶版，Backpropagation through time，简称BPTT算法：

RNN的训练并没有那么容易，

我们希望随着epoch的增加，参数的更新，loss应该要像下图的蓝色曲线一样慢慢下降，但在训练RNN的时候，

你可能会遇到类似绿色曲线一样的学习曲线，loss剧烈抖动，并且会在某个时刻跳到无穷大，导致程序运行失败，

Error Surface

分析可知，RNN的error surface，即loss由于参数产生的变化，是非常陡峭崎岖的，

下图中，z轴代表loss，x轴和y轴代表两个参数w1和w2，可以看到loss在某些地方非常平坦，在某些地方又非常的陡峭，

如果此时你的训练过程类似下图中从下往上的橙色的点，它先经过一块平坦的区域，又由于参数的细微变化跳上了悬崖，这就会导致loss上下抖动得非常剧烈，

如果你的运气特别不好，一脚踩在悬崖上，由于之前一直处于平坦区域，gradient很小，你会把参数更新的步长(learning rate)调的比较大，

而踩到悬崖上导致gradient突然变得很大，这会导致参数一下子被更新了一个大步伐，导致整个就飞出去了，这就是学习曲线突然跳到无穷大的原因。

想要解决这个问题，就要采用Clipping方法，当gradient即将大于某个threshold的时候，就让它停止增长，比如当gradient大于15的时候就直接让它等于15。

为什么RNN会有这种奇特的特性呢？下图给出了一个直观的解释：

假设RNN只含1个neuron，它是linear的，input和output的weight都是1，没有bias，从当前时刻的memory值接到下一时刻的input的weight是w，按照时间点顺序输入[1, 0, 0, 0, ..., 0]

当第1个时间点输入1的时候，在第1000个时间点，RNN输出的y1000=w999，想要知道参数的梯度w，只需要改变w的值，观察对RNN的输出有多大的影响即可：

当从w1->1.01，得到的y1000就从1变到了20000，这表示w的梯度很大，需要调低学习率
当从w0.99->0.01，则y1000几乎没有变化，这表示w的梯度很小，需要调高学习率
从中可以看出gradient时大时小，error surface很崎岖，尤其是在w=1的周围，gradient几乎是突变的，这让我们很难去调整learning rate

因此我们可以解释，RNN训练困难，是由于它把同样的操作在不断的时间转换中重复使用,

从memory接到neuron输入的参数w，在不同的时间点被反复使用，w的变化有时候可能对RNN的输出没有影响，而一旦产生影响，

经过长时间的不断累积，该影响就会被放得无限大，因此RNN经常会遇到这两个问题：

梯度消失(gradient vanishing)，一直在梯度平缓的地方停滞不前
梯度爆炸(gradient explode)，梯度的更新步伐迈得太大导致直接飞出有效区间

Help Techniques

有什么技巧可以帮我们解决这个问题呢？LSTM就是最广泛使用的技巧，它会把error surface上那些比较平坦的地方拿掉，

从而解决梯度消失(gradient vanishing)的问题，但它无法处理梯度崎岖的部分，因而也就无法解决梯度爆炸的问题(gradient explode)。

但由于做LSTM的时候，大部分地方的梯度变化都很剧烈，因此训练时可以放心地把learning rate设的小一些：

Q：为什么要把RNN换成LSTM？A：LSTM可以解决梯度消失的问题

Q：为什么LSTM能够解决梯度消失的问题？

A：RNN和LSTM对memory的处理其实是不一样的：

在RNN中，每个新的时间点，memory里的旧值都会被新值所覆盖
在LSTM中，每个新的时间点，memory里的值会乘上f(gf)与新值相加

对RNN来说，w对memory的影响每次都会被清除，而对LSTM来说，除非forget gate被打开，否则w对memory的影响就不会被清除，而是一直累加保留，因此它不会有梯度消失的问题

另一个版本GRU (Gated Recurrent Unit)，只有两个gate，需要的参数量比LSTM少，不容易过拟合，

它的基本精神是旧的不去，新的不来，GRU会把input gate和forget gate连起来，当forget gate把memory里的值清空时，input gate才会打开，再放入新的值

此外，还有很多技术可以用来处理梯度消失的问题，比如Clockwise RNN、SCRN等

RNN的应用

在Slot Filling中，我们输入一个word vector输出它的label，除此之外RNN还可以做更复杂的事情

多对一
多对多

Many to one

Sentiment Analysis

语义情绪分析，我们可以把某影片相关的文章爬下来，并分析其正面情绪or负面情绪

RNN的输入是字符序列，在不同时间点输入不同的字符，并在最后一个时间点输出该文章的语义情绪。

Key term Extraction

关键词分析，RNN可以分析一篇文章并提取出其中的关键词，这里需要把含有关键词标签的文章作为RNN的训练数据

Many to many

Output is shorter

如果输入输出都是sequence，且输出的sequence比输入的sequence要短，RNN可以处理这个问题

以语音识别为例，输入是一段声音信号，每隔一小段时间就用1个vector来表示，因此输入为vector sequence，而输出则是character vector

如果依旧使用Slot Filling的方法，只能做到每个vector对应1个输出的character，识别结果就像是下图中的“好好好棒棒棒棒棒”，但这不是我们想要的，可以使用Trimming的技术把重复内容消去，剩下“好棒”

但“好棒”和“好棒棒”实际上是不一样的，如何区分呢？

需要用到CTC算法，它的基本思想是，输出不只是字符，还要填充NULL，输出的时候去掉NULL就可以得到连词的效果

下图是CTC的示例，RNN的输出就是英文字母+NULL，google的语音识别系统就是用CTC实现的

RNN v.s. Structured Learning

RNN,LSTM	HMM,CRF,SVM
没有考虑整个语句	考虑了整个语句
cost和error不总是相关	cost和error相关
deep	not always deep

实际上，二者还可以结合在一起，如下图。

input的feature先通过RNN与LSTM；
其输出作为 HMM 等的输入；
二者可以一起 Learn 的，可以一起梯度下降。

总结与展望

本节学习了RNN和LSTM:从Slot Filling案例引出我们需要有记忆力的神经网络RNN,我们知道了基本的RNN结构已经可以实现记忆了，

但是我们一般使用的是LSTM结构，我们知道了LSTM的组成，工作过程，之所以使用LSTM是因为RNN的训练并没有那么容易，

会出现gradient vanishing和gradient explode，使用LSTM它会把error surface上那些比较平坦的地方拿掉，从而解决梯度消失(gradient vanishing)的问题,

而gradient explode的解决可以将学习率调小。最后，RNN和 Structured Learning是可以结合的，在未来可能RNN和 Structured Learning结合使用是未来的方向，更值得我们关注。

模型优化之强化学习（RL）与监督微调（SFT）的区别和联系搏博深度学习人工智能机器学习架构 transformer
强化学习（RL）与监督微调（SFT）是机器学习中两种重要的模型优化方法，它们在目标、数据依赖、应用场景及实现方式上既有联系又有区别。想了解有关deepseek本地训练的内容可以看我的文章：本地基于GGUF部署的DeepSeek实现轻量级调优之一：提示工程（PromptEngineering）（完整详细教程）_deepseekgguf-CSDN博客本地基于GGUF部署的DeepSeek实现轻量级调优
HTML AI 编程助手 wjs2024 开发语言
HTMLAI编程助手引言随着人工智能技术的飞速发展，编程领域也迎来了新的变革。HTML，作为网页制作的基础语言，与AI技术的结合，为开发者带来了前所未有的便利。本文将探讨HTMLAI编程助手的功能、应用场景以及如何利用它提高编程效率。HTMLAI编程助手概述HTMLAI编程助手是一种基于人工智能技术的辅助工具，旨在帮助开发者快速、高效地完成HTML代码编写。通过学习大量的HTML代码，AI编程助手
首发实测：地表最强AI？马斯克发布新一代AI模型Grok3 Code_流苏 AI漫谈先知实用软件与高效工具人工智能 grok3 AI实测首发测评 AI
近年来，人工智能的迅猛发展让人们对其未来充满了无限期待。尤其是以马斯克为首的企业家们，始终走在AI技术的前沿。就在近期，马斯克宣布推出新一代AI模型——Grok3。这一消息无疑引起了行业的广泛关注，大家都在猜测，这款新AI模型究竟有何独特之处，是否能够在众多强大AI模型中脱颖而出？名人说：悟已往之不谏，知来者之可追。——《归去来兮辞》陶渊明创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的
入门Apache Spark：基础知识和架构解析 juer_0001 java spark
介绍ApacheSparkSpark的历史和背景ApacheSpark是一种快速、通用、可扩展的大数据处理引擎，最初由加州大学伯克利分校的AMPLab开发，于2010年首次推出。它最初设计用于支持分布式计算框架MapReduce的交互式查询，但逐渐发展成为一种更通用的数据处理引擎，能够处理数据流、批处理和机器学习等工作负载。Spark的特点和优势Spark是一种快速、通用、可扩展的大数据处理框架，
LeetCode - #219 存在重复元素 II 网罗开发 Swift vue.js leetcode 算法
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
pytorch与深度学习随记——AlexNet 黑色的山岗在沉睡深度学习随记深度学习 pytorch 人工智能
AlexNet和LeNet的设计理念非常相似，但也存在显著差异：基本结构对比网络深度：AlexNet比LeNet-5要深得多，AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。激活函数：AlexNet使用ReLU而不是sigmoid作为其激活函数，这有助于缓解梯度消失问题并加速训练过程。AlexNet架构的创新点局部响应归一化(LRN)：AlexNet引入LRN层，可以创建
深度学习-138-LangGraph之应用实例(七)构建自动绘图系统皮皮冰燃深度学习深度学习人工智能 LangGraph
文章目录1初始化核心功能1.1大语言模型1.2结构化输出1.3搜索引擎1.4Python执行环境2编排流2.1创建图2.2可视化图2.3应用图3绘图指定线型4添加工具增强4.1执行工具和打印工具4.2绑定工具4.3编排流4.4可视化图4.5应用1初始化核心功能1.1大语言模型importosos.environ['OLLAMA_HOST']='127.0.0.1'os.environ['OLLAM
穿越AI边界：深度集成DeepSeek API与云平台的实践之路云边有个稻草人热门文章人工智能 DeepSeek 大数据集成DeepSeek API DeepSeek算法阿里云百炼平台集成
云边有个稻草人-CSDN博客随着人工智能技术的日益发展，深度学习和自然语言处理（NLP）已经在很多领域得到了广泛的应用。DeepSeek作为一款领先的大型语言生成模型，凭借其强大的推理和生成能力，已经被越来越多的开发者和行业专家所青睐。通过DeepSeek提供的API接口，开发者可以在多个领域中实现先进的自然语言理解和生成任务。本文将深入探讨如何使用Python调用DeepSeek的API接口，并
AI在农业中的应用:精准农业的新时代 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI,农业,精准农业,机器学习,深度学习,计算机视觉,农业机器人1.背景介绍农业是人类文明的基石，也是全球经济的重要支柱。然而，随着人口增长和资源短缺，传统农业面临着诸多挑战，例如低效率、资源浪费、环境污染和气候变化的影响。为了应对这些挑战，精准农业应运而生。精准农业是指利用现代信息技术和数据分析手段，对农业生产进行精细化管理，提高资源利用效率、产量和产品质量，同时减少环境污染。人工智能（AI）作
AI驱动的企业学习管理系统 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI、机器学习、深度学习、企业学习管理系统、个性化学习、学习路径推荐、知识图谱1.背景介绍在当今瞬息万变的数字化时代，企业面临着前所未有的挑战和机遇。知识更新速度加快，技术迭代日新月异，员工需要不断学习新技能，提升自身竞争力，才能适应不断变化的市场环境。传统的企业学习管理系统(LearningManagementSystem,LMS)往往以标准化课程和批量学习为主，难以满足员工个性化学习需求，且缺
AI 驱动的智慧大脑：打造企业动态知识库，开启高效管理新时代网罗开发人工智能 AI 大模型深度学习人工智能
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
量子计算如何提升机器学习效率：从理论到实践 Echo_Wish 人工智能前沿技术量子计算机器学习人工智能
量子计算如何提升机器学习效率：从理论到实践在人工智能和机器学习的高速发展中，传统计算方法已经逐渐面临性能瓶颈。随着数据量的激增、算法复杂度的提高，传统计算机在处理某些特定任务时的效率显得捉襟见肘。而量子计算，作为一项颠覆性的技术，正逐步展现出在机器学习领域中的巨大潜力。量子计算不仅能够加速特定任务的执行，还能为一些经典算法提供更高效的解决方案。今天，我们将深入探讨量子计算如何提升机器学习效率，解析
云计算相关工作岗位有哪些，薪资怎么样？欧米说云云计算腾讯云阿里云云计算
云计算、大数据、人工智能作为新一代信息技术产业，未来发展前景不可估量，就业前途一片光明，自然薪资待遇也不会差。随着亚马逊云、阿里云、华为云等云厂商的快速发展，也产生了大量的岗位需求，同时厂商为了增强自身影响力，也设置了很多证书考试，acp、ace、hcip、hcie等等。在这里想进入相关行业大厂从事云相关的工作的同学可以先考取大厂的对应证书，增加自己简历含金量，从而进入大厂。免费领取阿里云华为认证
从零到精通：小白DeepSeek全栈入门指南好东西不迷路各自资源 AI 前端 html python
第一部分：认知准备（1-3天）1.1基础概念搭建人工智能三要素：数据/算法/算力深度学习与传统机器学习的区别神经网络基本结构（输入层/隐藏层/输出层）常用术语解析：epoch、batch、loss、accuracy1.2环境配置实战Python环境搭建（推荐Anaconda）condacreate-ndeepseekpython=3.8condaactivatedeepseek深度学习框架选择指南
Python vLLM 实战应用指南 ghostwritten python python 开发语言
文章目录1.vLLM简介2.安装vLLM3.快速开始3.1加载模型并生成文本3.2参数说明4.实战应用场景4.1构建聊天机器人示例对话：4.2文本补全输出示例：4.3自定义模型服务启动服务调用服务5.性能优化5.1GPU加速5.2动态批处理6.总结vLLM是一种高性能的开源深度学习推理引擎，专注于高效的生成式模型推理任务。它通过动态批处理和内存优化技术大幅提高了大模型（如GPT系列）的推理性能，非
从零到一：利用DeepSeek构建高精度图像分类模型实战解析一碗黄焖鸡三碗米饭人工智能前沿与实践分类数据挖掘人工智能
引言：为什么选择DeepSeek进行图像分类？在计算机视觉领域，图像分类作为基础任务，其技术演进经历了从传统特征工程到深度学习的革命性转变。DeepSeek作为国产自研的深度学习框架，凭借其高效计算优化和灵活架构设计，在ImageNet等基准测试中展现出与PyTorch、TensorFlow等主流框架相媲美的性能。本文将手把手带您实现从零搭建工业级图像分类模型的全过程。一、DeepSeek技术架构
深度学习模型可视化：通俗易懂的全面解读 Crazy learner 模型部署深度学习人工智能
目录1.什么是深度学习模型可视化？2.张量（Tensors）：深度学习中的核心数据结构3.常见的节点操作**Gather**操作**Transpose**操作**Pow**操作**Add**操作**Mix**操作4.查看模型详情5.可视化工具总结在深度学习领域，理解模型内部的工作原理对于优化、调试和改进模型至关重要。随着神经网络的复杂性日益增加，开发者和研究人员逐渐意识到，可视化不仅是理解模型的一
查看Python库依赖关系的解决方案爱编程的喵喵 Python基础课程 python 依赖关系
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了查看Python库依赖关系的解决方案
Python编码系列—Python原型模式：深克隆与高效复制的艺术学步_技术 Python编码 python 原型模式开发语言
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
DeepSeek R1 详解：思维链、强化学习和蒸馏前网易架构师-高司机 2025年最新-深度学习+AI DeepSeek和AI工具深度学习 Deepseek
目录思维链强化学习蒸馏DeepSeek是如何做到的?训练过程较小模型基准为什么Deepseek很重要DeepSeekR1常见问题解答来自中国的新型大型语言模型DeepSeekR1的发布在人工智能研究界引起了轰动。这不仅仅是又一次渐进式改进。DeepSeek代表着一次重大飞跃。大多数新的人工智能模型感觉都像是小步前进，DeepSeek-R1则不同。Deepseek的基准在推理任务（数学、编码和科学）
考研导师选择方法 herosunly 考名校研究生经验分享考研选择导师考研导师选择方法
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
梯度下降法(Gradient Descent) -- 现代机器学习的血液 AOIWB 机器学习人工智能 python
梯度下降法(GradientDescent)–现代机器学习的血液梯度下降法是现代机器学习最核心的优化引擎。本文从数学原理、算法变种、应用场景到实践技巧，用三维可视化案例和代码实现揭示其内在逻辑，为你构建完整的认知体系。优化算法一、梯度下降法的定义与核心原理定义：梯度下降法是一种通过迭代更新参数来最小化目标函数的优化算法，其核心思想是沿着当前点的负梯度方向逐步逼近函数最小值。数学表达：参数更新公式为
深度学习-81-大语言模型LLM之基于litellm与langchain与ollama启动的模型交互皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1LiteLLM1.1生成对话补全1.2响应格式(OpenAIFormat)1.3异步调用1.4流式生成对话补全1.5支持的ollama模型2langchain2.1LangChain简介2.2LangChain架构2.3构建简单LLM应用程序(OllamaLLM)2.3.1生成对话补全2.3.2流式生成对话补全2.4聊天模型(ChatOllama)2.4.1Invoke调用2.4.2st
如何在本地运行大型语言模型（LLM）：深度指南及最佳实践 m0_57781768 语言模型人工智能自然语言处理
如何在本地运行大型语言模型（LLM）：深度指南及最佳实践在当今的人工智能领域，越来越多的开发者希望能够在本地运行大型语言模型（LLM），而不依赖于云端服务。这种趋势的兴起主要源于两个重要的需求：隐私保护和成本控制。通过在本地设备上运行LLM，用户的数据不会被发送到第三方服务器，确保了数据的隐私性。同时，在长时间运行的模拟、文本生成、总结等需要大量计算资源的应用中，本地运行可以显著降低成本。本文将深
【QT开发教程】使用Qt进行跨平台（Windows、macOS、Linux、iOS和Android）开发的最佳实践 I'mAlex QT开发教程 qt 开发语言跨平台
Qt是一个强大的跨平台C++框架，使得开发者可以编写一次代码并在多个平台上运行，包括Windows、macOS、Linux、iOS和Android。在跨平台开发过程中，遵循一些最佳实践可以帮助我们提高开发效率和代码质量。本文将介绍使用Qt进行跨平台开发的最佳实践。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘面试。CSDN优质
这是我的第一篇博客流川飞 c++
结束摆烂，看看自己的极限在哪里，两年后回来看自己个人介绍：我是一个大一下学期的男生，就读人工智能专业，性格活泼爱笑[face]emoji:008.png[/face]编程目标：能拿到一份满意的offer，能成为很厉害的程序员如何学习：利用晚上的水课和没课的时间学习编程，到一定水平后参加蓝桥杯类的比赛!我打算每周在编程上花费的时间：35h+我最想进入的一家IT公司：马斯克的公司!
DeepSeek怎么用，DeepSeek使用指南最全合集（保姆级教程） xiecoding.cn deepseek deepseek使用指南 deepseek怎么用 deepseek免费教学 deepseek资料合集
DeepSeek是一款由国内顶尖团队开发的人工智能大模型，旨在为用户提供高效、智能的问答和知识服务。作为国产AI模型的代表，DeepSeek不仅在自然语言处理（NLP）领域表现出色，还在多个应用场景中展现了强大的能力。与ChatGPT等国际知名模型相比，DeepSeek在中文语境下的表现尤为突出，能够更好地理解中文的复杂语义和文化背景。DeepSeek使用资源下载为了方便大家更好地学习和使用Dee
《动手学PyTorch深度学习建模与应用》第二章：2.4-2.6节详解环工人学Python 深度学习 pytorch 人工智能 python 机器学习学习
写在前面：不知不觉已经更了第一个章节，目前的内容都是很基础的内容，有人会问现在ai时代，还有必要学习这些内容吗，我想说的是，越是基础的内容我们越要认真去学习和分析，ai可以快速解决问题，但是我希望我们可以知其所以然，感谢所有支持的收藏和粉丝，希望这些文章对你们有些许帮助！点点关注不迷路，免费的赞和收藏走起来！后续更新第一时间提示哦，每周会更新不同内容，下周更新如何用各种模态的大模型去为你服务，编写
清华DeepSeek从入门到精通系列PDF全五弹 2501_90737221 pdf 人工智能
资源链接：https://pan.quark.cn/s/e9b7230b1538宝子们，今天要给大家分享一套超级厉害的DeepSeek系列PDF，由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室出品，从入门到精通，全方位带你玩转人工智能!DeepSeek从入门到精通(清华大学指南第一弹)这本PDF是DeepSeek的敲门砖，内容涵盖DeepSeek的基本概念、应用场景以及如何使用DeepSe
AI 进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路轻口味大模型实战人工智能 deepseek 大模型
AI进阶指南：携手DeepSeek从小白到行业先锋的跃迁之路在当今数字化浪潮汹涌澎湃的时代，人工智能（AI）宛如一颗璀璨的明星，照亮了各个领域的创新与发展道路。然而，面对AI这一庞大而复杂的体系，许多人往往感到迷茫无措，不知自己处于何种水平，更不知如何迈向更高的层次。尤其是DeepSeek的出圈，AI的热度更加火爆。无论是普通用户还是AI从业者也变得很迷茫，不知如何应对AI的崛起。本文将依据AI应
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

2020李宏毅机器学习笔记-Recurrent Neural Network

RNN（循环神经网络）

摘要

Introduction（介绍）

LSTM

Three-gate

Memory Cell

LSTM Example

LSTM Structure

Learning Target

Loss Function

Training

Error Surface

Help Techniques

RNN的应用

Many to one

Many to many

RNN v.s. Structured Learning

总结与展望

你可能感兴趣的:(机器学习,深度学习,人工智能)