老师我作业忘带了

AI遮天传 DL-反馈神经网络RNN

本文会先介绍动态系统的概念，然后介绍两种简单的反馈神经网络，然后再介绍两种门控神经网络(LSTM, GRU)，最后是关于反馈神经网络的应用(本次以语音识别为例)。

RNN: Recurrent neural network，一般叫它“反馈神经网络”或者“循环神经网络”。

一、动态系统

日常生活中，动态系统随处可见，蝴蝶扇动翅膀，它的翅膀是随着时间变化的，人走路、内燃机工作、股票等等，都是随着时间变化的。我们把这些系统成为动态系统。

我们最后要讲的语音识别就是使用RNN来建模一个动态系统的典型的例子。

1.1 反馈连接

1.1.1 前馈网络

我们前面所学的CNN、MLP等，都是像上面一样有一个输入输出层，中间有n个隐含层。这个网络训练好以后，它的信息的流向是从输入层到输出层，中间没有其它流向，这样的网络我们叫它前馈网络。

1.1.2 反馈网络

层间反馈

对应的，反馈网络，信息有反向流动。比如有一个从输出层到隐含层的反向连接：输入->隐含->输出->隐含->输出->隐含->输出->... (循环、反馈神经网络名字的由来)

或者是：输入->隐含->输出->输入->隐含->输出->...

层内反馈

另一种反馈连接是在层内部的连接，因为一个层内部它有很多个神经元，假如我们让这些神经元互连，那么它也会在这一层的内部进行不停地循环，也就是每个时刻这100个神经元的状态都可能是不同的。

前馈网络
- 无反馈
反馈网络
- 层间反馈: 从输出层到输入层，或者从隐藏层到输入层
- 层内反馈

反馈连接的存在导致神经元的状态（以及输出）将随时间变化

1.2 RNNs是动态系统

如上是Jordan网络和Elman网络，及其动态方程，h(t)表示第t时刻的h，它由当前时刻的输入x(t)和上一时刻的输出y(t-1) 或上次隐含层的输出h(t-1)决定。

1.2.1 使用RNN对动态系统建模

比如我们有一个动态系统，该动态系统性质复杂，我们没有办法对这个系统进行一个精确的建模，但是我们能有测量这个系统的输入和输出随时间变化的一个曲线。

为了对这个动态系统进行建模，我们可以构建一个RNN模型，调整RNN里面的参数，使得这个RNN的输入和输出的关系与该物理系统是一样的。通过数据的拟合来调整神经网络的参数，使得RNN输入与输出的关系能够很好地匹配上这个物理系统。

为什么可行？

RNN中的隐藏状态

对之前的事件有记忆，即前一时刻影响后一时刻：h(t+1), h(t)

        期望隐藏状态能捕获对象系统中过去的信息或时间依赖性

        这种记忆类似于动物的短期记忆

给定很多系统的输入输出对，存在有效的算法来学习RNN的参数

        通过时间反向传播 (BPTT)

1.2.2 解释大脑如何工作*

用一个已存储的模式的部分信息或近似信息来恢复该模式的整体信息

说人话就是上面两张图片是同一个人，我们认识左边这张图片以后，即便是这个人戴上墨镜，我们依然也认得他。

这个过程我们认为是动态系统演化的过程。

Hopfield网络

我们把这个动态系统简化为一个二维的，图片中的红点表示上面左边完整的人物图片，绿点表示该人戴了墨镜不完整的信息，上面这些箭头表示它在平面上随时间演化的过程。

因为我们大脑里存在大量的反馈链接，我们可以把大脑看作一个反馈神经网络，一个动态系统。当我们看到戴墨镜的他后，大脑的绿点就开始沿着箭头演化，逐渐收敛到红点，于是我们认出了这个人。收敛到的位置我们成为：吸引子

这可能是大脑中的动态过程

1.3 RNN的历史

二、简单RNNs

2.1 Jordan网络

2.2 Elman网络

上面两种RNN网络结构已经讲过，这里来讲一下：通过时间反向传播(BPTT)

我们在学习全连接或者CNN时接触到了反向传播算法，我们用它来更新权重参数。在这里，RNN使用BPTT来更新参数。

2.3 通过时间反向传播(BPTT)

将网络的时间操作展开为前馈网络，该网络在每个时间步长都会增加一层。

因为该网络和时间有关，如，我们可以将公式展开，这样不同时刻(t-1, t, t+1, t+2...)的公式(权重参数)就像是不同层的隐含层一样，可以用来计算了。

我们假设只有两个神经元：

展开以后，不就是一个前馈网络了吗？此时，就没有任何的反馈链接了。

这样我们就可用BP算法去优化、学习这个前馈网络的参数了。(不是优化这里展开后的网络的w11，w12，他们展开后是不变的，我们优化的是全部展开后，整个RNN变为一个更长的前馈神经网络，我们更新的是每一部分的W11,W12...。)

注：当然这也和我们所学的前馈网络不太一样，一个是神经元的个数没发生变化，另一个是权值W11 W12...没有发生变化，我们变化的是神经元的状态h11 h12...。所以我们可以从上图看到，W后面没有括号t，且展开时W11, W12...并没有发生变化。

2.3.1 展开Elman网络

接下来我们就要根据上面所说的，把一个RNN网络按时间展开成一个前馈网络了。

神经网络的展开方式和任务有关，任务设定不同，返回神经网络的展开也不同。

情况 1:

仅出现在第一层
标签只出现在最后一层
Recursive NN做图像分类就是这样的工作形式

如上图，原本的隐层h内部进行时间循环，我们这里展开成前馈网络，即上图的多个橙色层，它们的权重W都是一样的，原因上面也说了，变化的只是状态h，因此展开时W已经定下来了，和t有关的只是h。

情况 2:

是固定的但出现在所有层中
标签只出现在最后一层
例如图像分类 (Liang, Hu, CVPR 2015)

和上面情况1的区别在于，展开的每次都要把x作为输入给到隐层单元。绿色、橙色箭头权值共享。

图像分类：每次隐层的节点都能同时接收到上一时刻的输出和初始图像作为输入，把信息做一次前馈计算，输出到下一层。

其实上面两种情况都不太常见，常见的是下面这两个例子。

情况 3:

随时间变化
标签只出现在最后一层
例如，句子分类

每个时间都会有不同的x给到这个系统，所以在展开的时候，除了接收上一时刻的输出，还要接收一个随时间变化的输入x。

句子分类：根据不同的词(输入x)，最后得出结论是正面的还是负面的(输出y)

情况 4:

随时间变化
标签在所有层都出现
例如，语音识别

即在每一时刻多了y的输出。

语音识别：比如I like deep learning 这句话，不同时刻的输入会有该时刻的输出。

至于其它情况，具体情况具体分析啦。

2.4 新的图示表示

我们用一种新的图示来表示Elman网络和Jordan网络及其展开。

2.4.1 Elman网络

用圆圈来表示向量 (一个圆表示一层，即用圈代替前面的矩形)
将时间步长作为上标

前向传播运行时间是 () 并且无法减少(展开q次)
等效于图灵机

这种展开就是上面的情况4，比如语音识别。

2.4.2 Jordan网络

它的功能不那么强大，无法模拟通用图灵机

2.5 强制教学(Teacher forcing)

某些网络(例如Jordan网络) 具有从一个时间步的输出到下一个时间步的计算值的连接，那么应该在下一时间步中输入什么来表示输出？

上图，r为标签，我们是将r连接给下一层时刻呢还是把y给它。刚开始训练的时候，y可能不太对，这样不太好训练，所以不如把r连给它，这个想法称为强制教学。

强制教学(Teacher forcing): 训练过程中，使用参考信号(期望的标签r)

好处：所有时间步都可解耦，因此训练可以并行化。因为使用标签r作为下一个的输入，此时和时间没有关系了,不需要等待。

训练时可以有r，但是在测试时，不存在参考信号，因此我们必须使用网络在时间时的输出y。(这样训练和测试的时候，网络结构不同，就会带来一些问题，比如训练的时候，没见过错误的信号，测试的时候就胡乱瞎输出了)

网络在训练过程中得到的输入类型可能与测试时得到的输入类型完全不同。

因此在训练的时候，我们可以一会使用强制教学，一会让它自用运行(即接收y)，这样既能加快训练速度，又能让网络看到一些错误的信号。

2.6 双向RNN

在很多应用中，当前时间步的预测可能依赖于整个输入的序列(过去和未来)

人话：我们上面所讲的当前时刻的输出依赖于上一时刻(过去)，但其实在很多应用中，它可能还依赖于未来。

Bank is the side of a river.

Bank provides various financial services.

第一个句子中的Bank是河岸的意思，第二个句子中的Bank是银行的意思。但是当你只读到第一个单词的时候，不知道这里的Bank是河岸还是银行，因此也要依赖于“未来”。

双向 RNNs将一个随时间向前移动的RNN与另一个随时间向后移动的RNN组合在一起
每个时间段的整个网络的输出都会收到两个RNN的输入，前后文同时判断Bank的含义。

同时接收一个从左向右的RNN和一个从右向左的RNN作为输入得到输出。

2.7 深度RNNs

我们上面举的例子包括拆分Elman网络时，隐含层只有一层，即便展开参数也都是共享的。实际上它可以有很多层。

我们有多种构建RNNs的方式，层间、层内、层间+层内...

2.8 思考

从上图可以看到，这里的h(t)虽然可以记忆一些东西，但随着时间延申，之前的记忆指数衰减！

该结论可以推广到多维Elman网络，需要一些关于U的假设，例如，U是对称的
在Jordan网络上可以得出相同的结论，将 () 表示为(0) 和 1 , … , ()的函数

三、门控RNNs

为了解决记忆太短的问题，人们提出了门控RNNs。

3.1 长短时记忆 (LSTM) 单元

可以视为Jordan网络和Elman网络的组合。将两个网络的特点组合一下，即可得到LSTM。

输出连接到输入
自循环用于捕获有关过去的信息

重画 Jordan 网络：用圆圈表示操作，变量在箭头上指示，忽略偏置

第一步：添加一个自循环(添加Elman特点)

这一步可能有些小白看不懂，上面说了，是Jordan和Elman的组合，组合自然就是把他俩加起来了哈哈，红色的部分还是层内(Elman)自循环，整体外部是层间自循环(Jordan)。

至于为什么不用h来自反馈而引入一个c去记忆呢，其实用h自反馈这种思想将在下面GRU提到，这里我们先使用c。

第二步：添加三个门(函数，输出在0-1之间，0关闭，1完全打开，之间就是半开半闭)

此时虽然Jordan和Elman都组合了起来，但并没有改变短记忆的特点，因此我们添加三个门来控制信息流。

遗忘门f 控制上一时刻记忆c(t-1)有多少传到当前时刻c(t)，(f是0的话就全忘了，1的话就全记住，即f越小，忘的就越快。)
输入门i 控制当前输入h(t)有多少要放到记忆c(t)里面。
输出门o 影响下一个时刻输入进去给h信息的多少

这些门由什么决定呢？

我们根据x(t)和y(t-1)得到的结果，进行非线性变换映射到0-1之间。有时也可以由c(t),c(t-1)决定。

术语

3.1.1 思考

1. LSTM能否保留比Elman网络更长的短期记忆？

当然可以

2. 为什么

假设三个门的值均为1(当然门的值是变化的由x(t)和y(t-1)决定)，我们从公式中可以看出每次一循环的信息都被保留下来了，我们当时用c模拟Elman网络自循环，c(t) = c(t-1)+h(t) 这样c不断累加，就能不断存贮之前的信息。

3. 永远保持 = 时获得的记忆 () 的理想情况是什么？

原因见2

3.1.2 LSTM优点

与简单的RNNs相比，门控机制使模型能够将记忆保留更长的时间

“Long short-term memory network”

门控机制已广泛用于深度学习模型中，不仅在RNN中，而且在CNN中

Highway Network (Srivastava et al., ICML 2015 Deep Learning workshop)
SEnet (Hu et al., CVPR 2018) – SKnet (Li et al., CVPR 2019 )
注意力机制(前馈模型没有记忆)

3.2 门控循环单元(GRU)

在Elman网络中，用于捕获历史信息

$h^{(t)} = \sigma _{h}(W_{h}x^{(t)}+U_{h}h^{(t-1)}+b_{h})$

在没有门的LSTM单元中，为此引入了一个新的c

$h^{(t)} = \sigma _{h}(W_{h}x^{(t)}+U_{h}y^{(t-1)}+b_{h})$

$c^{(t)}=c^{(t-1)}+h^{(t)}$

那么为什么不直接使用h？

这是GRU的第一个想法

$h^{(t)} = z^{(t)}\odot h^{(t-1)}+(1-z^{(t)})\odot \widetilde{h}^{(t)}$

其中 $z^{(t)}\in (0,1)$ z也是个门，且 $\widetilde{h}^{(t)} = \sigma _{h}(W_{h}x^{(t)}+U_{h}h^{(t-1)}+b_{h})$

即在LSTM中去掉了c，用h自己和自己求和(前一时刻＋后一时刻)。

我们也看到了上图其实不止在c处发生了变化，这里就要引入GRU的第二个和第三想法。

更新门z 用来控制h自反馈，此消彼长。
重置门r 调节输入

由x(t)和h(t-1)决定。

GRU

3.3 LSTM和GRU哪一个更优？

LSTM 和 GRU 在许多任务上表现相似
LSTM和GRU还有许多其他变体，但是它们在所有任务中都无法明显击败这两个标准模型(Greff et al., TNNLS 2017)

四、语音识别

根据上面所学知识，比如动态系统、展开Elman网络时的不同情况、双向RNNs，我们可以来了解一下语音识别。

语音识别和自然语音他们都有一个共同特点：序列数据，所以很适合用反馈神经网络进行建模。

如上图，输入是一个随时间变化的WAV格式的信号，输出则是上方对应的因素，比如I like ...，

- 表示当时没有一个对应的因素，因为人说话时同一个因素有的人发音长有的人发音短，中间拉声的时间可能会不一样。

4.1 语音识别常用模型

4.1.1 基本流程

RNN设置

这是一个Elman网络的展开方式，对应上面我所写的情况4，(LSTM和GRU也可以做类似的展开，毕竟都是反馈神经网络。)

目标函数

4.1.2 使用双向LSTM进行语音识别

与上面所讲的双向RNN一样，这里的RNN是LSTM，其上一时刻的两个不同方向的输出作为这一时刻的输入。

注：这里的双向LSTM的g或者h可以是右侧的h或者c。

4.1.3 深度 RNN – 百度的 Deep Speech 2

卷积后接RNN

4.2 数据预处理

通常模型的输入不是原始的wav信号，而是频谱信号

(Graves et al., 2013)使用基于傅立叶变换的滤波器组对音频数据进行编码，该滤波器组以mel等级分布，拥有40个系数（加上能量），再加上它们的第一和第二时间导数。
因此，每个输入向量的大小为123。
对数据进行归一化，以使在整个训练集上输入向量的每个元素有零均值和单位方差。

4.3 基准数据集

基准数据集

TIMIT, 较小
Switchborad, 260 小时
LibriSpeech, 1000 小时
CHiME, 有各种环境噪音

许多基准数据集仅用于测试，您需要使用自己的训练集

Deep speech 2 ，英语系统接受了11,940个小时的英语语音训练，而普通话(Mandarin)系统则接受了9,400个小时的训练。数据合成被用来进一步扩充数据。

研究人员倾向于开源他们的模型，但不开源训练集，这使得评估不同模型变得困难。

五、主要文献与延伸阅读

Goodfellow, Bengio and Courville, 2016 Deep Learning, MIT Press, Chapters 10
Understanding LSTM networks http://colah.github.io/posts/2015-08-Understanding-LSTMs/
Sutskever, Fernandez, Gomez, Schmidhuber (2006) Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks ICML
Graves, Mohamed, Hinton (2013) Speech recognition with deep recurrent neural networks IEEE ICASSP
Amodei, Ananthanarayanan, Anubhai et al. (2016) DeepSpeech2: End-to-End Speech Recognition in English and Mandarin ICML

Greff, Srivastava, Koutník, Steunebrink, Schmidhuber (2017) LSTM: a search space odyssey IEEE Trans. on Neural Networks and Learning Systems
Liang, Hu (2015) Recurrent convolutional neural network for object recognition CVPR

哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(Flask WEB版) 2 带娃的IT创业者 AI大模型趣味实战人工智能 flask 前端
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(FlaskWEB版)2摘要本文末尾介绍了如何实现新闻智能体的方法。在信息爆炸的时代，如何高效获取和筛选感兴趣的新闻内容成为一个现实问题。本文将带领读者通过Python和Flask框架，结合大模型的强大能力，构建一个个性化的新闻聚合平台，不仅能够自动收集整理各类RSS源的新闻，还能以语音播报的形式提供"新闻电台
从头开始学C语言第三十一天——void指针和const指针神阶平天牛魔王 c语言
void指针void指针是一种不确定数据类型的指针，可以通过强制转换类型让该指针指向任何数据类型的变量。说明形式：void*对于void指针，在没有强制转换数据类型之前，不能进行指针的算术运算#includeintmain(){inta=10;void*p;p=&a;printf("%d%d\n",a,*(int*)p);return0;}printf("%d%d\n",a,*(int*)p);这
策略模式烟沙九洲设计模式策略模式 java
策略（Strategy）模式属于行为型模式的一种。策略模式的核心思想是定义一系列算法，将每个算法封装起来，并使它们可以互换。策略模式让算法独立于使用它的客户而变化，从而实现了算法族的独立扩展和替换。策略模式指在一个方法中，某些关键步骤的算法依赖调用方传入的策略，传入不同的策略，即可获得不同的结果，大大增强了系统的灵活性。策略模式的核心思想是在一个计算方法中把容易变化的算法抽出来作为“策略”参数传进
.net 4.0环境异步方法实现，异步委托和回调异常处理蔚蓝星空-大强异步多线程 c#asp.net
.net4.0环境异步方法实现，异步委托和回调异常处理无返回值的异步方法通过委托实现staticvoidMain(string[]args){//异步执行写入数据任务，不阻塞主线程任务SetDataAsync(1);Console.WriteLine("主线程后续任务...");Console.ReadKey();}publicstaticvoidSetDataAsync(intnum){//这里
46-886 Machine Learning Fundamentals W_X_99515681 机器学习人工智能
46-886MachineLearningFundamentalsHW1Homework1Due:Sunday,March23,11:59pm•UploadyourassignmenttoCanvas(onlyonepersonperteamneedstosubmit)•Includeawriteupcontainingyouranswerstothequestionsbelow(andyourt
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
内核调试环境：buildroot/debootstrap制作文件系统、编译内核、QEMU模拟苏打呀 linux qemu kernel
编译内核#安装常用工具和依赖，可能会多，懒得分了，全装了吧反正以后说不定还要用。。。sudoaptinstallcurlwgetgpgzshtreegitnet-toolsproxychains4remminavimtarstracellvmclangunzipgccgcc-multilibbuild-essentialflexbisoncmakemakegawkdkmsautoconfninja
conda篇----在已有conda环境的基础上升级python包心惠天意 conda python jvm
conda篇----在已有conda环境的基础上升级python包原先的python版本第一步：condaupdate--all(py11)[xxx@aivrs01xxx]$condaupdate--allCollectingpackagemetadata(current_repodata.json):doneSolvingenvironment:done==>WARNING:Anewervers
【Linux 下的 bash 无法正常解析, Windows 的 CRLF 换行符问题导致的】待磨的钝刨 linux bash windows
文章目录报错原因：解决办法：方法一：用`dos2unix`修复方法二：手动转换换行符方法三：VSCode或其他编辑器手动改总结这个错误很常见，原因是你的wait_for_gpu.sh脚本文件格式不对，具体来说是Windows的CRLF换行符问题导致的，Linux下的bash无法正常解析。hadoop@hadoop:~/anaconda3$bashwait_for_gpu.sh:invalidopt
conda：一个当下最流行的Python虚拟环境工具 Wang_AI
点击上方“AI派”，选择“设为星标”最新分享，第一时间送达！作者：LeonWang，现为中科院特别研究助理(博士后)，在AI、数据科学和科学计算等方面相关的工程实践上积累了丰富的经验。编辑：王老湿前面的文章中，为大家介绍过Python下的虚拟环境和包管理。在实际中，更为流行的是用Conda来管理Python环境。今天这篇文章就为大家介绍这方面的相关内容。Conda环境Conda简介Conda是目前
COMP 315: Cloud Computing for E-Commerce W_X_99515681 开发语言
Assignment1:JavascriptCOMP315:CloudComputingforE-CommerceFebruary20251IntroductionAcommontaskwhenbackendprogrammingisdatacleaning,whichistheprocessoftakinganinitialdatasetthatmaycontainerroneousorinco
【机器学习】朴素贝叶斯入门：从零到垃圾邮件过滤实战吴师兄大模型 0基础实现机器学习入门到精通机器学习人工智能朴素贝叶斯深度学习 pytorch sklearn 开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
DeepSeek 如何处理多模态数据（如文本、图像、视频）？借雨醉东风人工智能
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
Anaconda常用命令汇总 y=520（2sinM-sin2M） python问题解决方案 Anaconda 包管理虚拟环境 conda命令数据科学
Anaconda常用命令汇总方便打印出来做成卡片，随时可以看，命令如下：####基本的包管理命令#查看conda的版本信息conda--versionconda-V#更新condacondaupdateconda#查看anaconda的配置信息condaconfig--show#更新anacondacondaupdateanaconda#查询conda信息condainfo#根据关键字key寻找安
Vue 中的日期格式化实践：从原生 Date 到可视化展示！！！小丁学Java 产品资质管理系统 vue.js 前端 javascript ts
Vue中的日期格式化实践：从原生Date到可视化展示在数据可视化场景中，日期时间的格式化显示是一个高频需求。本文将以一个邀请码关系树组件为例，深入解析Vue中日期格式化的核心方法、性能优化和最佳实践，并配合Mermaid流程图直观展示处理流程！一、️核心方法：原生Date对象处理代码实现privateformatDate(dateString:string|null):string{if(!dat
conda install 和 pip install 的区别不知江月待何人.. 深度学习
condainstall和pipinstall是两个常用的包安装命令，但它们在很多方面存在差异。1.所属管理系统不同1.1condainstallcondainstall是Anaconda和Miniconda发行版自带的包管理工具conda的安装命令。conda是一个跨平台的开源包管理系统和环境管理系统，它不仅可以管理Python包，还能管理其他语言（如R、C++等）的包。conda更侧重于数据科
1242: 二维数组输出（2）呱呱呱~ 算法
题目描述输入一个整数N，输出一个N行N列的二维矩阵，矩阵中的元素按列用1——N*N顺序填充。输入一个整数N（Nusingnamespacestd;intmain(){intN;cin>>N;//创建一个NxN的二维数组intmatrix[N][N];//按列填充数字for(intcol=0;col
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1) 2301_79098963 程序员知识图谱人工智能
4.Schema变更支持对比项ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(spark-schema)NO（我理解，不准确）SchemaEvolution：指schema变更的支持情况，我的理解是hudi仅支持添加可选列
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
向量数据库技术系列三-Chroma介绍恰恰虎 chromadb 数据库向量
一、前言Chroma是一个开源的AI原生向量数据库，旨在帮助开发者更加便捷地构建大模型应用，将知识、事实和技能等文档整合进大型语言模型（LLM）中。它提供了简单易用的API，支持存储嵌入及其元数据、嵌入文档和查询、搜索嵌入等功能。主要有以下特点:轻量级：Chroma是一个基于向量检索库实现的轻量级向量数据库，不需要复杂的配置和大规模基础设施支持，非常适合小型或中型项目。易用性：提供简单的API，易
Windows下重叠I/O模型智驾 Windows开发 windows开发重叠IO模型
目录一.Windows下重叠I/O模型二．重叠模型的优点三．重叠模型的基本原理五、实现重叠模型的步骤六.客户端情况的注意事项七．已知问题原文链接：https://blog.csdn.net/zhongguoren666/article/details/1827928在此感谢原作者。一.Windows下重叠I/O模型重叠模型的优点重叠模型的基本原理关于重叠模型的基础知识重叠模型的实现步骤多客户端情况
C++ 地图 + 配对组合！3 分钟吃透 map 和 pair 的黄金搭档 Reese_Cool STL 数据结构与算法 c++算法开发语言 stl
文章目录pair一、基本概念二、pair的声明与初始化三、成员访问与修改四、常用操作1.比较运算2.交换值3.tie函数（解包pair）五、pair的应用场景六、pair与结构体/类的对比七、pair与tuple的对比八、代码示例1.返回多个值2.存储键值对九、总结map一、基本概念二、map的声明与初始化三、常用操作四、map的应用场景五、注意事项在C++编程里，map和pair是标准库中十分实
LLM之向量数据库Chroma milvus FAISS maxmaxma 数据库 milvus faiss
以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
ARPG 游戏战斗系统设计详解小宝哥Code Unity引擎游戏
ARPG游戏战斗系统设计详解ARPG（ActionRole-PlayingGame，动作角色扮演游戏）的战斗系统需要兼顾操作性、打击感、技能组合、AI交互等多个方面。本指南将详细解析ARPG战斗系统的核心要素、设计思路与优化方案，适用于Unity、UE4及自研引擎开发。1.ARPG战斗系统的核心要素1.1战斗核心机制即时战斗（Real-TimeCombat）：无回合制，玩家实时控制角色进行攻击、闪
NVIDIA Dynamo源码编译 Luchang-Li 大模型推理引擎大模型推理引擎 dynamo
Refhttps://github.com/PyO3/maturinRust程序设计语言代码库：https://github.com/ai-dynamo/dynamohttps://github.com/ai-dynamo/nixldynamo/container/Dockerfile.vllm相关whl包官方提供了4个whl包ai_dynamo#这个包ubuntu22.04也可以用，ubuntu
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla