python算法工程师

推荐NLP基础 RNN循环神经网络

NLP概述

Natural Language Processing(NLP, 自然语言处理)

目的：让计算机处理或“理解”自然语言，以执行语言翻译和问题回答等任务；最终
来讲就是构建机器语言和人类语言之间的沟通桥梁，实现人机交流为最终目的。
常见应用：

关键词提取、
概要抽取、
事件提取
命名实体识别(提取价格、日期、姓名、公司、地点等) 关系抽取
分类：文本分类、情感分析、意图识别等
机器翻译
语音文本转换、图像文本转换
问答系统

从另外一个角度来看，NLP分为NLU和NLG两个子任务：

NLU(Natural Language Understanding)自然语言理解
- 含义：让计算机理解自然语言文本的意义；
- 主要任务方向：分词、词性标注、文本分类、实体识别、信息抽取等；
NLG(Natural Language Generation)自然语言生成
- 含义：将非语言格式的数据转换成人类可理解的语言格式；
- 主要任务方向：机器翻译、问答系统、聊天机器人等；

什么是递归神经网络

为什么有BP神经网络、CNN，还需要RNN?
- BP神经网络和CNN的输入输出都是互相独立的；但是实际应用中有些场景输出内容和之前的内容是有关联的。
- RNN引入“记忆”的概念；递归指其每一个元素都执行相同的任务，但是输出依赖于输入和“记忆” 。

我们已经学习了前馈网络的两种结构——BP神经网络和卷积神经网络，这
两种结构有一个特点，就是假设输入是一个独立的没有上下文联系的单位，
比如输入是一张图片，网络识别是狗还是猫。但是对于一些有明显的上下文
特征的序列化输入，比如预测视频中下一帧的播放内容，那么很明显这样的
输出必须依赖以前的输入，也就是说网络必须拥有一定的”记忆能力”。
为了赋予网络这样的记忆力，一种特殊结构的神经网络——递归神经网络
(Recurrent Neural Network)便应运而生了。

递归神经网络RNN-应用场景

自然语言处理(NLP)
语言模型与文本生成
机器翻译
语音识别
图像描述生成
文本相似度计算等

RNN-结构

网络某一时刻的输入xt，和之前介绍的bp神经网络的输入一样，xt是一个n维向量，
不同的是递归网络的输入将是一整个序列，也就是x=[x1,…,xt1,xt,xt+1,…xT]，对于语
言模型，每一个xt将代表一个词向量，一整个序列就代表一句话。
ht代表时刻t的隐藏状态
ot代表时刻t的输出
输入层到隐藏层之间的权重由U表示，它将我们的原始输入进行抽象作为隐藏层的输入
隐藏层到隐藏层的权重W，它是网络的记忆控制者，负责调度记忆。
隐藏层到输出层的权重V，从隐藏层学习到的表示将通过它再一次抽象，并作为最终输出。
将序列按时间展开就可以得到RNN的结构
Xt是时间t处的输入
St是时间t处的“记忆”，St=f(UXt+WSt-1)，f可以是非线性转换函数，比如tanh等
Ot是时间t处的输出，比如是预测下一个词的话，可能是sigmoid/softmax输出的属于每个候选词的概率，Ot=softmax(VSt)

按照一定的时间序列规定好计算顺序，于是实际上我们会将这样带环的结
构展开成一个序列网络，也就是上图右侧被“unfold”之后的结构。

RNN正向传播阶段

在t=1的时刻，U,V,W都被随机初始化好，h0通常初始化为0，然后进行如
下计算：

时间就向前推进，此时的状态h1作为时刻1的记忆状态将参与下一次的预测
活动，也就是：

以此类推，可得
![在这里插入图片描述](https://img-blog.csdnimg.cn/a2796e其中f可以是tanh,relu,sigmoid等激活函数，g通常是softmax也可以是其他。
值得注意的是，我们说递归神经网络拥有记忆能力，而这种能力就是通过W将以往的输入状态
进行总结，而作为下次输入的辅助。可以这样理解隐藏状态：h=f(现有的输入+过去记忆总结)

RNN反向传播阶段

bp神经网络用到的误差反向传播方法将输出层的误差总和，对各个权重的梯度∇U,∇V,∇W，求偏导数，然后利用梯度下降法更新各个权重。
对于每一时刻t的RNN网络，网络的输出ot都会产生一定误差et，误差的损
失函数，可以是交叉熵也可以是平方误差等等。那么总的误差为E=∑tet，我们的目标就是要求取

对于输出ot=g(Vst),对于任意损失函数，求取∇V将是简单的，我们可以直
接求取每个时刻的∂e t / ∂V，由于它不存在和之前的状态依赖，可以直接求
导取得，然后简单地求和即可。对于∇W,∇U的计算不能直接求导，因此需
要用链式求导法则。
为了使得误差e能够对U和W求偏导数，定义一个中δ=∂e/∂s，首先计算出
输出层的δL，再向后传播到各层δL-1,δL-2,…，那么如何计算δ呢？

关注当前层次发射出去的链接即可，也就是

只要计算出所有的δot,δht，就可以通过以下计算出∇W,∇U：

举个详细的例子计算W梯度的例子：

举个对于时刻t+1产生的误差et+1，我们想计算它对于W1,W2,…,Wt，Wt+1的梯度，可以如下计算

反复运用链式法则，我们可以求出每一个∇W1
,∇W2
,…,∇Wt，∇Wt+1，在
不同时刻都是共享同样的参数，这样可以大大减少训练参数，和CNN的共
享权重类似。对于共享参数的RNN，我们只需将上述的一系列式子抹去标
签并求和，就可以得到推导出来的公式为:

其中表示不利用链式法则直接求导，也就是假如对于函数f(h(x))，对
其直接求导结果如下：∂f(h(x))/∂x=f′(h(x))，也就是求导函数可以写成x的
表达式，也就是将h(x)看成常数了。
在Yoshua Bengio 论文中（ http://proceedings.mlr.press/v28/pascanu
13.pdf ）证明了, 从而说明了这是梯度求导的一部分环节是
一个指数模型，当η<1时，就会出现梯度消失问题，而当η>1时，梯度爆炸
也就产生了。
为了克服梯度消失的问题，LSTM和GRU模型便后续被推出了，为什么
LSTM和GRU可以克服梯度消失问题呢？由于它们都有特殊的方式存储”记
忆”
，那么以前梯度比较大的”记忆”不会像简单的RNN一样马上被抹除，
因此可以一定程度上克服梯度消失问题。（问题描述：在普通RNN中对于
长序列而言，很早之前时刻输入的信息，对于当前时刻是不会产生影响
的。）
另一个简单的技巧可以用来克服梯度爆炸的问题就是gradient clipping，
也就是当你计算的梯度超过阈值c的或者小于阈值−c时候，便把此时的梯度
设置成c或−c
下图所示是RNN的误差平面，可以看到RNN的误差平面要么非常陡峭，要
么非常平坦，如果不采取任何措施，当你的参数在某一次更新之后，刚好碰
到陡峭的地方，此时梯度变得非常大，那么你的参数更新也会非常大，很容
易导致震荡问题。而如果你采取了gradient clipping这个技巧，那么即使
你不幸碰到陡峭的地方，梯度也不会爆炸，因为梯度被限制在某个阈值c。

Bidirectional RNN-双向RNN

双向循环神经网络（Bidirectional RNN）是一种循环神经网络（RNN）的变体，它在每个时间步同时考虑当前时刻之前和之后的输入信息。

传统的循环神经网络只能向前传递信息，即当前时刻的状态只依赖于之前的状态和当前时刻的输入。而双向循环神经网络则通过增加一个反向的循环结构，在当前时刻之后的时间步也能够传递信息，这样可以更好地捕捉序列数据中的上下文信息，提高模型的性能。

双向循环神经网络的结构如下图所示：

其中，正向循环神经网络和反向循环神经网络的输出会分别输入到一个全连接层（或其他层）中进行后续的处理。最终，两个方向的输出会进行拼接，形成一个维度为2h的输出向量。

双向循环神经网络在自然语言处理、语音识别、图像处理等领域广泛应用，例如在机器翻译中，双向循环神经网络可以同时考虑源语言和目标语言的上下文信息，从而提高翻译质量。

Bidirectional RNN(双向RNN)假设当前t的输出不仅仅和之前的序列有关，并且还与之后的序列有关，例如：预测一个语句中缺失的词语那么需要根据上下文进行预测；Bidirectional RNN是一个相对简单的RNNs，由两个RNNs上下叠加在一起组成。输出由这两个RNNs的隐藏层的状态决定。

Deep(Bidirectional) RNN-深度双向RNN

Deep Bidirectional RNN（深度双向循环神经网络）是一种深度学习模型，它将多层双向循环神经网络（Bidirectional RNN）叠加在一起，用于处理序列数据，如文本、语音、视频等。

在传统的循环神经网络（RNN）中，每个时间步的输出只依赖于当前时间步的输入和上一个时间步的状态。而在双向循环神经网络中，每个时间步的输出不仅依赖于当前时间步的输入和上一个时间步的状态，还依赖于后面时间步的输入和状态。这种双向的信息流可以更好地捕捉序列数据中的上下文信息，提高模型的性能。

在深度双向循环神经网络中，我们将多个双向循环神经网络叠加在一起，形成一个深度的神经网络结构。每个双向循环神经网络的输出作为下一层双向循环神经网络的输入，逐层传递信息，从而更好地捕捉序列数据中的复杂关系。

深度双向循环神经网络在自然语言处理、语音识别、视频分析等领域得到了广泛应用，并取得了很好的效果。

Deep Bidirectional RNN(深度双向RNN)类似Bidirectional RNN，区别在于每个每一步的输入有多层网络，这样的话该网络便具有更加强大的表达能力和学习能力，但是复杂性也提高了，同时需要训练更多的数据。

循环神经网络RNN-BPTT

循环神经网络（Recurrent Neural Network，RNN）是一种能够处理序列数据的神经网络模型，它通过在网络中引入循环连接来处理序列数据中的时序信息。

在训练RNN模型时，通常使用反向传播算法（Backpropagation Through Time，BPTT）来计算模型参数的梯度。BPTT算法是将时间展开的RNN看作一个有向无环图（DAG），按照时间顺序对每个时间步进行前向传播和反向传播，从而计算出每个时间步的参数梯度。

BPTT算法的具体流程如下：

前向传播：对于每个时间步，将输入数据和前一个时间步的状态输入到RNN模型中，计算当前时间步的输出和状态。
损失函数计算：使用当前时间步的输出和目标值计算损失函数。
反向传播：从当前时间步开始，将损失函数对当前时间步的输出和状态求梯度，并沿着时间维度反向传播，计算每个时间步的参数梯度。
参数更新：使用优化算法（如随机梯度下降）根据计算出的参数梯度来更新模型参数
。

需要注意的是，由于RNN在时间维度上的循环结构，BPTT算法在反向传播时需要将梯度沿时间维度进行传递，这样会导致梯度消失或爆炸的问题。为了解决这个问题，可以采用一些技巧，如梯度裁剪、LSTM、GRU等。

RNN的训练和CNN/ANN训练一样，同样适用BP算法误差反向传播算法。
区别在于：RNN中的参数U\V\W是共享的，并且在随机梯度下降算法中，
每一步的输出不仅仅依赖当前步的网络，并且还需要前若干步网络的状态，
那么这种BP改版的算法叫做Backpropagation Through Time(BPTT)；
BPTT算法和BP算法一样，在多层(多个输入时刻)训练过程中(长时依赖<即
当前的输出和前面很长的一段序列有关，一般超过10步>)，可能产生梯度
消失和梯度爆炸的问题。

BPTT和BP算法思路一样，都是求偏导，区别在于需要考虑时间对step的影
响

LSTM

LSTM（Long Short-Term Memory）是一种特殊的循环神经网络（RNN），通过引入记忆单元（memory cell）和门控机制（gate mechanism），可以有效地解决传统RNN模型中存在的梯度消失和梯度爆炸问题，以及长序列建模中的记忆衰减问题。

LSTM的主要组成部分包括：输入门（input gate）、遗忘门（forget gate）、输出门（output gate）和记忆单元（memory cell）。其中，输入门用于控制新输入的重要性，遗忘门用于控制前一时刻的记忆是否需要被遗忘，输出门用于控制当前时刻的输出是否需要被输出，记忆单元用于存储并传递信息。

LSTM的计算过程如下：

输入门：对于当前时刻的输入和前一时刻的状态，计算输入门的输出，表示新输入的重要性。
遗忘门：对于当前时刻的输入和前一时刻的状态，计算遗忘门的输出，表示前一时刻的记忆需要被保留的程度。
记忆单元：对于当前时刻的输入、前一时刻的状态、输入门和遗忘门的输出，计算记忆单元的输出，表示当前时刻的记忆。
输出门：对于当前时刻的输入、前一时刻的状态和记忆单元的输出，计算输出门的输出，表示当前时刻的输出。

LSTM在自然语言处理、语音识别、图像处理等领域得到了广泛应用，例如在机器翻译中，LSTM可以有效地处理长序列数据，并且能够捕捉跨语言的语法和语义信息，从而提高翻译质量。

在RNN计算中，介绍到对于长期/长时依赖的问题，没法进行解决，可能产生梯度消失和梯度爆炸的问题；LSTM特别适合解决这类需要长时间依赖的问题。

LSTM是RNN的一种变种，大体结构一致，区别在于：

LSTM的“记忆细胞”是改造过的
该记录的信息会一直传递，不该记录的信息会被截断掉
LSTM关键：“细胞状态”
- 细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变很容易
LSTM怎么控制“细胞状态”？
- LSTM可以通过gates(“门”)结构来去除或者增加“细胞状态”的信息包含一个sigmoid神经网络层次和一个pointwist乘法操作
- Sigmoid层输出一个0到1之间的概率值，描述每个部分有多少量可以通过，0表示“不允许任务变量通过”，1表示“运行所有变量通过”
- LSTM中主要有三个“门”结构来控制“细胞状态”

第一个“门”==>“忘记门”/“遗忘门”：决定从“细胞状态”中丢弃什么信息；比如在语言模型中，细胞状态可能包含了性别信息(“他”或者“她”)，当我们看到新的代名词的时候，可以考虑忘记旧的数据.

第二个“门”==>“信息增加门”：决定放什么新信息到“细胞状态”中；
- Sigmoid层决定什么值需要更新；
- Tanh层创建一个新的候选向量Ct；
- 主要是为了状态更新做准备
经过第一个和第二个“门”后，可以确定传递信息的删除和增加，即可以进行“细胞状态”的更新
- 更新Ct-1为Ct;
- 将旧状态与ft相乘，丢失掉确定不要的信息；
- 加上新的候选值it*Ct得到最终更新后的“细胞状态”
第三个“门”==>基于“细胞状态”得到输出，也就是“输出门”；
- 首先运行一个sigmoid层来确定细胞状态的那个部分将输出
- 使用tanh处理细胞状态得到一个-1到1之间的值，再将它和sigmoid门的输出相乘，输出程序确定输出的部分

LSTM变种

"Peephole connections"是一种用于改进LSTM模型的技术，它引入了额外的连接来允许LSTM单元访问记忆单元中的信息。在传统的LSTM模型中，输入门、遗忘门和输出门只能访问输入和前一时刻的状态，而不能直接访问记忆单元中的信息。"Peephole connections"通过添加额外的连接，允许门控单元直接访问记忆单元中的信息，从而提高模型的表达能力和记忆能力。

具体来说，"Peephole connections"将LSTM模型中的三个门（输入门、遗忘门和输出门）与记忆单元中的状态相连接。这些连接允许门控单元直接访问记忆单元中的信息，并将这些信息纳入到门控单元的计算中。这样，LSTM模型就能够更好地利用先前的信息来控制当前时刻的输入和输出。

使用"Peephole connections"层的LSTM模型的计算流程与传统的LSTM模型类似，只是在输入门、遗忘门和输出门的计算中，额外考虑了记忆单元中的状态。通过引入"Peephole connections"层，LSTM模型可以更好地处理长序列数据，并且能够更好地捕捉序列中的长期依赖关系，从而提高模型的性能。

变种1
- 增加“peephole connections”层
- 让门层也接受细胞状态的输入
变种2
- 通过耦合忘记门和更新输入门(第一个和第二个门)；也就是不再单独的考虑忘记什么、
- 增加什么信息，而是一起进行考虑。
  在LSTM和GRU中，遗忘门和更新门是分开的，分别控制着前一时刻的记忆是否需要被遗忘和当前时刻的输入是否需要被更新。然而，有研究表明，将遗忘门和更新门耦合起来可以提高模型的性能。

具体来说，耦合遗忘门和更新输入门的方法是将遗忘门和更新门中的参数结合在一起，形成一个统一的门控单元。这个门控单元同时控制着前一时刻的记忆和当前时刻的输入的更新，从而可以更好地处理序列中的长期依赖关系。

通过耦合遗忘门和更新输入门，可以减少LSTM和GRU中的参数数量，并且可以提高模型的表达能力和记忆能力。此外，由于耦合遗忘门和更新输入门可以更好地控制信息的流动，因此也可以减少模型的过拟合。

值得注意的是，耦合遗忘门和更新输入门的方法并不适用于所有的序列建模任务。在某些任务中，遗忘门和更新门的独立控制可以更好地适应任务的特性。因此，在实际应用中，需要根据具体任务的特点来选择合适的门控机制。

GRU

GRU（Gated Recurrent Unit）是一种循环神经网络（RNN）的变种，类似于LSTM，它也使用了门控机制来解决传统RNN模型中存在的梯度消失和梯度爆炸问题，以及长序列建模中的记忆衰减问题。

GRU的主要组成部分包括：重置门（reset gate）和更新门（update gate）。其中，重置门用于控制前一时刻的状态在当前时刻是否需要被重置，更新门用于控制当前时刻的输入和前一时刻的状态在当前时刻是否需要被更新。

GRU的计算过程如下：

重置门：对于当前时刻的输入和前一时刻的状态，计算重置门的输出，表示前一时刻的状态在当前时刻是否需要被重置。

更新门：对于当前时刻的输入和前一时刻的状态，计算更新门的输出，表示当前时刻的输入和前一时刻的状态在当前时刻是否需要被更新。

计算当前时刻的状态：对于当前时刻的输入、重置门和更新门的输出，计算当前时刻的状态。

GRU相对于LSTM来说，参数更少，计算速度更快，且能够取得与LSTM相当的性能。在自然语言处理、语音识别、图像处理等领域得到了广泛应用，例如在机器翻译中，GRU可以有效地处理长序列数据，并具有更好的训练速度和模型压缩性能。

Gated Recurrent Unit(GRU)，2014年提出
- 将忘记门和输出门合并成为一个单一的更新门
- 同时合并了数据单元状态和隐藏状态(细胞状态和输出状态) 结构比LSTM的结构更加简单

探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
英伟达常用GPU参数速查表，含B300..... Ai17316391579 深度学习服务器人工智能机器学习服务器电脑计算机视觉深度学习神经网络
英伟达常用GPU参数速查表，收藏备用：含RTX5090、RTX4090D、L40、L20、A100、A800、H100、H800、H20、H200、B200、B300、GB300.....专注于高性能计算人工智能细分领域kyfwq001#5090##4090##英伟达“新核弹”B200发布##英伟达##英伟达B300##GPU##服务器##显卡##英伟达H800/A800芯片将禁售#
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod