CV一闪一闪亮晶晶

transformer系列1---Attention Is All You Need全文详细翻译

论文链接：Attention Is All You Need.

代码链接：Transformer.

Transformer

0 Abstract 摘要
1 Introduction 引言
2 background 背景
3 Model Architecture模型架构
- 3.2 Attention注意力
- - 3.2.1 Scaled Dot-Product Attention缩放点积注意力
  - 3.2.2 Multi-Head Attention多头注意力
  - 3.2.3 Applications of Attention in our Model 模型中注意力的应用
- 3.3 Position-wise Feed-Forward Networks逐点前馈网络
- 3.4 Embeddings and Softmax 嵌入和softmax
- 3.5 Positional Encoding位置编码
4 Why Self-Attention为什么使用自注意力
5 Training训练
- 5.1 Training Data and Batching 训练数据和批处理
- 5.2 Hardware and Schedule 硬件和训练周期
- 5.3 Optimizer优化器
- 5.4 Regularization正则化
6 Results结果
- 6.1 Machine Translation机器翻译
- 6.2 Model Variations模型变量
- 6.3 English Constituency Parsing英文构成分析
7 Conclusion结论

0 Abstract 摘要

主流的序列转换模型基于复杂的循环或卷积神经网络，包括编码器和解码器。性能最佳的模型还会通过注意机制连接编码器和解码器。我们提出了一种新的简单网络架构，Transformer，仅基于注意机制，完全不需要循环和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更优越，同时更易并行化，训练时间显著减少。我们的模型在WMT 2014英德翻译任务上达到了28.4 BLEU，相比现有最佳结果（包括集成模型），提高了2 BLEU以上。在WMT 2014英法翻译任务上，我们的模型在使用八个GPU训练了3.5天的情况下，取得了新的单模型BLEU得分的SOTA，达到41.8，训练成本仅为文献中最佳模型的一小部分。Transformer在其他任务上也具有很好的泛化能力，无论是使用大量或者有限的训练数据情况下，都可以将其应用于英语成分句法分析。

1 Introduction 引言

递归神经网络（RNN）、长短期记忆(LSTM)和门控递归神经网络(gated RNN)已经成为序列建模和转换问题（如语言建模和机器翻译）中的最先进方法。此后，许多工作一直在推动递归语言模型和编码器-解码器架构的发展边界。
递归模型通常将计算因子分解到输入和输出序列的符号位置上。将位置与计算时间步骤对齐，它们生成一系列隐藏状态ht，作为前一个隐藏状态ht−1和位置t的输入的函数。这种固有的顺序性质阻碍了在训练样本的并行化，这在较长的序列长度中变得至关重要，因为内存限制了跨样本的批处理。最近的工作通过分解技巧和条件计算在计算效率上取得了显著改进，同时在后者的情况下也提高了模型性能。然而，顺序计算的基本约束仍然存在。
注意机制已成为各种任务中序列建模和转换模型的重要组成部分，允许对输入或输出序列中的依赖关系进行建模，而不考虑它们之间的距离。然而大部分情况下，这种注意机制通常与递归网络一起使用。
在这项工作中，我们提出了Transformer，这是一种新的模型架构，它不使用递归，而是完全依赖于注意机制来建立输入和输出之间的全局依赖关系。Transformer可以实现更多的并行化，并且在使用8个P100 GPU，仅经过12小时的训练后，就能够达到新的翻译质量的最先进水平。

2 background 背景

减少顺序计算的目标也是Extended Neural GPU、ByteNet和ConvS2S的基础，它们都使用卷积神经网络作为基本构建块，为所有输入和输出位置并行计算隐藏特征。在这些模型中，将两个任意位置输入或输出的信号相关联所需的操作数量，随着位置之间的距离增加而增加，对于ConvS2S是线性增长，对于ByteNet是对数增长。这使得学习远距离位置之间的依赖关系更加困难。在Transformer中，操作数量减少为常数，尽管平均注意加权降低了有效分辨率，但我们可以通过在第3.2节中描述的多头注意力机制来抵消这种影响。
自注意力，有时称为内部注意力，是一种关联单个序列的不同位置的注意机制，用于计算序列的表示。自注意力已成功应用于各种任务，包括阅读理解、抽象摘要、文本蕴含和学习任务无关的句子表示。
端到端记忆网络基于一种循环注意机制，而不是序列对齐的循环，并且在简单语言问答和语言建模任务上表现良好。
然而，Transformer是第一个完全依靠自注意力计算其输入和输出表示，而不使用序列对齐的RNN或卷积的转导模型。在接下来的章节中，我们将描述Transformer，解释自注意力的动机，并讨论它相对于其他模型的优势。

3 Model Architecture模型架构

大多数效果好的神经序列转换模型都具有编码器-解码器结构。在这里，编码器将符号表示的输入序列(x1, …, xn)映射到连续表示的序列z = (z1, …, zn)。给定z，解码器随后逐个元素生成一个输出序列(y1, …, ym)的符号。在每一步中，模型是自回归的，也就是在生成下一个符号时，使用先前生成的符号作为额外的输入。

Transformer整体架构使用堆叠的自注意力和逐点全连接层作为编码器和解码器，分别显示在图1的左半部分和右半部分。

3.2 Attention注意力

注意力函数可以被描述为将 Query 与一组键值对（Key-Value）映射到输出的函数，其中 Query、Key、Value和输出都是向量。输出是值的加权和，其中赋予每个值的权重是通过Query与Key的兼容性函数（compatibility function）计算得出的。

3.2.1 Scaled Dot-Product Attention缩放点积注意力

本文的attention称为缩放点积注意力（Scaled Dot-Product Attention），输入包括维度为 dk的queries 和 keys，维度为dv的values，计算每一个query和所有key的点积，除以，然后利用softmax 函数计算value的注意力权重。
实际上，本文同时对一组Query计算注意力函数，将其打包成矩阵Q 。Key和Value也打包到矩阵K和V中。我们计算输出矩阵如下：

3.2.2 Multi-Head Attention多头注意力

与使用dmodel维度的key、value和query执行单个attention函数相比，通过不同的可学习的线性投影将query、key和value投影h次到dk、dk和dv维度，可以获得更好的效果。然后，在这些投影版本的query、key和value上并行执行attention函数，得到dv维度的输出值。这些值被concat起来，再次进行投影，得到最终的值，如图2所示。
多头注意力允许模型在不同的位置同时关注不同表示子空间的信息，使用单个注意力头时，平均化会抑制这种效果。

投影参数矩阵
本文使用h = 8个并行的注意力层或头。对于每个头，使用dk = dv = dmodel/h = 64。由于每个头的维度减小，总的计算成本与具有完整维度的单头注意力相似。

3.2.3 Applications of Attention in our Model 模型中注意力的应用

Transformer 在三个不同的方式中使用多头注意力：
• 交叉注意力：在“编码器-解码器注意力”层中，query来自前一个解码器层，而内存的key和value来自编码器的输出。这使得解码器中的每个位置都可以关注输入序列中的所有位置。这模仿了序列到序列模型中的典型编码器-解码器注意力机制]。
• 自注意力。在自注意力层中，所有的query，key和value都来自同一个地方，即编码器中前一层的输出。编码器中的每个位置都可以关注编码器前一层的所有位置。
• 掩码自注意力：解码器中的自注意力层允许解码器中的每个位置关注到解码器中的所有位置，包括该位置及之前的位置。我们需要防止解码器中的左向信息流，以保持自回归属性。我们通过在缩放的点积注意力中屏蔽（设置为-∞）所有与非法连接对应的输入中的值来实现这一点，详见图2.

3.3 Position-wise Feed-Forward Networks逐点前馈网络

除了注意力子层之外，我们编码器和解码器中的每个层都包含一个全连接的前馈网络，该网络分别相同地应用于每个位置。该网络由两个线性变换和一个ReLU激活函数组成。

虽然线性变换在不同位置上是相同的，但它们在不同层之间使用不同的参数。另一种描述方式是使用核大小为1的两个卷积操作。
输入和输出的维度为dmodel = 512，内层的维度为dff = 2048。

3.4 Embeddings and Softmax 嵌入和softmax

与其他序列转换模型类似，本文使用可学习的embedding将输入token和输出token转换为维度为dmodel的向量。本文还使用常用的可学习的线性变换和softmax函数将解码器输出转换为预测的下一个token的概率。本文的模型中，在两个embedding层和预softmax线性变换之间共享相同的权重矩阵。在嵌入层中，本文将这些权重乘以

3.5 Positional Encoding位置编码

由于本文的模型不包含循环和卷积，为了使模型能够利用序列的顺序信息，必须向序列中的注入一些关于相对或绝对位置信息的token。为此，本文在编码器和解码器组底部的输入embedding中添加“位置编码”。位置编码的维度与输入embedding的维度相同，因此可以将两者直接相加。位置编码可以是可学习的也可以是固定的。
本文使用不同频率的正弦和余弦函数：

其中 pos是位置， i是维度。也就是说，位置编码的每个维度对应一个正弦波。波长从 2π到 10000⋅2π形成一个几何级数。我们选择这个函数是因为我们假设它可以让模型容易学习到相对位置的注意力，因为对于任何固定的偏移k， PEpos+k可以表示为 PEpos的线性函数。此外，我们在编码器和解码器堆中对embedding和位置编码和应用了dropout，对于基本模型，Pdrop=0.1。
我们还尝试使用可学习的位置embedding，发现两个版本的结果几乎相同。我们选择了正弦版本，因为它可能使模型能够推断出比训练过程中遇到的序列长度更长的序列。

4 Why Self-Attention为什么使用自注意力

在本节中，我们将自注意力层与递归层和卷积层进行比较，这些递归层和卷积层常用于将一个可变长度的符号表示序列 (x1, …, xn) 映射到另一个等长序列 (z1, …, zn) ，其中 xi, zi ∈ Rd，例如典型的序列转换编码器或解码器中的隐藏层。使用自注意力主要有三个原因。

每层的总计算复杂度。
可以并行计算的计算量，以序列操作的最小数量来衡量。
网络中长程依赖之间的路径长度。在许多序列转换任务中，学习长程依赖是一个关键问题。影响学习此类依赖的一个关键因素是前向和后向信号在网络中需要穿越的路径长度。在输入和输出序列的任意位置之间的这些路径越短，学习长程依赖就越容易。因此，我们还比较了由不同类型层组成的网络中，任意两个输入和输出位置之间的最大路径长度。
如表1所示，自注意力层用一个常数数量的序列操作连接所有位置，而递归层则需要 O(n) 个序列操作。在计算复杂度方面，当序列的长度n小于特征维度d时，自注意力层比递归层更快，在机器翻译最先进的模型中常常是这样的，比如word-piece和byte-pair。为了提高处理非常长序列时的计算性能，自注意力可以限制为只考虑输入序列中以各自输出位置为中心的大小为r的邻域。这将增加最大路径长度为O(n/r)。
一个卷积层的卷积核宽度k < n不能连接所有输入和输出位置对。要实现这一点，需要使用O(n/k)个卷积层（对于连续的卷积核）或者O(logk(n))个卷积层（对于空洞卷积）来增加网络中任意两个位置之间的最长路径长度。卷积层通常比循环层更昂贵，因为需要乘以k。然而，可分离卷积大大降低了复杂度，为O(k · n · d + n · d · d)。然而，即使k = n，可分离卷积的复杂度仍然等于自注意力层和逐点前馈层的组合，这是我们模型采用的方法。
自注意力可以产生更可解释的模型。我们检查了模型的注意力分布，并在附录中呈现和讨论了示例。不仅个别注意力头明显学会了执行不同的任务，许多注意力头似乎还展示出句子的句法和语义结构的相关性。

5 Training训练

本节描述了我们模型的训练方案。

5.1 Training Data and Batching 训练数据和批处理

我们使用了标准的WMT 2014英德数据集，包含大约450万个句子对。句子使用字节对编码进行编码，源-目标词汇共享约37000个标记。对于英法翻译，我们使用了规模更大的WMT 2014英法数据集，包含3600万个句子，并将标记拆分为32000个词片段。句子对按照近似的序列长度进行分批处理。每个训练批次包含一组句子对，其中大约包含25000个源标记和25000个目标标记。

5.2 Hardware and Schedule 硬件和训练周期

我们在一台配备了8个NVIDIA P100 GPU的机器上训练我们的模型。对于使用文中的超参数的基础模型，每个训练步骤大约需要0.4秒。我们总共训练了基础模型100,000个步骤或12小时。对于我们的大模型（在表3的最后一行中描述），步骤时间为1.0秒。大模型训练了300,000个步骤（3.5天）。

5.3 Optimizer优化器

我们使用了Adam优化器，其中β1 = 0.9，β2 = 0.98，ϵ = 10−9。我们根据以下公式在训练过程中调整学习率：

这对应于在前warmup_steps个训练步骤中线性增加学习率，之后按步骤数的倒数平方根成比例地减小学习率。我们使用了warmup_steps = 4000。

5.4 Regularization正则化

在训练过程中，我们采用了三种类型的正则化方法：

残差丢弃：我们在每个子层的输出上使用丢弃，在将其添加到子层输入和归一化之前。此外，我们在编码器和解码器堆栈中，embedding和位置编码的和上也应用了丢弃。对于基本模型，我们使用Pdrop = 0.1的速率。
标签平滑：在训练过程中，我们采用了值为ϵls = 0.1的标签平滑。这会降低困惑度，因为模型学会更加不确定，但会提高准确性和BLEU分数。

6 Results结果

6.1 Machine Translation机器翻译

在WMT 2014年英德翻译任务中，大的transformer模型（表2中的Transformer（big））的表现超过了之前的最佳模型（包括集成模型），BLEU分数超过2.0，实现了一个新的BLEU分数最高记录，达到28.4。该模型的配置列在表3的底部。训练使用了8个P100 GPU，耗时3.5天。即使是我们的基础模型也超过了之前发表的所有模型和集成模型，在训练成本上只是竞争模型的一小部分。
在WMT 2014年英法翻译任务中，我们的大模型取得了41.0的BLEU分数，在训练成本上不到之前最佳模型的四分之一。英法翻译的Transformer（big）模型使用了Pdrop = 0.1的dropout率，而不是0.3。
对于基础模型，我们使用了最后5个检查点的平均模型，这些检查点是以10分钟间隔写入的。对于大模型，我们取了最后20个检查点的平均值。我们使用了束搜索，束大小为4，长度惩罚参数α = 0.6。这些超参数是在开发集上进行实验后选择的。我们将推理期间的最大输出长度设置为输入长度+50，但尽可能提前终止。
表2总结了我们的结果，并与文献中的其他架构模型比较翻译质量和训练成本。我们通过将训练时间、使用的GPU数量和每个GPU的持续单精度浮点运算能力的估计相乘，来估计训练模型使用的浮点运算次数（对于 K80, K40, M40 and P100，分别估计为2.8, 3.7, 6.0 and 9.5 TFLOPS）。

6.2 Model Variations模型变量

为了评估Transformer不同组件的重要性，我们以不同的方式改变基础模型，并在开发集newstest2013上测试英译德翻译性能的变化。我们使用了前一节中描述的波束搜索，但没有进行检查点平均。我们在表3中呈现了这些结果。
在表3的(A)行中，我们改变了注意力头数以及注意力key和value的维度，同时保持计算量不变，如第3.2.2节所述。尽管单头注意力比最佳设置差0.9 BLEU，但过多的注意力头数也会导致质量下降。
在表3的(B)行中，我们观察到减小注意力key的大小dk会损害模型质量。这表明确定兼容性并不容易，而且比点积更复杂的兼容性函数可能会更有益。
在 ©和(D)行中，更大的模型更好，并且丢弃(dropout)对于避免过拟合非常有帮助。
在(E)行中，我们用学习得到的位置嵌入替换了我们的正弦位置编码，结果与基础模型几乎相同。

6.3 English Constituency Parsing英文构成分析

为了评估Transformer是否能推广到其他任务，我们在英文构成分析上进行了实验。这个任务面临着特定的挑战：输出受到强烈的结构约束，并且比输入要长得多。此外，RNN序列到序列模型在小数据情况下无法达到最先进的结果。
我们在华尔街日报（WSJ）的Penn Treebank上训练了一个4层Transformer，dmodel = 1024，大约有40K个训练句子。我们还在半监督设置下进行了训练，使用了来自高置信度和BerkleyParser语料库的大约17M个句子。我们在WSJ设置中使用了一个16K个标记的词汇表，在半监督设置中使用了一个32K个标记的词汇表。
我们仅进行了少量实验来选择dropout、注意力和残差（5.4节）、学习率和束搜索大小，所有其他参数都与英德基础翻译模型保持不变。在推理过程中，我们将最大输出长度增加到输入长度+300。我们在WSJ设置和半监督设置中都使用了一个束搜索大小为21和α = 0.3。
我们在表4中的结果显示，尽管缺乏任务特定调整，我们的模型表现出色，比以前报道的所有模型都要好，除了递归神经网络语法。
与RNN序列到序列模型相比，Transformer在仅训练40K个句子的WSJ训练集上就超过了BerkleyParser。

7 Conclusion结论

本文提出了Transformer，这是第一个完全基于注意力的序列转换模型，用多头自注意力替代了编码器-解码器架构中最常用的循环层。
对于翻译任务，与基于循环层或卷积层的架构相比，Transformer的训练速度显著提高。在WMT 2014年英德翻译任务和WMT 2014年英法翻译任务中，我们实现了SOTA。在前一项任务中，我们的最佳模型甚至超过了以前报道的所有集成模型。
我们计划将Transformer扩展到涉及文本以外的输入和输出模态的问题，并研究局部、受限的注意力机制，以高效处理大量的输入和输出，如图像、音频和视频，使生成变得不那么顺序化。

transformer编码器解码器图解 Ai玩家hly 人工智能 transformer nlp
这张图展示了Transformer模型的架构，包含编码器（左边）和解码器（右边）两部分。以下是对图中每个步骤的详细解释，结合生活场景来说明每一步的意义和推理过程。编码器部分（左边）输入嵌入（InputEmbedding）：步骤：将输入序列中的每个单词转换为固定维度的向量表示。生活场景：想象你在学习一种新的语言，每个单词都有一个独特的代号或符号。这一步就像是给每个单词分配一个独特的代码，以便计算机能
2024年人工智能领域发生了哪些事儿？全球AI大事件1至12月盘点人工智能aigc
2024年，对人工智能（AI）而言是激动人心的一年。这一年不仅见证了AI技术的全面突破，也深刻改变了社会生活的方方面面。从金融到医疗、从教育到娱乐，AI的深度渗透无处不在。显然，这项技术已经从概念走向普及，并开始重新定义我们的未来。一月：人机交互技术的崭新开端2024年1月30日：Neuralink脑机接口植入Neuralink宣布，首名人类成功接受脑机接口芯片植入手术。这项手术由机器人完成，芯片
Transformer的linear和softmax 编码浪子 AI transformer 机器学习人工智能
线性层（LinearLayer）场景假设我们现在有一个包含许多特征的向量，比如描述一本书的内容、风格、作者、逻辑等信息。你想要根据这些特征预测这本书属于哪个类别，如小说、科幻、历史等。线性层的作用就是帮助你将这些特征转换成一个更简单的形式，使得你可以更容易地做出分类决策。解释特征组合：线性层接收来自解码器最后一层的输出，这个输出是一个高维向量，包含了关于输入序列的丰富信息。权重矩阵：线性层内部有一
白话transformer（五）：位置编码 Andy_shenzl NLP transformer 深度学习人工智能
在前面其实讲过位置编码的完整内容，这次我们具体看看他的数学原理B站视频讲解白话transformer（五）1、位置编码的位置
第84期 | GPTSecurity周报 aigc
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用数据流路径对大
gradio可视化对话框（） @小张不嚣张 python 开发语言
fromtransformersimportAutoModel,AutoTokenizerimportgradioasgrimportmdtex2html#-*-coding:utf-8-*-importosimporttorchimportinterfaceAllfromdatetimeimportdatetimeimporttimeimportinference_LLaVaimportshut
未来商贸物流：人工智能与大数据的深度融合呆码科技临沂软件开发软件开发商贸物流科技人工智能
未来商贸物流：人工智能与大数据的深度融合在当今数字化浪潮汹涌澎湃的时代，商贸物流行业正站在变革的十字路口，而人工智能与大数据宛如一对闪耀的双子星，为其照亮前行的道路，深度融合之下，一个全新的未来画卷正徐徐展开。智能预测需求：精准把握市场脉搏传统的商贸物流往往依赖过往经验和粗略的市场调研来预估货物需求，这就如同在迷雾中摸索，充满不确定性。而如今，借助大数据的海量存储与超强分析能力，以及人工智能的深度
从文字到思维：呆马GPT在人工智能领域的创新之旅呆码科技 gpt 人工智能
引言生成式预训练变换器（GenerativePre-trainedTransformer，简称GPT）领域是人工智能技术中的一大革新。自OpenAI推出第一代GPT以来，该技术经历了多代发展，不断提升模型的规模、复杂度和智能化程度。GPT模型通过在大规模数据集上进行预训练，学习语言的统计规律和世界知识，然后在特定任务上进行微调，以适应不同的应用需求。GPT领域的发展推动了自然语言处理（NLP）技术
BERT模型在情感分析中的应用：探寻文本情感的智能之路 Echo_Wish 前沿技术人工智能 bert 人工智能深度学习
随着互联网的普及和社交媒体的兴起，情感分析（SentimentAnalysis）已成为自然语言处理（NLP）领域的重要研究方向。情感分析通过对文本数据的分析，识别其中所表达的情感倾向（如正面、负面或中性）。近年来，BERT（BidirectionalEncoderRepresentationsfromTransformers）模型凭借其强大的上下文理解能力，在情感分析中展现出了卓越的性能。本文将深
DeepSeek 公开新的模型权重数据分析能量站机器学习人工智能
DeepSeek-V3是一款开源大语言模型，在关键基准测试中超越了Llama3.1405B和GPT-4o，尤其在编码和数学任务中成绩优异。除特定受限应用（军事、伤害未成年人、生成虚假信息等）外，模型权重开源，可在线下载。工作原理混合专家架构（MoE）：DeepSeek-V3是MoE型Transformer模型，有6710亿个参数，运行时370亿参数激活。相比Llama3.1405B，训练时间大幅缩
小米Vela操作系统开源：AIoT时代的全新引擎 lilu8888888 开源前端
小米近日正式开源了其物联网嵌入式软件平台——Vela操作系统，并将其命名为OpenVela。这一举动在AIoT（人工智能物联网）领域掀起了不小的波澜，也为开发者们提供了一个强大的AI代码生成器和开发平台。OpenVela项目源代码已托管至GitHub和Gitee，采用Apache2.0开源协议，这意味着全球开发者都可以参与其中，共同推动物联网技术的进步。……Vela操作系统基于开源实时操作系统Nu
智源社区AI周刊：Hinton预测破解大脑机制时间；Gary Marcus批判追捧深度学习风潮；谷歌发布Imagen... 智源社区机器学习人工智能深度学习编程语言大数据
汇聚每周必看AI观点、研究和各类资源，不错过一条重要资讯！欢迎扫码订阅，获取邮件推送。观点“我们会在未来的五年内破解这些（人脑的）程序......现有的一切人工智能，都是建立在与大脑高层次上所做的事情完全不同的基础上......假设有数十亿的参数，这些神经元间的权重在大量训练实例的基础上去调整，会发生奇妙的事情。大脑是如此，深度学习也是如此。但问题在于，如何获得调整参数的梯度......目前我的信
深度探索 DeepSeek-R1：国产大模型的AGI雏形与创新进展微凉的衣柜科技头条 agi 人工智能
随着人工智能技术的飞速发展，国内外企业纷纷发布了一系列创新的大模型，推动了AGI（通用人工智能）领域的探索。近期，DeepSeek-R1这一模型的发布引起了广泛关注，它不仅标志着国产大模型在智能化上的一次重大突破，还提出了全新的训练方法，解决了过去依赖大量人类数据的问题。本篇文章将详细介绍DeepSeek-R1的核心优势、技术创新以及实际应用案例，揭示它在AGI领域的潜力。1.DeepSeek-R
AI界的拼多多-中国人工智能初创公司DeepSeek如何与硅谷巨头竞争 xidianjiapei001 AI-人工智能与大模型人工智能 AI DeepSeek 大模型
这家公司打造出了一款成本更低且颇具竞争力的聊天机器人，其使用的高端计算机芯片数量少于谷歌和OpenAI等美国巨头企业，这凸显出芯片出口管制的局限性。圣诞节次日，一家名为DeepSeek的中国小型初创公司推出了一款新的人工智能系统，其性能可与OpenAI和谷歌等公司的尖端聊天机器人相媲美。仅此一点就堪称一个里程碑。但这个名为DeepSeek-V3系统的研发团队称，他们迈出了更大的一步。在一篇解释该技
学习AI职场应用技能的意义 Mieux718 学习人工智能
在智能化浪潮下，“人工智能+”通识必修课的普及，其核心并非在于培养人工智能领域的专家，而是旨在构建全民AI素养的基石。学习AI是可以让学生借助其技术力量，为各自的专业领域插上创新的翅膀。除了高校外，越来越多的企业也开始关注AI对企业业务的帮助，职场中掌握AI也变得越来越重要。随着人工智能技术的发展，许多行业都在引入相关技术和应用，人工智能应用场景已深度融入办公流程、项目管理、项目运营、客户服务等工
想转行到人工智能领域，我该学什么，怎么学？张登杰踩人工智能 python
转行到人工智能（AI）领域需要系统的学习和实践，以下是详细的路径建议，涵盖基础知识、技能学习、项目实践和求职准备：一、明确目标和领域方向人工智能领域广泛，建议先了解细分方向（如机器学习、深度学习、计算机视觉、自然语言处理、强化学习等），结合兴趣和职业规划选择切入点。二、构建基础知识1.数学基础线性代数：矩阵运算、特征值、向量空间。微积分：导数、梯度、优化理论。概率与统计：贝叶斯定理、分布、假设检验
2024人工智能AI+制造业应用落地研究报告汇总PDF洞察（附原数据表）拓端研究室人工智能
原文链接：https://tecdat.cn/?p=39068本报告合集洞察深入剖析当前技术应用的现状，关键技术创新方向，以及行业应用的具体情况，通过制造业具体场景的典型案例揭示人工智能如何助力制造业研发设计、生产制造、运营管理和产品服务的全流程智能化升级。在此基础上对制造业人工智能的未来发展趋势进行展望，以期为相关政策制定者以及行业从业者提供决策支持，共同助力我国制造业在人工智能时代的转型升级和
Open AI GPT大模型深度解析：通往智能的里程碑 xziyuan 人工智能 gpt
大模型——OpenAIGPT大模型介绍人工智能技术的快速发展引发了对智能系统和应用的巨大需求。多模态大模型已经成为了人工智能领域的重要研究方向之一。OpenAI作为一家全球领先的人工智能公司，在推动人工智能技术的边界上发挥着重要作用，其在大模型方面的研究和应用也是一直处于领先地位。本文将介绍OpenAI多模态大模型的研究成果和应用，探讨其在人工智能领域的重要性和影响力，以及给世界带来的可能性。1.
LLaMA Pro是什么相比于lora full freeze有什么区别怎么使用 Ven% 简单说深度学习深度学习基础动手深度学习速通系列 llama transformer 深度学习人工智能
1.LLaMAPro是什么？LLaMAPro是一种基于LLaMA架构改进的大型语言模型（LLM），旨在解决大模型微调中的知识遗忘问题。它通过在原有模型的基础上扩展新的模块（如Transformer块），并在微调时仅训练这些新增模块，从而在适应新任务的同时保留预训练模型的通用知识。LLaMAPro在代码理解、数学推理和语言理解等任务上表现出色，特别适合需要持续学习和多任务处理的场景。2.LLaMAP
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
python面试情景题_50道python笔试面试真题大集合我是史迪仔 python面试情景题
Python爬虫人工智能100GBweb爬虫数据分析人工智能视频免费领题目后面有50道题答案领取方式哦1、一行代码实现1--100之和利用sum()函数求和2、如何在一个函数内部修改全局变量利用global修改全局变量3、列出5个python标准库os：提供了不少与操作系统相关联的函数sys:通常用于命令行参数re:正则匹配math:数学运算datetime:处理日期时间4、字典如何删除键和合并两
AI人工智能代理工作流 AI Agent WorkFlow：在金融领域中的应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：在金融领域中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AIAgentWorkFlow,金融风险管理,自动化投资决策,数据驱动策略生成,量化交易系统1.背景介绍1.1问题的由来随着金融市场全球化和技术的飞速发展，金融机构面临着日益复杂的业务挑战。从风险管理和投资决策到客户关系管理
快手可灵视频生成大模型全方位测评人工智能llm
快手视频生成大模型“可灵”（Kling），是全球首个真正用户可用的视频生成大模型，自面世以来，凭借其无与伦比的视频生成效果，在全球范围内赢得了用户的热烈追捧与高度评价。截至目前，申请体验其内测版的用户数量已突破70万大关，累计生成的视频作品更是高达700万。可灵在持续创新的道路上也从未停下脚步，在七月份举办的世界人工智能大会（WAIC）期间，可灵再次迎来重大升级。新功能包括上线web端、基础模型效
AI人工智能代理工作流AI Agent WorkFlow：智能代理在金融系统中的应用 AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：智能代理在金融系统中的应用1.背景介绍1.1金融系统的重要性金融系统是现代经济的核心支柱,它确保资金在不同经济实体之间的有效流动和分配。一个高效、可靠的金融系统对于促进经济增长、维护金融稳定和满足社会资金需求至关重要。然而,金融系统也面临着诸多挑战,例如复杂的监管要求、日益增长的交易量、网络安全风险等。1.2人工智能在金融领域的应用近年来,人工
8.2 从看图识字到智能解读：GPT-4 with Vision 开启多模态 AI 新纪元少林码僧 AI大模型应用实战专栏人工智能 chatgpt
从看图识字到智能解读：GPT-4withVision开启多模态AI新纪元引言：AI的多模态跃迁随着人工智能技术的快速发展，我们正迈入一个新的智能交互时代。传统的AI模型主要聚焦于文本处理，而多模态AI模型如GPT-4withVision（GPT-4V）则能够同时处理图像和文本。GPT-4V是OpenAI推出的多模态版本，它不仅能理解图片，还能结合文字对图片内容进行深入分析。这项技术为教育、创意、医
安装auto_gptq解决办法 Ven% 简单说深度学习 Ubuntu 深度学习基础动手人工智能深度学习机器学习 python
这个错误表明在安装auto_gptq包时，生成QiGen内核时失败了。具体来说，setup.py脚本尝试运行一个Python脚本来生成内核，但该脚本不存在或无法访问。以下是一些可能的解决方案：1.确保依赖项已安装首先，确保你已经安装了所有必要的依赖项。你可以尝试以下命令来安装auto_gptq的依赖项：pipinstalltorchtransformers2.使用预编译的二进制文件如果你不需要从源
【自然语言处理（NLP）】NLTK的使用（分句、分词、词频提取）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍NLTK主要功能模块安装使用分句分词去除标点符号去除停用词stopword噪音单词,词频提取个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言，并且能够以有意义的方式
【自然语言处理（NLP）】序列数据研究（创建序列数据、简单的MLP模型、预测结果分析）道友老李自然语言处理(NLP)自然语言处理人工智能
文章目录介绍序列数据研究导包安装d2l创建序列数据创建模型开始训练预测多步预测结论个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究的是人类（自然）语言与计算机之间的交互。NLP的目标是让计算机能够理解、解析、生成人类语言，并且能够以有意义的方式回应和操作这些信息。N
深度学习-94-大语言模型LLM之基于langchain的链Chain的基础应用和调用方式皮皮冰燃深度学习深度学习语言模型 langchain
文章目录1Chain链的分类1.1LCELChains(链构造器)1.2LegacyChains(遗留链)2链的基础应用2.1OllamaLLM2.2是否使用chain的对比2.2.1不使用Chain2.2.2使用Chain3链的调用方式3.1通过invoke方法【推荐】3.2通过predict方法3.3通过apply方法3.4通过generate方法4参考附录1Chain链的分类为开发更复杂的应
原创提示词：中英法德四国翻译家姚瑞南 prompt实战应用案例人工智能 AIGC
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）目录prompt应用效果：原文：英文(English):法文(Français)：德文(Deutsch):prompt#Role:Local-DialectProficientEdi
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方