黑洞是不黑

A Mathematical Framework for Transformer Circuits—(三)

A Mathematical Framework for Transformer Circuits

Two-Layer Attention-Only Transformers
- Three Kinds of Composition
- Path Expansion of Logits
- Path Expansion of Attention Scores QK Circuit
- Analyzing a Two-Layer Model
- Induction Heads
- - Induction heads的功能
  - Induction heads是如何工作的
  - CHECKING THE MECHANISTIC THEORY
  - 方程中各个项的重要性分析
  - Virtual Attention Heads
至此本文取得了哪些进展？

这篇主要介绍Two-Layer Attention-Only Transformers部分的内容

Two-Layer Attention-Only Transformers

深度学习研究的模型都很”深“，也就是说它们都由很多层组成。从经验上来看，这类模型非常强大。但是，这种强大是从何而来呢？直觉上来讲，模型的深度允许执行组合操作，进而产生了强大的表现力。

Attention heads的组合是one-layer attention-only transformers和two-layer attention-only transformers之间主要的区别。如果没有对attention heads进行组合，那么two-layer模型将会使用更多的attention heads来实现skip-trigrams。但是，在实际中，two-layer模型发现了利用attention heads组合的方法来表达一种更强大的机制来完成上下文学习。在模型进行这样的操作时，attention heads变得更像是一个运行算法的计算机程序，而不是一个之前在one-layer模型中看到的skip-trigrams的查找表。

Three Kinds of Composition

在这个系列的第一篇中提到了residual stream可以作为一种通信通道。在residual stream中，每个attention head读取由 $W_Q, W_K, W_V$ 决定的residual stream的子空间，然后写入某个由 $W_O$ 决定的子空间。因此，attention head vectors的尺寸要小于residual stream的尺寸（( $d_{head}/d_{model}$ )的值域为 $[1/10, 1/100]$ ），attention heads在较小的子空间上运行，可以很容易地避免大量交互。

attention heads有以下三种组合方式：

Q-Composition：
$W_Q$ 读入一个由前一个head影响的子空间。
K-Composition：
$W_K$ 读入一个由前一个head影响的子空间。
V-Composition：
$W_V$ 读入一个由前一个head影响的子空间。

Q-Composition和K-Composition与V-Composition有很大的不同。Q-Composition和K-Composition都会影响注意力模式，允许attention heads表示更为复杂的模式。另一方面，当一个attention head关注一个给定的位置时，V-Composition会影响该attention head从所关注位置移动的信息；这就使V-composed heads实际上表现的更像一个单独的单元，并且可以认为是创建了一个额外的”virtual attention heads “。将信息的移动与信息的移动组合起来会产生信息的移动，但是attention heads对注意力模式的影响不会因这种组合方式而减少。

为了真正地了解这三种组合方式，作者将再一次研究OV数据流程和QK数据流程。

Path Expansion of Logits

关于transformer的一个最基本的问题是“logits是如何计算的？”。

按照作者针对one-layer模型的研究方法，列出了一个乘法表达式，表达式中每一项都是模型中的一个层。然后将表达式进行扩展为加法表达式，其中每一项都是一条贯穿模型的端到端路径。如图1. 所示，第一行的公式为乘法表达式，每一项是模型中的一层；第二行的公式为扩展后的加法表达式，每一项都是贯穿模型的一条端到端路径。

Two of these terms, the direct path term and individual head terms, are identical to the one-layer model. The final “virtual attention head” term corresponds to V-Composition. Virtual attention heads are conceptually very interesting, and we’ll discuss them more later. However, in practice, we’ll find that they tend to not play a significant role in small two-layer models.

在组成图 1表达式的各项中，direct path项和individual attention head项与one-layer模型的一致。最后的”virtual attention head “与V-Composition对应。virtual attention heads会在后续内容进行介绍，并且作者发现，在实际应用中，virtual attention heads不会在较小的two-layer模型中发挥重要作用。

Path Expansion of Attention Scores QK Circuit

如果仅关注logit路径扩展就会忽略了可能是two-layer attention-only transformer中最具差异性的根本属性：Q-composition和K-composition。这一属性使two-layer attention-only transformer拥有更具表现力的第二层注意力模式。

为了了解这一属性，需要查看计算注意力模式的QK数据流程。对于一个attention head $h$ ，其注意力模式为 $A^h=softmax(t^TC_{QK}^ht)$ ，其中 $C_{QK}^h$ 是将tokens映射为注意力分值的QK数据流程。对于第一层attention heads，QK数据流程与one-layer model中所用的矩阵一致： $C_{QK}^{h\in H_1}=W_E^TW_{QK}^hW_E$ 。

但是对于第二层的QK-circuit：Q-composition和K-composition都在增加表现力这一点上发挥作用，同时，前一层attention heads也可能会影响keys和queries的构造；最后， $W_{QK}$ 作用于residual stream。

在第一层的情况下， $W_{QK}$ 简化为仅作用于token嵌入： $C_{QK}^{h\in H_1}=x_0^TW_{QK}^hx_0=W_E^TW_{QK}^hW_E$ ，
但是对于第二层，
$C_{QK}^{h\in H_2}=x_1^TW_{QK}^hx_1$ 作用于 $x_1$ ，即第一层attention heads后面的residual stream。

可以将这一行为采用乘积表示，即第一层同时在key和query的那一侧。那么，就可以对乘积表达式使用路径扩展方法了。

上述的一个复杂因素是需要将乘积表达式表示为一个6维的tensor，在矩阵上使用两个张量积。这么做是因为需要表达一个形如
$n_{context},d_{model}]×[n_{context},d_{model}]→[n_{context},n_{context}]$ 的多线性函数。在one-layer的情况下，可以通过隐式地做一个外积来避开这一操作，但是在two-layer的情况下不再有效。很自然地可以想到使用一个 (4,2)-tensor 表示该6维tensor（4个输入维度，2个输出维度）。表达式中的每一项的形式都为 $A_q⊗A_k⊗W$ ，其中 $x(A_q⊗A_k⊗W)y=A_q^TxWyA_k$ ，意味着 $A_q$ 描述了tokens之间query侧的信息移动， $A_k$ 描述了tokens之间key侧的信息移动，W 描述了 $A_q$ 和 $A_k$ 是如何通过相乘来生成注意力分值的。

图中第一行，从左至右：
第一项为query side residual stream，由layer 1的直接路径和layer 1的attention heads组成，其输出是layer 2的输入。
第三项为key side residual stream，由layer 1的直接路径和layer 1的attention heads组成，其输出是layer 2的输入。
第二项是layer 2 head的 $W_{QK}$ ，将第一项和第三项的sides合并至注意力分值。
图 2中第二行，从左至右：
第一项：不具有合并功能的项。表示layer 1沿着query side和key side的直接路径。
第二项：对应纯粹的Q-composition。query side由前一个attention head生成，key side由layer 1的直接路径生成。
图 2中第三行，从左至右：
第一项：对应纯粹的K-composition。key的一部分由前一个attention head生成，query side由layer 1的直接路径生成。
第二项：Q-composition和K-composition之间的相互作用。query side和key side由前一个attention head生成

上图所示公式中的每一项都对应了模型中的一条路径，模型基于该路径可以实现更为复杂的注意力模式。抽象地说，很难对图中的公式进行推理。但是，当讨论induction heads时，将会使用一个具体的例子来再次进行研究。

Analyzing a Two-Layer Model

至此，作者已经构建了一个用于理解two-layer attention-only models的理论模型。得到了一个描述logits（OV数据流程）的整体方程，一个描述每个attention head的注意力模式（QK数据流程）是如何计算的方程。为了在实际中理解上述方程，作者对一个two-layer 模型进行了逆向工程。

two-layer模型和ong-layer模型之间的主要区别就是Q-composition，K-composition，V-composition。如果没有composition，那么two-layer模型仅是一个具有额外attention heads的one-layer模型。

小的two-layer模型通常（尽管并非总是）具有一个非常简单的composition结构，其唯一的composition类型是一个单独first layer head和部分second layer heads之间的K-composition。接下来的图表中显示了模型中，位于first layer和second layer之间需要被分析的Q-composition，K-composition和V-composition。作者根据其对每个head的行为的理解，对各个head进行了着色。first layer head具有非常简单的注意力模式：主要是关注前一个token，然后以较小的程度关注当前token和后面的两个tokens。second layer heads是作者所说的induction heads（就叫感应头吧，不知道咋翻译）。

图3显示了first layer attention heads和second layer attention heads之间的Q-composition，K-composition，V-composition。那么，如何计算一个second layer head的query、key、value向量从一个给定的first layer head中读取了多少信息。作者通过检测相关矩阵的乘积的Frobenius norm除以各个相关矩阵的norm的结果来计算读取的信息量。
对于Q-composition， ${W_{QK}^{h_2}}^TW_{OV}^{h_1}||_F/(||{{W_{QK}^{h_2}}}^T||_F||{{W_{OV}^{h_1}}}||_F)$ ，
对于K-composition， ${W_{QK}^{h_2}}W_{OV}^{h_1}||_F/(||{{W_{QK}^{h_2}}}||_F||{{W_{OV}^{h_1}}}||_F)$ ，
对于V-composition， ${W_{OV}^{h_2}}W_{OV}^{h_1}||_F/(||{{W_{OV}^{h_2}}}||_F||{{W_{OV}^{h_1}}}||_F)$ 。
默认情况下，针对具有相同形状的随机矩阵（大多数attention heads的composition比随机矩阵要小），作者降低了其经验预期量。在实际中，对于这个模型，只有显著的K-composition，并且该模型只有一层，0个head。

从上图可以看出，大多数attention heads都没有参与实质性的composition。我们可以粗略地认为它们是一个更大的skip-trigram。该two-layer模型有一个谜题需要弄清楚，但是该谜题涉及的范围相当狭窄。（作者推测，在某种意义上a couple induction heads会“胜过”一些潜在的skip-trigram heads，但是其他类型的composition无法做到这一点。也就是说，在小模型中，拥有更多的skip-trigram heads是second layer attention heads的一种竞争性使用。）

在后续几个部分，作者将构建一个关于“当前正在发生的情况”的理论，但是在作者开展构建之前，作者使用下面的交互图表来探索attention heads，所使用的图表显示了《哈利波特与魔法石》第一段的value-weighted 注意力模式。作者使用了与前文相同的机制对参与了K-composition的attention heads进行着色。（这种方法增加了研究其他heads的难度，如果读者感兴趣，可以访问该链接，该链接是一个用于一般性探索的接口。Paper1_AttentionMulti）

可以点进去看看，动态效果

上图显示了各种注意头的值加权注意模式；即注意按源位置的值向量的范数缩放的注意力模式 $v_{src}^h||$ 。[即，注意力模式中的注意力权重被位于源位置的value vector的norm $v_{src}^h||$ 缩放]
您可以将值加权注意力模式视为显示“矢量从每个位置移动的有多大”。（Kobayashi等人最近也引入了这种方法。[16] ）这特别有用，因为当没有tokens与attention heads当前正在寻找的目标匹配时，attention heads有时会使用某些特定tokens作为一种默认或静止位置；这些默认位置的value vector会很小，因此value-weighted模式更能够增加信息量。
该界面允许attention heads进行隔离，显示整体注意力模式，并且允许探索单个tokens的注意力。K-composition涉及的attention heads使用了与上述相同的方法进行着色。作者建议尝试隔离这些heads。

作者建议单独地对每个head进行隔离，并且将鼠标悬停在tokens上的同时，观察注意力模式。对于induction heads，特别要注意注意力模式中的非对角线部分，以及组成Dursley和Potters的tokens的行为。

如果仔细观察，可以注意到浅绿色的induction heads通常会返回到下一个token的前一个实例。作者将在下一节对此进行研究。

Induction Heads

在小型two-layer attention-only transformers中，composition似乎主要用于一个目的：创建induction heads。在之前的研究中，one-layer模型将其大部分容量分配给了执行复制操作的heads，作为一个实现上下文学习的粗略方式。Induction heads是实现上下文学习的更强大的机制。【作者在该篇论文中详细地介绍了induction heads在上下文学习中的重要性，In-context Learning and Induction Heads】。

Induction heads的功能

Induction heads在上下文中搜索当前tokens的前一个示例。如果它们没有找到，它们会关注第一个token（在作者的例子中，一个位于开始位置的特殊token），并且什么操作也不做。但如果它们找到了该示例，它们就会查看下一个token并复制该token。这允许它们能够精确地和近似地重复先前的tokens序列。

Induction heads与one-layer模型中观测到的上下文学习类型：

One-layer模型的复制head： [b]…[a]→[b]
- 当token化的罕见行为被允许时： [ab]…[a]→[b]
Two-layer模型的induction head： [a][b]…[a]→[b]

Two-layer算法的性能更加强大。该算法能够知道token在之前是如何被使用的，并且能够查找相似的情况，而不是简单地寻找可能重复一个token的位置。这能够使算法在这些情况下做出更有信心的预测。该算法也不太容易收到分布转移的影响，因为它不依赖于学习到的关于一个token是否可以合理地跟随另一个token的统计数据。（稍后我们将看到induction heads可以操作完全随机的tokens的重复序列）。

图中的例子突出了哈利波特第一段中induction heads有助于预测tokens的几个案例。

假设induction heads正在关注token的前一个副本并向前移动，heads应该能够在完全随机的重复模式上做到这一点。这可能是heads能够遇到的最难的测试，因为heads不能依赖于哪些tokens通常出现在其他tokens之后的常规统计数据。由于tokens是从作者的词汇表中均匀随机采样的，因此作者将词汇表中第n个token表示为，特殊标记除外。（这完全不在分布内。只要保证重复序列更容易再次出现这一更为抽象的属性成立，那么Induction heads就能够在完全不同的分布上运行。）

图6似乎是很有力的证据，能够证明induction heads的假设是正确的。现在已经知道了K-composition在two-layer模型中的作用。接下来的问题是K-composition如何做到的。

Induction heads是如何工作的

Induction heads的核心技巧是key是从向后移动一个token的tokens中计算得到的。query搜索“相似的”key vector，但是由于keys被移动了，所以寻找下一个token。

在residual stream（不同于旋转注意力）中可以使用位置嵌入的模型，有另一种实现induction heads的算法；可以参阅作者对transformer中位置嵌入和指针技术的直观理解。
图7中的例子来源于具有更为复杂的induction heads的更大的模型：

QK数据流程可以通过tokens来扩展，而不是attention heads。图中，key和query的强度表示每个token增加注意力分值的量。Logit结果是OV数据流程。

创建一个induction head的最基础方法是使用K-composition和前一个token head，将key vector向前移动一个token。这就在QK数据流程中生成了一个形式为 $Id⊗A^{h−1}⊗W$ 的项。（ $A^{h−1}$ 定义了一个关注前一个token的注意力模式。）如果 W 匹配tokens相同的情况，那么 W就是QK版本的“执行复制操作矩阵”，那么当源位置之前的上一个token于目标token相同时，该项将增加注意力分值。（Induction heads可以比这更加复杂；例如，其它two-layer模型构建了一个attention head，该head关注比前一个token还要稍远一些的token，很可能生成一个形如 $A^{h−1}⊗A^{h−2}⊗W$ 的项，进而使heads能够匹配更远的内容。）

CHECKING THE MECHANISTIC THEORY

作者在之前提出的针对transformer的机械式解释理论表明induction heads必备两个功能：

拥有一个“copying”OV数据流程矩阵。
拥有一个与 $Id⊗A^{h−1}⊗W$ 项相关的“same matching”QK数据流程。

尽管作者不确定来自Detecting Copying部分的特征值汇总统计信息是否是用于检测“copying”或“matching”矩阵的最可能的汇总统计信息，但是作者还是选择将其作为一种工作形式。如果将attention heads看作是QK特征值和OV特征值为正数的2D空间中的点，那么所有的induction heads都在最右边的角落。

也许有人会思考这些观察结果是不是循环的。作者最开始研究这写attention heads是因为它们具有大于随机概率的K-composition。但是在此情况下，作者发现K-composition创建了一个矩阵，该矩阵非常倾向于正的特征值。但是，没有任何理由表明一个大的K-composition会是一个正的K-composition。也没有任何理由支持OV数据流程应该是正的。但是，如果实现的算法是按照前文所述的用于实现induction的算法来实现的，这种结果却是作者所希望的。

方程中各个项的重要性分析

在本文较前部分，作者忽略了所有“virtual attention head”在方程中对应的项，因为作者没有观察到任何显著的V-composition。虽然这看起来可能是对的，但是可能会犯错。特别是，虽然每个单独的virtual attention head都不重要，但从总体上来看它们很重要。本节将描述一种使用消融技术进行双重检查的方法。

通常，当我们在神经网络中消融某些东西时，会消融在激活操作中明确表示的东西。可以通过乘以零来实现消融。但是在这种情况下，会试图去消融一个只有在方程展开时才会存在的隐式项。可以通过尝试运行方程所描述的transformer来做到这一点，但是这会非常慢，并且当研究更深的模型时会变得更糟。

但是事实证明，有一种算法可以确定消融n阶项（即，对应于通过具有n个attention heads的V-composition的路径的项）的边际效应。该算法的关键技巧是多次运行模型，将当前的激活操作替换为之前运行模型时的激活操作。这允许限制路径的深度，消融所有阶数大于该深度的项。然后通过对比每次消融时观测到的损失之间的差异，可以得到n阶项的边际效应。

测量n阶项边际损失率的算法
第一步：运行模型，保存所有注意力模式。
第二步：运行模型，强制所有注意力模式都是所记录的版本，而不是将attention head的输出添加到residual stream中；保存输出，并用形状相同的0tensor替换输出。记录产生的损失。
第n步：运行模型，强制所有注意力模式为所记录的版本，而不是将attention head的输出添加到residual stream中；保存输出，并用该head最后一次所保存的值来替换输出。记录产生的损失。
值得注意是，将注意力模式冻结为真值可以使这种消融仅针对V-composition。尽管在某种程度上这是最简单的，专注于OV数据流程的算法，但是该算法的变体也可以用于隔离Q-composition或K-composition。

正如V-composition结果表明的那样，二阶“virtual attention head”项在模型中的边际效应非常小。（尽管它们很可能在其它模型，尤其是更大的模型中更为重要）。

作者得出的结论：为了理解two-layer attention only models，不应该优先理解二阶“virtual attention head”，而是关注直接路径（只有助于双元统计）和单独的attention head项。（这与Q-composition和K-composition无关；OV数据流程中更高阶的项是无关紧要的，仅仅排除了V-composition的重要性。Q-composition和K-composition对应了每个head中的QK数据流程中的项。）

我们可以将这些单独的attention head项进一步细分为第1层和第2层中的那些：

上述内容表明了需要关注second layer head项。

Virtual Attention Heads

尽管virtual attention heads被证明对于理解two-layer model的性能并不重要，但是作者推测它们在更大、更复杂的transformers中可能会更为重要。而且，它们在理论上看起来非常优雅。

virtual attention heads在logit方程的扩展路径中是形式为 $A_{h2}A_{h1})⊗(...W_{OV}^{h_2}W_{OV}^{h_1}...)$ 的项，对用两个heads的V-composition。

关于virtual attention heads，有两件事值得注意。

首先，这种composition看起来性能非常好。作者在实验中经常可以观测到heads的注意力模式关注到前一个token，但是并没有heads的注意力模式向后关注两个tokens，这也许是因为从后两个tokens得到的任何有用的预测能力都是通过virtual heads获取的。注意力模式也能够实现更抽象的事情，例如关注当前子句的开头或句子的主语 - composition实现了诸如‘关注前一个子句的主题’之类的功能。

Q-composition和K-composition影响注意力模式，V-composition创建了上述方程中的项，这些项实际上作为一种独立单元运行，逐个第执行每个head的运算。最终得到的结果对象最好认为是heads的组成部分： $h_2∘h_1$ 。得到的结果对象有自己的注意力模式： $A^{h_2∘h_1}=A^{h_2}A^{h_1}$ ，其属于自己的OV矩阵为 $W_{OV}^{h_2∘h_1}=W_{OV}^{h_2}W_{OV}^{h_1}$ 。在更深的模型中，原则上可以有更高阶的virtual attention heads，(例如 $h_3∘ h_2∘h_1$ )。

其次，有大量的virtual attention heads。正常heads的数目按照层的数目线性增长，而基于two-heads composition的virtual heads的数目是呈二次增长的，three-heads呈立方增长，以此类推。这就意味着，在理论上模型可能有更多的空间通过virtual attention heads来获取有用的预测能力。这一点特别重要，因为在某种意义上，正常的注意力头是“很大的”。head有一个单独的注意力模式，决定它关注哪个源tokens，以及从源token复制到目标token的 $d_{head}$ 维度。这使得它在不需要传递太多信息的直观“小”任务中使用起来很笨拙，例如，关注前面的代词来确定文本是第几人称，或者关注时态标记来检测文本是过去、现在，还是将来时。

至此本文取得了哪些进展？

在前面的几节中，我们在理解one-layer attention-only transformers和two-layer attention-only transformers方面取得了进展。但我们的最终目标是了解一般的transformers。这项工作真的让我们更接近目标了吗？这些特殊的、有限的案例真的能解释普遍的问题吗？作者将在后续工作中探讨这个问题，但作者的总体感觉是认为上述问题的答案是肯定的，这些方法可以用于理解通用transformers的部分内容，包括大型语言模型。

一个原因是，普通的transformers包含一些似乎是primarily attentional的数据流程。甚至在MLP层存在的情况下，attention heads仍然在residual stream上工作，并且仍然可以与各个attention heads和嵌入直接交互。而且在实际中，作者发现了仅涉及attention heads和嵌入的可解释数据流程的实例。尽管作者现在可能无法理解整个模型，但可以很好地对这些部分进行逆向工程。

实际上，作者在一些大模型中发现了一些与其在toy models中所研究的类似的attention heads和数据流程。特别的，作者发现了大模型形成了许多induction heads，并且这些构建这些heads的基础构建模块是具有一个前向token head的K-composition，正如作者在本文中所述的那样。这似乎是各种规模的语言模型中上下文学习的核心驱动力，也是作者下一篇文章的主题。

AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc