黑洞是不黑

A Mathematical Framework for Transformer Circuits—(二)

A Mathematical Framework for Transformer Circuits

Zero-Layer Transformers
One-Layer Attention-Only Transformers
- The Path Expansion Trick
- Splitting Attention Head terms into Query-Key and Output-Value Circuits
- - OV和QK的独立性（冻结attention模式技巧）
- Interpretation as Skip-Trigrams
- - 复制/原始的上下文学习
  - OTHER INTERESTING SKIP-TRIGRAMS
  - PRIMARILY POSITIONAL ATTENTION HEADS
  - SKIP-TRIGRAM "BUGS"
- Summarizing OV/QK Matrices
- - 检测复制行为
- Do We "Fully Understand" One-Layer Models?

Zero-Layer Transformers

接上集

在转向更复杂的模型之前，简要考虑一下“zero-layer”变压器是有用的。zero-layer模型以token为输入，对其进行嵌入、去嵌入处理，以此生成用于预测下一个token的logits：
$T=W_UW_E$
因为模型无法从其它tokens中移动信息，所以作者仅从当前token预测下一个token。这意味着 $W_UW_E$ 的最优行为是模拟二元对数似然。

这与2014年Levy & Goldberg的观察结果类似，即许多初始阶段产生的词嵌入可以看作是一个对数似然矩阵的矩阵分解。

上述内容与更普遍的Transformer有关。 $W_UW_E$ 形式的计算项将出现在每个transformer的扩展形式的方程中，与“直接路径”对应。在“直接路径”中，一个token embedding直接沿着residual stream向下流动至unembedding【token embedding经过计算生成token unembedding】，而不经过任何层。它唯一能影响的是二元对数似然。由于模型的其它部分将预测二元对数似然的某些部分，所以 $W_UW_E$ 不会精确地表示较大模型中的二元统计，但是它确实表示一种“残差”（“residual”）。特别是，计算项 $W_UW_E$ 似乎通常有助于表示没有被更通用的语法规则描述的二元统计，例如，“Barack”后面经常出现“Obama”。

One-Layer Attention-Only Transformers

One-Layer attention-only transformers可以理解为一个二元模型和几个“skip-trigram”模型的一种集合（影响序列“A…BC”的概率）。直观地说，这是因为每个注意力能够选择性地从当前token（“B”）关注到前一个token（“A”），并且从前一个token（“A”）复制信息用以调整可能出现的下一个token（“C”）的概率。

本节的主要目的是严格的展示这种对应关系，并演示如何将一个transformer的原始权重转换为可解释的skip-trigram概率调整表。

The Path Expansion Trick

one-layer attention-only transformer由一个token embedding，attention layer（该层独立地使用attention heads），以及一个unembedding按序组成：

利用张量符号和之前推导出的attention heads的可替代表示，将transformer表示为一个三项式的乘积。

扩展路径的关键技巧是以一种简单的方式来扩展乘积。扩展方式是将乘积（图2公式中每个term对应图2中的一个层）转换为求和，即每个term对应一条端到端路径。如下图所示。

作者认为这种端到端路径中的每个term都易于理解，并且每个term都可以独立地被推理出来，此外还可以相加组合以创建模型行为。

图3中的“Direct path”term， $Id\otimes W_UW_E$ 在研究zero-layer transforer时也出现了。由于其不会在位置之间移动信息（ $Id\otimes ...$ 说明这一特性），因此其只能实现二元统计，并且填补其他terms无法在此处处理的缺失空白。

更有意思的terms是注意力头terms。

Splitting Attention Head terms into Query-Key and Output-Value Circuits

每个attention head h都可以表示为term $A^h\otimes W_UW_{OV}^hW_E$ ，其中 $A^h=softmax(t^TW_EW_{QK}^hW_Et)$ 。下面将说明这些terms是如何与模型行为对应的，以及当按照这些terms与模型行为的对应关系去做时，为什么会在方程中得到这些特殊的矩阵乘积。

值得关注的是，这些terms由两个可分离的操作组成，这两个操作在terms的两个核心矩阵 $n_{vocab},n_{vocab}]$ 中：

$W_EW_{QK}^hW_E$ ，该矩阵为“query-key (QK)数据流程”。它为每个query token和key token计算attention分值。也就是每个attention分值描述了一个给定的query token对一个给定的key token的关注程度。
$W_UW_{OV}^hW_E$ ，该矩阵为“Output-Value (OV)数据流程”。它描述了关注一个给定的token是如何影响output logits的。

为了直观地理解这些乘积，可以将这些乘积视为贯穿模型的路径，tokens是起点和终点。QK数据流程是通过跟踪一个query vector和一个key vector从开始直到attention head的计算构建的，在attention head二者通过点积运算生成一个双线性形式。OV数据流程是通过跟踪计算一个值vector，直至得到logits的路径构建的。

attention 模式是源token和目标token的函数，但是一旦目标token已经决定了对源token的关注程度，那么对output的影响仅是该源token的函数。也就是说，如果多个目标tokens对同一个源token的关注程度都相同，那么该源token对预测output token的logits具有相同的影响。

从技术上讲，attention 模式是一个从开始位置到某一个给定目标token的所有可能的源tokens的函数，因为softmax通过QK数据流程计算每个可能的源token与该给定的目标token的attention分值，然后对attention分值取幂、归一化。

OV和QK的独立性（冻结attention模式技巧）

分开思考OV和QK数据流可能非常有用，因为它们都是我们可以理解的单独函数（在我们理解的矩阵上操作的线性或双线性函数）。

但独立思考它们真的是有原则的吗？为了验证独立分析二者的效果，作者设计一个实验，运行模型两次。

第一次，采集每个head的attention模式。这仅依赖于QK数据流程
第二次，将attention模式替换为第一次采集的“冻结”了的attention模式。这就得到了一个logits是tokens的线性函数的函数。

???

经过作者验证，上述方法是分析transformer的一个非常有效的方法。

Interpretation as Skip-Trigrams

对tranformer进行机械式解释的核心挑战之一是通过上下文语义化使神经网络参数有意义。作者通过将OV数据流程与QK数据流程相乘做到这一点：神经网络参数成为了tokens上的简单线性或双线性函数。QK数据流程决定了当前目标token返回到哪个源token并从中复制信息，而OV数据流程描述了对用于预测下一个token的“输出”产生的影响。综上，所涉及的这三个tokens构成了一个形式为 [source]…[destination][out]的“skip-trigram”，并且更新了“out”。

值得注意的是，上述内容不能说明对tranformer进行机械式解释的工作很轻松。一方面，生成的结果矩阵非常庞大（作者的词汇表约50000个tokens，因此，一个单独扩展的OV矩阵具有25亿个attention分值）；作者将one-layer attention-only model揭示为一个压缩的汉语空间，并且遗留下大量的卡片。在理解作用于相关变量的广义线性模型的权重和变量之间的可替代性时，也会遇见一些常见的问题。例如，一个attention head的权重可能为零，因为另一个attention head将关注同一个token并执行与其一致的功能。最后，还存在一个技术问题，即不同query向量之间的QK权重不具有可比性，并且对于如何规范化不同query向量的QK还没有明确的方法。

尽管存在上述问题，但是作者仍然构建了一个transformer，其所有参数都是上下文语义化且易于理解的。尽管存在这些细节问题，但是作者可以简便地通过关联OV矩阵和QK矩阵来读取skip-trigrams。特别地，在这些矩阵中搜索大的attention分值会发现许多有趣的行为。

在后续小节中，作者详细介绍了一些有趣的skip-trigrams，以及它们是如何嵌入到QK/OV数据流程中。

这里有两个实例，就不展示了，可以看原文中的链接。

复制/原始的上下文学习

查看这些矩阵时最引人注目的是，在one-layer模型中大多数attention heads将其很大一部分容量用于复制。OV数据流程设置完成之后，会增加tokens中被attention head关注的token的概率，同时以较小的幅度增加类似tokens的概率。然后，QK数据流程只处理可能成为下一个token的tokens。因此，tokens只会被复制到在二元统计中它们看起来更为合理的地方。如图所示。

请注意，这些示例中的大多数都是复制的；这似乎很常见。

作者还观察到一些更为微妙的复制行为。其中一个特别有趣的行为与transformer中分词功能通常是如何工作的有关。分词器通常将空格合并到单词的开头。但是，有时一个词会出现在其前面没有空格的上下文环境中，例如在新段落的开头，或一对对话的结束。由于这些情况很少见，因此并没有针对它们优化分词功能。因此，对于不太常见的单词，当它们前面有空格时，通常将它们和空格映射为一个token，当它们面前没有空格时，就对其进行拆分。例如，(" Ralph"-> [" Ralph"])，(“Ralph”-> [“R”, “alph”])。

Skip-trigram attention分值以上述这种方式处理复制的单词。实际上，有时候会观察到attention heads中的一部分会专注于处理拆分为两个没有空格的tokens的单词的复制。当这些attention heads观察到一个碎片化的token(例如，“R”)时，它们会回溯到可能带有空格的完整单词的tokens上(" Ralph")，然后预测后续的内容(“alph”)。有趣的是，上述情况可以认为是一种非常特殊的情况，一个one-layer模型能够在某种程度上模拟在two-layer模型中出现的感应heads（induction heads）。

作者将复制行为归纳为几个抽象的模式，如图。

图中的内容可以看作是一种非常原始的语境学习。Transformer适应其所处语境的能力是它们最有趣的特征之一，而这种简单的复制行为是它的一种非常基本的形式。但是，当作者研究two-layer transformer时，发现了可用于更深的transformers的更为有趣和更为强大的语境学习算法。

OTHER INTERESTING SKIP-TRIGRAMS

当然，复制并不是这些注意力头编码的唯一行为。

skip-trigrams似乎微不足道，但实际上可以产生比人们预期的更复杂的行为。作者接着又列举了在查看他们模型的扩展OV/QK矩阵中最大entries时发现的一些特别引人注目的skip-trigrams示例。

看原文吧

有一点需要注意的是，学到的skip-trigrams通常与token化的特质有关。例如，将空白处折叠在一起允许单个tokens显示缩进。不将反斜杠合并到文本tokens中意味着当模型预测LaTeX时，反斜杠后有一个token必须是转义序列。等等。

如果没有特定的知识，许多skip-trigrams可能很难解释（例如Israel … K → nes只有当你知道以色列( Israel’s)的立法机构被称为“议会”(“Knesset”) 时，K → nes才有意义。一个有用的策略是尝试在谷歌搜索（或类似工具）中键入潜在的skip tri-grams，并查看自动完成。

PRIMARILY POSITIONAL ATTENTION HEADS

作者对attention heads 的处理没有讨论attention heads是如何处理位置的，主要是因为现在有几种处于互相竞争关系的方法，这会增加作者所列出公式的复杂度。在标准位置嵌入的情况下，one-layer模型的数学计算结果是将 $W_{QK}$ 乘以位置嵌入。

在实际中，one-layer模型倾向于具有少量主要是位置相关的，并且特别偏好特定位置的attention heads。在图中，作者展示了一类attention head，该attention head要么关注当前token，要么关注前一个token。

SKIP-TRIGRAM “BUGS”

研究one-layer transformers中扩展的QK矩阵和OV矩阵，可以通过它们揭示从外部看来难以理解的transformer行为。

作者研究的one-layer模型以分割点在OV矩阵和QK矩阵之间的“因式分解形式”表示skip-trigram。这种表示方式类似于 $f(a,b,c)=f_1(a,b)f_2(a,c)$ 。这种表示方式不能真正灵活地获取这三种交互。例如，如果一个单独的head增加了"keep… in mind"和"keep… at bay"的概率，那么它必须也增加"keep… in bay"和"keep… at mind"。总的来说，这对于模型是一个很好的平衡点，但在某种意义上也是一个错误。作者经常在attention heads中观察到这一点。

尽管这些特定的错误在某种意义上似乎微不足道，但我们对这一结果感到兴奋，这是使用可解释性来理解模型失败的早期演示。作者没有进一步探索这种现象，但很想更详细地这样做。例如，我们可以描述这些“错误”给模型造成了多少性能（loss或其他方面）的损失程度吗？这个特定类别是否在某种程度上在更大的模型中继续存在（大概是部分，但不完全被其他效果掩盖）？

Summarizing OV/QK Matrices

到此为止，我们已经将理解one-layer attention-only transformers的问题转换为理解其扩展OV矩阵和QK矩阵的问题。但是如前文所述，扩展的OV矩阵和QK矩阵非常庞大，通常具有数十亿个元素（attention分值）。虽然搜索最大的元素很有趣，但是有没有更好的办法来理解它们呢？至少有三个理由可以期待更好的办法：

OV矩阵和QK矩阵是极低秩的。例如，它们是 50000×50000
的矩阵，但是其秩只有 $d_{head}$ （64或128）。在某种意义上，尽管它们的展开式看起来很大，但是它们很小。
查看单独的元素通常会发现结构更为简单的暗示。例如，作者观察一个head，在这个head中人名都有像"by"这样的热门查询。例如，“Anne… by → Anne”，而位置名都有像"from"这样的热门查询，例如，“Canada… from → Canada”。这暗示了矩阵中某些类似簇结构的东西。
复制行为在 OV 矩阵中很普遍，可以说是最有趣的行为之一。（作者将在后续内容进行介绍，因为two-layer模型中有类似的QK矩阵结构，用于搜索与query相似的token。）似乎可以将其规范化。

虽然目前还没有一个明确的答案，但是作者乐观地认为，正确的矩阵分解或矩阵降为可能会提供大量信息。（有关如何有效使用这些大型矩阵的说明，请参阅作者原文的技术细节附录。）

检测复制行为

作者最想通过自动方式检测到复制行为。由于复制行为基本上是将相同的向量映射到自身（例如，让一个token增加自己的概率），因此复制行为似乎非常容易在某种汇总统计数据中被捕获。然而，很难确定复制行为的正确概念是什么；这是因为有许多具有细微差别的方法可以划定某事物是否是一个“复制矩阵”的界限，而作者还不明确最有用的方法是什么。例如，作者没有在该篇文章讨论的模型中观察到复制行为，但是在稍大一些的模型中，作者经常可以观察到attention heads从附近的单词中“复制”了一些性别、复数和时态的混合，以此帮助模型使用正确的代词和共轭动词。这些attention heads的矩阵并不完全复制单个tokens，而是在某种非常有意义的含义上进行复制。所以，“复制”实际上是一个比它最初看起来更加复杂的概念。

一种自然的方法可能是使用特征向量和特征值。当 $Mv_i=λ_iv_i$
时， $v_i$ 是特征值为 $λ_i$ 的矩阵M的一个特征向量。当 $λ_i$ 是一个正实数时，可以探究这对OV数据流程 $M=W_UW_{OV}^hW_E$ 意味着什么。然后我们假设有一个tokens的线性组合，它增加了这些相同tokens的logits的线性组合。

粗略来讲，可以将其视为一组互相增加自身概率的tokens（也许这些tokens表示一个非常广泛的单词的复数，或者所有以给定第一个字母开头的tokens，或者表示某个单词的不同大写、包含空格的某些精确形式的tokens。）当然，我们希望特征向量内的值有正有负，因而它更像是两组tokens（例如，表示男女单词的tokens，或者表示单复数单词的tokens。），这增加了同一组中其它tokens的概率，并且减少了其它组中那些tokens的概率。

特征分解将矩阵表示为一组上文所述那类的特征向量和特征值。对于一个随机矩阵，我们期望其有相同数量的正负特征值，其中的大部分是复数。

特征值得到最佳表征，并且与上文所述的期望最为相似的随机矩阵类别是Ginibre矩阵，该矩阵中的元素符合高斯分布，与作者所研究的初始化后的神经网络类似。实值Ginibre矩阵具有正负对称的特征值，在实数上具有额外的概率质量，并且在它们附近具有“排斥性”[8]。当然，在实践中，作者正在处理矩阵的乘积，但依据作者的经验，具有作者随机初始化权重的OV数据流程的特征值分布似乎反映了Ginibre分布。

但是复制操作需要正特征值，而且实际上作者观察到许多attention heads具有正特征值，显然地反映了复制操作的结构，如下图所示。

可以将图中的数据其进一步压缩折叠，获得表示有多少attention heads是执行复制操作（如果特征值作为汇总统计数据是可信的）的直方图。

图中显示12个attention heads中有10个明显是在执行复制操作（这与扩展的权重的定性检查一致。）。

但是，尽管复制矩阵时必须要有正特征值，但是并不清楚是否所有具有正特征值的矩阵都是我们必须考虑要执行复制操作的东西。矩阵的特征向量不一定是正交的，因为允许存在一些不符合常规的例子。

非正交特征向量可能具有不直观的属性。如果尝试用特征向量来表示矩阵，则需要乘以特征向量矩阵的逆矩阵，这与非正交情况下单纯地投影到特征向量上的行为完全不同。

例如，可能存在所有特征值都是正值的矩阵，这些矩阵实际上在映射某些tokens后降低了这些tokens的logits。正特征值仍然意味着矩阵在某种意义上是“平均复制”，尽管从经验上看，并且在默认情况下正特征值似乎不太可能与复制行为一致，但是正特征值仍然是复制行为的有力证据。但是，正特征值不应该合理地被认为是矩阵在所有情况下都执行复制操作的决定性证据。

人们可能会尝试用其他方式形式化“具有复制行为的矩阵”。一种可能的方式是研究矩阵的对角线，对角线上的元素（attention分值）描述了每个token如何影响其自身的概率。正如预期的那样，对角线上的元素非常趋近于正值。我们还可以研究一个随机token增加其自身概率的频率比增加其它token的概率的频率高多少（或者获取概率增加最快的k个tokens，统计这k个tokens中哪些tokens的区别只是具有不同的大小写或空格）。所有这些内容似乎都指向这些attention heads是执行复制操作的矩阵，但是并不清楚上述内容中的任何一个是否是“该矩阵的主要行为是复制”的完全稳健的形式化。值的注意的是，所有这些有关复制操作的潜在概念都与特征值之和等于矩阵的迹、等于对角线之和这一事实有关。

出于本文的目的，作者将继续使用基于特征值的汇总统计量。作者不认为它是完美的，但它似乎是复制行为的有力证据，并且在经验上与人工检查和其他定义一致。

Do We “Fully Understand” One-Layer Models?

人们经常怀疑是否有可能或值得尝试真正对神经网络进行逆向工程。在这种情况下，很容易指向one-layer attention-only transformers并说“看，如果我们采用最简化的toy版本的transformer，至少可以完全理解最小版本。”

但这种说法实际上取决于关于完全理解的定义。在我们看来，我们现在在某种程度上理解这个简化模型与我们可以查看一个巨大的线性回归的权重并理解它，或者查看一个大型数据库并理解查询它的含义相同。那是一种理解。不再有任何算法之谜。神经网络参数的语义化问题已被剥离。但是如果没有进一步的工作来总结它，有太多的东西让人们无法将模型牢牢记在脑海中。

鉴于常规的one layer神经网络只是广义线性模型并且也可以这样解释，因此单个attention层也可能是一个广义线性模型，并且也可以进行解释，那这就不足为奇了。

至此，单层注意力结束

密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理