黑洞是不黑

A Mathematical Framework for Transformer Circuits—Part (1)

A Mathematical Framework for Transformer Circuits

前言
Summary of Results
- REVERSE ENGINEERING RESULTS
- CONCEPTUAL TAKE-AWAYS
Transformer Overview
- Model Simplifications
- High-Level Architecture
- Virtual Weights and the Residual Stream as a Communication Channel
- - VIRTUAL WEIGHTS
  - SUBSPACES AND RESIDUAL STREAM BANDWIDTH
- Attention Heads are Independent and Additive
- Attention Heads as Information Movement
- - OBSERVATIONS ABOUT ATTENTION HEADS

最近看到了一篇文章，从数学角度对Tranformer进行解读的文章《A Mathematical Framework for Transformer Circuits》，文章以结构较为简单的Transformer为例，通过对其进行逆向工程来实现数学层面的解析，并逐步推广至复杂结构的Transformer，很有启发性，特此记录。
主要是关于三个部分，【一种新的观点方式】

Zero layer transformers

One layer attention-only transformers

Two layer attention-only transformers

主要为翻译，但不全是，有笔者自己的理解与解释。

前言

在本文中，我们试图对逆向工程变压器采取非常简化的步骤。鉴于现代语言模型令人难以置信的复杂性和规模，我们发现从尽可能简单的模型开始并从那里开始工作是最有成效的。我们的目标是发现简单的算法模式、图案或框架，这些模型、图案或框架随后可以应用于更大、更复杂的模型。具体来说，在本文中，我们将研究只有注意力块的两层或两层以下的变压器——这与GPT-3这样的大型现代变压器形成鲜明对比，GPT-3有96层，并将注意力块与MLP块交替使用。

我们发现，通过以一种新的但数学等效的方式概念化变压器的运行，我们能够理解这些小模型，并深入了解它们在内部的运行方式。特别值得注意的是，我们发现，我们称之为“感应头（induction heads）”的特定注意力头可以解释这些小模型中的上下文学习，而这些头只在至少有两个注意力层的模型中发展。我们还浏览了一些这些负责人对特定数据采取行动的例子。

在第一篇论文中，我们不试图将我们的见解应用于更大的模型，但在即将发表的一篇论文中，我们将表明，我们理解变压器的数学框架和感应头的概念，仍然至少部分地与更大、更现实的模型相关——尽管我们离能够完全反向工程此类模型还有很长的路要走。

Summary of Results

REVERSE ENGINEERING RESULTS

先来看本文主要结论
为了探索逆向工程 transformers 面临哪些挑战，研究者对几个 attention-only 的 toy 模型进行了逆向功能。

零层 transformers 模型的二元统计。研究者发现，二元表可以直接通过权重访问。
单层 attention-only transformers 是二元和 skip 三元模型的集合。同零层 transformers 一样，二元和 skip 三元表可以直接通过权重访问，无需运行模型。这些 skip 三元模型的表达能力惊人，包括实现一种非常简单的上下文内学习。
两层attention-only transformers是使用注意力头的组合来实现更复杂的算法。这些组合算法也可以直接从权重中检测到。值得注意的是，两层模型使用注意头组合来创建“感应头”，这是一种非常通用的上下文学习算法。
一层和两层attention-only transformers使用非常不同的算法来执行上下文学习。两层注意力头使用质量上更复杂的推理时间算法——特别是我们称之为感应头的特殊类型的注意力头——来执行上下文学习，形成一个与大型模型相关的重要过渡点。

CONCEPTUAL TAKE-AWAYS

我们发现，变压器架构的许多微妙细节要求我们以与InceptionV1 Circuits work
Thread: Circuits (作者之前的工作) 截然不同的方式进行逆向工程。我们将在下面的部分中解开其中的每一点，但现在简要总结一下。一旦进入具体的每部分，作者还将扩展在这里介绍的许多术语。

注意头可以理解为独立的操作，每个操作都输出一个结果，该结果被添加到残差流中。为了计算效率，注意头通常用替代的“concatenate and multiply”公式来描述，但这在数学上是等价的。
只注意的模型可以写成可解释的端到端函数的总和，将token映射到logits的变化。这些函数对应于通过模型的“路径”，如果冻结注意力模式，这些函数是线性的。
变压器具有大量的线性结构。只需拆分和并将矩阵链相乘，就可以学到很多东西。
注意头可以理解为有两个在很大程度上独立的计算：一个是计算注意力模式的QK（“查询键”）通路，一个是计算每个token在关注时如何影响输出的OV（“输出值”）通路。
键、查询和值向量可以被认为是低秩矩阵 $W_Q^TW_K,W_OW_V$ 计算的中间结果，不提到它们也可描述transfromer。
注意力头的组合大大增加了transformer的表达能力。有三种不同的注意力头组成方式，对应于键、查询和值。键和查询组合与值组合非常不同。
transformer的所有组件（the token embedding, attention heads, MLP layers, and unembedding）通过读取和写入残差流的不同子空间相互通信。与其分析残差流向量，不如将残差流分解为所有这些不同的通信通道，对应于通过模型的路径。

Transformer Overview

在我们尝试逆向工程transfromer之前，简要回顾一下transfromer的高级结构并描述下对它们的看法。

在许多情况下，我们发现以等效但非标准的方式重构变压器是有帮助的。机械可解释性要求我们将模型分解为人类可解释的部分。重要的第一步是找到表示形式，这样更容易对模型进行推理。在现代深度学习中，有充分的理由！非常强调计算效率，我们对模型的数学描述往往反映了如何编写高效代码来运行模型的决定。但是，当有许多等效的方法来表示相同的计算时，最人性化可解释的表示和最高效的表示可能会有所不同。

回顾transformer还将让我们在术语上保持一致，这些术语有时会有所不同。在这个过程中，我们还将介绍一些符号，但由于这个符号在许多章节中使用，我们在符号附录中提供了所有符号的详细描述，作为读者的简明参考。

Model Simplifications

为了以最干净的形式展示本文中的想法，作者专注于“toy transformer”，并进行了一些简化。

toy 类似一个大楼和一个大楼的模型，很形象的描述

在本文的大部分内容中，作者将做出非常实质性的改变：只专注于没有MLP层的“attention-only”Transformer。这么做的一部分原因是具有attention heads的数据流程提出了蒸馏数据流程（Distill circuits work）从未面临的问题，而且单独考虑具有attention heads的数据流程能够使作者更为优雅地处理这些问题。

High-Level Architecture

本文作者主要研究自回归的decoder-only transformer 语言模型。

Transformer模型可分为三部分：token embedding，一组residual blocks，token unembedding。其中，每个residual block由一个attention层和MLP层按序组成。attention层和MLP层均通过线形投影从residual stream中“读取”其输入，然后通过添加一个线形投影将其结果“写入”到residual stream。每个attention层由多个并行执行的heads组成。Transformer的高层架构图如图1. 所示。

Virtual Weights and the Residual Stream as a Communication Channel

在Transformer的高层架构图中可知，（上图很清晰了）每一层都将其输出的结果添加到“Residual Stream”，Residual Stream仅是其前面所有层的输出和原始embedding的加和。因为Residual Stream不会对其自身进行处理，并且所有层都通过其进行通信，所以作者将其视为一个通信通道。

Residual Stream是一个深度线形结构。在Residual Stream起始阶段，每一层都通过执行一个任意的线性转换来从residual stream中“读取”信息，此外，在执行加法操作前，每一层都通过执行另一个任意的线性转换来将其输出“写入”到residual stream中。Residual Stream这种线性、累加结构具有很多重要的意义。其中一个基础的意义就是residual stream没有“privileged basis”，可以通过轮换所有与residual stream交互的矩阵来轮换residual stream，并且模型的行为不会被改变。

residual stream就是指从embed—>unembed的直接过程，而不经过任何block。原文有个很可爱的小图。
作者在这里特别强调了线形结构，在神经网络结构中完全线性的Residual Stream是极其不寻常的，即使是ResNet这种被广泛使用的、与Residual Stream最为相似的网络结构，也在其Residual Stream结构上，或访问Residual Stream的数据时使用了非线性激活函数。
Residual Stream结构中忽略了每一层开始时的层归一化，但是由于层归一化是由一个常数标量决定的，所以层归一化是一个常数仿射变换，并且可以合并至线性变换。

VIRTUAL WEIGHTS

Residual Stream是线性的一个特别有用的结果，即可以认为隐式的虚拟权重可以在residual stream中通过乘法操作得到两个层的交互，以此直接连接任意两个层，即使两个层之间隔着多个层。虚拟权重是一个层的输出权重与另一个层的输入权重的乘积，通过这种方式描述了后一层（被指向层）读入由前一层（指向层）写入的信息的程度。

SUBSPACES AND RESIDUAL STREAM BANDWIDTH

residual stream是一个高维度的向量空间。在小模型中可能是数百个维度；在大模型中可以达到数万。这意味着Residual Stream结构中的层可以通过将信息存储在不同的子空间来将不同的信息发送至不同的层。这一点在attention heads中极其重要，因为每个独立的head在相对较小的子空间上运行（通常是64或128维），在heads之间不发生交互的情况下可以很容易地将信息写入完全不相交的子空间。

一但信息写入到了某个子空间中，信息就会一直存储在该子空间，直到另一个层主动删除该信息。从这个角度来看，redidual stream的维度就像“内存”或“带宽”。原始的token embeddings和unembedding主要和redidual stream维度中相对小的一部分交互。这就留下了大多数维度来存储其他层的信息。

Residual Stream带宽通常应该较大。因为Residual Stream带宽中有更多的“计算维度”，例如，神经元和attention head结果维度，远多于用于移动信息的维度。仅是一个单独的MLP层，其神经元的数目是residual stream维度的四倍。因此，例如在一个50层transformer中的第25层中，residual stream中神经元数目是其之前维度的100倍，并且尝试与数目是其之后维度100倍的神经元进行通信，可能采用叠加方式进行通信。作者将这类tensor称为“bottleneck activations”，并且认为对其进行解释非常具有挑战性。这就是作者尝试以虚拟权重的方式将residual stream中发生的不同通信streams分开而不是直接研究这些通信streams的主要原因。

也许是因为对residual stream带宽的高需求，作者观察到一些迹象表明，某些MLP神经元和attention heads可能会担任一种“记忆管理”（“memory management”）的角色，通过读入信息和写出负面信息来清除其它层设置的residual stream维度。

一些MLP神经元的输入权重和输出权重之间具有负的余弦相似度，这可能表明这些神经元将从residual stream中删除信息。类似地，一些attention heads在其 $W_OW_V$ 矩阵中具有较大的负特征值，并且主要关注当前token，这些attention heads可能作为删除信息的一种机制。值得注意的是，尽管这些可能是“记忆管理”（“memory management”）删除信息的通用机制，但是它们也可能是有条件地删除信息的机制，仅在某些条件下运行。

Attention Heads are Independent and Additive

如上文所述，作者认为Transformer的attention层是一些完全独立的attention heads $h\in H$
组成（这点其实不难理解，跟一般的MSA认知一致），这些heads 完全并行的运行，并且每个head都将其输出添加会residual stream。但这并不是Transformer层的典型呈现方式，而且它们的等价性并不明显。

先来看普遍认知的结构，nlp和cv其实都一致

在Transforer的原始文献中[2]，attention层的输出表示为堆叠的向量 $r^{h_1},r^{h_2},...$ 和输出矩阵 $W_O^H$ 的乘积。如果为每个head将 $W_O^H$ 分割为尺寸相等的多个块，那么可以得到如下公式 $W_{O}^{H}\left[\begin{array}{c} r^{h_{1}} \\ r^{h_{2}} \\ \ldots \end{array}\right]=\left[W_{O}^{h_{1}}, W_{O}^{h_{2}}, \ldots\right] \cdot\left[\begin{array}{c} r^{h_{1}} \\ r^{h_{2}} \\ \ldots \end{array}\right]=\sum_{i} W_{O}^{h_{i}} r^{h_{i}} \tag{1}$ 公式（1）揭示了将 $W_O^H$ 拆分后等价于独立地执行各个heads，将每个head乘以各自的输出矩阵，并将结果添加至residual stream。在实现上述公式时，拼接定义通常是首选，因为能够生成一个更大、计算效率更高的矩阵乘法。但是为了从理论上理解Transformers，作者在此更倾向于将其视为独立的加法。[we prefer to think of them as independently additive.]

Attention Heads as Information Movement

如果各个attention heads独立地运行，那么它们将会产生什么样的效果？attention heads的基本行为是移动信息。它们从一个token的residual stream中读取信息，然后将其写入到另一个token的residual stream。从这一章节中得到的主要观察结果是：从其中移动信息的那些tokens，与将被移动的“读取”到的信息以及如何“写入”到目的地是完全分开的。

为了验证这一点，需要以非标准的方式实现attention。给定一个注意力模式，计算attention head的输出通常分为如下三步：

从residual stream中为每个token计算value向量 $v_i = W_Vx_i$
依据注意力模式，通过线性组合value向量来计算“结果向量” $r_i = \sum A_{i,j}v_j$
最后，为每个token计算head的输出向量 $h(x)_i=W_Or_i$

如前文所述，输出矩阵的乘法通常实现为应用于所有heads结果的拼接的一个矩阵乘法，与上述步骤是等效的。

上述的每一步都可以通过矩阵乘法实现，但是作者并未将上述步骤合并为一个步骤，原因如下。

假设 $x$ 是一个 2d 矩阵，由表示每个token的向量组成，并且将在不同的边相乘。 $W_V$ 和
$W_O$ 乘以“表示每个token的向量”（“vector per token”）的边【该边的每个元素表示一个token】，A乘以“位置”（“position”）的边。Tensors能够提供更为自然的一种语言来描述矩阵之间的这种映射关系。将计算attention head输出分为三步的一个动机是可能有助于作者表达矩阵到矩阵之间的线性映射: $[n_{context}, d_{model}]\to [n_{context}, d_{model}]$ 。数学上称这种线性映射为“(2,2)-tensors”【其实也就和transformer block中的输入输出】。也因此，tensors自然是描述这种变换的语言。

后面会用到一些张量积的表示 Tensor Product / Kronecker Product Notation $\otimes$
记住就好，定义而已
乘积符合混合乘积性质： $(A\otimes B)(C\otimes D)=AC\otimes BD$
Left-right multiplying：将 x 乘以一个张量积 $A \otimes W$ 等价于同时左乘、右乘： $A⊗W)x=AxW^T$ 。当将它们相加时，等同于将乘积的结果进行相加： $A_1⊗W_1+A_2⊗W_2)x=A_1xW_1^T+A_2xW_2^T$

使用张量积可以将使用注意力的过程描述为：

What about the attention pattern?
注意力模式：通常计算keys $k_i=W_Kx_i$ ，计算queries $q_i=W_Qx_i$ ，通过每个key向量和query向量的点积计算注意力模式 $A=softmax(q^Tk)$ 。也可以不引入key和query直接计算 $A=softmax(x^TW_Q^TW_Kx)$ .

尽管这个公式在数学上是等价的，但是实际中如果采用这种方式实现注意力，例如，乘以 $W_OW_V$ 或 $W_Q^TW_K$ ，其计算效率极低。

OBSERVATIONS ABOUT ATTENTION HEADS

作者以上述方式重写了attention head，这么做可以揭示出许多以前难以观察到的结构：

Attention heads将信息从一个token的residual stream移动到另一个token的residual stream。
- 由此可得到一个推论：residual stream向量空间通常被解释为“上下文词嵌入”（“contextual word embedding”），其通常具有与从其它tokens复制的信息相对应的线性子空间，而不是直接与当前token有关。
一个attention head实际上是采用了两个线性操作，A和 $W_OW_V$ ，它们操作不同的维度并且独立地运行，
- A 控制token的信息从哪个token移动哪个token。
- $W_OW_V$ 控制从源token中读取哪些信息，以及如何将其写入目标token。

当移动信息时， $W_{OV}=W_OW_V$ 管理attention heads从哪个residual stream子空间读写。通过奇异值分解 $USV=W_{OV}$ 可以很好地理解这一观点。由于 $d_{head} < d_{model}$ ， $W_{OV}$ 是低秩的，并且S中只有对角线的一个子集是非零的。右边的奇异向量 V描述了被关注的residual stream中哪个子空间被“读入”（以某种方式存储为value向量），而左奇异向量 U描述了被“读入”的子空间被“写入”到目标residual stream的哪个子空间中。

A这个等式中唯一的非线性部分（由softmax计算得到）。这就意味着如果固定这个注意力模式，attention heads将执行线性操作。这也意味着，在不固定 A 时，attention heads在某种意义上是“半线性”的，因为每个token的线性操作时恒定的。
$W_Q$ 和 $W_K$ 通常一起被应用，从不是独立的。同样， $W_O$ 和 $W_V$ 也通常一起被应用。
- 尽管它们被参数化为单独的矩阵，但是 $W_Q^TW_K$ 和 $W_OW_V$ 总是可以被认为是单独的低秩矩阵。
- Keys，queries以及alue向量在某些意义上是肤浅的。它们是计算这些低秩矩阵的中间副产品。人们可以很容易地重新参数化低秩矩阵的两个因子以创建不同的向量，但是仍然保持功能不变。
- 因为 $W_Q^TW_K$ 和 $W_OW_V$ 总是一起被应用，所以作者定义了表示这些组合矩阵的变量， $W_{OV}=W_OW_V$ 和 $W_{QK}=W_Q^TW_K$ 。
观察attention heads的乘积发现，乘积的行为和attention heads自身很像。根据分配率，
$A^{h_2}⊗W_{OV}^{h_2})⋅(A^{h_1}⊗W_{OV}^{h_1})=(A^{h_2}A^{h_1})⊗(W_{OV}^{h_2}W_{OV}^{h_1})$ 。这个乘积的结果在作用上可以视为一个attention head，其注意力模式是由两个heads $A^{h_2}A^{h_1}$ 和一个输出值矩阵 $W_{OV}^{h_2}W_{OV}^{h_1}$ 组成。作者将这些称为“虚拟注意力头”，稍后将进行更深入的讨论。

至此前言结束，下面就是分析每种模式

AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74825656 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文