风月ac

超通俗理解注意力机制的原理与本质——结合日常生活来理解

注意力机制的原理与本质

- 论文的核心公式
- 从淘宝购买出发
- 从购买笔记本的例子到对应公式
- - 1、【查询】
  - 2、【计算相似性】
  - 3、【得到价值】
  - 4、【计算带权重的价值】
  - 5、【总结】
- 公式中提到的dk是什么？
- 计算过程和实现
- - 输入编码
- self-attention总结
- 举例理解
- 加入代码理解
- 三个权重参数问题
- 注意力机制和自注意力机制的差距
- - 注意力机制（Attention Mechanism）
  - 自注意力机制（Self-Attention Mechanism）：
  - 示例：
  - - 注意力机制示例：
    - 自注意力机制示例：
  - 总结：
- 参考
- 理解注意力机制的一些好文章

最近在学习nlp，看了好久Transformer的attention model，总结了一个贴近生活的理解。

论文的核心公式

Q：query（查询）
K： key（键）
V： value（值）
论文中的核心公式与上述三个主要参数有关，那么该怎么理解这个公式呢

从淘宝购买出发

在淘宝的搜索栏中输入关键字“笔记本”，淘宝会跳出各种笔记本，其中一个个的排序就类似于“注意力”，淘宝希望我们把注意力放在它推荐的前几个“笔记本”中，这排名就类似于带权重的价值。

从购买笔记本的例子到对应公式

1、【查询】

我们输入查询(query，Q)，比如"笔记本”

2、【计算相似性】

淘宝后台拿到这个查询Q，并用这个查询Q去和后台的所有的商品的关键字(或者title)(key, K)一一的来对比，找到物品和我们查询的相似性(或者说物品对应的相似性的权重)，相似性越高，越可能推送给我们

3、【得到价值】

并且这个时候还要考虑物品的价值（(value，V)，这个V不是指物品值几块钱，而是这个物品在算法中的价值。如果商家给了淘宝广告钱，或者商品物美价廉，评论好，点赞高，购买多，等等，那么算法就越有可能把物品排在前面推送给我们。

4、【计算带权重的价值】

我们拿刚刚的相似性，乘上物品在算法中的价
值V，计算结果就是每件物品的最后的带相似性权重的价值，淘宝最后的算法就是返回这个带权重的价值，也就是把排好序的这些商品推送给我们。

5、【总结】

这就是一个最典型的注意力的过程。它推送在最前面给我们的商品，肯定就是它最希望获得我们注意力的商品。当然，淘宝内部的算法肯定不是这样的，但是他们的本质都是一样的，都是基于注意力，并且我们看到的现象也都是一样的。

公式中提到的dk是什么？

原文是这么描述的：对于较小的dk值，两种机制的性能相似，加性注意优于乘积注意，而不对d的较大值进行缩放；我们怀疑，对于dk的更大值，点积变大，将Softmax函数推到具有极小梯度的区域。为了抵消这种影响，我们缩放了刻度到1/根号下dk。
个人理解核心就是为了消除梯度变小、学习速度变慢的问题

计算过程和实现

输入编码

首先通过Word2Vec等词嵌入方法将输入语料转化成特征向量，论文中使用的词嵌入的维度为 d=512 。

在最底层的block中， x 将直接作为Transformer的输入，而在其他层中，输入则是上一个block的输出。为了画图更简单，我们使用更简单的例子来表示接下来的过程，如图所示：

其中的核心就是：自注意力，Self-Attention是Transformer最核心的内容，其核心内容是为输入向量的每个单词学习一个权重，例如在下面的例子中我们判断it代指的内容，

The animal didn't cross the street because it was too tired

通过加权之后可以得到类似下图的加权情况：

在self-attention中，每个单词有3个不同的向量，它们分别是Query向量（Q），Key向量（K）和Value向量（V），长度均是64。它们是通过3个不同的权值矩阵由嵌入向量X，乘以三个不同的权值矩阵 Wq，Wk，Wv 得到，其中三个矩阵的尺寸也是相同的。均是 512×64。这个矩阵是随机初始化的，其值在BP的过程中会一直进行更新。

以thinking、machines为例，先转换为词嵌入向量，再根据权值矩阵 Wq，Wk，Wv 得到各自的Q，K，V，再结合上面的具体实例，得到各自的得分和带权重的价值。

这也就实现了淘宝中查询的key，对应搜索得到列表中所有排列出来的商品，列表中的每一个商品都是查询title的相似性的权重乘商品所带的价值Value，对应就是softmax权重乘上V1得到z1，最后再进行一个组合，相当于把所有商品堆在一起给出一个列表。
总结：Q, K, V 的计算
Attention 的输入用矩阵 X 进行表示，则可以使用线性变阵矩阵 WQ, WK, WV 计算得到 Q, K, V。计算如下图所示，注意 X, Q, K, V 的每一行都表示一个单词。最终我们可以用矩阵的形式取计算Q,K,V

代码：transformer代码

self-attention总结

详细步骤详解如下：
1. 输入句子
2. self-attention会计算出三个新的向量，在论文中，向量的维度是512维，我们把这三个向量分别称为Query、Key、Value，这三个向量是用embedding向量与一个矩阵相乘得到的结果，这个矩阵是随机初始化的，维度为（64，512）注意第二个维度需要和embedding的维度一样，其值在BP的过程中会一直进行更新，得到的这三个向量的维度是64。
3. 计算self-attention的分数值，该分数值决定了当我们在某个位置encode一个词时，对输入句子的其他部分的关注程度。这个分数值的计算方法是Query与Key做点乘。首先我们需要针对Thinking这个词，计算出其他词对于该词的一个分数值，首先是针对于自己本身即q1·k1，然后是针对于第二个词即q1·k2。
4.5. 接下来，把点成的结果除以一个常数，这里我们除以8，这个值一般是采用上文提到的矩阵的第一个维度的开方即64的开方8，当然也可以选择其他的值，然后把得到的结果做一个softmax的计算。得到的结果即是每个词对于当前位置的词的相关性大小，当然，当前位置的词相关性肯定会会很大。
**6.**下一步就是把Value和softmax得到的值进行相乘，并相加，得到的结果即是self-attetion在当前节点的值。

举例理解

以中文翻译成英文为例子时，可以将中文作为查询（query）。我们以中文翻译成英文的任务为例，假设我们有一个中文句子作为输入：“我喜欢学习深度学习”。

首先，将输入的中文句子中的每个词（“我”、“喜欢”、“学习”、“深度学习”）通过嵌入层转换为向量表示。这些向量表示将作为自注意力机制的输入。
假设经过嵌入层后，得到以下词嵌入向量：

"我" -> [0.7, 0.9, 0.2]
"喜欢" -> [0.3, 0.6, 0.8]
"学习" -> [0.1, 0.6, 0.8]
"深度学习" -> [0.7, 0.9, 0.2]

接下来，我们将这些向量表示使用线性变换矩阵 $W_q$ 、 $W_k$ 和 $W_v$ ，转换为查询（query）、键（key）和值（value）向量。假设这些变换后的向量为：

查询 (q) = [0.5, 0.3, 0.2]
键 (k) = [0.1, 0.6, 0.8]
值 (v) = [0.7, 0.9, 0.2]

现在，我们使用这些查询、键和值向量来计算自注意力分数和注意力权重。

假设我们的模型想要强调输入中的第一个词 “我”，那么它会计算每个词与 “我” 的相关性，得到注意力权重：

注意力权重：[0.8, 0.2, 0.3, 0.1]

接着，根据注意力权重，我们将值向量加权求和，得到最终的注意力输出：

注意力输出：(0.8 * [0.7, 0.9, 0.2]) + (0.2 * [0.3, 0.6, 0.8]) + (0.3 * [0.1, 0.6, 0.8]) + (0.1 * [0.7, 0.9, 0.2]) = [0.59, 0.78, 0.41]

最后，这个注意力输出会被用来辅助模型进行中文到英文的翻译，帮助模型决定如何最好地将"我喜欢学习深度学习"翻译成英文。

总之，中文句子作为查询（query）通过自注意力机制得到相关的键（key）和值（value）信息，然后计算注意力权重，最后通过加权求和得到注意力输出，以帮助模型在翻译任务中更好地关注与当前查询相关的信息。

加入代码理解

在自注意力机制中，涉及到三个线性变换矩阵，通常用符号 $W_q$ 、 $W_k$ 、 $W_v$ 来表示。这些矩阵是模型的可学习参数，它们是通过在训练过程中进行学习来得到的。

假设我们有一个输入句子，其中包含多个单词或标记。每个单词或标记都会经过一个嵌入层（embedding layer），得到一个向量表示，作为自注意力机制的输入。

现在，我们来看看这三个矩阵是怎么用的，并通过一个类比来解释它们的作用：
$W_q$ (Query Matrix):
$W_q$ 用于将输入向量转换为一个“查询”向量，即用来寻找与输入中每个位置相关的信息。你可以将 $W_q$ 看作是一个“寻找相关信息”的工具。

$W_k$ (Key Matrix):
$W_k$ 用于将输入向量转换为一个“键”向量，即用来确定不同位置之间的相关性。你可以将 $W_k$ 看作是一个“确定相关性”的工具。

$W_v$ (Value Matrix):
$W_v$ 用于将输入向量转换为一个“值”向量，即用来提供每个位置的具体信息。你可以将 $W_v$ 看作是一个“提供具体信息”的工具。

举个例子来说明：
假设我们有一个输入句子： “ChatGPT is an amazing language model.”

我们首先将每个单词嵌入为向量表示：

"ChatGPT" -> [0.2, 0.7, 0.1]
"is" -> [0.3, 0.5, 0.2]
"an" -> [0.1, 0.4, 0.5]
"amazing" -> [0.9, 0.3, 0.6]
"language" -> [0.5, 0.8, 0.4]
"model" -> [0.6, 0.2, 0.9]

接下来，我们使用三个线性变换矩阵： $W_q$ 、 $W_k$ 和 $W_v$ ，将这些向量转换为查询、键和值向量：

Query (q) = [0.5, 0.2, 0.3]
Key (k) = [0.1, 0.6, 0.8]
Value (v) = [0.7, 0.9, 0.2]

现在，我们可以使用这些查询、键和值向量来计算自注意力分数和注意力权重。
假设我们的模型想要强调输入句子中的第一个单词 “ChatGPT”，那么它会计算每个单词与 “ChatGPT” 的相关性，得到注意力权重：

Attention scores: [0.8, 0.2, 0.3, 0.1, 0.4, 0.5]

接着，根据注意力权重，我们将值向量加权求和，得到最终的注意力输出：

Attention output = (0.8 * [0.7, 0.9, 0.2]) + (0.2 * [0.3, 0.5, 0.2]) + (0.3 * [0.1, 0.4, 0.5]) + (0.1 * [0.9, 0.3, 0.6]) + (0.4 * [0.5, 0.8, 0.4]) + (0.5 * [0.6, 0.2, 0.9])
                 = [0.63, 0.62, 0.38]

在这个例子中，通过使用 $W_q$ 、 $W_k$ 和 $W_v$ 矩阵，模型能够找到与查询向量（来自输入句子的"ChatGPT"）相关的键和值，从而计算出最终的注意力输出。这使得模型能够在自注意力机制中更好地关注与当前查询相关的信息，从而更好地理解输入序列的结构和语义。

三个权重参数问题

对于Transformer中的注意力机制，包括三个线性变换矩阵 $W_q$ 、 $W_k$ 和 $W_v$ ，它们都是模型的可学习参数，是在训练过程中通过反向传播算法来优化得到的。

在训练阶段，模型通过大量的数据进行学习，不断地调整这些参数，以使得模型在完成特定任务（如机器翻译）时表现最佳。

这三个矩阵是通过随机初始化的，也就是说，在模型开始训练时，它们的值是随机选择的。初始时，模型并不知道如何最好地使用这些矩阵，因此训练过程就是通过与真实标签进行比较，逐渐调整这些参数，使得模型能够在给定输入下得到更好的输出。

输入并不直接决定这些矩阵的初始值。它们的初始化是在模型设计中指定的，通常遵循一定的标准初始化方法，例如从均匀分布或高斯分布中随机抽样。

需要强调的是，这些矩阵是共享的，也就是说，在自注意力机制的不同位置（多个单词或标记）上，这些矩阵是相同的。这使得模型能够在不同位置共享参数，从而减少了需要学习的参数数量，提高了模型的训练效率和泛化能力。

总结起来， $W_q$ 、 $W_k$ 和 $W_v$ 矩阵是Transformer模型的可学习参数，在训练过程中通过与真实标签的比较进行优化，使得模型能够自动学习并逐渐调整这些参数，以在给定输入下更好地进行自注意力计算。输入并不直接决定这些矩阵的初始值，而是通过训练来优化它们，使得模型能够在特定任务上表现最佳。

注意力机制和自注意力机制的差距

注意力机制（Attention Mechanism）和自注意力机制（Self-Attention Mechanism）实际上是同一种基本机制的不同应用。

注意力机制（Attention Mechanism）

在注意力机制中，我们有两个不同的输入序列，通常称为“查询序列”（Query Sequence）和“键值序列”（Key-Value Sequence）。查询序列用来确定我们要关注的位置或信息。键值序列是我们希望查询序列关注的对象。注意力机制根据查询序列与键序列之间的相似度计算注意力权重，并根据这些权重对值序列进行加权求和，得到最终的注意力输出。

自注意力机制（Self-Attention Mechanism）：

自注意力机制是注意力机制的特殊情况，其中查询序列、键序列和值序列都来自于同一个输入序列。在自注意力机制中，输入序列中的每个位置都充当查询、键和值的角色，通过与其他位置计算注意力，来捕捉序列内部的依赖关系和重要信息。自注意力机制通过学习每个位置与其他位置之间的相对重要性，从而计算出最终的自注意力输出。

示例：

假设我们有一个输入序列：["I", "love", "AI", "and", "NLP"]。

注意力机制示例：

查询序列为 "love"。
键值序列为 ["I", "AI", "and", "NLP"]。

注意力机制根据查询序列与键序列的相似度计算注意力权重，并对值序列进行加权求和，得到关于 “love” 的注意力输出。

自注意力机制示例：

在自注意力机制中，我们将输入序列 ["I", "love", "AI", "and", "NLP"] 
视为同时充当查询、键和值的序列。

自注意力机制计算每个位置与其他位置之间的相对重要性，并对输入序列进行加权求和，得到序列内部的自注意力输出。

总结：

注意力机制是一种更一般的机制，它可以用于许多任务，包括自然语言处理中的机器翻译等。而自注意力机制则是注意力机制的特殊形式，用于处理同一个序列内部的信息交互和建模。在Transformer等模型中，自注意力机制被广泛应用，用于学习输入序列中不同位置的依赖关系，从而提高模型的表现。

参考

[1]: 作者：范仁义-AI编程出处：bilibili
[2]: 《Attention Is All You Need》，Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
[3]: 大师兄的深度学习笔记
[4]: 台湾大学李宏毅机器学习

理解注意力机制的一些好文章

[1] Transformer详解笔记-知乎
[2] Attention Models
[3] 台湾大学李宏毅机器学习-blbl
[4] 全网最透彻的注意力机制的通俗原理与本质【推荐】

Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
Transformers基础组件—Datasets 小蒋的学习笔记 python 人工智能机器学习
目录datasets基本使用加载在线数据集加载数据集合集中的某一项任务按照数据集划分进行加载查看数据集数据集划分数据选取与过滤数据映射保存与加载加载本地数据集直接加载文件作为数据集加载文件夹内全部文件作为数据集通过预先加载的其他格式转换加载数据集通过自定义加载脚本加载数据集DatasetwithDataCollatordatasets基本使用fromdatasetsimport*加载在线数据集da
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
FunASR Paraformer-zh：高效中文端到端语音识别方案全解
项目简介FunASR是阿里巴巴达摩院开源的端到端语音识别工具箱，集成了多种语音识别、语音活动检测（VAD）、说话人识别等模块。其中paraformer-zh和paraformer-zh-streaming是针对中文语音识别任务优化的端到端模型，分别适用于离线和流式场景。Paraformer采用并行Transformer架构，兼具高精度和低延迟，广泛应用于智能客服、会议转写、语音助手等场景。主要特点
《从零构建大模型》系列（21）：从头实现GPT模型——构建文本生成引擎
本文将带你从零构建类GPT模型：通过实现层归一化、前馈网络和Transformer块等核心组件，打造一个完整的文本生成模型架构，为后续训练奠定基础。目录一、GPT模型架构全景图1.1模型组件分解1.2GPT-2模型规格二、层归一化实现2.1为什么需要层归一化？2.2层归一化实现代码三、前馈神经网络实现3.1GPT中的前馈结构编辑3.2GELU激活函数3.3完整前馈网络实现四、Transformer
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
【大语言模型基础】GPT（Generative Pre-training ）生成式无监督预训练模型原理
前言ELMo：将上下文当作特征，但是无监督的语料和我们真实的语料还是有区别的，不一定符合我们特定的任务，是一种双向的特征提取。OpenAIGPT:通过transformerdecoder学习出来一个语言模型，不是固定的，通过任务fine-tuning,用transfomer代替ELMo的LSTM。OpenAIGPT其实就是缺少了encoder的transformer：当然也没了encoder与de
【机器学习】探索未来科技的前沿：人工智能、机器学习与大模型 AIGC零基础入门小白 AI大模型大模型教程人工智能机器学习科技 AI大模型 AIGC AI教程大模型教程
文章目录引言一、人工智能：从概念到现实1.1人工智能的定义1.2人工智能的发展历史1.3人工智能的分类1.4人工智能的应用二、机器学习：人工智能的核心技术2.1机器学习的定义2.2机器学习的分类2.3机器学习的实现原理2.4机器学习的应用2.5机器学习的示例代码2.6解释代码三、大模型：推动AI前沿发展的关键技术3.1大模型的定义3.2大模型的发展历程3.3深度学习与神经网络3.4大模型的优势与挑
现代人工智能综合分类：大模型时代的架构、模态与生态系统司南锤 economics 人工智能分类数据挖掘
目录引言：人工智能的第四次浪潮与新分类的必要性第一节：大型模型范式的基础支柱1.1规模化假说：算力、数据与算法的三位一体1.2“涌现能力”之谜：当“更多”变为“不同”1.3自监督学习（SSL）革命第二节：大型模型的技术分类学2.1Transformer：现代人工智能的架构基石2.2架构分化：一种功能性分类2.3提升效率与规模：专家混合模型（MoE）2.4超越Transformer：下一代架构的探索
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
人工智能入门指南：从基础概念到实际应用
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。https://www.captainbed.cn/north文章目录1.**人工智能的基本概念**1.1什么是人工智能？1.2人工智能的分类2.**人工智能的核心技术**2.1机器学习（MachineLearning）2.1.1机器学习的类型2.1.2机器学习流程2.2深度学习（DeepLearni
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla