留小星

动手学深度学习（四十六）——注意力机制

文章目录

一、注意力机制
二、注意力提示
- 2.1 生物学中的注意力提示
- 2.2 查询、键和值
- 2.3 注意力的可视化
三、注意力池化：Nadaraya-Watson 核回归
- 3.1 生成数据集
- 3.2 平均池化
- 3.3 非参数的注意力池化
- 3.4 带参数的注意力池化
- - 3.4.1 批量矩阵乘法
  - 3.4.2 模型定义
  - 3.4.2 模型训练
四、总结

一、注意力机制

灵长类动物的视觉系统中的视神经接受了大量的感官输入，其内容远远超过了大脑能够完全处理的程度。幸运的是，并非所有刺激的影响都是相等的。意识的聚集和专注使得灵长类动物能够在复杂的视觉环境中将注意力引向感兴趣的物体，例如猎物和天敌。只关注一小部分信息的能力具有进化意义，使人类得以生存和成功。

自 19 世纪以来，科学家们一直在研究认知神经科学领域的注意力。在本章中，我们将首先回顾一个热门框架，解释如何在视觉场景中展开注意力。受此框架中的 注意力提示（attention cues）的启发，我们将设计能够利用这些注意力线索的模型。特别是 1964 年的 Nadaraya-Waston 核回归（kernel regression）正是具有 注意力机制（attention mechanisms）的机器学习的简单演示。

然后，我们继续介绍的是注意力函数，它们在深度学习的注意力模型设计中被广泛使用。具体来说，我们将展示如何使用这些函数来设计 Bahdanau 注意力。Bahdanau 注意力是深度学习中的具有突破性价值的注意力模型，它是双向对齐并且可以微分。

最后，我们将描述仅仅基于了注意力机制的 Transformer 架构，架构中使用的是最新的 多头注意力（multi-head attention）和 自注意力（self-attention）设计。自 2017 年被构想出来，Transformer 一直都普遍存在于现代的深度学习应用中，例如语言、视觉、语音和强化学习领域。

二、注意力提示

注意力是一种稀缺的资源：此刻你正在阅读这篇blog而忽略了其他的blog。因此，你的注意力是用机会成本（与金钱类似）来支付的。注意力在我们的环境中是稀缺的，而信息不是。在检查视觉场景时，我们的视神经系统收到的信息大约为每秒 $10^8$ 位，远远超过了大脑能够完全处理的水平。幸运的是，我们的祖先已经从经验（也称为数据）中学到 并非所有的感官输入都是一样的。在整个人类历史中，只将注意力引向感兴趣的一小部分信息的能力使我们的大脑能够更明智地分配资源来生存、成长和社交，例如检测天敌、食物和伴侣。

2.1 生物学中的注意力提示

为了解释我们的注意力是如何在视觉世界中展开的，一个双组件（two-component）的框架已经出现并流行开来。这个框架的出现可以追溯到 19 世纪 90 年代的威廉·詹姆斯，他被认为是 “美国心理学之父” :cite:James.2007。在这个框架中，受试者基于 非自主提示 和 自主提示 有选择地引导注意力的焦点。

非自主性提示是基于环境中物体的突出性和易见性。想象一下，你面前有五个物品：一份报纸、一篇研究论文、一杯咖啡、一本笔记本和一本下图展示中的书。虽然所有纸制品都是黑白印刷的，但咖啡杯是红色的。换句话说，这种咖啡在这种视觉环境中本质上是突出和显眼的，自动而且非自愿地引起人们的注意。所以你把 fovea（视力最高的黄斑中心）带到咖啡上。

喝咖啡后，你会变得兴奋并想读书。所以你转过头，重新聚焦你的眼睛，然后看看书。与之前突出性导致选择会偏向于咖啡不同，在任务依赖案例中选择书本是受到了认知和意识的控制，因此注意力在基于变量选择准则的自主提示去辅助选择时将更为谨慎。受到主体的主观意愿推动，选择的力量也就更强大。

2.2 查询、键和值

自主的与非自主的提示解释了注意力展开的的方式，受这种提示的启发我们将在下文中描述用于设计注意力机制时的框架，框架中纳入了这两个注意力提示。

首先，考虑一个相对简单的状况，即只使用非自主提示。要想将选择偏向于感官输入，我们可以简单地使用参数化的全连接层，甚至是非参数化的最大池化层或平均池化层。

因此，通过包含自主提示将注意力机制与那些全连接层或池化层区别开来。在注意力机制的背景下，我们将自主提示称为查询（Queries）。给定任何查询，注意力机制通过 注意力池化（attention pooling）将选择偏向于 感官输入（sensory inputs）（例如中间特征表示）。在注意力机制的背景下，这些感官输入被称为值（Values）。更通俗的解释，每个值都与一个键（Keys）配对，这可以想象为该感官输入的非自主提示。我们可以设计注意力池，以便给定的查询（自主提示）可以与键（非自主提示）进行交互，这将指导选择偏向于值（感官输入）。

请注意，注意力机制的设计有许多替代方案。例如，我们可以设计一个不可微分的注意力模型，该模型可以使用强化学习方法Mnih.Heess.Graves.ea.2014 进行训练。鉴于已经给出的框架在上图中占据主导地位，因此这个框架下的模型将成为本章我们关注的中心。

总结：

卷积、全连接、池化层都只考虑不随意线索
注意力机制显示的考虑随意线索
- 每个线索被称之为查询（query）
- 每个输入是一个值（value）和不随意线索（key）的对
- 通过注意力池化层来有偏向地选择某些输入

2.3 注意力的可视化

平均池化层可以被视为输入的加权平均值，其权重是均匀分布的。实际上，注意力池化得到的是加权平均的合计值，其中权重是在给定的查询和不同的键之间计算得出的。

import torch
from d2l import torch as d2l

# 可视化权重：输入为matrices
# 形状（要显示的行数、要显示的列数、查询的数量、键的数量）
def show_heatmaps(matrices,xlabel,ylabel,titles=None,figsize=(2.5,2.5),cmap='Reds'):
    d2l.use_svg_display()
    num_rows,num_cols = matrices.shape[0],matrices.shape[1]
    fig,axes = d2l.plt.subplots(num_rows,num_cols,figsize=figsize,sharex=True,sharey=True,squeeze=False)
    for i ,(row_axes,row_matrices) in enumerate(zip(axes,matrices)):
        for j,(ax,matrix) in enumerate(zip(row_axes,row_matrices)):
            pcm = ax.imshow(matrix.detach().numpy(),cmap=cmap)
            if i ==num_rows -1:
                ax.set_xlabel(xlabel)
            if j == 0:
                ax.set_ylabel(ylabel)
            if titles:
                ax.set_title(title(titles[j]))
    fig.colorbar(pcm,ax=axes,shrink=0.6)

# 使用一个简单的例子用于演示，当查询和键相同时注意力权重为1，
attention_weights = torch.eye(10).reshape((1, 1, 10, 10))
show_heatmaps(attention_weights, xlabel='Keys', ylabel='Queries')

三、注意力池化：Nadaraya-Watson 核回归

在知道了Query-key-value框架下的注意力机制的主要成分。回顾一下，查询（自主提示）和键（非自主提示）之间的交互形成了 注意力池化（attention pooling）。注意力池化有选择地聚合了值（感官输入）以生成最终的输出1964 年提出的 Nadaraya-Watson 核回归模型是一个简单而完整的示例，可以用于演示具有注意力机制的机器学习。

import torch
from torch import nn
from d2l import torch as d2l

3.1 生成数据集

简单起见，考虑下面这个回归问题：对于给定的成对的“输入－输出”数据集 $\{(x_1, y_1), \ldots, (x_n, y_n)\}$ ，如何学习 $f$ 来预测任意新的输入 $x$ 的输出 $\hat{y} = f(x)$ ？

根据下面的非线性函数生成一个人工数据集，其中加入的噪声项为 $\epsilon$ ：

$y_i = 2\sin(x_i) + x_i^{0.8} + \epsilon,$

其中 $\epsilon$ 服从均值为 $0$ 和标准差为 $0.5$ 的正态分布。同时生成了 $50$ 个训练样本和 $50$ 个测试样本。为了更好地可视化注意力模式，输入的训练样本将进行排序。

n_train = 50 # the number of train example
x_train,_ = torch.sort(torch.rand(n_train)*5) # the inputs of train example

def f(x):
    return 2*torch.sin(x)+x**0.8

y_train = f(x_train)+torch.normal(0.0,0.5,(n_train,))
x_test = torch.arange(0,5,0.1) 
y_truth = f(x_test) #the real outputs of train exaple
n_test = len(x_test)
n_test

3.2 平均池化

先使用可能是这个世界上“最愚蠢”的估算器来解决回归问题：基于平均池化来计算所有训练样本输出值的平均值：

$\frac{1}{n}\sum_{i=1}^n y_i,$

如下图所示，这个估算器确实不够聪明。

# 绘制全部的训练样本（圆形），不带噪声项的真实数据生成函数f（标记为“truth”）;学习到的预测函数（“Pred”）
def plot_kernel_reg(y_hat):
    d2l.plot(x_test, [y_truth, y_hat], 'x', 'y', legend=['Truth', 'Pred'],
             xlim=[0, 5], ylim=[-1, 5])
    d2l.plt.plot(x_train, y_train, 'o', alpha=0.5);

y_hat = torch.repeat_interleave(y_train.mean(), n_test)
plot_kernel_reg(y_hat)

3.3 非参数的注意力池化

显然，平均池化忽略了输入 $x_i$ 。于是 Nadaraya Nadaraya.1964 和 WastonWatson.1964 提出了一个更好的想法，根据输入的位置对输出 $y_i$ 进行加权：

$\sum_{i=1}^n \frac{K(x - x_i)}{\sum_{j=1}^n K(x - x_j)} y_i,$
其中 $K$ 是 核函数*（kernel）。公式所描述的估计器被称为 Nadaraya-Watson 核回归（Nadaraya-Watson kernel regression）(这家伙不就是加权平均吗！！，衡量与新添加内容距离更近的内容)。在这里我们不会深入讨论核函数的细节。回想一下注意力机制框架，我们可以从注意力机制的角度重写该方程成为一个更加通用的 注意力池化（attention pooling）公式：

$\sum_{i=1}^n \alpha(x, x_i) y_i,$

其中 $x$ 是查询， $x_i, y_i)$ 是“键－值”对。比较两个公式可以发现注意力池化是 $y_i$ 的加权平均。将查询 $x$ 和键 $x_i$ 之间的关系建模为 注意力权重（attetnion weight） $\alpha(x, x_i)$ ，这个权重将被分配给每一个对应值 $y_i$ 。对于任何查询，模型在所有“键－值”对上的注意力权重都是一个有效的概率分布：它们是非负数的，并且总和为一。

为了更好地理解注意力池化，仅需要考虑一个 高斯核（Gaussian kernel），其定义为（u时距离 $x-x_j$ ）：

$\frac{1}{\sqrt{2\pi}} \exp(-\frac{u^2}{2}).$

将高斯核代入上面两个公式中就会得出

$\begin{aligned} f(x) &=\sum_{i=1}^n \alpha(x, x_i) y_i\\ &= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}(x - x_i)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}(x - x_j)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}(x - x_i)^2\right) y_i. \end{aligned}$

如果一个键 $x_i$ 越是接近给定的查询 $x$ , 那么分配给这个键对应的值 $y_i$ 的 注意力权重就会越大, 也就是 获得了更多的注意力。值得注意的是，Nadaraya-Watson 核回归是一个非参数模型；因此，由其推导出的注意力池化就是 非参数的注意力池化（nonparametric attention pooling）。接下来，我们将基于这个非参数的注意力池化模型来绘制预测结果。结果是预测线是平滑的，并且比平均池化产生的线更接近真实。

# `X_repeat` 的形状: (`n_test`, `n_train`),
# 每一行都包含着相同的测试输入（例如：同样的查询）
X_repeat = x_test.repeat_interleave(n_train).reshape((-1,n_train))
# `x_train` 包含着键。`attention_weights` 的形状：(`n_test`, `n_train`),
# 每一行都包含着要在给定的每个查询的值（`y_train`）之间分配的注意力权重
attention_weights = nn.functional.softmax(-(X_repeat-x_train)**2/2,dim=1)
y_hat = torch.matmul(attention_weights,y_train)
plot_kernel_reg(y_hat)

show_heatmaps(
    attention_weights.unsqueeze(0).unsqueeze(0),
    xlabel='Sorted training inputs', ylabel='Sorted testing inputs')

3.4 带参数的注意力池化

非参数的 Nadaraya-Watson 核回归具有 一致性（consistency）的优点：如果有足够的数据，此模型会收敛到最优结果。尽管如此，我们还是可以轻松地将可学习的参数集成到注意力池化中。例如，与非参数化的注意力池化略有不同，在下面的查询 $x$ 和键 $x_i$ 之间的距离乘以可学习参数 $w$ ：

$\begin{aligned}f(x) &= \sum_{i=1}^n \alpha(x, x_i) y_i \\&= \sum_{i=1}^n \frac{\exp\left(-\frac{1}{2}((x - x_i)w)^2\right)}{\sum_{j=1}^n \exp\left(-\frac{1}{2}((x - x_i)w)^2\right)} y_i \\&= \sum_{i=1}^n \mathrm{softmax}\left(-\frac{1}{2}((x - x_i)w)^2\right) y_i.\end{aligned}$

下面，我们将通过训练这个模型来学习注意力池化的参数。

3.4.1 批量矩阵乘法

为了更有效地计算小批量数据的注意力，我们可以利用深度学习开发框架中提供的批量矩阵乘法。假设第一个小批量数据包含 $n$ 个矩阵 $\mathbf{X}_1,\ldots, \mathbf{X}_n$ ，形状为 $a\times b$ ，第二个小批量包含 $n$ 个矩阵 $\mathbf{Y}_1, \ldots, \mathbf{Y}_n$ ，形状为 $b\times c$ 。它们的批量矩阵乘法得到 $n$ 个矩阵 $\mathbf{X}_1\mathbf{Y}_1, \ldots, \mathbf{X}_n\mathbf{Y}_n$ ，形状为 $a\times c$ 。因此，假定两个张量的形状分别是 $(n, a, b)$ 和 $(n, b, c)$ ，它们的批量矩阵乘法输出的形状为 $(n, a, c)$ 。

X = torch.ones((2,1,4))
Y = torch.ones((2,4,6))
torch.bmm(X,Y).shape

torch.Size([2, 1, 6])

# 在注意力机制中，我们可以使用小批量矩阵乘法来计算小批量数据中值的加权平均
weights = torch.ones((2,10))*0.1
value = torch.arange(20.0).reshape((2,10))
torch.bmm(weights.unsqueeze(1),value.unsqueeze(-1))

tensor([[[ 4.5000]],
        [[14.5000]]])

3.4.2 模型定义

w控制的时高斯核的平滑程度

class NWKernelRegression(nn.Module):
    def __init__(self,**kwargs):
        super().__init__(**kwargs)
        self.w = nn.Parameter(torch.rand((1,),requires_grad=True))
    def forward(self,queries,keys,values):
        # `queries` 和 `attention_weights` 的形状:(查询个数, “键－值”对个数)
        queries = queries.repeat_interleave(keys.shape[1]).reshape((-1,keys.shape[1]))
        self.attention_weights = nn.functional.softmax(-((queries-keys)*self.w)**2/2,dim=1)
        # `values` 的形状:(查询个数, “键－值”对个数)
        return torch.bmm(self.attention_weights.unsqueeze(1),values.unsqueeze(-1)).reshape(-1)

3.4.2 模型训练

# `X_tile` 的形状: (`n_train`, `n_train`), 每一行都包含着相同的训练输入
X_tile = x_train.repeat((n_train, 1))
# `Y_tile` 的形状: (`n_train`, `n_train`), 每一行都包含着相同的训练输出
Y_tile = y_train.repeat((n_train, 1))
# `keys` 的形状: ('n_train', 'n_train' - 1)
keys = X_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape(
    (n_train, -1))
# `values` 的形状: ('n_train', 'n_train' - 1)
values = Y_tile[(1 - torch.eye(n_train)).type(torch.bool)].reshape(
    (n_train, -1))

net = NWKernelRegression()
loss = nn.MSELoss(reduction='none')
trainer = torch.optim.SGD(net.parameters(), lr=0.5)
animator = d2l.Animator(xlabel='epoch', ylabel='loss', xlim=[1, 5])

for epoch in range(5):
    trainer.zero_grad()
    # 注意：L2 Loss = 1/2 * MSE Loss。
    # PyTorch 的 MSE Loss 与 MXNet 的 L2Loss 差一个 2 的因子，因此被减半。
    l = loss(net(x_train, keys, values), y_train) / 2
    l.sum().backward()
    trainer.step()
    print(f'epoch {epoch + 1}, loss {float(l.sum()):.6f}')
    animator.add(epoch + 1, float(l.sum()))

# `keys` 的形状: (`n_test`, `n_train`), 每一行包含着相同的训练输入（例如：相同的键）
keys = x_train.repeat((n_test, 1))
# `value` 的形状: (`n_test`, `n_train`)
values = y_train.repeat((n_test, 1))
y_hat = net(x_test, keys, values).unsqueeze(1).detach()
plot_kernel_reg(y_hat)

show_heatmaps(
    net.attention_weights.unsqueeze(0).unsqueeze(0),
    xlabel='Sorted training inputs', ylabel='Sorted testing inputs')

四、总结

人类的注意力是有限的、宝贵的和稀缺的资源。
受试者使用非自主的和自主的提示有选择性地引导注意力。前者基于突出性，后者则依赖于任务。
注意力机制与全连接层或者池化层的区别源于增加的自主提示。
由于包含了自主提示，注意机制与全连接的层或池层不同。
注意力机制通过注意力池化使选择偏向于值（感官输入），其中包含查询（自主提示）和键（非自主提示）。键和值是成对的。
我们可以可视化查询和键之间的注意力权重。
Nadaraya-Watson 核回归是具有注意力机制的机器学习的一个例子。
Nadaraya-Watson 核回归的注意力池化是对训练数据中输出的加权平均。从注意力的角度来看，分配给每个值的注意力权重取决于将值所对应的键和查询作为输入的函数。
注意力池化可以分为非参数型和带参数型。

基于yolov10的水果成熟度之石榴成熟度检测 qq1309399183 计算机视觉实战项目集合 YOLO 目标检测目标跟踪计算机视觉人工智能水果成熟度检测视觉检测
石榴成熟度检测**Pomegranate*是一个基于深度学习的系统，旨在自动化检测和分类石榴果实的生长阶段（未成熟、成熟、成熟期）。该系统采用最新的YOLOv10目标检测模型，能够高效地分析图像或视频中的石榴果实，并根据其外观特征识别其生长阶段。通过这种技术，农民可以更好地监控石榴果实的发育过程，优化作物管理，合理安排收获时间，从而提高生产效率和经济收益。系统概述石榴作为一种重要的水果作物，广泛种
yolov5-训练好的模型部署的几种方式-ONNX 黄晓魚 halcon3d PCL点云处理深度神经网络 YOLO C#python
ONNX，即OpenNeuralNetworkExchange，是微软和Facebook发布的一个深度学习开发工具生态系统，旨在让AI开发人员能够随着项目发展而选择正确的工具。ONNX所针对的是深度学习开发生态中最关键的问题之一，在任意一个框架上训练的神经网络模型，无法直接在另一个框架上用。开发者需要耗费大量时间精力把模型从一个开发平台移植到另一个。因此，如何实现不同框架之间的互操作性，简化从研究
【人工智能】数据挖掘与应用题库（101-200）奋力向前123 人工智能人工智能数据挖掘
1、有矩阵A3×2，B2×3，C3×3，下列运算有意义的是（）答案：BC2、13524的逆序数为（）答案：33、矩阵A中元素a14的余子式记作M14，代数余子式记作A14，二者关系为（）答案：相反4、关于机器学习与深度学习的范畴关系，下列说法正确的是？答案：深度学习是机器学习的子集（分支）5、关于机器学习的本质，下列表述最恰当的是？答案：从数据或环境反馈中自主学习到规则6、深度学习的“深度”是指？
大语言模型原理与工程实践：手把手教你训练 7B 大语言模型自动化训练框架 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架关键词：大语言模型、7B模型、自动化训练、深度学习、神经网络、自然语言处理、分布式计算文章目录大语言模型原理与工程实践：手把手教你训练7B大语言模型自动化训练框架1.背景介绍2.核心概念与联系3.核心算法原理&具体操作步骤3.1算法原理概述3.2算法步骤详解3.3算法优缺点3.4算法应用领域4.数学模型和公式&详细讲解&举例说明4
Transformer 代码剖析1 - 数据处理（pytorch实现） lczdyx Transformer代码剖析人工智能 transformer 深度学习 pytorch python
引言Transformer架构自《AttentionIsAllYouNeed》论文发表以来，在自然语言处理领域引起了巨大的变革。它摒弃了传统的循环结构，完全基于注意力机制，显著提高了处理序列数据的效率和性能。本文将通过对一个具体的项目代码结构进行详细分析，带领大家深入了解Transformer模型的数据处理部分。项目结构概述首先，让我们来看看项目的整体结构：（参考项目代码）transformer-
torch对于tensor的常规操作何33512336 Deep Learning python python pytorch
前言使用pytorch框架，会常操作tensor，以下则是对tensor常规操作的汇总。importtorchtorch.Tensor会继承某些torch的某些数学运算，例如sort,min/max....不需要调用相应的torch.funciton进行处理,下文中如果是torch/Tensor即表示该函数可以直接对self的tensor使用，也可以使用torch给的相应函数接口1.torch/T
RuntimeError: Couldn‘t load custom C++ ops.This can happen if your PyTorch and torchvision versions 万年枝常见运行错误服务器使用 pytorch 开发语言 torch版本错误
文章目录出现问题问题分析问题解决出现问题File"/home/anaconda3/envs/tris/lib/python3.8/site-packages/torchvision/ops/boxes.py",line40,innms_assert_has_ops()File"/home/anaconda3/envs/tris/lib/python3.8/site-packages/torchvi
怎样通过人机融合智能去除“机器幻觉”？人机与认知实验室
人机融合智能的目标是通过深度结合人类智能和机器智能，解决现有人工智能系统（特别是深度学习模型，如各种大模型）可能出现的问题，比如“机器幻觉”现象。机器幻觉指的是人工智能模型在处理信息时，做出错误的、非理性的判断或预测，这种现象往往源于模型在训练数据中的偏差、不完全信息或过度依赖某些特定模式。通过人机融合的方式，可以有效减少这种“幻觉”，进而提升人机环境系统智能的可靠性和解释能力。1.结合人类的直觉
注意力机制中的查询Q、键K、值V与态势感知人机与认知实验室机器学习人工智能
注意力机制中的查询（Q）、键（K）、值（V）与态势感知中的态、势、感、知之间存在一定的对应关系。可以把查询对应于态和势，键对应于感，值对应于知，这种对应关系体现了两者在信息处理过程中的相似性，即从大量信息中提取出对当前任务最有用的部分，为决策提供支持。但是，注意力机制中的查询（Query,Q）、键（Key,K）、值（Value,V）与态势感知中的“态、势、感、知”之间并没有严格的直接对应关系，因为
注意力机制是如何提取有用信息的？人机与认知实验室
我们用通俗的方式解释注意力机制是如何通过比较查询（Query,Q）和键（Key,K）的相似度，来决定从值（Value,V）中提取多少有用信息的。场景：图书馆找书假设你在图书馆里，脑海中的问题是：“我想找一本关于人工智能的书。”（这就是你的查询，Q）。图书馆里的每本书都有一个标签，比如“人工智能入门”或“历史小说”（这些是键，K）。每本书的详细内容（比如具体的章节、知识点等）就是值，V。1、计算相似
深度学习-【完整代码+数据集】逻辑回归预测乳腺癌检测案例编程千纸鹤人工智能学习专栏深度学习逻辑回归人工智能癌症预测
作者主页：编程千纸鹤作者简介：Java、前端、Python开发多年，做过高程，项目经理，架构师主要内容：Java项目开发、Python项目开发、大学数据和AI项目开发、单片机项目设计、面试技术整理、最新技术分享收藏点赞不迷路关注作者有好处文末获得源码机器学习分为：有监督学习：数据带有标签无监督学习：数据没有标签，根据属性聚类在机器学习有监督学习中大致可以分为两大任务，一种是回归任务，一种是分类任务
端到端自动驾驶的分布式传感器融合架构 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
自动驾驶,分布式传感器融合,深度学习,计算机视觉,雷达,lidar,惯性导航,Kalman滤波,决策控制1.背景介绍自动驾驶技术作为未来交通运输的重要发展方向，近年来取得了显著进展。然而，实现真正安全的自动驾驶仍然面临着诸多挑战，其中之一就是如何有效地融合来自不同传感器的数据，构建一个可靠的感知、决策和控制系统。传统的自动驾驶系统通常依赖于单一传感器，例如摄像头或雷达，这会导致感知信息的缺失和鲁棒
大模型时代的软件架构设计 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
引言当今世界，人工智能（AI）技术正以惊人的速度发展，其中大模型（LargeModels）的崛起尤为引人注目。大模型，也被称为深度学习模型，因其庞大的参数规模和强大的数据处理能力，成为推动AI技术前进的重要力量。随着大模型的广泛应用，软件架构设计面临着前所未有的挑战和机遇。大模型时代的软件架构设计，不仅需要解决传统软件架构所面对的问题，如性能、可靠性和可扩展性等，还需要应对大模型带来的新挑战，如计
Transformer 代码剖析8 - 编码器模块Encoder （pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、代码结构总览TransformerEncoder__init__初始化Encoder类forward前向传播super()父类初始化构建词嵌入层self.emb=TransformerEmbedding参数:d_model/max_len/vocab_size/drop_prob/device构建编码层堆栈self.layers=nn.ModuleList循环创建n_layers个Encode
深入理解PyTorch模型训练所需的数据集 mosquito_lover1 pytorch 人工智能 python
在PyTorch中，模型训练的核心是数据集（Dataset）。数据集是模型训练的基础，它提供了模型训练所需的所有输入数据和对应的标签。理解数据集的结构、加载方式以及如何预处理数据是成功训练模型的关键。以下是对PyTorch模型训练所需数据集的深入解析：1.数据集的基本概念数据集：数据集是模型训练的基础，通常由输入数据（如图像、文本、音频等）和对应的标签（目标值）组成。样本（Sample）：数据集中
计算机毕业设计 ——jspssm508Springboot 的旅游管理奔强的程序课程设计旅游
博主小档案：花花，一名来自世界500强的资深程序猿，毕业于国内知名985高校。技术专长：花花在深度学习任务中展现出卓越的能力，包括但不限于java、python等技术。近年来，花花更是将触角延伸至AI领域，对于机器学习、自然语言处理、智能推荐等前沿技术都有独到的见解和实践经验。服务内容：1、提供科研入门辅导(主要是代码方面)2、代码部署3、定制化需求解决等4、期末考试复习计算机毕业设计——jsps
DeepSeek技术全景解析：架构创新与行业差异化竞争力二进制coder 人工智能架构 AGI AI
一、DeepSeek技术体系的核心突破架构设计：效率与性能的双重革新Multi-headLatentAttention(MLA)：通过将注意力头维度与隐藏层解耦，实现显存占用降低30%的同时支持4096超长上下文窗口。深度优化的MoE架构：结合256个路由专家与1个共享专家，实现稀疏激活机制（每个Token仅激活8个专家），在代码生成任务中推理速度提升40%。混合模态支持：支持文本、代码、数学符号
Crawl4AI：开源的网络爬虫和抓取工惟贤箬溪穷玩Ai github 开源 ai
crawl4ai是一个开源项目，旨在帮助用户爬取GitHub上与AI（人工智能）相关的内容。这些内容通常包括AI相关的开源项目、库、资源、论文、教程等。项目提供了一个爬虫工具，可以自动化地抓取并提取GitHub上与人工智能相关的资源。以下是对该项目的详细解读：1.项目概述crawl4ai是一个爬虫框架，专门用于从GitHub上抓取与AI相关的开源项目或仓库。这些仓库包括AI领域的机器学习、深度学习
【DeepSeek + Chatbox】本地局域网多用户协作全流程！从本地部署到高效交互，深度学习任务这样搞就对了～磕盐小宋的日常深度学习人工智能
文章目录『概要』『干货分享』『技术细节』『DeepSeek概述』『工作站配置』『所实现的功能』『具体实现流程』『短板与前瞻』『总结』『概要』最近团队在搞深度学习相关的研究，遇到了个头大的问题：设备依赖太重，每个人都要配备高性能硬件才能跑模型。于是我开始思考，有没有办法让大家共享资源，降低设备要求？经过一番调研和实践，我们终于打通了DeepSeek平台+Chatbox可视化界面的全流程局域网协作方案
Anaconda配置tensorflow-gpu教程 rubisco214 tensorflow 人工智能 python
最近在入门tensorflow深度学习，配置环境吃了不少苦头，写个完整的教程首先得在自己主机上装cuda（我之前就是主机上没装cuda,只在虚拟环境里面装了，结果jupyter里面怎么调都识别不到GPU）打开Nvidia控制面板，左上角帮助-系统信息-组件NVCUDA64.DLL后面的NVIDIACUDA12.1就是你的显卡支持的CUDA版本，去CUDA官网CUDAToolkitArchive|N
PyTorch 常见的损失函数：从基础到大模型的应用阿正的梦工坊 LLM PyTorch pytorch 人工智能 python
PyTorch常见的损失函数：从基础到大模型的应用在用PyTorch训练神经网络时，损失函数（LossFunction）是不可或缺的“裁判”。它告诉模型预测结果与真实答案的差距有多大，优化器则根据这个差距调整参数。PyTorch提供了丰富而强大的损失函数接口，位于torch.nn模块中。今天我们就来聊聊几个常见的损失函数（比如nn.MSELoss和nn.CrossEntropyLoss），看看它们
Transformer 代码剖析4 - 编码器层实现（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、EncoderLayer-类结构定义参考：项目代码classEncoderLayer(nn.Module):def__init__(self,d_model,ffn_hidden,n_head,drop_prob):super(EncoderLayer,self).__init__()self.attention=MultiHeadAttention(d_model=d_model,n_hea
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
【llm对话系统】大模型源码分析之 LLaMA 模型的 Masked Attention kakaZhui llama 人工智能 AIGC chatgpt python
在大型语言模型（LLM）中，注意力机制（AttentionMechanism）是核心组成部分。然而，在自回归（autoregressive）模型中，例如LLaMA，我们需要对注意力进行屏蔽（Masking），以防止模型“偷看”未来的信息。本文将深入探讨LLaMA模型中MaskedAttention的实现逻辑，并对比其他类型大模型中常用的MaskedAttention方案。1.什么是MaskedAt
LSTM：解决梯度消失问题 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍在深度学习领域，循环神经网络（RNN）是一种处理序列数据的强大工具。然而，RNN在处理长序列时面临着梯度消失的问题。为了解决这个问题，Hochreiter和Schmidhuber于1997年提出了长短期记忆（LSTM）网络。本文将深入探讨LSTM如何解决梯度消失问题。2.核心概念与联系2.1梯度消失问题在深度神经网络中，梯度消失是一个常见的问题。当网络的层数增加时，反向传播的梯度会随着
基于深度学习的SSD口罩识别项目完整资料版（视频教程+课件+源码+数据） AI方案2025 深度学习人工智能
基于深度学习的SSD口罩识别项目完整资料版，包含视频教程、PPT课件和源码.01项目介绍.mp402SSD算法原理回顾.mp403数据集收集.mp404自定义数据集.mp405生成anchors.mp406展示anchors.mp407计算iou值.mp408计算target.mp409定义模型.mp410模型训练.mp411预测和总结.mp412ssd生成anchor源码编写.mp413计算of
55、深度学习-自学之路-自己搭建深度学习框架-16、使用LSTM解决RNN梯度消失和梯度爆炸的问题，重写莎士比亚风格文章。小宇爱深度学习-自学之路深度学习 rnn 人工智能自然语言处理神经网络
importnumpyasnpclassTensor(object):def__init__(self,data,autograd=False,creators=None,creation_op=None,id=None):self.data=np.array(data)self.autograd=autogradself.grad=Noneif(idisNone):self.id=np.rand
自然语言处理入门：从基础概念到实战项目范范0825 自然语言处理人工智能
自然语言处理入门：从基础概念到实战项目一、引言自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能的重要分支，旨在让计算机能够理解、生成和处理人类语言。随着大数据和深度学习的发展，NLP技术在文本分类、机器翻译、问答系统、情感分析等领域得到了广泛应用。本文将从NLP的基础概念入手，逐步介绍关键技术，最终通过一个完整的实战项目帮助读者掌握如何在实际应用中使用NLP
Python深度学习实践：使用TensorFlow构建图像分类器 Evaporator Core Python开发经验 python 深度学习 tensorflow
摘要随着深度学习技术的飞速发展，图像识别已成为AI领域的热点应用之一。本篇文章将引导读者使用Python和Google的TensorFlow框架，从零开始构建一个简单的图像分类器。我们将深入探讨卷积神经网络（CNN）的基本原理，实现一个能够识别MNIST手写数字的数据集模型，并通过实战代码演示整个过程，最终展示模型的训练与评估。一、环境配置与库导入确保已安装Python3.7+版本，以及Tenso
深度学习进阶：构建多层神经网络孤寂大仙v 深度学习神经网络人工智能
在上一篇文章中，我们从零开始构建了一个简单的两层神经网络，并通过异或问题（XOR）展示了神经网络的强大能力。今天，我们将进一步深入，构建一个更复杂的多层神经网络，并引入更多高级概念，如多隐藏层、激活函数选择、正则化等。我们还会使用更复杂的分类任务来训练模型，并评估其性能。1.多层神经网络的结构在实际应用中，深度学习模型通常包含多个隐藏层，这种结构被称为深度神经网络（DNN）。多层神经网络能够学习更
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v hdfs@192.168.18.133 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l