程序媛小哨

Transformer在时序预测的应⽤第一弹——Autoformer

原文地址：Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting（NIPS 2021）

做长时间序列的预测
Decomposition把时间序列做拆分，分解
提出新的注意力机制Auto-Correlation

Abstract

该论文提出了一种名为Autoformer的新深度学习模型，用于对时间序列数据进行长期预测。它使用具有自动关联机制的分解架构来发现和表示子系列级别的依赖关系，从而在涵盖实际应用的六个基准测试上具有最高的准确性。

Introduction

在导言中，作者强调了长期预测对于诸如天气预报和能耗规划等实际应用的重要性。他们指出，尽管基于Transformer的模型在发现时间序列数据中的长期依赖关系方面显示出前景，但在处理复杂的时间模式和有效利用长序列信息方面，他们面临着挑战。为了应对这些挑战，作者提出了一个名为Autoformer的新模型，该模型使用分解架构和自相关机制来发现和表示子系列级别的依赖关系。它们在涵盖实际应用的六个基准测试中展示了Autoformer的有效性。

Contributions

提出一种名为Autoformer的新深度学习模型，用于对时间序列数据进行长期预测。
引入具有自相关机制的分解架构，用于在子系列级别发现和表示依赖关系。
在涵盖实际应用的六个基准测试上展示Autoformer的有效性，实现了最先进的精度，比现有方法相对提高了38％。
深入了解基于 Transformer 的现有模型在处理复杂的时间模式和有效利用长序列信息方面的局限性。

practical implications

本文的实际意义对于需要长期预测时间序列数据的各个领域都具有重要意义，例如天气预报、能耗规划、交通预测和疾病爆发监测。所提出的具有自相关机制的Autoformer模型可以提高长期预测的准确性，从而在这些领域做出更好的决策和规划。Autoformer 的分解架构还可以帮助理解时间序列数据中的底层模式和依赖关系，这对于进一步的分析和解释很有用。总体而言，本文为提高时间序列数据长期预测的准确性和效率提供了一种有前途的方法。

Method

本文中使用的方法是：

1。提出一种名为Autoformer的新深度学习模型，用于对时间序列数据进行长期预测。
2。引入具有自相关机制的分解架构，用于在子系列级别发现和表示依赖关系。
3。在涵盖能源、交通、经济、天气和疾病等实际应用的六个基准上进行实验，以评估 Autoformer 的有效性。
4。将 Autoformer 的性能与现有的最先进方法（包括基于 Transformer 的模型）进行比较，并证明精度有了显著提高。
5。深入了解基于 Transformer 的现有模型在处理复杂的时间模式和有效利用长序列信息方面的局限性。

Data

该论文使用了涵盖能源、交通、经济、天气和疾病等实际应用的六个基准数据集来评估拟议的Autoformer模型的有效性。本文中使用的具体数据集未提及。

Future works

建议未来的工作，例如探索Autoformer在其他时间序列应用中的潜力，研究模型的可解释性，以及提高自相关机制的效率。

Limitations

该论文没有明确提及任何限制。但是，一个潜在的局限性可能是拟议的Autoformer模型可能不适用于所有类型的时间序列数据，需要进一步研究以探索其可推广到其他领域。此外，该论文没有详细分析拟议模型的计算复杂性，这可能是大规模应用的问题。

Conclusions

该论文提出了一种名为Autoformer的新型深度学习模型，用于长期预测时间序列数据。提出的模型使用具有自相关机制的分解架构来发现和表示子系列级别的依赖关系。该论文表明，在准确性和效率方面，Autoformer 的性能优于现有的最先进方法，包括基于变压器的模型。在涵盖能源、交通、经济、天气和疾病等实际应用的六个基准数据集上进行的实验表明，与现有方法相比，Autoformer在准确性方面取得了显著改善。本文深入探讨了基于Transformer的现有模型在处理复杂的时间模式和有效利用长序列信息方面的局限性。拟议的Autoformer模型有可能应用于其他时间序列应用，未来的研究可能会探索其可推广到其他领域。

Autoformer是Transformer的升级版本，针对时间序列问题的特性对原始Transformer进⾏了⼀系列优化。模型的整体结构如下图，核⼼是Series Decomposition Block模块和对多头注意⼒机制的升级AutoCorrelationMechanism。这⾥推荐想详细了解Autoformer细节的同学参考杰少的这篇⽂章：，整理的⾮常全⾯深⼊。下⾯给⼤家简单介绍⼀下Auroformer的各个模块。

随机变量独立分布不会受别的变量影响，最小原则

离散型

时间序列的拆分

为了解决时间特征和突破计算效率的瓶颈

举了两个例子
1.季节性拆分
2.矩阵拆分·

数据（1震荡）=趋势性（2不震荡）+季节性（3提交震荡性）+余项（以0为均值非常不规律的数，原始数据-2-3）

Framework

一个transformer encoder结构，一个transformer decoder结构。

跟transformer的区别体现在两个创新点：
①Series Decomp 序列的分解：时间序列做季节性分解（周期性），和趋势分解
②Autoformer自注意力机制：他认为时间序列的自注意力机制不能简简单单的根据数值来判断，应该根据其他东西，应该根据趋势来判断

原始输入 =
季节性输入（初始化zero）
+
趋势输入（初始化均值）

通过encoder输入input 做一个拆分得到
ens: encoder senson
ent: encoder trend
通过对ens和0拼接得到
des: decoder senson
通过对ens和mean均值做拼接得到
det: decoder trend

Auto-Correlation

采用了多重注意力机制，把原来通道拆分成3个然后拼起来，拿到QKV
K表示从S扩张到L
Q是卷积
QK丢过来做一个傅里叶变换（相当于把Q,K给拆了），傅里叶变换的结果再相乘在做一个逆傅里叶变换得到原始的（然后再把QK乘完的结果运算回去得到原来的）

再把右边拼接起来得到多头带注意力的值。（注意力计算之后的数据）

怎们算的：

根据随机过程里面有一个很重要的结论：Period-based dependencies

和相关性 Xt是长度为L通道数为1的分量(随机过程里面的变量)把这个和他自己τ时刻之前的变量做一个相关性检测（乘法）
把L个点都加起来取一个平均值，得到以τ为时间窗口的相关性系数。

如右图τ1一个高峰的长度，把它放到后面去，两两点比较，每两个点差值是τ1
τ2同理，把τ2长度的点拼接到后面去，每两点比较，每两个点差值是τ2

把他们两个相乘就是原时刻数据和他τ时刻之前的数据的相关性

上面是定义，真正做起来是这么做的
先把QK做傅里叶变换（把随机过程中的每一个变量都要拆分出来，拆分的结果值是2，说明只拆分了2个），其中K的傅里叶变换的结果需要取一个共轭（实数相同，虚数相反），为了两个数相乘的时候把虚数部分抵消掉。为什么要相乘就是该时刻和他自己τ时刻之前的变量做一个相关性乘法

相乘后乘完后的结果做一个逆傅里叶变换，把分解后的函数给他合起来，合成原函数，L*C
τ从1到L（遍历错位的L种情况），每种情况有好有坏这就是个标量的集合了

有L*C种情况，那我们就取k个最大的（每种移动方法有好有坏，肯定取最好的）得到图右边那部分

得到最好的k个以后再做一个softmax，保证他们的和是1

softmax以后再乘以V(第一行是原始值，后面是平移之后的值，平移的v就是不同的τ，不同的τ乘以τ的相关系数)

最后在做一个融合就是L*C个，这个就是带注意力值的一个矩阵，原来的输入就变成了带注意力值的输入

最后经过多头的话，再做一个拼接

多头就是把原来的通道分为3份，原来有3c个通道，除以3后每个头就有c个通道。纯纯是为了加速。同时也能提升注意力的效果。

下图是自动相关注意力机制和常见注意力机制进行对比

左上某一个时刻点和所有时刻相关性的乘法，基于数值，效果会非常差

右上（分散型注意力）不和所有点做一个注意力乘法，只是分散，分散的依据有很多（Informer用的概率稀疏的注意力乘法，根据分布的相似度，如果两个分布越相似，相似度越高，取前几个最相似的做注意力，图例种的几个点就是函数上比较相似）

左下（Log相似度 by LogTransformer）他的取样不是根据相似度，是根据固定的指数增长的一个间隔，完全根据间隔来

右下（根据周期来的）找不同的τ每一个点都跟τ之前的点比较，把这n个点连起来，就是n个点和n个点前时刻的点做一个相关性计算。

值得提的就是周期性的趋势不参与自注意力计算，只是最后做一个加法，趋势分解之后，它分解出来的这个部分又和原来的做一个加法。每次一分解就和原来的做加法，最后又加回去了，趋势性和季节性的都加回去了

这个模型侧重于季节性的提取

Dataset

相关实验，把注意力机制换掉

在原来的里面加了分解模型的效果

两个创新点都能用
注意力 QKV做线性变换的， LogTrans提出把线性层换成卷积层会有效果的提升

序列的分解方法

数据集都是带时间周期的，tranffic有两个，早高峰晚高峰，周一
Dlinear效果最好但是不能发文章

基于Transformer的模型采用各种注意力机制来发现长期依赖关系，但是有两个两个挑战:
未来的时间模式复杂,难以找到可靠的时间依赖。
为了应对长序列时有效率，Transformer采用稀疏的point-wise自注意力，导致信息利用效率低。
本文提出Autoformer将序列分解这一预处理，更新为一个内部块，实现渐进式的预测Decomposition Architecture 。
在随机过程理论基础上，设计基于序列周期性的Auto-Correlation机制。不再是point-wise而是series-wise。在子序列层次上进行相关性发现和表示聚合。

在这段话中，"point-wise"和"series-wise"是指自注意力机制中所涉及的不同数据点的关系表示方式。

在传统的Transformer中，自注意力机制是基于点之间的相对位置来计算注意力分数的，因此称为point-wise。具体地说，每个词嵌入向量都会与序列中的所有其他向量进行比较，并计算它们之间的相似度得分，然后使用这些得分来加权平均所有向量以获得上下文表示。

相比之下，Autoformer使用的是series-wise的注意力机制。这意味着它考虑的是序列中子序列的关系，而不是单个词之间的关系。这种注意力机制可以更好地捕捉到序列中长距离的依赖关系，因为它不受点与点之间距离的影响，而是考虑序列上的周期性结构。

具体来说，Autoformer采用了一种基于序列周期性的自相关机制，用于在子序列级别上计算注意力分数，以捕捉序列中的长期依赖关系。这种机制利用了序列中的重复模式，并将它们表示为周期函数，

在Transformer中，点积注意力（也称为point-wise自注意力）是一种机制，用于计算输入序列中每个位置与其他位置之间的相对重要性，以便进行下一步的处理。Point-wise自注意力通过对所有输入位置进行显式计算来实现这一点，这可能会导致在处理长序列时出现效率问题，因为它需要大量的计算资源和内存空间。

相比之下，Autoformer中采用的是序列分解（Decomposition Architecture）的预处理方式。它将长序列分解为多个子序列，每个子序列都可以独立地进行处理，以减少计算和存储的负担。这种方法实现了渐进式的预测，从而提高了效率。

在Autoformer中，还采用了一个基于序列周期性的自相关（Auto-Correlation）机制，以替代点积注意力。自相关是一种衡量序列中不同部分之间相关性的方法，可以通过计算序列在不同时间点上的相似度来实现。这种机制在子序列层次上发现和表示相关性，从而实现了series-wise处理。与point-wise自注意力相比，series-wise处理可以更有效地捕获序列中的长期依赖关系，并提高模型的表现力。

在Transformer模型中，point-wise通常指的是通过一个全连接层（也称为线性层）来对每个位置的向量进行非线性转换。这个操作也被称为多层感知机（MLP）层。

具体来说，在Transformer的自注意力层中，每个输入向量会分别经过三个线性变换，即查询（query）、键（key）和值（value）变换。然后，通过计算查询向量和键向量的点积，再经过softmax函数的归一化，最后将值向量加权求和，就得到了自注意力层的输出。其中，每个向量都可以经过一个点-wise的前馈神经网络，也就是一个全连接层，来增强其表示能力。

这个全连接层的作用是将每个向量的每个维度作为输入，通过一个非线性的函数映射到一个新的向量空间，以获得更丰富的特征表达。这种操作是点-wise的，因为它是对每个向量的每个维度进行独立的转换，而不是像卷积神经网络中的卷积操作一样，对整个向量进行变换。

在Transformer模型中，Multi-Head Attention和Self-Attention（自注意力机制）是两个不同的概念，但它们在Transformer中密切相关，并且通常一起使用。

Self-Attention是一种计算输入序列中每个位置与其他位置之间的关联程度的机制。在Transformer中，每个输入向量将同时经过三个线性变换，分别变成查询（query）、键（key）和值（value）向量，然后计算查询向量和键向量的点积，再经过softmax函数的归一化，最后将值向量加权求和，得到自注意力层的输出。这个过程是针对输入序列内部不同位置之间的关系进行计算的。

Multi-Head Attention是将Self-Attention机制复制多份，每份分别计算不同的query、key、value向量，并在输出后进行concatenation（拼接）操作。这样做的好处是能够让模型在不同的“头”（即不同的注意力机制）上学习不同的特征，提高模型的表示能力。Multi-Head Attention通常包括多个并行的Self-Attention计算，通过在不同的query、key、value向量上进行投影，从而使得模型能够同时关注输入序列的不同方面。

序列分解快

Encoder部分的主要目的是对复杂的季节项进行建模。通过多层的Series Decomposition Block，不断从原始序列中提取季节项。这个季节项会作为指导Decoder在预测未来时季节项的信息。

该方程由两条线组成，每条线描述了 Autoformer 架构中的不同步骤。第一行描述了 SeriesDecomp 步骤，该步骤将输入的时间序列数据分解为子序列。输入数据表示为 Xen (l-1)，其中 l 是层号，-1 表示前一层。自动关联机制应用于输入数据，该数据在子系列级别进行依赖关系发现和表示聚合。将自动关联机制的输出添加到输入数据中，然后将生成的和通过 SeriesDecomp 函数传递以获得输出的子系列数据。此输出表示为 Sen (l,1)，其中 1 表示第一个子系列。

第二行描述了 FeedForward 步骤，该步骤将前馈神经网络应用于从第一行获得的输出子系列数据。将前馈网络的输出添加到输入子系列数据中，然后通过SeriesDecomp函数传递生成的总和以获得最终的输出子系列数据。此输出表示为 Sen (l,2)，其中 2 表示第二个子系列。

SeriesDecomp 函数是一种新颖的设计，它打破了序列分解的预处理惯例，将其更新为深度模型的基本内部模块。这种设计使 Autoformer 具有复杂时间序列的渐进分解能力。自相关机制受随机过程理论的启发，基于序列周期。它在效率和准确性方面都优于自我注意力。

该方程显示了模型每层 (l) 的分解过程。第 l-1 层的输入时间序列表示为 Xde (l-1)。将自相关机制应用于 Xde (l-1) 以获得分解后的子序列，然后将其添加到 Xde (l-1) 中。然后通过 seriesDecomp 函数传递这个总和以获得两个输出：Sde (l,1) 和 Tde (l,1)。Sde (l,1) 是分解后的子系列，而 Tde (l,1) 是捕捉剩余模式和依赖关系的残差序列。

对于 Sde (l,1) 和 Xen (N)（最后一层的输入时间序列）重复相同的过程，生成 Sde (l,2) 和 Tde (l,2)。最后，通过 FeedForward 函数传递 Sde (l,2) 以获得 Sde (l,3) 和 Tde (l,3)。然后使用权重（Wl1、Wl,2 和 Wl,3）对 SeriesDecomp 函数（Tde (l,1)、Tde (l,2) 和 Tde (l,3)）的输出进行合并，得出最终的分解序列 Tde (l)。

总体而言，此过程允许Autoformer模型逐步将输入时间序列分解为较小的子序列，从而捕获复杂的时间模式和依赖关系。自动关联机制是根据序列的周期性设计的，这有助于在子序列级别上有效地发现和表示依赖关系。这种方法在效率和准确性方面都优于基于 Transformer 的模型中使用的传统自我注意力机制。Autoformer 模型在长期预测方面实现了最先进的准确性，与涵盖能源、交通、经济、天气和疾病等实际应用的六个基准相比，相对提高了 38%。该模型的代码可在提供的存储库中找到。

Docker中GPU的使用指南俞兆鹏云原生实践 docker 容器运维
在当今的计算领域，GPU（图形处理单元）已经成为了加速各种计算密集型任务的关键硬件，特别是在深度学习、科学模拟和高性能计算等领域。Docker作为流行的容器化平台，允许开发者将应用程序及其依赖打包成一个可移植的容器，在不同的环境中运行。当需要在Docker容器中利用GPU的计算能力时，我们需要进行一些特定的配置和设置。本文将详细介绍如何在Docker中使用GPU，从环境准备到实际应用，帮助你充分利
具身智能行业 [shenhonglei] 具身觉醒：智能进化的未来之路人工智能机器人
具身智能行业综合分析资源下载-具身智能导图.xmind资源下载-具身智能导图.xmind一、行业概况定义与核心特征具身智能（EmbodiedAI）指通过物理实体（如机器人、自动驾驶设备等）与环境的动态交互，实现感知、认知和行动控制的智能系统。其核心特征是“知行合一”，强调通过实际交互提升智能水平，而非仅依赖数据训练。技术融合：结合人工智能（AI）、机器人技术、多模态大模型
【AGI】中国大模型扛把子：通义家族 LeeZhao@ AIGC重塑生活神器 agi 人工智能 AIGC 面试自然语言处理语言模型
中国大模型扛把子：通义家族引言一、通义千问的技术架构与模型谱系二、技术突破与性能优势三、开源生态与行业影响四、未来展望：从“千问时代”到通用智能五、通义家族大模型列表（1）多模态大模型（2）大语言模型结语引言在人工智能大模型领域，中国科技企业正以惊人的速度突破技术边界。阿里云推出的**通义千问（Qwen）**系列大模型，凭借其多层次的技术架构、多样化的模型生态及开源战略，已成为全球AI领域的重要标
【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系 longii11 linux pytorch 运维
一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。借助CUDA工具包，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。该工具包包括GPU加速库、调试和优化工具、C/C++编译器以及用于部署应用程序的运行时库。全球的深度学习研究人员和框架开发人员都依赖cuDN
大语言模型对程序员行业的影响及未来发展走势分析 Hello kele 人工智能 java 人工智能 AI编程
随着人工智能技术的快速发展，特别是大语言模型（如DeepSeek、OpenAI、Grok等）的出现，对程序员这个行业产生了深远的影响。在这篇文章中，我们将探讨这些变化，分析影响，并展望未来的发展趋势。一、当前影响1.自动化代码生成大语言模型的一个直接影响是代码自动化的能力。这些模型可以理解代码上下文，并生成功能性代码。例如，GitHubCopilot已经成为许多开发者的辅助工具，能够根据注释或部分
DeepSeek：AI赋能的无限可能——从日常生活到职业进阶的全场景探索 Hello kele 人工智能人工智能
引言在人工智能技术飞速发展的今天，DeepSeek作为一款国产AI工具，凭借其强大的推理能力、自然语言处理效率和场景化应用潜力，正在重塑人类解决问题的方式。从撰写演讲稿到制定投资策略，从家庭教育到企业管理，DeepSeek通过“自然语言对话”的交互模式，将复杂任务简化为几步提示词的输入，真正实现了“所想即所得”。本文将从七大核心场景出发，系统解析DeepSeek如何成为个人与组织的智能助手，推动效
RAG 检索增强生成：技术详解与应用展望君君学姐 RAG检索增强生成
RAG检索增强生成：技术详解与应用展望一、引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了前所未有的变革。其中，检索增强生成（Retrieval-AugmentedGeneration，简称RAG）作为一种新兴的技术框架，正逐渐成为大模型应用中的热门选择。RAG通过结合信息检索（IR）和自然语言生成（NLG）的能力，旨在提升模型在回答问题、生成文本等任务中的准确性和可靠性。本文将深
人工智能开发趋势光影少年人工智能
人工智能开发趋势：未来技术的演进与创新引言人工智能（AI）正在以惊人的速度发展，并在各行各业中发挥越来越重要的作用。从自然语言处理到计算机视觉，从自动化决策到自主学习，AI的发展方向正变得更加智能化、自动化和人性化。本文将探讨当前AI开发的最新趋势，并展望未来的发展方向。1.生成式AI的崛起近年来，生成式AI（如ChatGPT、StableDiffusion、DALL·E）展现出强大的内容创作能力
LLM辅助编程：代码自动生成与优化 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
LLM,代码生成,代码优化,编程辅助,AI编程,自然语言处理,深度学习1.背景介绍随着软件开发的日益复杂化，程序员面临着越来越高的开发压力和效率要求。传统的编程方式依赖于手动编写代码，这不仅耗时费力，而且容易出现错误。近年来，随着深度学习技术的快速发展，基于大型语言模型（LLM）的代码生成和优化技术逐渐成为软件开发领域的新兴热点。LLM是一种强大的人工智能模型，能够理解和生成人类语言。通过训练大量
国内开源深度学习框架 we19a0sen 深度学习人工智能
目录一、国内开源深度学习框架1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）二、快速入手1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）三、基础教程1、Paddle
Oumi ：AI开发的未来？人工智能开源
Oumi：AI开发的未来？前言在人工智能领域，开源技术正以前所未有的速度推动着创新和变革。今天，我们将聚焦一个备受瞩目的开源AI平台——Oumi。它不仅以其强大的功能和灵活的架构吸引了全球开发者和企业的目光，还通过简化AI开发的整个生命周期，为用户提供了前所未有的便利。github地址：https://github.com/oumi-ai/oumi官网地址：https://oumi.ai/什么是O
关于采用源始经为底层框架开发中文编程系统的可能性太翌修仙笔录 deepseek 超算法认知架构第三代人工智能算法人工智能
用中文写代码和Python哪个有前景在编程语言选择方面，**Python的发展前景明显优于中文编程语言**。以下是具体分析：---###一、核心结论**优先选择Python**，因为：1.**全球通用性**：Python是国际主流编程语言，适用于跨国协作和开源项目2.**就业市场需求**：Python在人工智能/大数据/Web开发等领域的岗位需求持续增长3.**技术生态优势**：拥有超过30万个第
神经网络ＶＳ决策树 Persistence is gold 神经网络决策树人工智能
神经网络（NeuralNetworks）和决策树（DecisionTrees）是两种不同的机器学习算法，各自具有独特的优点和适用场景。以下是它们的详细比较：神经网络优点:强大的学习能力:神经网络，尤其是深度神经网络，能够自动学习数据中的复杂特征，可以处理高维和非线性的问题。适用性广泛:神经网络适用于分类、回归、图像处理、语音识别、自然语言处理等多种任务。多层结构:通过增加隐藏层，神经网络可以逐层提
【免费收藏】清华大学DeepSeek使用手册合集 600页完整版周师姐 AI写作学习人工智能 pdf
DeepSeek资料链接：https://pan.quark.cn/s/c927326f70c5在人工智能席卷全球的当下，DeepSeek作为前沿深度学习技术，正推动着全面AI时代的到来。今日，特别为大家推荐《DeepSeek：从入门到精通》，本书由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心编写。它深度解析DeepSeek的技术核心，详尽阐释其应用场景与操作方法，尤
深度神经网络——决策树的实现与剪枝知来者逆人工智能 dnn 决策树人工智能神经网络深度学习机器学习
概述决策树是一种有用的机器学习算法，用于回归和分类任务。“决策树”这个名字来源于这样一个事实：算法不断地将数据集划分为越来越小的部分，直到数据被划分为单个实例，然后对实例进行分类。如果您要可视化算法的结果，类别的划分方式将类似于一棵树和许多叶子。这是决策树的快速定义，但让我们深入了解决策树的工作原理。更好地了解决策树的运作方式及其用例，将帮助您了解何时在机器学习项目中使用它们。决策树的结构决策树的
YOLOv12改进之A2(区域注意力) 清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法
注意力回顾注意力机制作为深度学习领域的核心技术，已广泛应用于自然语言处理和计算机视觉等多个领域。在YOLOv12改进之A2中，注意力机制扮演着关键角色。已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。SENet：引入了通道注意力机制，通过自适应学习特征通道的重要性，
CES Asia 2025：科技盛宴助力中国数字经济腾飞 CES_Asia 科技机器人人工智能智能音箱智能电视
备受瞩目的CESAsia2025第七届亚洲消费电子技术贸易展（赛逸展）将在首都北京盛大开幕。本届展会以“科技新视界，创新赢未来”为主题，聚焦人工智能、5G、物联网、元宇宙等前沿科技领域，集中展示全球消费电子行业的最新创新成果，为行业发展注入新动能。政策东风助力，CESAsia2025亮点纷呈近年来，中国高度重视数字经济发展，出台了一系列政策措施，为消费电子产业创造了良好的发展环境。CESAsia2
芯科科技通过全新并发多协议SoC重新定义智能家居连接电子科技圈 Silicon Labs 智能家居边缘计算 mcu 物联网 iot 人工智能机器学习
MG26系列SoC现已全面供货，为开发人员提供最高性能和人工智能/机器学习功能致力于以安全、智能无线连接技术，建立更互联世界的全球领导厂商SiliconLabs（亦称“芯科科技”，NASDAQ：SLAB），日前宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26SoC的闪存和RAM容量是芯科科技
【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql生成框架木亦汐丫大模型语言模型 sql agi ai 数据库人工智能 embedding
简介Vanna是基于检索增强(RAG)的sql生成框架Vanna使用一种称为LLM（大型语言模型）的生成式人工智能。简而言之，这些模型是在大量数据（包括一堆在线可用的SQL查询）上进行训练的，并通过预测响应提示中最有可能的下一个单词或“标记”来工作。Vanna优化了提示（通过向量数据库使用嵌入搜索）并微调LLM模型以生成更好的SQL。Vanna可以使用和试验许多不同的LLM，以获得最准确的结果。V
中国人工智能大赛成果发布会 | 代码安全智能体让研发安全又高效安全
2024年12月20日，由厦门市人民政府主办，以“融新汇智竞促发展”为主题的第五届中国人工智能大赛成果发布会在厦门成功举办。人工智能安全论坛于成果发布会期间举办，重点聚焦人工智能安全技术专家，共同探讨安全治理的实践经验，探索智能体安全、大模型安全、数据安全、内容安全等方面面临的挑战和解决方案。百度安全技术委员会主席包沉浮受邀出席，分享了智能体技术在代码安全应用上的最新实践经验。百度安全技术委员会主
重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！ zhangjiaofa DeepSeek R1&AI人工智能大模型人工智能 DeepSeek R1 多模态
一、引言在当今人工智能飞速发展的时代，多模态AI技术正逐渐成为研究与应用的焦点。近日，一项令人瞩目的成果引发了广泛关注——VLM-R1开源项目成功将DeepSeek的R1方法从纯文本领域迁移至视觉语言领域，为多模态AI的发展开辟了新的道路，极大地拓展了多模态领域的想象空间。本文将深入探讨这一创新性成果，从其灵感来源、验证结果、实际案例、带来的新思路以及开源资源等多个方面进行剖析，带您全面了解这一前
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》程序猿阿伟人工智能
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》人工智能深度学习
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
「AI」人工智能的发展阶段：ANI、AGI与ASI 何曾参静谧「AI」人工智能人工智能 agi
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
Grok 3能否打破大模型的魔咒？ TGITCIC AI-大模型的落地之道 grok grok3 大模型小模型 scaling law 开源大模型
新模型旧魔咒Grok3的问世，仿佛是科技界的一声惊雷。面对老掉牙的大模型法则，大家不禁要问：这到底意味着什么？以前，一提深度学习就能引出一场血雨腥风，现如今却有人说“没钱也能玩”。这风浪可真是一波未平一波又起。也许这就是科技的魅力：一统江湖的法则瞬间瓦解。缩小与提升大模型不再是唯一的解决方案，大家发现，原来小模型也可以撬动市场。不过，面对如何提升模型的智商，各路英雄却依然不得不面对两个选择：大力度
深度学习_第二轮 Humingway 深度学习深度学习人工智能
损失函数对偏置和权重求导，x、y作为常量确实，当进行模型训练时，(x)和(y)分别代表输入特征和对应的输出值，它们以数据点对的形式存在，一个数据集中通常包含多对这样的数据。每一对((x_i),(y_i))代表了数据集中的一个样本。在计算损失函数的梯度（即关于权重的偏导数）时，需要考虑整个数据集中的所有样本。对于每个样本((x_i),(y_i))，我们计算其对损失函数的贡献，并通过求和或平均这些贡献
对深度学习中的基本概念—梯度的理解 Humingway 深度学习深度学习人工智能
本文讨论一下对“梯度”的理解。“梯度”是深度学习中基本又非常核心的概念，没有它就没有人工智能的今天。然而，即使抛开令人眼花缭乱的术语（比如sgd、ada、moment、adam）不谈，即使最简单的“梯度”本身，也值得讨论一下。1.提出问题该如何理解梯度？让我们结合具体的例子来体会一下。2.定义例子首先，我们定义一个简单的例子，来模拟一下深度学习的学习过程。已知：有一个正确的数据对（或者叫样本），(
网络安全就业形式怎么样？网络安全Ash web安全安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快随着人工智能、物联网、5G等技术的普及，网络安全问题变得越来越复杂和多样化，因此企业越来越重视网络安全，政府也出台了相关政策支持网络安全建设，进一步推动了网络安全行业的发展，那么网络安全就业前景如何?这是大家关心的重点，我们来探讨一下。网络安全就业前景可以说是一片光明，是一个不错的行业。没有网络安全就没有国家安全，可想网络安全有多重要。而
11页PDF | DeepSeek平民化：AI助力数据治理整体方案（附下载） Leo.yuan 大数据人工智能
一、前言这份报告介绍了一种基于人工智能（AI）的智能数据治理整体方案，旨在通过AI的自然语言处理、学习能力、理解与推理能力等技术手段，解决传统数据治理中存在的问题，提升企业数据管理能力和效率。方案以高质量数据资产知识库为基础，结合智能化技术工具箱，针对数据治理中的痛点场景（如文档编写、元数据管理、数据标准、数据质量、数据安全、数据资产盘点等）提供智能化解决方案。通过AI技术的应用，方案能够实现数据
深度 | 车载语音群雄并起共争智能座舱新高地数据堂官方账号分享人工智能语音识别
不论是苹果公司iOS系统中的智能语言助手“Siri”，还是微软Windows系统中的“Cortana”，智能语音交互早已融入我们生活之中。随着汽车产业的发展，用户消费形态的改变，自动驾驶、智能座舱、新能源这些概念已经逐渐落地成为现实，智能语音交互与汽车之间也擦出了别样的火花。由于驾驶汽车无法解放双手，对于人机互动的需求，则更多需要通过语言来实现。因此，结合了人工智能的车载语音交互系统作为汽车智能网
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

Transformer在时序预测的应⽤第一弹——Autoformer

Transformer在时序预测的应⽤第一弹——Autoformer

Abstract

Introduction

Contributions

practical implications

Method

Data

Future works

Limitations

Conclusions

Framework

Auto-Correlation

Dataset

你可能感兴趣的:(深度学习,人工智能,神经网络)