小兔子乖乖。

Are Transformers Effective for Time Series Forecasting?（机翻部分段落

最近，基于Transformer的时间序列预测(TSF)任务解决方案激增，特别是具有挑战性的长期TSF问题。Transformer架构依靠自注意机制有效提取长序列中成对元素之间的语义相关性，这种相关性具有置换不变和一定的“反序”特性。然而，在时间序列建模中，我们要提取连续点的有序集合之间的时间关系。因此，基于Transformer的技术是否是“长期”时间序列预测的正确解决方案是一个值得研究的有趣问题，尽管这些研究显示性能有所提高。在这项工作中，我们质疑基于Transformer的TSF解决方案的有效性。在他们的实验中，比较**(非Transformer)基线主要是自回归预测解**，由于不可避免的误差累积效应，通常长期预测能力较差。相比之下，我们使用了一个简单得令人尴尬的体系结构，名为DLinear，它可以直接进行多步(DMS)预测，以便进行比较。DLinear将时间序列分解为趋势序列和余数序列（应该是未来趋势序列和历史趋势序列），并使用两个单层线性网络对这两个序列进行建模，用于预测任务。令人惊讶的是，在大多数情况下，它的性能大大超过了现有的基于transformer的复杂模型。因此，我们得出结论，现有工作中基于Transformer的TSF解决方案相对较高的长期预测精度与Transformer体系结构的时间关系提取能力关系不大。这主要是由于它们采用了非自回归DMS预测策略。我们希望本研究也提倡在未来的时间序列分析任务(如异常检测)中重新审视基于Transformer的解决方案的有效性。代码可以在https://github.com/cure-lab/DLinear。

摘要

时间序列在当今数据驱动的世界中无处不在。鉴于历史数据，时间序列预测(TSF)是一项长期存在的任务，具有广泛的应用，包括但不限于交通流估计、能源管理和金融投资。在过去的几十年里，TSF解决方案经历了从传统的统计方法(如ARIMA[1])和机器学习技术(如GBRT[10])到基于深度学习的解决方案，如循环神经网络(RNNs)[15]和时间卷积网络(tns)[3]的发展。与此同时，我们正在处理越来越复杂和多样化的时间序列数据，从单变量时间序列到多元时间序列以及今天的大时间序列在许多应用中，需要先进的深度神经网络来提取时间关系。Transformer[25]可以说是最成功的序列建模架构，在各种人工智能应用中表现出无与伦比的性能，如自然语言处理[6]、语音识别[7]和运动分析[19]。最近，[26]中调查的基于transformer的时间序列分析解决方案也出现了激增。TSF任务的一些著名模型包括:LogTrans [16] (NeurIPS 2019)， Informer [28] (AAAI 2021年最佳论文)，Autoformer [27] (NeurIPS 2021)， Pyraformer [18] (ICLR 2022 Oral)，和最近的FEDformer [29] (ICML 2022)。上述大部分工作都集中在研究较少的长期时间序列预测(LTSF)问题上，表明与传统方法相比，预测精度有相当大的提高。然而，在他们的实验中**，所有的比较(非Transformer)基线都进行了自回归预测**[1,21,2,23]，这是已知的存在显著的误差累积效应。更重要的是，Transformer架构的主要工作动力来自于它的多头自注意机制，它具有在长序列中(如文本中的单词或图像中的2D块)提取成对元素之间语义相关性的显著能力，并且这个过程是排列不变的，即不分顺序。然而，对于时间序列分析，我们主要感兴趣的是在一组连续的点之间建立时间动力学模型，其中顺序本身往往起着最关键的作用。基于以上分析，我们提出了一个有趣的问题:《Transformer》对长期时间序列预测真的有效吗?
（是因为Transformer类的模型使用了非自回归模型的原因？？）
为了回答这个问题，我们提出了一个非常简单的网络DLinear作为比较基线。DLinear将时间序列分解为趋势序列和余数序列，利用两个单层线性网络对这两个序列进行直接多步(DMS)预测建模。我们对九个广泛使用的基准进行了广泛的实验，包括几个现实生活中的应用:交通、能源、经济、天气和疾病预测。我们的结果表明，在大多数情况下，DLinear在很大程度上优于现有的基于变压器的复杂模型。特别是对于没有明显周期性的汇率数据集，最先进的方法[29]的预测误差比DLinear的预测误差大2倍以上。此外，我们发现，与现有的工作相比，他们中的大多数未能从长序列中提取时间关系，即预测误差并没有随着回望窗口大小的增加而减少(有时甚至增加)。最后，我们还对现有的基于Transformer的TSF解决方案进行了各种消融研究，以研究各种设计元素对其中的影响。由此，我们得出结论，Transformer对时间序列的时间建模能力被夸大了，至少在时间序列预测问题上是如此。与此同时，虽然DLinear取得了比现有工作更好的预测精度，但它只是为未来研究具有挑战性的长期TSF问题提供了一个简单的基线。基于我们的研究结果，我们也提倡在未来重新审视基于Transformer的解决方案对于其他时间序列分析任务(例如，异常检测)的有效性。本文的其余部分组织如下。第2节对时间序列预测进行了初步介绍。然后，我们在第3节讨论现有的基于Transformer的解决方案。接下来，第4节详细介绍了基线DLinear架构。实验结果将在第5节中展示。最后，第6节对本文进行总结。

TSF问题的制定

对于包含C个变量的时间序列，给定历史数据X = [Xt，， X)t1，其中L为回望窗口大小，X为第i个变量在第t个时间步长的值。时间序列预测任务是预测未来t个时间步的值& = [t,t1]。当T > 1时，我们可以学习一个单步预测器，并迭代应用它获得多步预测，称为迭代多步(IMS)预测[22]。或者，我们可以一次直接优化多步预测目标，称为直接多步(DMS)预测[4]。
与DMS预测结果相比，由于自回归估计过程，IMS预测结果方差较小，但不可避免地存在误差累积效应。因此，当有一个高精度的单步预测器，且T相对较小时，IMS预测是可取的。而DMS预测在难以获得无偏单步预测模型或T较大的情况下，预测结果相对更准确。

2.2非基于transformer的TSF方案

统计方法(如自回归综合移动平均(ARIMA)[1]，指数平滑[11]，结构模型[13])用于时间序列预测是一个长期存在的问题，具有广泛的应用范围。一般来说，统计方法中使用的参数模型需要大量的领域专业知识来构建。为了减轻这种负担，许多机器学习技术，如梯度提升回归树(GBRT)[10,9]得到了普及，它以数据驱动的方式学习时间序列的时间动态。然而，这些方法仍然需要手工的特征工程和模型设计。由于深度神经网络(deep neural networks, DNNs)对丰富的数据具有强大的表示学习能力，文献中提出了各种基于深度学习的TSF解决方案，在很多情况下实现了比传统技术更好的预测精度。除了transformer之外，另外两种流行的DNN架构也被用于时间序列预测:
1）基于递归神经网络(RNNs)的方法(如[20])在内部记忆状态中紧凑地总结过去的信息，并递归地更新自己以进行预测。
2）基于卷积神经网络(CNNs)的方法(例如，[3])，其中卷积滤波器用于捕获局部时间特征。
基于rnn的TSF方法属于IMS预测技术。根据解码器是否以自回归方式实现，基于cnn的TSF方法有IMS或DMS预测技术[3,17]

2.2 基于Transformer的LTSF解决方案

基于变压器的模型[25]在自然语言处理和计算机视觉领域的许多长期存在的AI任务中取得了无与伦比的性能，这得益于多头自我注意机制的有效性和效率。正如[26]中调查的那样，这也引发了对基于Transformer的时间序列建模技术的大量研究兴趣。特别是大量的研究工作致力于TSF任务(如[16,18,27 -29])。考虑到使用Transformer模型获取长期依赖关系的能力，其中大多数关注较少探索的长期预测问题(T > 1)。将Transformer模型应用于LTSF问题时，存在一定的局限性，包括原始自注意方案的二次元时间/内存复杂度和自回归译码器设计造成的误差积累。[28]解决了这些问题，提出了一种新的Transformer架构，降低了复杂性，并提供了DMS预测策略。后来，更多的Transformer变体在其模型中引入了各种时间序列特性，以提高性能或效率[18,27,29]。我们总结了现有基于transformer的TSF解决方案的设计元素如下(参见图1)。
时间序列分解:对于数据预处理，零均值归一化在TSF中很常见。此外，Autoformer[27]首先在每个神经块后面应用了季节趋势分解，这是时间序列分析的标准方法，可以使原始数据更具有可预测性[5,12]。具体来说，他们在输入序列上使用移动平均核来提取时间序列的趋势周期分量。将原始序列与趋势分量的差值作为季节分量。FEDformer[29]在Autoformer分解方案的基础上，进一步提出混合专家策略，混合不同核大小的移动平均核提取的趋势分量。
输入嵌入策略:Transformer架构中的自我注意层不能保存时间序列的位置信息。但是，局部位置信息，即排序时间序列很重要。此外，全局时间信息(如分层时间戳(周、月、年)和不可知论时间戳(节假日和事件))也是提供信息的[28]。为了增强时间序列输入的时间上下文，SOTA变压器基于方法的一个实用设计是注入几个嵌入，如固定位置编码、通道投影嵌入和可学习的时间嵌入到输入序列。此外，还引入了时间卷积层[16]或可学习时间戳[27]的时间嵌入。
**自我注意机制:**变形金刚依靠自我注意机制来提取成对元素之间的语义依赖关系。为了减少普通Transformer的O (L2)时间和内存复杂度，使用了两种策略来提高效率。一方面，LogTrans[16]和Pyraformer[18]在自我注意方案中明确引入了稀疏性偏差。
具体来说，LogTrans[16]使用Logsparse掩罩将计算复杂度降低到O(LlogL)，而Pyraformer[18]采用金字塔式注意，以O(L)时间和内存复杂度来捕获分层多尺度的时间依赖关系。另一方面，Informer[28]和FEDformer[29]在自我注意矩阵中使用了低秩属性。Informer[28]提出ProbSparse自注意机制和自注意提取操作，将复杂度降低到O (LlogL); FEDformer[29]设计傅里叶增强块和小波增强块，随机选择，获得O (L)复杂度。最后，Autoformer[27]设计了一种串行自相关机制来取代原来的自注意层。
解码器:原始的Transformer解码器以自回归的方式输出序列，导致推断速度缓慢和错误累积效应，特别是对于长期预测。
[28]设计了一种用于DMS预测的生成式解码器。其他Transformer变体也采用类似的DMS策略。例如，Pyraformer[18]使用连接时空轴的全连接层作为解码器。自成体[27]将趋势周期分量的精细化分解特征和季节分量的叠加自相关机制总结出来，得到最终的预测结果。FEDformer[29]还使用了一种带有频率注意块的分解方案来解码最终结果。

Transformer模型的前提是成对元素之间的语义相关性，而自我注意机制本身是置换不变的。考虑到时间序列中的原始数值数据(如股票价格或电力价值)，它们之间几乎没有任何点的语义相关性。在时间序列建模中，我们主要关注连续点集合之间的时间关系，这些元素的顺序而不是配对关系起着最关键的作用。虽然采用位置编码和使用标记嵌入子序列有利于保留一些排序信息，但置换不变自我注意机制的性质不可避免地会导致时间信息的丢失。鉴于上述观察结果，我们有兴趣重新审视基于变压器的LTSF解决方案的有效性。

4 LTSF的基线简单得令人尴尬

在现有的基于变压器的LTSF解决方案(T > 1)的实验中，所有的比较(非变压器)基线都是IMS预测技术，已知其存在显著的误差累积效应。我们假设在这些工作中显示的性能改进很大程度上是由于它们中使用的DMS策略。为了验证这一假设，我们提出了一个非常简单的时间序列分解线性模型，名为DLinear，作为比较的基线。主要有两个观察结果启发了我们的设计。
首先，一个单层线性网络可以被认为是最简单的网络来聚合历史信息以预测未来。其次，从以往的研究[26,27,29]的实验来看，分解可以很大程度上提高基于transformer的方法在时间序列预测中的性能，这种方法是模型不可知的，可以促进其他模型，如线性模型的预测。因此，DLinear是分解方案和线性网络的组合。它首先将一个时间序列数据分解为趋势分量Xt E RLXC和余数数据X， = X - Xt。然后，将两个一层线性网络应用于两个级数。

DLinear的总体结构如图2 (a)所示，整个过程为:X = H， + H，其中H， = W,X, E RTXC, Ht = W,Xt E RTXC为分解后的趋势和余数特征。W、E RTXL和Wt E RTXL是两个线性层，如图2(b)所示。注意，如果数据集的变量具有不同的特征，即不同的季节性和趋势，在不同变量之间共享权重的DLinear可能表现不佳。因此，我们在DLinear中有两种设计。我们将每个变量共享同一个线性层的DLinear网络命名为DLinear- s，将每个变量单独拥有一个线性层的DLinear- i网络命名为DLinear- i。我们默认使用DLinear-S。虽然DLinear很简单，但它有一些引人注目的特点:O(1)最大信号遍历路径长度:路径越短，依赖关系越好被捕获[18]，使DLinear能够捕获短期和长期的时间关系。．效率高:由于每个分支只有一个线性层，因此它比现有的变压器消耗更少的内存和更少的参数，推理速度更快(见表8)。•可解释性:训练后，我们可以将季节性和趋势分支的权重可视化，从而对[8]的预测值有一些见解。易于使用:DLinear可以很容易地获得，而无需调优模型超参数。

实验结果

对于现有的基于Transformer的TSF解决方案:Autoformer[27]、Informer[28]和普通Transformer[25]的实现都来自于Autoformer工作[27];FEDformer[29]和Pyraformer[18]的实现来自各自的代码存储库。我们也采用它们的默认超参数来训练模型。对于DLinear来说，为了获得一个平滑的、清晰的权值，我们将DLinear中线性层的权值初始化为1/L，而不是随机初始化。也就是说，我们在训练开始时，对回顾窗口中的每个预测时间步使用相同的权值。更多的DLinear超参数，请参考我们的代码。DLinear的分解方案与Autoformerm相同，其中移动平均核大小为25。

这些结果表明，现有的基于变压器的TSF解决方案不能有效地提取时间关系，而DLinear是长期预测任务的强大基线。最近的FEDformer取得了较高的预测精度，尤其是ETT基准，如表3所示。这可能是因为federformer不太依赖于变形金刚中的自我注意机制。相反，它采用了经典的时间序列分析技术，如傅里叶变换，在时间特征提取中发挥重要作用。值得注意的是，虽然FEDformer在某些情况下优于DLinear，但它是在T = 96的设置下实现的。我们研究了不同的回望窗口大小的影响(见第5.4节)，我们的结果表明，随着T的增加，DLinear继续改善，最终在很大程度上优于federformer。另一个有趣的观察结果是，尽管简单的重复- c方法在预测长期季节性数据(例如，电力和交通)时显示出更差的结果，但它在exchange rate(超过30%)和Weather(超过10%)数据集上出乎意料地优于所有基于transformer的方法。这主要是由于基于变压器的解决方案中对趋势的错误预测造成的，导致精度显著下降(见图3(b))。定性的结果。如图3所示，我们用基于变压器的解决方案和DLinear绘制了三个选定的时间序列数据集的预测结果:电力(序列1951，变量36)，汇率(序列676，变量3)和ETTh2(序列1241，变量2)，这些数据有不同的时间模式。当输入长度为96步，输出视距为336步时，变压器[28,27,29]无法捕捉到未来电量和ETTh2数据的规模和偏差。此外，他们很难根据汇率等非周期性数据预测出一个合适的趋势。这些现象进一步表明现有的变压器不适合TSF任务。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
LLamaFactory 微调Qwen-VL-3B时报错TypeError: argument of type ‘NoneType‘ is not iterable 闲云野鹤01 大模型 linux 视觉检测 transformer
LLamaFactory微调Qwen-VL-3B时报错如下：TypeError:argumentoftype'NoneType'isnotiterable修改方式如下所示：进入\src\llamafactory文件夹，打开cli.py文件在文件头添加如下语句fromtransformersimportmodeling_utilsifnothasattr(modeling_utils,"ALL_PA
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多