自动驾驶之心

纯视觉BEV再度突破！DETR4D：时序融合新思路（南洋理工最新）

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【3D目标检测】技术交流群

后台回复【3D检测综述】获取最新基于点云/BEV/图像的3D检测综述！

摘要

利用环视图图像进行3D物体检测是自动驾驶的一项基本任务。本文提出了DETR4D，这是一个基于Transformer的框架，它探索了用于多视图图像中3D目标检测的稀疏注意力和直接特征查询。论文为query-image交互设计了一种新的投影交叉注意力机制，以解决现有方法在交叉视图目标的几何线索探索和信息丢失方面的局限性。此外，论文引入了一种热力图生成技术，该技术通过查询初始化有效地桥接3D和2D空间。此外，与融合中间空间特征用于时序聚合的常见实践不同，论文通过引入一种新的混合方法提供了一种新视角，该方法在过去的目标查询和图像特征上进行跨帧融合，从而实现了对时间信息的高效和鲁棒建模。在nuScenes数据集上的大量实验证明了所提出的DETR4D的有效性和效率。

总结来说，本文的主要贡献如下：

论文提出了一种多目3D目标检测框架，该框架遵循从图像特征直接查询的简单设计。引入了一种新的投射交叉注意力机制，以更好地利用几何线索并解释交叉视图目标。此外，一个有效的热力图生成过程被用于上下文感知查询初始化；
引入了一种新的混合时间建模方法，该方法以最小的额外计算量有效地聚合来自先前目标查询和图像特征的时间信息；
论文在nuScenes数据集进行了广泛的评估，以验证DETR4D的有效性。实验结果表明，DETR4D以具有竞争力的性能实现了显著的效率。

往期推荐：

方法

概览

图2说明了所提出的DETR4D的整体架构，该架构在很大程度上遵循DETR3D的结构[39]：目标由查询表示，直接用于从多视图图像特征中提取特征以进行迭代更新。论文提出的方法与DETR3D的不同之处在于以下设计：基于热力图的查询初始化（第3.2节）、投影交叉注意力（第3.3节）和时间建模（第3.4节）。对于基于热力图的查询初始化，论文通过基于网格的特征采样生成表示鸟瞰图（BEV）中的objectiveness的热力图。预测的热力图和BEV特征用于指导目标查询的初始化，以促进查询和图像特征之间的后续交互。投影交叉注意力从可变形注意力[49]延伸出来，它基于3D空间中的目标中心生成采样位置，并将其投影到图像中，用于基于注意力的特征聚合。对于时间建模，论文在推理过程中将先前的目标查询和图像特征存储在记忆库中，并使用注意力机制从中提取有用的信息。在每个Transformer层之后，输出目标查询被传递到检测头，以按照[49]的流水线生成检测预测。

基于热力图的查询初始化

现有的基于查询的方法[18，21，39]以随机方式实现目标查询初始化。然而，典型的自动驾驶场景通常具有较大的规模，而目标只占据空间的一小部分。通常需要大量的目标查询以确保覆盖整个场景（例如，输入范围为100m×100m的1000个查询），从而导致冗余计算。因此，论文有动机将查询的初始化引导到目标出现概率较高的区域。此外，DETR3D[39]仅将目标中心投影到图像以进行局部特征采样，导致感受野受限，对上下文信息的访问受限，这阻碍了后续查询更新的有效性。为此，论文提出了一个基于热力图的查询初始化过程来解决上述问题。

具体来说，给定一组输入图像，首先使用图像主干（例如，ResNet[9]）来提取图像特征。然后，论文形成对应于场景范围的3D采样网格G，并使用已知的相机参数将网格内的所有采样位置投影到图像。论文将投影采样网格表示为G'。然后通过双线性采样和跨视图求和获得体素特征：

必须强调，论文的体积采样过程不同于现有的基于深度估计的方法[11，17，28]，因为它是非参数的，并且效率更高。然后通过沿着通道维度级联来压缩，并使用卷积层对特征进行编码，以获得展平的BEV表示。热图M由具有轻量级卷积神经网络（例如ResNet-18）的生成，其表示BEV空间中的objectiveness。为了监督预测的热力图，论文通过绘制具有固定半径的标注边界框的高斯分布来生成GT热力图。最后使用高斯focal loss计算热图力损失[15]：

随后，选择热力图中具有高响应的位置作为目标查询的初始位置。实际上，在选择top value之前，论文在热图上使用固定大小的执行NMS，以防止过度密集的查询初始化，其中是目标查询的数量。使用线性投影层对所选位置的坐标进行编码，以形成查询位置编码，论文将此过程命名为位置初始化。为了便于使用上下文信息进行以下特征聚合，论文在选定位置从中采样特征作为初始目标查询，论文将其称之为特征初始化。

投影交叉注意力

如图1（a）所示，DETR3D[39]仅对投影物体中心的图像特征进行采样，导致有限的感受野和对不准确物体位置的耐受性较差。一些后续方法[5，18]通过预测每个图像视图中的采样偏移，将可变形注意力[49]扩展到3D-to-2D查询，以使用注意力机制自适应地聚集特征。然而，当涉及到目标查询和图像特征之间的直接交互时，这种方法仍有一定的限制。首先，仅目标中心的投影提供了有限的几何线索，有助于目标的3D定位。其次，如图3（a）所示，当目标中心仅落在单个视图上时，它会导致交叉视图目标的潜在信息丢失。为了解决上述问题，论文通过扩展可变形注意力，为查询图像交互提出了一种新的投射交叉注意力机制[49]。

具体而言，如图3（b）所示，对于每个目标查询，论文首先通过线性投影来预测相对于目标中心的3D采样偏移量，其中h和s分别表示注意力头和采样位置。然后通过相机参数将3D采样位置投影到图像视图，以获得相应的图像特征：

投影交叉注意力（PCA）的输出通过以下公式计算：

利用所提出的注意力机制，论文将实例相关的几何信息结合到查询过程中，以便于目标定位。此外，投射交叉注意力可以很容易地扩展，以利用多尺度图像特征，遵循可变形注意力的实践[49]。

时序建模

最近的研究[10，18，22]证明了时间建模在提高基于相机的3D检测中的性能方面的有效性。然而，现有方法通常对中间空间特征（例如，BEV特征）进行时间融合，这不适用于论文提出的利用直接query-image交互的方法。为此，论文提出了一种新的混合方法，该方法包括查询聚合和特征聚合，以对时间关系进行建模。如图2所示，创建了一个内存库来缓存过去的目标查询和图像特征。存储上一帧的最后一个Transformer层输出的目标查询。在推理过程中，可以直接从记忆库中提取过去的信息，以避免重复计算。对于查询聚合，先前的目标查询包含前一时间戳的实例的分类和位置信息，这自然为当前帧的检测任务提供了有用的先验知识。为了将信息传递到当前帧，只需将来自两个帧的目标查询与标准多头注意力（MHA）模块融合[35]。

具体来说，论文将当前和过去的查询表示为和。将设置为MHA的查询，并将和 concat以形成key和value。形式上，论文的时序self-attention（TSA）操作定义为：

请注意，每个目标的中心位置被编码为目标查询的位置编码（参见第3.2节），论文基于自车运动纠正先前目标查询的定位，以在将其转换为位置编码之前消除自车运动的影响。虽然目标查询包含高级实例信息，但论文还结合了细粒度的先前图像特征，以进一步改进检测结果。提出的投影交叉注意力提供了易于扩展到跨帧特征聚合的灵活性。对于当前帧中的目标查询及其对应的目标中心，论文首先进行自车运动对齐以将中心转换为先前的时间戳。变换后的中心位置表示为。然后从当前和先前的图像特征并行进行特征聚合，并对查询的特征进行平均，以生成最终输出。该过程可以表示为：

由于投射交叉注意力的稀疏性，所提出的跨帧特征聚合只给算法带来了很小的计算开销。如前所述，查询聚合和特征聚合侧重于时间建模的不同视角，并以互补的方式工作。

为了用时间建模来训练模型，对于时间戳处的每个训练样本，论文从过去2秒中随机抽取另一帧作为前一帧。首先运行前一帧的前向过程，以生成过去的目标查询和图像特征，在这个过程中不需要梯度。然后将当前帧与过去的查询和特征一起输入，以进行如上所述的查询和特性聚合。在推理过程中，使用内存库来缓存过去的查询和图像特征，以避免重复计算。默认情况下，上一帧和当前帧之间的时间间隔为1.5秒。

实验

数据集

论文在nuScenes[3]上进行实验以进行评估。nuScenes数据集由1000个序列组成，每个序列的持续时间约为20秒。序列中的每个样本由面向不同方向的摄像机采集的6幅图像组成，所有图像的组合覆盖360° FOV。数据集分为训练、验证和测试数据集，分别具有700、150和150个序列。标注每0.5秒提供一次，标注样本称为关键帧。论文只在实验中使用关键帧。使用官方评估指标，包括mAP、mATE、mASE、mAO）、mAVE、mAAE以及nuScenes检测分数（NDS）。

基准结果

论文将DETR4D模型与nuScenes数据集上现有的纯视觉检测方法进行了比较。为了公平比较，论文不包括使用额外点云数据进行显式深度监督的方法。为了研究时间建模的有效性，论文还使用单帧输入训练模型，并将其表示为DETR4D-S。表1和表2分别报告了验证集和测试集的结果。尽管采用了直接query-image交互的简单设计，DETR4D在两个集合上都获得了与最先进的方法BEVFormer[18]相当的性能。与基础模型DETR3D[39]相比，单帧版本DETR4D-S实现了显著改进的检测结果，包括验证集上mAP提升3.7%。通过提出的基于多帧输入的时序建模，DETR4D在DETR4D-S的基础上进一步提高了性能。

消融实验

论文进行实验来研究模型组件的影响。结果报告在nuScenes数据集的验证集上。为了减少训练时间，除非另有说明，否则以1280 x 512的缩减输入大小进行所有实验。

基于热力图的查询初始化的效果：论文提出的基于热力图的查询初始化包括位置初始化和特征初始化。前者提供objectiveness的先验知识，而后者为目标查询提供上下文信息。论文用单帧模型进行了实验，以研究它们的效果，并将结果报告在表3中。可以观察到，它们中的每一个都在提高检测性能方面发挥了积极作用，这验证了查询初始化策略的有效性。此外还可视化了图4中的初始化过程。可以看出，查询在前景概率较高的区域初始化。

投影交叉注意力的效果：为了研究所提出的PCA的效果，论文将其替换为[18]中提出的空间交叉注意力机制，这也是可变形注意力[49]的扩展，但在2D图像中生成采样位置。如表4所示，PCA在性能上比比较方法有显著的优势，因为它提供了增强的几何线索，并减少了交叉视图目标的信息丢失。

时间建模的效果：论文提出的时间建模采用了一种混合方法，该方法结合了基于过去目标查询的查询聚合和基于过去图像特征的特征聚合。通过实验研究了这两种成分的影响。如表5所示，与单帧基线相比，每种聚合方法单独引入了显著的性能改进，同时它们相互补充，当两者都应用时，可以获得最佳性能。结果验证了我们在3.4节中的分析，即查询和特征聚合解决了时间建模的不同方面。

纯视觉BEV再度突破！DETR4D：时序融合新思路（南洋理工最新）_第10张图片

自车运动对齐的效果：在时间建模中，论文对目标位置进行自车运动对齐，以排除自车运动的影响。从表6中可以看出，缺乏自车运动对齐会导致模型性能急剧下降，这表明了其重要性和必要性。

纯视觉BEV再度突破！DETR4D：时序融合新思路（南洋理工最新）_第11张图片

帧之间的时间间隔：论文研究了前一帧和当前帧之间的时间间隔的影响。如表7所示，当将时间间隔从0.5秒增加到1.5秒时，模型性能会提高，但随着时间间隔的进一步扩大，模型性能就会降低。这种行为是预期的，因为更大的间隔导致与相邻帧的特征更明显，因此可能提供更有意义的信息。此外，相邻帧也可以被视为形成立体的双目系统，这导致更精确的深度估计。然而，当间隔太大时，它会使跨帧关联变得困难，并导致性能下降。

纯视觉BEV再度突破！DETR4D：时序融合新思路（南洋理工最新）_第12张图片

推理速度：论文评估了不同主干的推理速度，并将DETR4D与最先进的基于查询的方法BEVFormer[18]进行了比较。如图6所示，DETR4D在保持可比性能的同时实现了更高的效率。使用较小的主干模型或输入大小时，推理速度的差异更大，因为当应用较大的主干时，计算由图像主干控制。

纯视觉BEV再度突破！DETR4D：时序融合新思路（南洋理工最新）_第13张图片

可视化结果如图5所示：

纯视觉BEV再度突破！DETR4D：时序融合新思路（南洋理工最新）_第14张图片

结论

本文提出了一种基于查询的多视图3D检测方法DETR4D。DETR4D跳过了中间特征的生成，并通过聚集图像中的特征来直接预测检测结果。论文介绍了一种用于增强几何信息探索的新的投影交叉注意力模块和一种用于引导查询初始化的高效热力图生成过程。此外通过引入从过去的目标查询和图像特征中提取信息的混合方法，为时间建模提供了一个新的视角。大量实验表明，DETR4D具有显著的效率和竞争性能。

限制：与点云等其他数据模式相比，图像具有缺乏深度信息和对天气和照明等环境条件敏感的缺点。作为一种基于相机的方法，论文的方法也受到这些方面的影响。为了解决这一局限性，可以在未来的研究中进一步研究多模态方法。

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
LLamaFactory 微调Qwen-VL-3B时报错TypeError: argument of type ‘NoneType‘ is not iterable 闲云野鹤01 大模型 linux 视觉检测 transformer
LLamaFactory微调Qwen-VL-3B时报错如下：TypeError:argumentoftype'NoneType'isnotiterable修改方式如下所示：进入\src\llamafactory文件夹，打开cli.py文件在文件头添加如下语句fromtransformersimportmodeling_utilsifnothasattr(modeling_utils,"ALL_PA
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc