剁椒狗头

作者导读：Inner-IoU：基于辅助边框的IoU损失

论文地址：

Inner-IoU: More Effective Intersection over Union Loss with Auxiliary Bounding Box

视频讲解

代码

摘要：

随着检测器的迅速发展, 边框回归取得了巨大的进步。然而，现有的基于 IoU 的边框回归仍聚焦在通过加入新的损失项来加速收敛，忽视 IoU 损失项其自身的限制。尽管理论上 IoU 损失能够有效描述边框回归状态，在实际应用中，它无法根据不同检测器与检测任务进行自我调整，不具有很强的泛化性。基于以上，我们首先分析了 BBR 模式，得出结论在回归过程区分不同回归样本并且使用不同尺度的辅助边框计算损失能够有效加速边框回归过程。对于高 IoU 样本，使用较小的辅助边框计算损失能够加速收敛，而较大辅助边框适用于低 IoU 样本。接着，我们提出了 Inner-IoU Loss, 其通过辅助边框计算 IoU 损失。针对不同的数据集与检测器，我们引入尺度因子 ratio 控制辅助边框的尺度大小用于计算损失。最后，将 Inner-IoU 集成至现有的基于 IoU 损失函数中进行仿真实验与对比实验。实验结果表明在使用本文所提出方法后检测效果得到进一步提升，验证了本文方法的有效性以及泛化能力。

贡献：

• 我们分析边框回归过程与模式，基于边框回归问题自身特性，提出在模型训练过程中使用较小的辅助边框计算损失对高IoU 样本的回归有增益效果，低IoU样本则与之相反。

• 我们提出了Inner-IoU Loss ，使用尺度因子ratio控制生成不同尺度的辅助边框用于计算损失。将其应用至现有IoU-based 损失函数中能够获得更快更为有效的回归结果。

• 我们进行了一系列仿真实验与对比实验，实验结果表明本文方法的检测效果与泛化性优于现有方法，并且适用于不同尺度的数据集达到了SOTA。

方法：

1.边框回归模式分析

IoU 损失函数在计算机视觉任务中具有广泛的应用。在边框回归过程中不但能够评估回归状态的好坏，而且能够通过计算回归损失进行梯度传播从而加速收敛。在这我们讨论回归过程中IoU 变化与边框尺寸的关系，分析边框回归问题的自身特性，解释本文所提出方法的合理性。

作者导读：Inner-IoU：基于辅助边框的IoU损失_第1张图片

图1(a)

作者导读：Inner-IoU：基于辅助边框的IoU损失_第2张图片

图1(b)

如上图所示，其中图1.a 为IoU-Deviation 曲线图，其水平轴与竖直轴分别表示deviation与IoU 值，三种不同颜色曲线对应不同尺度边框的IoU 变化曲线。A，B，C，D，E 分别对应achors and GT 框5 种不同位置关系，其中红色边框代表长宽为10 的anchors, 其对应的GT 框用黑色边框表示。图1.b 为ABS(Grad)-Deviation 曲线图，与图1.a 所不同的是在图1.b 中纵轴表示IoU 梯度的绝对值。我们假设实际边框尺寸为10，尺寸为8 和12 的边框作为其辅助边框。在图a与图b 中A,E 对应低IoU 样本回归状态，B,D 对应高IoU 样本回归状态，由图1可以得到以下结论。

1. 由于辅助边框与实际边框之间仅存在尺度差异，在回归过程中其IoU 值的变化趋势与实际边框的IoU值变化趋势一致，能够反应实际边框回归结果的质量。

2. 对于高IoU 样本，较小尺度的辅助边框的IoU梯度的绝对值大于实际边框IoU 梯度的绝对值。

3. 对于低IoU 样本，较大尺度的辅助边框的IoU梯度的绝对值大于实际边框IoU 梯度的绝对值。基于以上分析，使用较小尺度的辅助边框计算IoU 损失将有助于高IoU 样本回归，达到加速收敛的效果。与之相反使用较大尺度的辅助边框计算IoU 损失能够加速低IoU 样本回归过程。

2. Inner-IOU Loss

作者导读：Inner-IoU：基于辅助边框的IoU损失_第3张图片

图2.Inner-IoU示意图

如图2所示，GT 框和锚框分别表示为 $B^{gt}$ 和。GT框和GT 框内部的中心点用( $x_{c}^{gt}$ , $y_{c}^{gt}$ ) 表示，而( $x_{c},y_{c}$ )则表示锚框和内部锚框的中心点。GT 框的宽度和高度分别表示为 $w^{gt}$ 和 $h^{gt}$ ，而锚框的宽度和高度分别表示为w 和h。变量”ratio ” 对应的是尺度因子，通常取范围为[0.5，1.5]。Inner-IoU 的定义如下：

$b_{l}^{gt}=x_{c}^{gt}-\frac{w^{gt}*ratio}{2},b_{r}^{gt}=x_{c}^{gt}+\frac{w^{gt}*ratio}{2}$ （1）

$b_{t}^{gt}=y_{c}^{gt}-\frac{h^{gt}*ratio}{2},b_{b}^{gt}=y_{c}^{gt}+\frac{h^{gt}*ratio}{2}$ （2）

$b_{l}=x_{c}-\frac{w*ratio}{2},b_{r}=x_{c}+\frac{w*ratio}{2}$ （3）

$b_{t}=y_{c}-\frac{h*ratio}{2},b_{b}=y_{c}+\frac{h*ratio}{2}$ （4）

$inter=(min(b_{r}^{gt},b_{r})-max(b_{l}^{gt},b_{l}))*(min(b_{b}^{gt},b_{b})-max(b_{t}^{gt},b_{t}))$ （5）

$union=(w^{gt}*h^{gt})*(ratio)^{2}+(w*h)*(ratio)^{2}-inter$ （6）

$IoU^{inner}=\frac{inter}{union}$ （7）

Inner-IoU损失继承了IoU损失的一些特性，同时具有自身的特性。和IoU损失一样Inner-IoU损失的取值范围为[0,1]。因为辅助边框与实际边框仅存在尺度上的差异，损失函数计算方式相同，InnerIoU-Deviation 曲线与IoU-Deviation曲线相似。与IoU损失相比，当ratio小于1，辅助边框尺寸小于实际边框，其回归的有效范围小于IoU损失，但其梯度绝对值大于IoU损失所得的梯度，能够加速高IoU样本的收敛。与之相反，当ratio大于1，较大尺度的辅助边框扩大了回归的有效范围，对于低Iou的回归有所增益。将Inner-IoU应用至现有基于IoU的边框回归损失函数中， $L_{Inner-IoU}$ ， $L_{Inner-GIoU}$ ， $L_{Inner-DIoU}$ ， $L_{Inner-CIoU}$ ， $L_{Inner-EIoU}$ 和 $L_{Inner-SIoU}$ 的定义如下：

$L_{Inner-IoU}=1-IoU^{inner}$ （8）

$L_{Inner-GIoU}=L_{GIoU}+IoU-IoU^{inner}$ （9）

$L_{Inner-DIoU}=L_{DIoU}+IoU-IoU^{inner}$ （10）

$L_{Inner-CIoU}=L_{CIoU}+IoU-IoU^{inner}$ （11）

$L_{Inner-EIoU}=L_{EIoU}+IoU-IoU^{inner}$ （12）

$L_{Inner-SIoU}=L_{SIoU}+IoU-IoU^{inner}$ （13）

实验结果与分析：

1.仿真实验

作者导读：Inner-IoU：基于辅助边框的IoU损失_第4张图片

图3.a

作者导读：Inner-IoU：基于辅助边框的IoU损失_第5张图片

图3.b

如图3所示，本文针对两种不同场景进行了边框回归的仿真实验，图3.a与图3.b分别对应高 IoU回归样本场景与低IoU回归样本场景。在图3.a与图3.b中7种不同形状大小的绿色边框表示GT框，其中心点坐标设为（100，100），长宽比率分别为1:4, 1:3, 1:2, 1:1, 2:1, 3:1, 4:1。图中蓝色斑点表示anchor的分布，如图3.a在以(100,100)为中心 3为半径随机分布着2000个anchor点，每个点位置上有49个anchor包括七种长宽比(i.e., 1:4, 1:3, 1:2, 1:1, 2:1, 3:1,4:1)与七种尺度(i.e., 0.5, 0.67,0.75, 1, 1.33, 1.5 ,2)。在图3.b中以(100,100)为中心，半径为6至9随机分布着2000个anchor点。最后，在每个仿真实验中，总计686000=7 × 7 ×7× 2000 个回归案例。

2.仿真实验结果

作者导读：Inner-IoU：基于辅助边框的IoU损失_第6张图片

图4.a

作者导读：Inner-IoU：基于辅助边框的IoU损失_第7张图片

图4.b

仿真实验的结果如图所示，其中图4.a表示高 IoU回归样本场景下的收敛结果，为了加速高IoU样本的回归，将尺度因子ratio设置为0.8。而低 IoU回归样本场景下的收敛结果如图4.b所示，将ratio设为1.2。可以看出图中虚线所代表的本文方法收敛速度优于现有的方法。

3.对比实验

YOLOv7 on PASCAL VOC

实验对比了CIoU方法与SIoU方法，使用yolov7-tiny作为检测器，VOC2007 trainval与VOC2012 trainval 作为训练集，VOC2007 test作为测试集。训练集包括16551张图像，测试集4952张图像包含20类。我们将训练集训练了150 epochs，为了展现本文方法的优越性。我们将本文方法与原始方法的训练过程可视化，如图5所示。

a b c

d e f

图5

图5.a, 5.b和5.c 为CIoU and Inner-CIoU的训练过程曲线图，三张图分别对应ratio 为0.7, 0.75, and 0.8。图5.d, 图5.e和图5.f 为ratio 分别为0.7, 0.75, and 0.8时,SIoU and Inner-SIoU的训练过程曲线图。在以上图中，橙色曲线代表本文方法，现有方法用绿色曲线表示。不难看出在训练过程中50至150 epochs 本文方法优于现有的方法。

测试集对比实验结果如表1所示。可以看出，应用本文方法后，检测效果有所提高，AP50和mAP50:95提高了0.5%以上。图6和图7是检测样本的对比图。从图中可以看出，与现有方法相比，所提出的方法定位更准确，误检和漏检更少。

图6

图7

YOLOv5 on AI-TOD

为了证明本文方法的泛化能力，我们使用yolov5s检测器在AI-TOD 数据集与进行了对比实验，实验选用SIoU作为对比方法。AI-TOD 包含28,036 aerial images包含8类目标以及700,621 object instances，其中14018张图像作为训练集, 另外的14018张图像作为测试集。与现有的目标检测任务数据集相比，AI-TOD的平均尺寸为12.8像素，远小于其他数据集。实验结果如表2所示。

在对比实验1，通过将ratio值设置0.7到0.8之间小于1，产生小于实际边框的辅助边框。实验结果证明其能够对高IoU样本产生增益。在实验2中ratio值大于1，通过生成较大得辅助边框达到对低IoU样本加速收敛的效果，另外，图8为在测试集上的检测效果对比图，通过对比可以看出本文方法的优越性。

图8

结论：

在本文，我们分析了边框回归过程并且指出IoU损失的限制，其对于不同的检测任务不具有很强的泛化性。基于边框回归问题的自身特性，我们提出了Inner-IoU一种基于辅助边框的边框回归损失。其通过尺度因子ratio控制辅助边框尺寸用于计算损失加速收敛。它能够集成至现有基于IoU的损失函数中达到SOTA。通过一系列仿真实验与消融实验，验证本文方法优于现有方法。值得一提的是，本文方法不但适用于一般的检测任务，对于极小目标的检测任务也表现良好，方法泛化性得到了验证。

讨论：

Q1:论文试图解决什么问题？

弥补现有IoU-baesd 边框回归损失泛化性不足。

Q2：这是否是一个新问题？

使用辅助边框计算边框回归损失，就本文作者所掌握的信息而言，是新的问题。

Q3:这篇文章要验证一个什么科学假设？

现有的IoU损失，可以看作是Inner-IoU中的尺度因子ratio为1的特殊情况，不具备泛化性。

Q4:有哪些相关研究？如何归类？

主流方法：IoU,GIoU,DIoU,CIoU,EIoU,SIoU

变体方法：Alpha-IoU,Wise-IoU

归类：边框回归

Q5:论文中提到的解决方案之关键是什么？

使用辅助边框

Q6：论文中的实验是如何设计的？

为了证明本文方法泛化性，使用多种检测器，多种数据集（不同尺度），多种对比方法。

Q7：用于定量评估的数据集是什么？代码有没有开源？

PASCAL VOC（2007+2012），AI-TOD

代码已开源

Q8：论文中的实验及结果有没有很好地支持需要验证的科学假设？

仿真实验与对比实验均已验证

Q9：这篇论文到底有什么贡献？

真正的贡献在于质疑原有使用实际边框计算IoU损失的合理性，并提出使用辅助边框的思路尝试去克服原有损失的不足，通过实验证明本文研究在2D水平框目标检测问题上有效，给予其他需要用到边框回归的研究提供启发。

Q10：下一步呢？有什么工作可以继续深入？

在目标检测领域，可以将本文的研究思路拓展到旋转框的目标检测，以及3D目标检测。

你可能感兴趣的:(计算机视觉,人工智能,计算机视觉,目标检测,深度学习)

Docker中GPU的使用指南俞兆鹏云原生实践 docker 容器运维
在当今的计算领域，GPU（图形处理单元）已经成为了加速各种计算密集型任务的关键硬件，特别是在深度学习、科学模拟和高性能计算等领域。Docker作为流行的容器化平台，允许开发者将应用程序及其依赖打包成一个可移植的容器，在不同的环境中运行。当需要在Docker容器中利用GPU的计算能力时，我们需要进行一些特定的配置和设置。本文将详细介绍如何在Docker中使用GPU，从环境准备到实际应用，帮助你充分利
（视频演示）基于OpenCV的实时视频跟踪火焰识别软件V1.0源码及exe下载是刃小木啦~ opencv 人工智能计算机视觉
本文介绍了基于OpenCV的实时视频跟踪火焰识别软件，该软件通过先进的图像处理技术实现对实时视频中火焰的检测与跟踪，同时支持导入图片进行火焰识别。主要功能包括相机选择、实时跟踪和图片模式。软件适用于多种场合，用于保障人民生命财产安全。源码及exe文件可通过蓝奏云网盘下载。软件简介《基于OpenCV的实时视频跟踪火焰识别软件》是一款创新的计算机视觉应用软件，旨在通过先进的图像处理技术实现对实时视频中
具身智能行业 [shenhonglei] 具身觉醒：智能进化的未来之路人工智能机器人
具身智能行业综合分析资源下载-具身智能导图.xmind资源下载-具身智能导图.xmind一、行业概况定义与核心特征具身智能（EmbodiedAI）指通过物理实体（如机器人、自动驾驶设备等）与环境的动态交互，实现感知、认知和行动控制的智能系统。其核心特征是“知行合一”，强调通过实际交互提升智能水平，而非仅依赖数据训练。技术融合：结合人工智能（AI）、机器人技术、多模态大模型
【AGI】中国大模型扛把子：通义家族 LeeZhao@ AIGC重塑生活神器 agi 人工智能 AIGC 面试自然语言处理语言模型
中国大模型扛把子：通义家族引言一、通义千问的技术架构与模型谱系二、技术突破与性能优势三、开源生态与行业影响四、未来展望：从“千问时代”到通用智能五、通义家族大模型列表（1）多模态大模型（2）大语言模型结语引言在人工智能大模型领域，中国科技企业正以惊人的速度突破技术边界。阿里云推出的**通义千问（Qwen）**系列大模型，凭借其多层次的技术架构、多样化的模型生态及开源战略，已成为全球AI领域的重要标
OpenCV 100道面试题及参考答案（7万字长文）大模型大数据攻城狮大厂面试大厂面经 android面试计算机视觉 opencv 实时互动 webrtc
OpenCV简介OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了丰富的函数和工具，用于处理图像和视频。OpenCV最初由英特尔公司开发，现在由一个开源社区维护和发展。主要功能和用途OpenCV的主要功能包括图像和视频处理、特征提取、目标检测、人脸识别、物体跟踪等。它可以用于各种领域，如机器人技术、医学影像、安全监控、自动驾驶等。在图像
目标检测——玉米叶感染数据集 Bryan Ding 人工智能
一、重要性首先，玉米作为世界上重要的粮食作物之一，其生长状况直接影响到粮食产量和粮食安全。玉米叶感染是玉米生长过程中常见的病害之一，会导致玉米叶片出现肿胀、皱缩、扭曲变形等症状，严重时甚至可能形成瘤状物。因此，及早检测玉米叶感染对于保障玉米的健康生长和提高产量具有重要意义。其次，通过玉米叶感染检测，农民和农业科研人员可以及时发现并采取有效的防治措施，防止病害的扩散和加重。这不仅可以减少因病害导致的
【学习笔记5】Linux下cuda、cudnn、pytorch版本对应关系 longii11 linux pytorch 运维
一、cuda和cudnnNVIDIACUDAToolkit（CUDA）为创建高性能GPU加速应用程序提供了一个开发环境。借助CUDA工具包，您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署您的应用程序。该工具包包括GPU加速库、调试和优化工具、C/C++编译器以及用于部署应用程序的运行时库。全球的深度学习研究人员和框架开发人员都依赖cuDN
大语言模型对程序员行业的影响及未来发展走势分析 Hello kele 人工智能 java 人工智能 AI编程
随着人工智能技术的快速发展，特别是大语言模型（如DeepSeek、OpenAI、Grok等）的出现，对程序员这个行业产生了深远的影响。在这篇文章中，我们将探讨这些变化，分析影响，并展望未来的发展趋势。一、当前影响1.自动化代码生成大语言模型的一个直接影响是代码自动化的能力。这些模型可以理解代码上下文，并生成功能性代码。例如，GitHubCopilot已经成为许多开发者的辅助工具，能够根据注释或部分
DeepSeek：AI赋能的无限可能——从日常生活到职业进阶的全场景探索 Hello kele 人工智能人工智能
引言在人工智能技术飞速发展的今天，DeepSeek作为一款国产AI工具，凭借其强大的推理能力、自然语言处理效率和场景化应用潜力，正在重塑人类解决问题的方式。从撰写演讲稿到制定投资策略，从家庭教育到企业管理，DeepSeek通过“自然语言对话”的交互模式，将复杂任务简化为几步提示词的输入，真正实现了“所想即所得”。本文将从七大核心场景出发，系统解析DeepSeek如何成为个人与组织的智能助手，推动效
RAG 检索增强生成：技术详解与应用展望君君学姐 RAG检索增强生成
RAG检索增强生成：技术详解与应用展望一、引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了前所未有的变革。其中，检索增强生成（Retrieval-AugmentedGeneration，简称RAG）作为一种新兴的技术框架，正逐渐成为大模型应用中的热门选择。RAG通过结合信息检索（IR）和自然语言生成（NLG）的能力，旨在提升模型在回答问题、生成文本等任务中的准确性和可靠性。本文将深
使用OpenCV和Python将图像读取为RGB UixnContext opencv python 人工智能 OpenCV
在计算机视觉和图像处理中，OpenCV是一个广泛使用的开源库，提供了许多功能强大的图像处理工具。其中一个常见的任务是将图像读取为RGB格式，以便进一步处理和分析。在本文中，我将向您展示如何使用OpenCV和Python来实现这个任务。首先，确保您已经安装了OpenCV库。您可以使用以下命令在Python中安装OpenCV：pipinstallopencv-python一旦安装完成，我们可以开始写代
人工智能开发趋势光影少年人工智能
人工智能开发趋势：未来技术的演进与创新引言人工智能（AI）正在以惊人的速度发展，并在各行各业中发挥越来越重要的作用。从自然语言处理到计算机视觉，从自动化决策到自主学习，AI的发展方向正变得更加智能化、自动化和人性化。本文将探讨当前AI开发的最新趋势，并展望未来的发展方向。1.生成式AI的崛起近年来，生成式AI（如ChatGPT、StableDiffusion、DALL·E）展现出强大的内容创作能力
大模型驱动的智能代码生成系统 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
大模型驱动的智能代码生成系统关键词大模型智能代码生成自然语言处理计算机视觉系统设计与实现摘要本文深入探讨了基于大模型的智能代码生成系统的构建与实现。首先，我们分析了智能代码生成的背景与意义，随后介绍了大模型的基本原理及其在代码生成中的潜力。接着，我们详细阐述了智能代码生成系统的设计与实现过程，包括系统需求分析、架构设计、模型集成与优化等方面。随后，本文通过自然语言处理、计算机视觉和代码生成应用，展
LLM辅助编程：代码自动生成与优化 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
LLM,代码生成,代码优化,编程辅助,AI编程,自然语言处理,深度学习1.背景介绍随着软件开发的日益复杂化，程序员面临着越来越高的开发压力和效率要求。传统的编程方式依赖于手动编写代码，这不仅耗时费力，而且容易出现错误。近年来，随着深度学习技术的快速发展，基于大型语言模型（LLM）的代码生成和优化技术逐渐成为软件开发领域的新兴热点。LLM是一种强大的人工智能模型，能够理解和生成人类语言。通过训练大量
国内开源深度学习框架 we19a0sen 深度学习人工智能
目录一、国内开源深度学习框架1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）二、快速入手1、PaddlePaddle（百度飞浆）2、MindSpore（华为昇思）3、MegEngine（旷视天元）4、OneFlow（一流科技）5、Jittor（清华计图）三、基础教程1、Paddle
Python图片识别脚本：从零开始实现图像识别！ Python_trys python 开发语言编程 Python入门 Python基础 Python识别 Python学习
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取！】图像识别是计算机视觉领域的一个重要应用，Python凭借其丰富的库和工具，成为了实现图像识别的首选语言之一。本文将带你从零开始，使用Python编写一个简单的图片识别脚本。我们将使用OpenCV和TensorFlow来实现这个功能。1.环境准备在开始之前，我们需要安装一些必要的Python库。你可以使用pip来安装这些库：pipinsta
Oumi ：AI开发的未来？人工智能开源
Oumi：AI开发的未来？前言在人工智能领域，开源技术正以前所未有的速度推动着创新和变革。今天，我们将聚焦一个备受瞩目的开源AI平台——Oumi。它不仅以其强大的功能和灵活的架构吸引了全球开发者和企业的目光，还通过简化AI开发的整个生命周期，为用户提供了前所未有的便利。github地址：https://github.com/oumi-ai/oumi官网地址：https://oumi.ai/什么是O
关于采用源始经为底层框架开发中文编程系统的可能性太翌修仙笔录 deepseek 超算法认知架构第三代人工智能算法人工智能
用中文写代码和Python哪个有前景在编程语言选择方面，**Python的发展前景明显优于中文编程语言**。以下是具体分析：---###一、核心结论**优先选择Python**，因为：1.**全球通用性**：Python是国际主流编程语言，适用于跨国协作和开源项目2.**就业市场需求**：Python在人工智能/大数据/Web开发等领域的岗位需求持续增长3.**技术生态优势**：拥有超过30万个第
【免费收藏】清华大学DeepSeek使用手册合集 600页完整版周师姐 AI写作学习人工智能 pdf
DeepSeek资料链接：https://pan.quark.cn/s/c927326f70c5在人工智能席卷全球的当下，DeepSeek作为前沿深度学习技术，正推动着全面AI时代的到来。今日，特别为大家推荐《DeepSeek：从入门到精通》，本书由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心编写。它深度解析DeepSeek的技术核心，详尽阐释其应用场景与操作方法，尤
YOLOv12改进之A2(区域注意力) 清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法
注意力回顾注意力机制作为深度学习领域的核心技术，已广泛应用于自然语言处理和计算机视觉等多个领域。在YOLOv12改进之A2中，注意力机制扮演着关键角色。已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。SENet：引入了通道注意力机制，通过自适应学习特征通道的重要性，
CES Asia 2025：科技盛宴助力中国数字经济腾飞 CES_Asia 科技机器人人工智能智能音箱智能电视
备受瞩目的CESAsia2025第七届亚洲消费电子技术贸易展（赛逸展）将在首都北京盛大开幕。本届展会以“科技新视界，创新赢未来”为主题，聚焦人工智能、5G、物联网、元宇宙等前沿科技领域，集中展示全球消费电子行业的最新创新成果，为行业发展注入新动能。政策东风助力，CESAsia2025亮点纷呈近年来，中国高度重视数字经济发展，出台了一系列政策措施，为消费电子产业创造了良好的发展环境。CESAsia2
芯科科技通过全新并发多协议SoC重新定义智能家居连接电子科技圈 Silicon Labs 智能家居边缘计算 mcu 物联网 iot 人工智能机器学习
MG26系列SoC现已全面供货，为开发人员提供最高性能和人工智能/机器学习功能致力于以安全、智能无线连接技术，建立更互联世界的全球领导厂商SiliconLabs（亦称“芯科科技”，NASDAQ：SLAB），日前宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26SoC的闪存和RAM容量是芯科科技
【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql生成框架木亦汐丫大模型语言模型 sql agi ai 数据库人工智能 embedding
简介Vanna是基于检索增强(RAG)的sql生成框架Vanna使用一种称为LLM（大型语言模型）的生成式人工智能。简而言之，这些模型是在大量数据（包括一堆在线可用的SQL查询）上进行训练的，并通过预测响应提示中最有可能的下一个单词或“标记”来工作。Vanna优化了提示（通过向量数据库使用嵌入搜索）并微调LLM模型以生成更好的SQL。Vanna可以使用和试验许多不同的LLM，以获得最准确的结果。V
中国人工智能大赛成果发布会 | 代码安全智能体让研发安全又高效安全
2024年12月20日，由厦门市人民政府主办，以“融新汇智竞促发展”为主题的第五届中国人工智能大赛成果发布会在厦门成功举办。人工智能安全论坛于成果发布会期间举办，重点聚焦人工智能安全技术专家，共同探讨安全治理的实践经验，探索智能体安全、大模型安全、数据安全、内容安全等方面面临的挑战和解决方案。百度安全技术委员会主席包沉浮受邀出席，分享了智能体技术在代码安全应用上的最新实践经验。百度安全技术委员会主
重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！ zhangjiaofa DeepSeek R1&AI人工智能大模型人工智能 DeepSeek R1 多模态
一、引言在当今人工智能飞速发展的时代，多模态AI技术正逐渐成为研究与应用的焦点。近日，一项令人瞩目的成果引发了广泛关注——VLM-R1开源项目成功将DeepSeek的R1方法从纯文本领域迁移至视觉语言领域，为多模态AI的发展开辟了新的道路，极大地拓展了多模态领域的想象空间。本文将深入探讨这一创新性成果，从其灵感来源、验证结果、实际案例、带来的新思路以及开源资源等多个方面进行剖析，带您全面了解这一前
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》程序猿阿伟人工智能
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》人工智能深度学习
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
YOLOv8目标检测推理流程及C++代码吃鱼不卡次 YOLO onnx c++
这部分主要是使用c++对Onnx模型进行推理，边先贴代码，过段时间再详细补充下代码说明。代码主要分成三部分，1.main_det.cpp推理函数主入口；2.inference_det.h头文件及inference_det.cpp具体函数实现；3.CMakeList.txt.1.main_det推理配置信息全部写在config.txt中，执行代码时会读取该文本中配置信息来进行推理，config.tx
「AI」人工智能的发展阶段：ANI、AGI与ASI 何曾参静谧「AI」人工智能人工智能 agi
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
Grok 3能否打破大模型的魔咒？ TGITCIC AI-大模型的落地之道 grok grok3 大模型小模型 scaling law 开源大模型
新模型旧魔咒Grok3的问世，仿佛是科技界的一声惊雷。面对老掉牙的大模型法则，大家不禁要问：这到底意味着什么？以前，一提深度学习就能引出一场血雨腥风，现如今却有人说“没钱也能玩”。这风浪可真是一波未平一波又起。也许这就是科技的魅力：一统江湖的法则瞬间瓦解。缩小与提升大模型不再是唯一的解决方案，大家发现，原来小模型也可以撬动市场。不过，面对如何提升模型的智商，各路英雄却依然不得不面对两个选择：大力度
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他