Re-赟

论文阅读 The Power of Tiling for Small Object Detection

The Power of Tiling for Small Object Detection

Abstract

基于深度神经网络的技术在目标检测和分类方面表现出色。但这些网络在适应移动平台时可能会降低准确性，因为图像分辨率的增加使问题变得更加困难。在低功耗移动设备上实现实时小物体检测一直是监控应用的基本问题之一。在本研究中，我们解决了在高分辨率微型空中飞行器（MAV）图像中检测行人和车辆的问题。为此，我们利用PeleeNet，据我们所知，这是在移动GPU上效率最高的网络模型，以SSD网络的骨干和earlier layer中的38x38特征图。在展示了现有目标检测器在MAV场景下的低准确性后，我们引入了一种基于分块（tiling）的方法，该方法在训练和推断阶段均适用。所提出的技术在目标检测中限制了detail loss，同时以固定尺寸的输入送入网络。通过在Nvidia Jetson TX1和TX2上使用VisDrone2018数据集进行的深入实验，我们展示了所提出方法带来的改进。

1. Introduction

近年来，目标检测在不同应用领域得到了广泛研究，包括人脸检测、视频对象共分割、视频监控、自动驾驶汽车。卷积神经网络（CNNs）是目标检测技术背后的核心工具。在这个领域，深度学习架构的突破性和快速的应用产生了高度准确的目标检测方法，如R-CNN、Fast R-CNN 、Faster R-CNN 、RetinaNet ，这些方法后来被扩展成更快速且仍然准确的版本，如SSD 、YOLO 以及各种变体。这些方法通常在众所周知的数据集上进行训练和评估，如ImageNet 、Pascal VOC12 、COCO 。

需要注意的是，这些常见的数据集主要包括低分辨率图像（256x256），其中包含有大面积像素的大型物体。因此，这些训练好的模型对于这些类型的输入数据提供了非常成功的检测性能。然而，它们在高分辨率图像中的小物体检测任务上的准确性显著较低，这些图像是由高端摄像机生成的。摄像机和机器人技术在许多方面开创了监控应用，包括无人机、4K摄像机，并且实现了符合（D）etection、（O）bservation、（R）ecognition和（I）dentification（DORI）标准的long-range目标检测。DORI标准为不同任务的对象定义了最小像素高度。例如需要将图像高度10％的物体用于检测（在高清视频中为108像素），而在进行识别时，这个百分比增加到了20％。尽管在某些情况下符合DORI标准，相对较小的像素覆盖率和降采样影响了基于CNN的目标检测方法的能力。此外，由于内存需求和计算限制，这些技术无法处理高分辨率图像。

实时小物体检测问题主要应用于微型飞行器（MAV），其中大小、重量和功耗（SWaP）是使用高性能处理器的限制因素。MAV在一定高度观察地面，场景中的物体（行人、汽车、自行车等）的像素区域相对较小。此外，这些飞行器需要实时处理，以便在常见的监控应用中实现检测和跟踪的即时飞行控制。

在本研究中，我们提出了一种在高分辨率图像上进行小物体检测的高效解决方案，同时保持低复杂度和内存占用。为此，我们专注于微型飞行器上的行人和车辆检测，这涉及到前面讨论的问题。这些问题的解决方案依赖于三个阶段：第一步，训练数据集通过使用在原始高分辨率图像中裁剪的子集图块进行增强，同时将目标边界框相应地映射。这些 crops 将小物体映射到较大的相对区域，并在训练阶段的CNN结构的early layers中prevent misses。第二步关注CNN的部署，在这里，目标图像被分割为重叠的图块，并在每个图块上独立执行目标检测。每个图块中的object proposals被合并，以在输入图像的原始分辨率下进行最终检测。为了在满足实时要求的同时利用图块的优势，我们利用了一个高效的框架Pelee，该框架最初应用于大小为304x304的图像。第三步我们修改了Pelee中的特征分辨率，以解决小物体的问题。所有实验都在移动GPU NVIDIA Jetson TX1和TX2模块上进行。

2. Related Work

略过

3. Problem Description

对于移动设备（尤其是MAV和搭载电池的车辆）上实时部署目标检测框架的约束限制了可用网络的数量。前面提到的基于区域的方法对于及时操作不方便，而基于回归的技术则是为了在设备上进行 onboard processing 而设计的。在表1中，展示了在COCO数据集上的准确性以及在Nvidia TX2上的计算时间（每秒帧数（FPS）），其中包括各种基于回归的技术及其适用于移动设备的版本。根据表格，最近推出的Pelee不仅比所有移动检测框架（SSD+MobileNet和YOLOv3-tiny ）更快，而且在与尺寸大10倍且计算能力较慢4倍的模型（如YOLOv2）相比的情况下，也提供了可比较的准确性。据我们所知，Pelee不仅是各种最先进技术中目前最佳的替代方案，还为额外的计算提供了足够的空间。

尽管Pelee在移动GPU上实现了实时性能，但由于SSD的特性，它在高分辨率图像中仍然受到检测小目标的困扰，如图1所示。在图中，展示了VisDrone2018 Video数据集中一些图像的Pelee检测（304x304）的典型结果。特别是对于较小的目标，表现出的目标检测性能较差，尤其是在黄色A-B-C-D所示的区域。

VisDrone2018 VID数据集在训练集中有100多万个边界框注释，在验证集中有11个不同类别标签（行人、人、自行车、汽车、货车、卡车、三轮车、雨篷三轮车、公共汽车、摩托车、其他）的140k个注释，非常适合我们的场景。我们将VisDrone2018中的类别分为两大类，即行人和车辆，以便进行更清晰简化的任务。在训练集中，人类和车辆类别的像素高度和宽度直方图如图2所示（将图像缩放为1920x1080）。很明显，一半的注释对应于像素高度和宽度小于50像素的对象。这个值是根据标准中讨论的阈值的一半。在VisDrone2018数据集中，小目标占了大多数，只有一半的目标满足监控阈值，而只有20%的目标满足10%图像高度的检测阈值。这在基于MAV的监视中是一个常见情况。

4. Proposed Approach

为了解决小目标检测问题，我们提出了一种tiling方法，该方法在训练和推断阶段都应用如图3所示。在图中，展示了一个典型的3x2 tiling，根据图像分辨率和目标物体纵横比，可以应用任意的tiling。将输入图像划分为重叠的tiling，使得相对于输入网络的图像，小目标的像素区域增大。这适用于任何类型的网络，另一方面，我们选择Pelee 来通过快速执行获得显著的准确率提高。

4.1. Pelee Architecture

整个PeleeNet网络由Stem Block、七个特征提取器阶段和ResBlock组成。首先，前四个特征提取器阶段由Dense Block组成，以前馈的方式将每一层连接到其他每一层。在训练过程中，输入帧被降采样到304x304分辨率。然后，降采样后的图像被送入Stem Block，以提高特征表达性能而不会增加太多的计算成本。在特征提取阶段，网络在5个尺度的特征图中（19x19、10x10、5x5、3x3和1x1）学习视觉特征示，具有不同的纵横比，然后在产生目标类别和边界框位置预测之前，将其传递到残差块（ResBlock）中。

我们的目标检测系统基于SSD 的源代码，使用Pytorch 进行训练。用于特征提取的VGG-16网络被Pelee替代。批大小设置为32。动量值为0.9，权重衰减为5e-4，γ值为0.5。初始学习率设置为0.001，然后在分别进行10K、20K、30K、40K和70K次迭代后降低10倍。训练在第120K次迭代时终止。

4.2. Tiles in network training

为了减轻小目标问题，我们降低了训练过程中因为采用图像降采样而产生的影响。通过重叠的tiles，将图像分割成较小的图像，其中tiles的大小根据训练框架中使用的图像大小进行选择。如图3所示，较低分辨率的图像（MxN）通过重叠的tiles从原始图像中裁剪出来。需要注意的是，在裁剪之前将输入图像分辨率设置为1920x1080，以固定tiles的大小。每个tiles对应于一个新的图像，其中ground truth物体的位置按照原样排列，而不改变物体的大小。通过这种方式，与完整画面相比，裁剪图像中的相对物体大小增加了。裁剪后的（MxN）图像和完整画面被用作网络训练的输入数据。需要注意的是，为了检测场景中的大物体，完整画面也被输入到网络训练中。

tiles之间的重叠区域用于保留沿tiles边界的物体，并防止由于图像分割而导致的任何遗漏。在本研究中，我们选择了连续tiles之间的25%交叠区域；子采样图像的分辨率N（宽度和高度）根据tiles数量（T）和图像大小（S）确定为：

在表2中给出了对VisDrone2018数据集的裁剪图像分辨率、边界框数量和图像数量的tiling效果。由于重叠比率将网格大小增加到5x3会导致注释边界框数量增加2.5倍。将Pelee的图像分辨率与tile分辨率进行比较（304x304），降采样率大大降低，以保持小目标在网络可检测范围内。随着tile的增加，较大的物体可能无法适应tile和交叉区域，失去较大目标注释的风险也会增加。因此，在某一点上，tile的增加开始减少注释数量。图2中给出了tile扩展对目标尺寸分布的影响，蓝色表示扩展后的直方图。在提取直方图时，tile内的对象注释相对于将裁剪图像映射到完整分辨率（1920x1080）的尺度进行了放大。因此，正如在图2中观察到的，tile方法将较小的对象视为较大的对象。

4.3. Tiles during inference

与图3中给出的相同结构在目标检测期间也得到了利用。首先，输入帧被调整为1920x1080的大小，并且通过根据计算能力确定的tiles数量来裁剪输入帧生成tiles图像。由于计算性能问题，推断期间的tiles网格可以与训练阶段中的网格不同。每个tiles都被独立处理，就像原始帧一样，结果的检测框和类别概率被收集为初始结果。在这一点上，由于tiles和全帧之间的重叠，初始结果中会有重复的对象检测。根据边界框和类别分数的交集合并初始结果。如果重复检测的交集超过25％，则分数较高的一个被接受为更好的选择，另一个从检测列表中删除。在合并步骤中，与整个帧相比，tiles内的小对象通常会获得更高的分数，而对于大小与tiles区域相当的较大对象来说，情况相反。因此，小型和大型对象都会得到谨慎处理。

tiles的数量线性增加了整体检测框架的复杂性。因此，这种方法适用于轻量级和高效的网络，以满足在不增加内存使用的情况下进行实时推断。另一方面，相对于原始高分辨率帧，实际上原始图像中的相对对象尺寸可能非常小，因此小对象检测的准确性显然可以提高。即使只有少量的tiles，也可以显著提高小对象检测的性能，这在实验部分中有所呈现。

4.4. Pelee Framework Modifications

tiling方法引入了与网格数成线性关系的附加计算。为了解决小目标问题，还可以增加特征提取层的数量，以在不过多增加计算时间的情况下检测小目标。在原始的SSD结构中，使用了38x38、19x19、10x10、5x5、3x3和1x1的特征向量。带有Mobilenet的SSD没有使用38x38的特征向量，以在速度和准确性之间取得平衡。他们在预测时使用另一个2x2的特征图。这样，他们使用了一个较小的网络，以在牺牲小目标检测准确性的同时获得速度优势。原始的Pelee架构也放弃了38特征图，以平衡速度和准确性的权衡，但不像MobileNet那样使用2个特征图。在我们的框架中，我们使用38特征图对Pelee网络进行训练，以提高小目标的检测准确性。

5. Experiments && 6. Conclusion

略过

RK3568与掌静脉模块：解锁安防新未来计算机学长瑞星微芯片 Android RK3568 Android
引言在当今数字化时代，随着人工智能和物联网技术的飞速发展，各类智能设备如雨后春笋般涌现，为我们的生活和工作带来了极大的便利。在这些智能设备的背后，高性能的处理器和先进的生物识别技术起着关键作用。RK3568处理器作为一款中高端的芯片，以其出色的性能和丰富的接口，在物联网、安防监控、智能家居等众多领域得到了广泛应用。而掌静脉模块作为一种高精度、高安全性的生物识别技术，正逐渐成为身份验证和安全控制领域
蚂蚁集团可转正实习算法岗内推-自然语言飞300 业界资讯自然语言处理
具备极佳的工程实现能力，精通C/C++、Java、Pvthon、Perl等至少一门语言:对目前主流的深度学习平台:tensorflow、pytorch、mxnet等，至少对其中一个有上手经验;熟悉深度学习以及常见机器学习算法的原理与算法，能熟练运用聚类、分类、回归、排序等模型解决有挑战性的问题，有大数据处理的实战经验;有强烈求知欲，对人工智能领域相关技术有热情，内推链接：https://u.ali
具身智能行业 [shenhonglei] 具身觉醒：智能进化的未来之路人工智能机器人
具身智能行业综合分析资源下载-具身智能导图.xmind资源下载-具身智能导图.xmind一、行业概况定义与核心特征具身智能（EmbodiedAI）指通过物理实体（如机器人、自动驾驶设备等）与环境的动态交互，实现感知、认知和行动控制的智能系统。其核心特征是“知行合一”，强调通过实际交互提升智能水平，而非仅依赖数据训练。技术融合：结合人工智能（AI）、机器人技术、多模态大模型
【AGI】中国大模型扛把子：通义家族 LeeZhao@ AIGC重塑生活神器 agi 人工智能 AIGC 面试自然语言处理语言模型
中国大模型扛把子：通义家族引言一、通义千问的技术架构与模型谱系二、技术突破与性能优势三、开源生态与行业影响四、未来展望：从“千问时代”到通用智能五、通义家族大模型列表（1）多模态大模型（2）大语言模型结语引言在人工智能大模型领域，中国科技企业正以惊人的速度突破技术边界。阿里云推出的**通义千问（Qwen）**系列大模型，凭借其多层次的技术架构、多样化的模型生态及开源战略，已成为全球AI领域的重要标
OpenCV 100道面试题及参考答案（7万字长文）大模型大数据攻城狮大厂面试大厂面经 android面试计算机视觉 opencv 实时互动 webrtc
OpenCV简介OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉库，它提供了丰富的函数和工具，用于处理图像和视频。OpenCV最初由英特尔公司开发，现在由一个开源社区维护和发展。主要功能和用途OpenCV的主要功能包括图像和视频处理、特征提取、目标检测、人脸识别、物体跟踪等。它可以用于各种领域，如机器人技术、医学影像、安全监控、自动驾驶等。在图像
目标检测——玉米叶感染数据集 Bryan Ding 人工智能
一、重要性首先，玉米作为世界上重要的粮食作物之一，其生长状况直接影响到粮食产量和粮食安全。玉米叶感染是玉米生长过程中常见的病害之一，会导致玉米叶片出现肿胀、皱缩、扭曲变形等症状，严重时甚至可能形成瘤状物。因此，及早检测玉米叶感染对于保障玉米的健康生长和提高产量具有重要意义。其次，通过玉米叶感染检测，农民和农业科研人员可以及时发现并采取有效的防治措施，防止病害的扩散和加重。这不仅可以减少因病害导致的
大语言模型对程序员行业的影响及未来发展走势分析 Hello kele 人工智能 java 人工智能 AI编程
随着人工智能技术的快速发展，特别是大语言模型（如DeepSeek、OpenAI、Grok等）的出现，对程序员这个行业产生了深远的影响。在这篇文章中，我们将探讨这些变化，分析影响，并展望未来的发展趋势。一、当前影响1.自动化代码生成大语言模型的一个直接影响是代码自动化的能力。这些模型可以理解代码上下文，并生成功能性代码。例如，GitHubCopilot已经成为许多开发者的辅助工具，能够根据注释或部分
DeepSeek：AI赋能的无限可能——从日常生活到职业进阶的全场景探索 Hello kele 人工智能人工智能
引言在人工智能技术飞速发展的今天，DeepSeek作为一款国产AI工具，凭借其强大的推理能力、自然语言处理效率和场景化应用潜力，正在重塑人类解决问题的方式。从撰写演讲稿到制定投资策略，从家庭教育到企业管理，DeepSeek通过“自然语言对话”的交互模式，将复杂任务简化为几步提示词的输入，真正实现了“所想即所得”。本文将从七大核心场景出发，系统解析DeepSeek如何成为个人与组织的智能助手，推动效
RAG 检索增强生成：技术详解与应用展望君君学姐 RAG检索增强生成
RAG检索增强生成：技术详解与应用展望一、引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域迎来了前所未有的变革。其中，检索增强生成（Retrieval-AugmentedGeneration，简称RAG）作为一种新兴的技术框架，正逐渐成为大模型应用中的热门选择。RAG通过结合信息检索（IR）和自然语言生成（NLG）的能力，旨在提升模型在回答问题、生成文本等任务中的准确性和可靠性。本文将深
人工智能开发趋势光影少年人工智能
人工智能开发趋势：未来技术的演进与创新引言人工智能（AI）正在以惊人的速度发展，并在各行各业中发挥越来越重要的作用。从自然语言处理到计算机视觉，从自动化决策到自主学习，AI的发展方向正变得更加智能化、自动化和人性化。本文将探讨当前AI开发的最新趋势，并展望未来的发展方向。1.生成式AI的崛起近年来，生成式AI（如ChatGPT、StableDiffusion、DALL·E）展现出强大的内容创作能力
LLM辅助编程：代码自动生成与优化 AI智能涌现深度研究计算机软件编程原理与应用实践 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
LLM,代码生成,代码优化,编程辅助,AI编程,自然语言处理,深度学习1.背景介绍随着软件开发的日益复杂化，程序员面临着越来越高的开发压力和效率要求。传统的编程方式依赖于手动编写代码，这不仅耗时费力，而且容易出现错误。近年来，随着深度学习技术的快速发展，基于大型语言模型（LLM）的代码生成和优化技术逐渐成为软件开发领域的新兴热点。LLM是一种强大的人工智能模型，能够理解和生成人类语言。通过训练大量
Oumi ：AI开发的未来？人工智能开源
Oumi：AI开发的未来？前言在人工智能领域，开源技术正以前所未有的速度推动着创新和变革。今天，我们将聚焦一个备受瞩目的开源AI平台——Oumi。它不仅以其强大的功能和灵活的架构吸引了全球开发者和企业的目光，还通过简化AI开发的整个生命周期，为用户提供了前所未有的便利。github地址：https://github.com/oumi-ai/oumi官网地址：https://oumi.ai/什么是O
关于采用源始经为底层框架开发中文编程系统的可能性太翌修仙笔录 deepseek 超算法认知架构第三代人工智能算法人工智能
用中文写代码和Python哪个有前景在编程语言选择方面，**Python的发展前景明显优于中文编程语言**。以下是具体分析：---###一、核心结论**优先选择Python**，因为：1.**全球通用性**：Python是国际主流编程语言，适用于跨国协作和开源项目2.**就业市场需求**：Python在人工智能/大数据/Web开发等领域的岗位需求持续增长3.**技术生态优势**：拥有超过30万个第
【免费收藏】清华大学DeepSeek使用手册合集 600页完整版周师姐 AI写作学习人工智能 pdf
DeepSeek资料链接：https://pan.quark.cn/s/c927326f70c5在人工智能席卷全球的当下，DeepSeek作为前沿深度学习技术，正推动着全面AI时代的到来。今日，特别为大家推荐《DeepSeek：从入门到精通》，本书由清华大学新闻与传播学院新媒体研究中心元宇宙文化实验室的余梦珑博士后团队精心编写。它深度解析DeepSeek的技术核心，详尽阐释其应用场景与操作方法，尤
YOLOv12改进之A2(区域注意力) 清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法
注意力回顾注意力机制作为深度学习领域的核心技术，已广泛应用于自然语言处理和计算机视觉等多个领域。在YOLOv12改进之A2中，注意力机制扮演着关键角色。已有研究成果包括：Transformer架构：引入了自注意力机制，有效捕捉输入序列中的长距离依赖关系。CBAM模块：提出了通道和空间注意力的结合，显著提升了图像分类和目标检测的性能。SENet：引入了通道注意力机制，通过自适应学习特征通道的重要性，
CES Asia 2025：科技盛宴助力中国数字经济腾飞 CES_Asia 科技机器人人工智能智能音箱智能电视
备受瞩目的CESAsia2025第七届亚洲消费电子技术贸易展（赛逸展）将在首都北京盛大开幕。本届展会以“科技新视界，创新赢未来”为主题，聚焦人工智能、5G、物联网、元宇宙等前沿科技领域，集中展示全球消费电子行业的最新创新成果，为行业发展注入新动能。政策东风助力，CESAsia2025亮点纷呈近年来，中国高度重视数字经济发展，出台了一系列政策措施，为消费电子产业创造了良好的发展环境。CESAsia2
芯科科技通过全新并发多协议SoC重新定义智能家居连接电子科技圈 Silicon Labs 智能家居边缘计算 mcu 物联网 iot 人工智能机器学习
MG26系列SoC现已全面供货，为开发人员提供最高性能和人工智能/机器学习功能致力于以安全、智能无线连接技术，建立更互联世界的全球领导厂商SiliconLabs（亦称“芯科科技”，NASDAQ：SLAB），日前宣布其MG26系列无线片上系统（SoC）现已通过芯科科技及其分销合作伙伴全面供货。作为业界迄今为止最先进、高性能的Matter和并发多协议解决方案，MG26SoC的闪存和RAM容量是芯科科技
【大模型系列篇】Vanna-ai基于检索增强(RAG)的sql生成框架木亦汐丫大模型语言模型 sql agi ai 数据库人工智能 embedding
简介Vanna是基于检索增强(RAG)的sql生成框架Vanna使用一种称为LLM（大型语言模型）的生成式人工智能。简而言之，这些模型是在大量数据（包括一堆在线可用的SQL查询）上进行训练的，并通过预测响应提示中最有可能的下一个单词或“标记”来工作。Vanna优化了提示（通过向量数据库使用嵌入搜索）并微调LLM模型以生成更好的SQL。Vanna可以使用和试验许多不同的LLM，以获得最准确的结果。V
中国人工智能大赛成果发布会 | 代码安全智能体让研发安全又高效安全
2024年12月20日，由厦门市人民政府主办，以“融新汇智竞促发展”为主题的第五届中国人工智能大赛成果发布会在厦门成功举办。人工智能安全论坛于成果发布会期间举办，重点聚焦人工智能安全技术专家，共同探讨安全治理的实践经验，探索智能体安全、大模型安全、数据安全、内容安全等方面面临的挑战和解决方案。百度安全技术委员会主席包沉浮受邀出席，分享了智能体技术在代码安全应用上的最新实践经验。百度安全技术委员会主
重磅发现！DeepSeek R1方法成功迁移到视觉领域，多模态AI迎来新突破！ zhangjiaofa DeepSeek R1&AI人工智能大模型人工智能 DeepSeek R1 多模态
一、引言在当今人工智能飞速发展的时代，多模态AI技术正逐渐成为研究与应用的焦点。近日，一项令人瞩目的成果引发了广泛关注——VLM-R1开源项目成功将DeepSeek的R1方法从纯文本领域迁移至视觉语言领域，为多模态AI的发展开辟了新的道路，极大地拓展了多模态领域的想象空间。本文将深入探讨这一创新性成果，从其灵感来源、验证结果、实际案例、带来的新思路以及开源资源等多个方面进行剖析，带您全面了解这一前
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》程序猿阿伟人工智能
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
《从信息论视角：DataWorks平台下人工智能探寻最优数据编码的深度剖析》人工智能深度学习
在数字化时代，数据如汹涌浪潮般不断涌现，其规模之大、增长速度之快超乎想象。企业和组织每天都要面对海量数据的存储与传输挑战，如何在有限的资源条件下高效处理这些数据，成为亟待解决的关键问题。此时，信息论与人工智能算法为我们开辟了一条新的探索路径，尤其在DataWorks这样强大的大数据平台上，二者的结合蕴含着巨大的潜力。信息论，作为一门研究信息的度量、传输、存储和处理的学科，为理解数据的本质提供了深刻
YOLOv8目标检测推理流程及C++代码吃鱼不卡次 YOLO onnx c++
这部分主要是使用c++对Onnx模型进行推理，边先贴代码，过段时间再详细补充下代码说明。代码主要分成三部分，1.main_det.cpp推理函数主入口；2.inference_det.h头文件及inference_det.cpp具体函数实现；3.CMakeList.txt.1.main_det推理配置信息全部写在config.txt中，执行代码时会读取该文本中配置信息来进行推理，config.tx
「AI」人工智能的发展阶段：ANI、AGI与ASI 何曾参静谧「AI」人工智能人工智能 agi
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「定制」定制开发集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」BlockUI集合「Py」Python程序设计「Math」探秘数学世界「PK」Paras
对深度学习中的基本概念—梯度的理解 Humingway 深度学习深度学习人工智能
本文讨论一下对“梯度”的理解。“梯度”是深度学习中基本又非常核心的概念，没有它就没有人工智能的今天。然而，即使抛开令人眼花缭乱的术语（比如sgd、ada、moment、adam）不谈，即使最简单的“梯度”本身，也值得讨论一下。1.提出问题该如何理解梯度？让我们结合具体的例子来体会一下。2.定义例子首先，我们定义一个简单的例子，来模拟一下深度学习的学习过程。已知：有一个正确的数据对（或者叫样本），(
网络安全就业形式怎么样？网络安全Ash web安全安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快随着人工智能、物联网、5G等技术的普及，网络安全问题变得越来越复杂和多样化，因此企业越来越重视网络安全，政府也出台了相关政策支持网络安全建设，进一步推动了网络安全行业的发展，那么网络安全就业前景如何?这是大家关心的重点，我们来探讨一下。网络安全就业前景可以说是一片光明，是一个不错的行业。没有网络安全就没有国家安全，可想网络安全有多重要。而
11页PDF | DeepSeek平民化：AI助力数据治理整体方案（附下载） Leo.yuan 大数据人工智能
一、前言这份报告介绍了一种基于人工智能（AI）的智能数据治理整体方案，旨在通过AI的自然语言处理、学习能力、理解与推理能力等技术手段，解决传统数据治理中存在的问题，提升企业数据管理能力和效率。方案以高质量数据资产知识库为基础，结合智能化技术工具箱，针对数据治理中的痛点场景（如文档编写、元数据管理、数据标准、数据质量、数据安全、数据资产盘点等）提供智能化解决方案。通过AI技术的应用，方案能够实现数据
深度 | 车载语音群雄并起共争智能座舱新高地数据堂官方账号分享人工智能语音识别
不论是苹果公司iOS系统中的智能语言助手“Siri”，还是微软Windows系统中的“Cortana”，智能语音交互早已融入我们生活之中。随着汽车产业的发展，用户消费形态的改变，自动驾驶、智能座舱、新能源这些概念已经逐渐落地成为现实，智能语音交互与汽车之间也擦出了别样的火花。由于驾驶汽车无法解放双手，对于人机互动的需求，则更多需要通过语言来实现。因此，结合了人工智能的车载语音交互系统作为汽车智能网
Trae国内版发布，中国首款AI 原生IDE 正式上线，配置Doubao-1.5-pro，支持切换满血版DeepSeek 模型荣华富贵8 程序员的知识储备1 程序员的知识储备2 程序员的知识储备3 人工智能 ide
标题：Trae国内版发布：开启AI原生IDE的全新时代正文：在当今软件开发领域，人工智能正在逐渐改变开发者的日常工作方式。作为中国首款真正从底层深度融合AI技术的原生IDE（集成开发环境），Trae国内版正式上线，成为国内开发工具领域的里程碑式创新。这一产品不仅标志着中国开发者生态的智能化迈出关键一步，更通过其先进的技术和灵活的AI模型支持，为开发者提供了全新的编程体验。什么是AI原生IDE？为什
AI数字平权大囚长科普天地机器学习人工智能
AIAgent（人工智能智能体）正在通过技术平权和服务场景延伸，显著扩展普通人的能力范围边界。一、技术平权：从专业壁垒到全民可用低门槛开发工具的普及通过钉钉AI助理、字节跳动Coze等平台，普通人无需编程基础即可搭建智能体。例如，钉钉AI助理市场允许用户直接调用通义千问等大模型，创建标准化的工作流（如自动整理会议纪要、生成竞品分析报告）；Coze平台支持DeepSeek等低成本模型，用户可通过“3
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。