calvinpaean

DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution论文学习

Abstract

很多的目标检测器通过 looking and thinking twice 的方式实现了惊人的表现。本文作者针对目标检测主干网络的设计，研究了该机制。在宏观层面，作者提出了递归特征金字塔，将来自FPN的额外的反馈连接加入到自下而上的主干层。在微观层面，作者提出了可切换的空洞卷积（SAC），它以不同的空洞率（rate）对特征进行卷积，并使用switch函数合并卷积后的结果。这样就得到了DetectoRS，极大地提升了目标检测性能。在COCO 测试验证集上，DetectoRS 取得了SOTA的成绩，目标检测项为 $54.7\%$ 的边框AP，实例分割项为 $47.1\%$ 的mask AP，全景分割项为 $49.6\%$ 的PQ。代码位于：https://github.com/joe-siyuan-qiao/DetectoRS。

1. Introduction

要想找到目标物体，人类的视觉感知会通过反馈连接来传入高层及的语义信息，选择性地增强或抑制神经元活动。受此启发，计算机视觉领域实践了 looking and thinking twice 的思想，取得了优异的表现。许多流行的双阶段检测器，如Faster R-CNN，首先基于区域特征，输出候选目标框。Cascade R-CNN 设计了一个多阶段的检测器，它使用更优质的样本来训练后面的检测器heads。该设计思想非常成功，促使我们去研究目标检测的主干网络如何设计。作者在宏观和微观两个层面实现了该机制，就是 DetectoRS，它极大地提升了SOTA目标检测器 HTC 的性能，推理速度没降，如表1所示。

在宏观层面，递归特征金字塔（RFP）构建于FPN之上，将FPN层中的额外反馈连接加入到自下而上的主干层中，如图1(a)所示。将递归结构拆开为一组顺序实现，我们得到了一个目标检测器的主干网络，它会关注图片至少两次。与Cascade R-CNN 中的级联检测器的heads类似，RFP递归地增强FPN，产生的特征表示越来越强。与Deeply-Supervised Nets相似，反馈连接可以将从检测器heads传来的梯度，传回自下而上的低层级主干网络中，加速训练并提升性能。RFP实现了looking and thinking twice的顺序设计，自下而上的主干网络和FPN可以多次运行，输出的特征取决于之前步骤的输出。

在微观层面，作者提出了可切换的空洞卷积（SAC），用不同的空洞率来对相同的输入特征做卷积，使用switch函数来结合结果。图1b 展示了 SAC 的概念。Switch函数在空间上互相依赖，即特征图的每个位置有着不同的switches来控制SAC的输出。在检测器中，作者将自下而上的主干网络中所有 $3\times 3$ 标准卷积层替换为SAC，显著地提升了检测器性能。[39,74]也采用了条件卷积，将不同的卷积结果结合为一个输出。与这些方法不同，这些架构需要从头开始训练，而SAC提供了一个机制，可以很容易地转化预训练的标准卷积网络（如ImageNet-预训练权重）。而且SAC中使用了一个新的权重闭锁机制，除了一个可训练的差异之外，不同空洞卷积的权重是一样的。

将RFP和SAC的结合起来，就有了DetectoRS。为了证明其有效性，作者将DetectoRS加入到SOTA的HTC中，在COCO数据集上做实验。在COCO测试验证集上，作者报告了目标检测的边框AP、实例分割的mask AP，和全景分割的PQ。用ResNet-50作为主干网络的DetectoRS将HTC的边框AP提升了 $7.7\%$ ，mask AP提升了 $5.9\%$ 。此外，将DetectoRS结合到ResNeXt-101-32x4d中，取得了 $54.7\%$ 的边框AP和 $47.1\%$ 的mask AP。DetectoRS 搭配 DeepLabV3+和Wide-ResNet-41作为主干网络，在全景分割任务上取得了 $49.6\%$ 的PQ，是一个新的记录。

2. Related Works

目标检测。目标检测方法主要有2类：单阶段方法和多阶段方法。多阶段检测器通常更加灵活、准确，但是比起单阶段方法来说更加复杂。本文作者用多阶段的HTC作为基线模型。

多层级特征。递归特征金字塔基于FPN而来，FPN 利用多尺度特征来进行有效的目标检测。之前，许多目标检测器直接使用主干网络的多尺度特征，而FPN加入了自上而下的path，将不同尺度的特征按照顺序进行结合。PANet 在FPN之上，增加了另一个自下而上的path。STDL通过尺度转换模块来利用跨尺度的特征。G-FRNet 通过gating units增加反馈信息。NAS-FPN和Auto-FPN使用神经结构搜索找到最佳的FPN结构。EfficientDet提出复用一个简单的BiFPN层。与它们不同，本文的递归特征金字塔重复连入自下而上的主干网络，增强FPN特征表示的能力。此外，作者在FPN中加入了空洞空间金字塔池化（ASPP），增强特征，与Seamless 的 mini-DeepLab设计相似。

递归卷积网络。人们提出了许多递归方法，解决不同类型的计算机视觉问题。最近有一个递归方法CBNet用于目标检测，将多个主干网络级联起来，它输出的特征作为FPN的输入。相反，本文的RFP通过ASPP加持的FPN来执行递归计算。

条件卷积。条件卷积网络采用动态卷积核、宽度或深度。与它们不同，本文的可切换空洞卷积（SAC）不会改变预训练模型，将标准卷积转换为条件卷积。SAC因此对于许多预训练主干网络来说，可以即插即用。而且，SAC使用全局上下文信息，以及一个创新的权重闭锁机制，来让它更加有效。

3. 递归特征金字塔

3.1 特征金字塔网络

这一部分将介绍下特征金字塔网络。 $B_i$ 表示自下而上主干网络的第 $i$ 个阶段， $F_i$ 表示第 $i$ 个自上而下FPN操作。搭配FPN的主干网络输出一组特征图 ${f_i | i=1,...,S\}$ ，其中 $S$ 是阶段的个数。例如图2a中， $S = 3$ 。 $\forall i=1,...,S$ ，输出特征 $f_i$ 定义为：

$f_i = F_i (f_{i+1}, x_i), x_i = B_i(x_{i-1})$

其中 $x_0$ 是输入图像， $f_{S+1}=0$ 。目标检测器构建于FPN之上，使用 $f_i$ 用于检测计算。

3.2 递归特征金字塔

RFP往FPN中增加了反馈连接，如图2b所示。在将它们连接回自下而上的主干网络前，我们用 $R_i$ 表示特征变换，在将它们连接到自下而上的主干网络之前。然后，对于 $\forall i=1,...,S$ ，输出特征 $f_i$ 的定义为：

$f_i = F_i (f_{i+1}, x_i), x_i = B_i(x_{i-1}, R_i(f_i))$

这样RFP就是递归操作了。我们将它拆开为一个网络序列，即 $\forall i=1,...,S, t=1,...,T$ ：

$f_i^t = F_i^t(f_{i+1}^t, x_i^t), x_i^t = B_i^t(x_{i-1}^t, R_i^t (f_i^{t-1}))$

其中 $T$ 为拆开的次数，我们用上标 $t$ 来表示第 $t$ 步的运算与特征。 $f_i^0$ 被设为0。在实现中， $F_i^t$ 和 $R_i^t$ 在不同的步骤中共享。在第5部分的实验研究中，作者列出了共享的和不同的 $B_i^t$ ，以及不同 $T$ 的表现。在实验中，作者使用了不同的 $B_i^t$ ，设 $T = 2$ 。

作者改进了ResNet主干网络 $B$ ，将 $x$ 和 $R (f)$ 作为输入。ResNet有4个阶段，每个都由多个相似的模块构成。作者只改变了每个阶段的第一个模块，如图3所示。该模块计算一个3层的特征，将它加到shortcut计算出的特征上。为了使用特征 $R (f)$ ，作者增加了另一个卷积层，卷积核大小是1。该层的权重初始化为0，确保加载预训练权重时，它不会有任何的影响。

作者使用空洞空间金字塔池化（ASPP）来实现连接模块 $R$ ，它将特征 $f_i^t$ 作为输入，将之变换为RFP特征，如图3所示。在该模块中，有4个平行的分支，将 $f_i^t$ 作为输入，输出然后沿着通道维度进行concat，得到最终的输出 $R$ 。它们中的三条分支使用一个卷积层和一个ReLU层，输出通道数是输入通道数的 $1 / 4$ 。最后一个分支使用全局平均池化层来压缩特征，后面跟着一个 $1\times 1$ 卷积层和一个ReLU层，将压缩后的特征变换为 $1 / 4$ 大小（通道维度）的特征。最后，我们将这些特征重新缩放，与其它三个分支的特征进行concat。这三个分支里的卷积层的配置如下：卷积核大小为 $[1, 3, 3]$ ，空洞率为 $[1, 3, 6]$ ，padding为 $[0, 3, 6]$ 。与原始的ASPP不同，作者并没有在concat特征之后跟着一个卷积层，因为 $R$ 没有输出最终的结果。注意，这四个分支中的每一个所输出的特征，其维度都是输入特征的 $1 / 4$ ，将它们concat之后就会得到一个与输入特征 $R$ 一样大小的特征。在第5部分，作者证明了有和没有ASPP模块时RFP的性能。

3.4 Output updated by the fusion module

如图2c所示，RFP额外地使用了融合模块，将 $f_i^t$ 和 $f_i^{t+1}$ 结合起来，更新上面等式中第 $t + 1$ 个阶段的 $f_i$ 值。该融合模块与递归神经网络中的更新过程非常相似，如果我们将 $f_i^t$ 看作为一个数据序列。在第2到第 $T$ 步骤中，使用了融合模块。在第 $t + 1$ （ $t = 1, . . ., T - 1$ ）的步骤中，融合模块将第 $t$ 步的特征 $f_i^t$ 与FPN在第 $t + 1$ 步中最新计算出的特征 $f_i^{t+1}$ 作为输入。该融合模块使用特征 $f_i^{t+1}$ 来计算注意力图，通过一个卷积层和一个sigmoid操作。该注意力图用于计算 $f_i^t$ 和 $f_i^{t+1}$ 的加权和，来更新 $f_i$ 。这个 $f_i$ 将作为 $f_i^{t+1}$ ，在后续的步骤中使用。

4. 可切换的空洞卷积

4.1 空洞卷积

空洞卷积是增大卷积层滤波器感受野的有效方式。特别地，空洞率 $r$ 的空洞卷积在两个连续的滤波器值之间引入 $r - 1$ 个0，相当于将卷积核大小由 $k\times k$ 增大到 $k_e = k + (k-1)(r-1)$ ，而不会增加参数的个数或计算量。图1b为 $3\times 3$ 卷积层和空洞率为1（红色）与2（绿色）的一个例子：不同尺度的同类物体可以通过相同的卷积权重和不同的空洞率来检测。

4.2 可切换的空洞卷积

作者介绍了SAC的细节。图4展示了SAC的整体结构，它主要有3个组成：2个全局上下文模块分别加在SAC组建的前面和后面。这部分关注在SAC中间的主要构成上，随后作者会介绍全局上下文模块。

作者用 $y=\text{Conv}(x,w,r)$ 来表示卷积操作，权重为 $w$ ，空洞率为 $r$ ，输入是 $x$ ，输出是 $y$ 。然后，将卷积层转化为一个SAC：

$\text{Conv}(x,w,1) \xrightarrow[\text{to SAC}]{\text{Convert}} S(x)\cdot \text{Conv} (x, w, 1) + (1-S(x))\cdot \text{Conv}(x,w + \Delta w,r)$

其中 $r$ 是SAC的超参数， $\Delta w$ 是可训练的权重，switch函数 $S(\cdot)$ 用一个 $5\times 5$ 的核的平均池化层，后面跟着一个 $1\times 1$ 的卷积层，如图4所示。该swtich函数依赖于输入和位置；因此，主干网络模型能够适应不同的尺度。实验中作者设 $r = 3$ 。

作者提出了一个闭锁机制，设一个权重为 $w$ ，其它的为 $w+\Delta w$ 。目标检测器通常用预训练权重来初始化网络。但是，对于一个由标准卷积转化而来的SAC层，没有较大空洞率的权重。由于不同尺度的物体大概都可以用相同的权重，而空洞率不同来检测到，很自然地我们就可以用预训练模型的权重来初始化这些缺失的权重。本文实现将 $w+\Delta w$ 用作为这些缺失的权重，其中 $w$ 来自于预训练权重，而 $\Delta w$ 初始化为0。当 $\Delta w=0$ 时，发现AP降低了 $0.1\%$ 。但是不用闭锁机制的话，AP会下降许多。

4.3 全局上下文

如图4所示，作者在SAC前后共插入了2个全局上下文模块。这2个模块都很轻量级，输入特征首先通过一个全局平均池化层压缩。全局上下文模块与SENet类似，除了2个不同之处：(1) 我们只有一个卷积层，没有非线性层；(2) 输出被加到主干之后，而不是通过sigmoid计算出的值来乘到输入上。作者发现将全局上下文信息加到SAC之前（即将全局信息加到switch函数里），对检测效果有正面的作用。作者猜测，这是因为 $S$ 在有全局信息的时候，所做出的预测更加稳定。然后，作者将全局信息移除switch函数，将它放在主干部分的前面和后面，这样 $C o n v$ 和 $S$ 都会受益。作者没有采用原始的SENet方式，因为没有发现它对最终的AP有何影响。

4.4 实现细节

在实现中，作者使用了变形卷积来代替等式4中的卷积操作。它们的offset函数没有共享。第5部分会讲述SAC有和没有变形卷积时的性能比较。作者在ResNet和其变体上采用SAC，在主干网络中将所有的 $3\times 3$ 卷积替换。全局上下文模块的权重和偏置都被初始化为0。swtich $S$ 中的权重初始化为0，偏置初始化为1。 $\Delta w$ 初始化为0。上述初始化策略确保了，当我们加载从ImageNet上训练得到的预训练模型时，将所有 $3\times 3$ 卷积转化为SAC不会改变输出。

4. Experiments

Pls read paper for more details.

智能喷洒机器人目标识别系统：基于NanoDet的目标检测与UI界面实现 YOLO实战营机器人目标检测 ui NanoDet 计算机视觉目标跟踪深度学习
在现代农业生产中，自动化喷洒系统是实现精准农业的重要组成部分。智能喷洒机器人通过图像识别和自动控制技术，能够高效识别并精确喷洒农药、肥料等，提高农业生产效率，降低化学品使用量，减少环境污染。目标识别是智能喷洒机器人中至关重要的部分，它涉及到精准的作物和病虫害识别，确保喷洒操作的准确性。在本篇博客中，我们将构建一个基于NanoDet深度学习目标检测模型的智能喷洒机器人目标识别系统。我们将介绍如何使用
横幅检测数据集-1500张图片智慧城市管理活动现场管理商业广告分析
横幅检测数据集-1500张图片已发布目标检测数据集合集（持续更新）️横幅检测数据集介绍数据集概览检测目标类型应用场景数据样本展示使用建议1.数据预处理优化2.模型训练策略3.实际部署考虑4.应用场景适配5.性能优化建议数据集特色商业价值技术实现路径模型选择建议特殊技术考虑集成方案建议应用效果评估性能指标建议业务价值指标YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.
【三维感知目标检测论文阅读】《Point RCNN: An Angle-Free Framework for Rotated Object Detection》
今天给大家带来的论文是2019年的《PointRCNN:AnAngle-FreeFrameworkforRotatedObjectDetection》。尽管这是一篇较早的纯点云检测论文，但我把它放在了最后来讲。因为在了解了各类主流方法后，再回过头来阅读它会有更深的理解。PointRCNN采用自底向上的方式直接从点云生成高质量的3D候选框，其对于旋转框的无角度（Angle-Free）处理方式，对于理
对标ChatGPT，「文心一言」今日亮相！AI人机时代来临，未来在何方？ AI医学
本文由「AI医学er」提供医海无涯，AI同舟。关注我们，助力高效科研。3月15日，OpenAI公布了其大型语言模型的最新版本——GPT-4。3月16日，百度文心一言人工智能聊天机器人正式上线。一个时代开始了。OpenAI在官网表示，GPT-4是一个能接受图像和文本输入，并输出文本的多模态模型，是OpenAI在扩展深度学习方面的最新成果。此前的ChatGPT，只能通过向其输入文字提问才能生成文字回答
旋转目标检测：Deep Spatial Feature Transformation for Oriented Aerial Object Detection【方法解析】沉浸式AI 《AI与SLAM论文解析》人工智能计算机视觉旋转目标检测
DeepSpatialFeatureTransformationforOrientedAerialObjectDetection目录DeepSpatialFeatureTransformationforOrientedAerialObjectDetection摘要关键词引言相关工作旋转对齐模块特征对齐方法旋转对齐模块特征选择模块摘要航空图像中的目标检测在计算机视觉领域引起了广泛关注。不同于自然图像
【深度学习新浪潮】什么是system 1和system 2？小米玄戒Andrew 深度学习新浪潮深度学习人工智能大模型推理模型 COT 模型蒸馏动态推理
在大模型研究中，System1和System2的概念源于心理学家DanielKahneman的双系统理论，用于描述人类思维的两种模式。System1代表快速、直觉、自动化的思维（如模式识别），而System2代表慢速、有意识、需要努力的逻辑推理（如复杂数学计算）。这一理论被引入AI领域后，成为理解大模型能力边界和优化方向的重要框架。一、大模型中的System1与System2的定义System1（
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
AI人工智能领域知识图谱在文本分类中的应用技巧 AI天才研究院 AI大模型企业级应用开发实战人工智能知识图谱分类 ai
AI人工智能领域知识图谱在文本分类中的应用技巧关键词：知识图谱、文本分类、图神经网络、实体关系抽取、深度学习、自然语言处理、特征融合摘要：本文深入探讨了知识图谱在文本分类任务中的应用技巧。我们将从知识图谱的基本概念出发，详细分析如何将结构化知识融入传统文本分类流程，介绍最新的图神经网络方法，并通过实际案例展示知识增强型文本分类系统的构建过程。文章特别关注知识表示学习与文本特征的融合策略，以及在不同
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
Hadoop与图像识别与处理 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Hadoop与图像识别与处理作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代，数据的爆炸性增长对数据处理技术提出了新的挑战。图像数据作为一种重要的数据形式，其处理和分析在许多领域中具有重要意义，如医疗影像分析、自动驾驶、安防监控等。然而，传统的图像处理方法在面对海量图像数据时显得力不从心。Hadoop作为一种分
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key