Re-赟

论文阅读 CAD-Net: A Context-Aware Detection Network for Objects in Remote Sensing Imagery

文章目录

- CAD-Net: A Context-Aware Detection Network for Objects in Remote Sensing Imagery
- - Abstract
  - I. INTRODUCTION
  - II. RELATED WORK
  - III. PROPOSED METHOD
  - - A. Leveraging Contextual Information
    - B. Spatial-and-Scale-Aware Attention Module
  - IV. EXPERIMENTS
  - - A. Datasets and Evaluation Metrics
    - B. Implementation Details
    - C. Experimental Results
    - D. Ablation Study
  - V. CONCLUSIONS

CAD-Net: A Context-Aware Detection Network for Objects in Remote Sensing Imagery

Abstract

准确且稳健地检测光学遥感图像中的多类对象对许多现实世界应用至关重要，如城市规划、交通控制、搜索和救援等。然而，针对ground-level传感器捕获的图像设计的目标检测技术，在直接应用于遥感图像时通常会出现明显的性能下降，这在很大程度上是由于遥感图像中对象外观差异造成的，这些差异包括稀疏纹理、低对比度、任意方向、大尺度变化等。本文提出了一种新颖的目标检测网络（CAD-Net），它利用attention-modulated特征以及全局和局部上下文来解决从遥感图像中检测对象面临的新挑战。CAD-Net通过捕捉与全局场景的联系 (at scene-level)和与局部相邻对象或特征（at object-level）的相关性，学习了objects的全局和局部上下文信息。此外，设计了一个 spatial-and-scale-aware的注意力模块，引导网络集中关注更具信息量的区域和特征，以及更合适的特征尺度。在两个公开可用的遥感图像目标检测数据集上进行的实验表明，所提出的CAD-Net实现了优越的检测性能。

I. INTRODUCTION

近年来，卫星和遥感技术的最新进展导致每天产生大量的高清遥感图像，这远远超出了任何手动操作和处理的范围。因此，自动分析和理解遥感图像对于使这些图像在城市规划、搜索、救援、环境监测等许多现实世界应用中变得至关重要。特别是，多类对象检测，即在遥感图像中同时定位和分类各种对象（如飞机、车辆、桥梁、环形交叉口等），由于传感器分辨率的提高。这一挑战超越了传统的场景级分析，旨在识别遥感图像的场景语义，如建筑物、草地、海洋等。

深度神经网络，特别是卷积神经网络（CNN），在近年来极大地推动了目标检测的发展。已经提出了许多基于CNN的目标检测器，通过在诸如PASCAL VOC和MS COCO、等多个大规模目标检测数据集上取得了非常有希望的结果。另一方面，大多数现有技术在应用于遥感图像时通常会出现明显的性能下降，主要是由于以下三个因素所致，如图1所示。首先，光学遥感图像中的对象通常缺乏图像对比度和纹理细节等视觉线索，这对于最先进的检测技术的性能至关重要。其次，遥感图像中的对象通常密集分布，出现任意方向并且具有大尺度变化，这使得目标检测变得更加具有挑战性。第三，光学遥感图像中捕获的对象通常受到大量噪声的影响，这是由于在光线被反射并传播回卫星传感器时遭受各种干扰。

在这项工作中，我们设计了一种Context-Aware Detection Network（CAD-Net）用于光学遥感图像中的目标检测。图2显示了所提出的CADNet的概述。如图2所示，CAD-Net包括一个全局上下文网络（GCNet），该网络学习interested objects与其相应 global scenes之间的关联，即对象特征与整个图像特征之间的关联。GCNet受到这样的观察启发，光学遥感图像通常涵盖大范围的区域，其中场景级语义通常对对象位置和对象类别提供重要线索，例如船只通常出现在海洋/河流中，直升机很少出现在居住区周围等。此外，CAD-Net还包括一个Pyramid
Local Context Network （PLCNet），该网络学习与 objects of interest周围的multi-scale cooccurrence features and/or co-occurrence objects。与由地面传感器捕获的图像相比，顶视角的遥感图像通常包含更丰富且更具区分性的 co-occurrence features and/or objects，这对于对象类别和位置推理非常有用，例如车辆彼此相互出现，港口中的船只，河流上的桥梁等。此外，设计了一个空间和尺度感知的注意力模块，引导网络关注适当图像尺度上更具信息量的上下文区域。

本工作的贡献有四个方面。首先，它设计了一种创新的上下文感知网络，用于在光学遥感图像中学习全局和局部上下文，以实现最佳的目标检测。据我们所知，这是第一次在遥感图像的目标检测中融合全局和局部上下文信息。其次，它设计了一个空间和尺度感知的注意力模块，引导网络在适当的图像特征尺度上关注更具信息量的区域。第三，它验证了遥感目标检测的独特性，并为弥合与由地面传感器捕获的图像的目标检测之间的差距提供了富有洞察力和创新性的解决方案。第四，不需要过多复杂的设计，它开发了一个端到端可训练的检测网络，在两个具有挑战性的遥感图像目标检测数据集上实现了最先进的性能。

II. RELATED WORK

略过

III. PROPOSED METHOD

我们提出的上下文感知检测网络（CAD-Net）的框架如图2所示。CAD-Net基于经典的两阶段检测网络结构 - Faster RCNN ，并结合了FPN。我们设计了一个全局上下文网络（GCNet）和一个金字塔局部上下文网络（PLCNet），分别用于提取global scene level和 local object level的上下文信息。我们还设计了一个空间和尺度感知的注意力模块，引导网络集中关注更具信息量的区域，以及更适当的图像特征尺度。所有设计的组件都是现成的，可以被整合到现有的检测网络中，无需任何适应和额外的监督信息。更多细节将在接下来的小节中讨论。

A. Leveraging Contextual Information

给定一张图像 I 和一个region proposal P，相对于 P 的对象 O_P 的检测可以被表述为

其中，Det(·)表示joint的对象分类和边界框回归。在广泛采用的region-based的检测方法中，方程式1通常通过RoIPooling 来近似，该方法引导网络关注 proposal region并忽略图像的其余部分。因此，新的表述可以表示为

其中，Ψ(·)表示RoIPooling操作。

方程式2中的近似是基于这样的假设：特定区域P的所有有用信息都位于区域本身内。这个假设适用于大多数来自地面传感器的图像，其中通常捕获和保留了有辨别力的对象特征。但是对于光学遥感图像，由于各种噪声和信息丢失，边缘和纹理等有辨别力的对象特征通常会严重退化。在这种情况下，与感兴趣对象紧密相关的全局和局部上下文变得重要，并且应该被纳入以补偿feature degradation和information loss。因此，全局和局部上下文的融合可以被表述为：

其中，G(·)表示用于获取全局上下文特征的GCNet，L(·)表示用于获取局部上下文特征的PLCNet，(· ; ·)表示串联。

Global Context Network：遥感图像通常捕捉到大片区域，携带了强烈语义信息。此外，所拍摄场景的语义常常与场景内的对象密切相关，例如海洋与船只，机场与飞机等。基于这些观察，我们设计了一个全局上下文网络（GCNet），该网络学习全局场景语义，并将其用作更好地检测遥感图像中的对象的priors。更具体地说，GCNet学习了场景与场景内对象之间的关联，并将所学关联作为一定的全局上下文，以弥补辨别性对象特征的损失。GCNet可以被表述为：

其中，Λ(I)表示特征提取网络的最终特征图，即ResNet-101主干网络的C5级，如图2所示。Φ_G(·)由一系列卷积层实现，用于提取全局特征，ψ(·)表示一个池化操作，将特征图的空间通道压缩成一个向量，有助于抑制对尺度变化的敏感性。在我们实现的系统中，我们经验性地采用了全局平均池化作为ψ(·)
Pyramid Local Context Network: 除了全局上下文外，描述对象与其相邻对象and/or特征之间的局部上下文也捕获了有用的信息，并可以用来弥补信息损失。基于对象和它们的局部上下文都对尺度敏感的观察，我们设计了一个金字塔局部上下文网络（PLCNet），以学习对象与它们的局部上下文之间的对象/特征关联，如图3所示。

给定一个region proposal P（例如，图3中红色框中的船只proposal），一组不同尺度的相应区域的局部上下文被用来学习环绕 P 的跨尺度局部上下文，如图3所示。设计了一个上下文金字塔，首先提取和串联不同尺度的pooled features，然后通过卷积（即图3中的Conv）融合串联特征。最终融合的特征与区域特征以及前述的全局上下文特征一起，用于proposal分类和边界框回归。
如图3所示，即使是人类也会发现仅仅关注所提出的区域本身很难确定所提出的区域（在红色框中突出显示）是否是一艘船。在这种情况下，来自不同尺度的局部上下文（例如图3中显示的船只群和港口）将提供强有力的线索，表明区域提案很可能是一艘船。PLCNet被训练以学习这种相关的特征和/或对象，这在光学遥感图像中的稀疏纹理、低对比度以及严重信息丢失的情况下经常非常有帮助。

B. Spatial-and-Scale-Aware Attention Module

视觉注意力在计算机视觉任务中已被证明非常有用，例如图像描述、场景文本识别等。这个想法受到了人类视觉系统的启发，人类视觉系统不会一次性处理整个图像，而倾向于顺序地关注更具信息量的区域。在这项工作中，我们设计了一个空间和尺度感知的注意力模块，该模块学会自适应地关注相关尺度的特征图上突出的区域（空间感知和尺度感知）。空间感知特征有助于网络处理具有稀疏纹理和低对比度的对象与背景，而尺度感知特征有助于处理不同尺度的对象。这两者的结合有助于遥感图像学习目标检测模型。

提出的空间和尺度感知注意力模块是建立在由FPN生成的特征金字塔上的，该金字塔提取了特征图P2−P5，如图4所示。对于特定尺度的特征P_i（其中i ∈ [2, 5]），attention-modulated的特征图如下确定：

其中，σ(·) 是 sigmoid 函数，S_i 是第 i 个特征图的注意力图，A_i 是第 i 个attention-modulated的特征图，而o表示逐元素相乘。注意力图计算 Φ_i(·) 通过一系列卷积层实现。注意，每个特定尺度都有一个单独的 Φ_i(·) 来计算相应的注意力图。这种设计确保了我们提出的注意力模块既具有空间感知性，也具有尺度感知性，使其能够在适当的尺度上关注更具信息量的区域，同时抑制不相关的信息。

图5显示了由所提出的空间和尺度感知的注意力模块生成的attention response maps。如图5所示，我们提出的注意力模块不仅具有空间感知性，还具有尺度感知性，可以选择性地关注不同尺度特征的更具信息量的区域。例如，小尺度的船只在更低层的网络层次 A2 和 A3（如图4所示）中获得更强的响应，这些层次捕获了更多的详细信息，而大尺度的港口则在更深的网络层次 A4 和 A5 中获得更强的响应，这些层次捕获了更高层次的信息，如第一个示例图像所示。此外，我们的注意力模块能够引导网络关注被噪声降低的有用纹理细节，例如第一个示例图像中港口的骨架和第二个示例图像中球场的中线。

IV. EXPERIMENTS

A. Datasets and Evaluation Metrics

略过

B. Implementation Details

Ground Truth Generation DOTA以四边形格式提供objects of interest的注释，而NWPU-VHR10以传统的轴对齐边界框格式提供注释。为了适应不同的设置，所提出的CAD-Net使用水平边界框（HBB）和方向边界框（OBB）作为 ground truth：

其中，θ位于[0, 90°)范围内，以确保每个对象只有一个ground truth。在训练中，根据一组与四边形注释最佳重叠的旋转矩形生成了如公式（8）中定义的OBB ground truth。对于DOTA数据集，我们提出的CAD-Net生成了HBB结果和OBB结果，如图2所示。对于NWPU-VHR10数据集，CAD-Net只生成HBB结果，因为该数据集未提供OBB地面真值。

Data Pre-processing 光学遥感图像通常具有巨大的图像尺寸，例如DOTA图像的尺寸可以高达6,000 × 6,000像素。为了适应训练阶段的硬件内存，我们将图像裁剪成尺寸为1,600 × 1,600像素的patches，相邻patches之间有800像素的重叠。在推断阶段，从测试图像中裁剪出尺寸为4,096 × 4,096像素的图像patches，相邻patches之间有1,024像素的重叠。如果图像尺寸小于裁剪的图像patches，则会进行零填充。还会执行其他标准的预处理过程，如全局对比度归一化。

Network Setup 我们采用ResNet-101 作为特征提取的网络主干。作为常见的做法，这个ResNet-101在ImageNet上进行预训练，然后在我们的训练过程中进行微调。由于遥感图像中的对象通常具有任意方向，我们所提出的CAD-Net被设计为能够同时生成HBB和OBB。

我们采用（SGD）进行网络优化。我们的模型在单个Nvidia Tesla P100 SXM2 GPU上进行训练，具有16GB的内存，使用了深度学习框架PyTorch 。批量大小设置为1。DOTA和NWPU-VHR10的总训练迭代次数分别为130,000和30,000，分别需要大约36小时和6小时。

C. Experimental Results

表I显示了在DOTA数据集的测试集上的实验结果，并与最先进的方法进行了比较。注意，表中列出的所有方法都采用了ResNet-101作为主干网络，除了YOLO v2和SSD分别采用了GoogLeNet和Inception网络。如表I所示，我们提出的CAD-Net在平均精度上超过了基线模型Faster RCNN（表中的FR-O），超出了15.8%，证明了它在遥感图像中的目标检测有效性。此外，在两个training setups下的表现优于最先进的方法，提升幅度最高达2%（“T”表示只使用训练图像进行训练，“T+V”表示训练图像和验证图像均用于训练）。此外，我们还指出，Azimi的方法采用了Inception模块、可变形卷积、在线困难样本挖掘（OHEM）、多尺度训练和推断等技术，而我们的目标是设计一个干净高效且性能出色的模型。通过包括这些经过充分验证的性能提升组件，我们的模型应该能够实现更高的检测准确度。

我们还在NWPU-VHR10数据集上对所提出的CAD-Net进行评估，并与最先进的方法进行了基准比较。由于NWPU-VHR10未指定训练和测试集的划分，我们按照广泛采用的划分方案随机选择了75%的正样本图像作为训练集，其余的正样本图像作为测试集，不包括任何负样本图像用于训练。表II显示了实验结果和与最先进方法的比较。我们提供了CAD-Net在NWPU-VHR10数据集上的3个随机分离的实验结果，以提供更有说服力的结果。如表II所示，与最先进的方法相比，所提出的CAD-Net也获得了卓越的目标检测性能。

图6展示了来自DOTA数据集的几个示例图像，以及使用基线模型（Faster RCNN与FPN）的检测结果（第一行），以及使用所提出的CAD-Net的检测结果（第二行）。如图6所示，最先进的通用检测技术Faster RCNN与FPN在不同情况下往往会产生错误的检测，例如第一个示例图像中的船只（被误检为大型车辆），第二个示例图像中不同风格的储罐（被误检为环形交叉口），第三个示例图像中被船只遮挡的港口和纹理细节较少的船只（false negatives），以及第四个示例图像中与背景对比度非常低的车辆（false negatives）。作为对比，所提出的CAD-Net能够在如图6第二行所示的各种不利情况下正确检测出这些物体。

卓越的检测性能很大程度上归因于所提出的CAD-Net内部包含了全局上下文、局部上下文、空间和尺度感知的注意力、强大且平衡的语义信息以及准确的旋转角度回归（如第III节所述）。

另一方面，在图6的第三行中，所提出的CAD-Net仍然容易在几种典型情况下出现检测失败。首先，如第一个示例图像所示，所提出的CAD-Net对强光干扰很敏感，这主要是由于训练集中缺乏相关的训练图像。其次，即使小型车辆的视觉质量良好（如第二个示例图像所示），CAD-Net也经常会产生漏检。我们坚信，这主要是由于训练图像的注释不准确。特别是，许多小型车辆没有被标注，可能是由于图像中大量的小型车辆和有限的人力资源。第三，CAD-Net可能无法检测到长而细的物体，例如桥梁，如第三个示例图像所示。这是基于proposal的检测技术（如Faster RCNN）的常见限制，它只能为具有有限宽高比的物体使用有限数量的锚点。第四，CAD-Net仍然倾向于错过那些严重重叠的物体，如第四个示例图像所示。我们认为这个问题可以通过合适的非极大值抑制（NMS）来更好地解决，我们将在未来的工作中进行探究。

D. Ablation Study

略过

V. CONCLUSIONS

This paper presents a novel CAD-Net, an accurate and robust detection network for objects in optical remotes sensing images. Global Context Network (GCNet) and Pyramid Local Context Network (PLCNet) are proposed, which extract scenelevel and object-level contextual information that is highly correlated to objects of interest and often provide extra guidance for object detection in remote sensing images. In addition, a spatial-and-scale-aware attention module is designed which guides the network to focus on scale-adaptive features for feature maps from each level and also to emphasize the degraded texture details. Extensive experiments over two public available datasets verify the uniqueness of object detection in remote sensing images, and also show that the proposed CADNet achieves superior object detection performance as compared with state-of-the-art techniques. On the other hand, the CAD-Net still tends to fail under several typical scenarios for ultra-long or heavily overlapped objects. We will investigate new approaches that is capable of better leveraging contextual information for more robust object detection in remote sensing images.

Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
mediapipe流水线分析三江太翁 Android NDK 人工智能 mediapipe android
目标检测Graph一流水线上游输入处理1TfLiteConverterCalculator将输入的数据转换成tensorflowapi支持的TensorTfLiteTensor并初始化相关输入输出节点，该类的业务主要通过interpreterstd::unique_ptrtflite::Interpreterinterpreter_=nullptr;实现类完成数据在cpu/gpu上的推理1.1Tf
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
Xtuner：大模型微调快速上手潘达斯奈基~ AIGC AIGC
一、XTuner是什么？简单来说，XTuner是一个轻量级、易于使用的、为大语言模型（LLM）设计的微调工具库。它由上海人工智能实验室（OpenMMLab）开发，是其强大AI工具生态（MMCV,MMEngine等）的一部分。它的核心设计理念是“用一个配置文件搞定一切”，让开发者和研究人员可以极大地简化微调流程。二、为什么选择XTuner？（核心优势）轻量且用户友好：命令行驱动：你不需要编写复杂的训
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
水下目标检测：突破与创新加油吧zkf 目标跟踪人工智能计算机视觉
水下目标检测技术背景水下环境带来独特挑战：光线衰减导致对比度降低，散射引发图像模糊，色偏使颜色失真。动态水流造成目标形变，小目标（如10×10像素海胆）检测困难。声呐与光学数据融合可提升精度，但多模态对齐仍是技术难点。核心算法实现要点图像预处理直方图均衡化与Retinex算法结合改善对比度和色偏：defsingle_scale_retinex(img,sigma):retinex=np.log10
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
剖析AI人工智能领域Whisper的性能指标 AI大模型应用实战人工智能 whisper xcode ai
剖析AI人工智能领域Whisper的性能指标关键词：Whisper、语音识别、性能指标、ASR、AI模型评估、基准测试、语音转文本摘要：本文深入剖析OpenAI开发的Whisper语音识别系统的性能指标。我们将从技术原理、架构设计、性能基准测试等多个维度，全面分析Whisper在不同场景下的表现。文章将详细讲解Whisper的评估方法、关键性能指标解读、实际应用中的性能表现，以及与其他主流语音识别
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
YOLOv11 改进策略 | GFPN：超越 BiFPN，跳层与跨尺度连接重塑特征金字塔
YOLOv11改进策略|GFPN：超越BiFPN，跳层与跨尺度连接重塑特征金字塔！介绍颈部网络（Neck）在目标检测任务中扮演着至关重要的角色，它负责有效地融合来自骨干网络（Backbone）不同层级的特征图，为检测头部（Head）提供包含丰富语义和空间信息的多尺度特征。FPN、PANet和BiFPN等结构是特征金字塔融合的代表。BiFPN作为其中的佼佼者，通过双向连接和加权融合取得了优异的性能。
结合创新idea：机器学习+运筹优化=CCF高端局 Ai多利机器学习人工智能
2024深度学习发论文&模型涨点之——机器学习+运筹优化机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进其性能，而无需进行明确的编程。运筹优化，也称为运筹学或运营管理，是应用数学的一个分支，它使用数学模型和算法来支持复杂决策过程的制定。机器学习与运筹优化的结合是一个前沿且活跃的研究领域，它们相互补充，为解决复杂问题提供了新的思路和方法。小编整理了一些机器学习+运筹优化【论文+代码
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
重塑知识的圣殿：人工智能时代的教育革命与人文守护田园Coder 人工智能科普人工智能科普
教育，承载着文明火种传递的千年使命，其核心始终围绕两个永恒命题：如何让知识更有效地被获取？如何让个体潜能更充分地绽放？在信息爆炸、技能迭代加速的当代，传统教育模式——标准化课程、统一进度、有限师资、资源不均——正面临前所未有的压力。人工智能（AI）的崛起，如同一股强大的变革洪流，正以前所未有的深度和广度渗透教育生态的各个环节。从量身定制的学习路径到永不疲倦的智能导师，从虚拟现实的沉浸课堂到洞察学情
踏入真实：具身智能与物理世界的认知交响
当大型语言模型在文本的海洋中纵横捭阖，生成式AI在数字画布上挥洒创意时，人工智能仍有一个根本性的疆域尚未完全征服——真实的三维物理世界。理解一个苹果，不能仅靠词向量坐标；学会行走，无法通过阅读说明书达成；在拥挤的街道导航，远非处理符号逻辑那般简单。智能的进化，自生命诞生之初，便与具身性（Embodiment）和环境交互（Interaction）密不可分。我们的认知、学习、乃至意识的雏形，都源于身体
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st