呆呆的猫

【AIGC】13、GLIP | 首次将 object detection 重建为 phrase grounding 任务

文章目录

- 一、背景
- 二、方法
- - 2.1 将 object detection 和 phrase grounding 进行统一
  - 2.2 Language-aware deep fusion
  - 2.3 使用语义丰富的数据来进行预训练
- 三、效果
- - 3.1 迁移到现有 Benchmarks
  - 3.2 在 COCO 上进行零样本和有监督的迁移
  - 3.3 在 LVIS 上进行零样本迁移学习
  - 3.4 在 Flickr30K Entities 上进行 phrase grounding 验证
  - 3.5 分析
  - 3.6 自然环境中的目标检测
  - 3.7 如何将一个模型扩展到所有任务

论文：Grounded Language-Image Pre-training

代码：https://github.com/microsoft/GLIP

出处：微软 | 华盛顿大学

时间：2022.06

一、背景

视觉识别模型一般都使用提前设定的类别来进行训练，这会限制器在真实场景中的使用

CLIP 方法证明了 image-level 的视觉特征表达能够很好的学习大量的 image-text pairs

其 text 中包含很丰富的视觉概念，pre-trained CLIP 模型语义非常丰富，能够很好的泛化到下游的 zero-shot 图像分类、图文检索

为了更细粒度的对图像理解，目标检测、分割、姿态估计、场景理解等 object-level 的任务也非常重要。

本文的重点：

展示了 phrase grounding（可以理解为将短语和目标区域进行关联）任务，能够实现短语和目标/区域之间的关联
提出了 Grounded Language-Image Pre-training（GLIP），在目标检测任务中实现了对 phrase grounding 和 object detection 任务的统一

二、方法

GLIP 主要内容如下：

1、将 object detection 任务重建为 phrase grounding

如何重建任务：

将检测模型的输入从图像变为图像和 text Prompt（prompt 包括该检测任务中所有候选类别）
示例： COCO 目标检测任务的 text prompt 是一个 text str，包含 80 个 phrase，使用 ‘.’ 进行 phrase 的切分，如图 2 左侧所示。
任何一个 object detection model 都可以被转换为 grounding model，实现方式是将 object classification logits 替换为 object box classifier，比如可以使用 region（or box） visual features 和 token （or phrase）language feature 的点积，如图 2 右侧所示
language feature：使用 language model 来计算得到，不同于 CLIP 只在最后一个 dot product layer 将 vision 和 language 进行融合，GLIP 结构中 vision 和 language 的融合更加深入（如图 2 中间部分），这有助于学习更高质量的 language-aware visual representation，达到更好的迁移学习效果

detection 和 grounding 任务统一有什么好处：能够同时利用两个任务的数据并且互利互惠

在 detection 上，grounding data 能帮助其提升视觉概念的丰富性
在 grounding 上，detection data 能够引入更多 bounding box 标注信息

2、使用大量的 image-text data 扩充视觉概念

假设有一个很好的 grounding model（teacher），则可以为这些大量的 image-text-paired 数据自动生成 grounding box ，phrase 可以使用 NLP parser 来检测

teacher model 能对一些难定论的目标或抽象的目标进行定位，也能带来很丰富的语义信息

所以，可以在 27M grounding data 上 pre-train 我们的 student GLIP-large model（GLIP-L）

27M grounding data ：

3M 人工标注的精细数据
24M 从网上收集的 image-text pairs，有 78.1M 高置信得分（>0.5）的 phrase-box 伪标注，58.1M 唯一的 phrase
示例如图 3 所示

3、使用 GLIP 进行迁移学习：从一个 model 到所有 model

当 GLIP-L 模型在 COCO 和 LVIS 数据集上直接进行验证（没有见过其他数据），就能在 COCO val 2017 上达到 49.8 AP，在 LVIS val 上达到 26.9 AP ，超越了很多基础方法

2.1 将 object detection 和 phrase grounding 进行统一

1、传统的目标检测任务：

是将图像输入 backbone（CNN 或 Transformer）来抽取基础特征，如图 2 底部，然后将每个候选区域输入分类头和检测头来预测类别和位置，loss 如下：

在 two-stage 检测器中，会使用 RPN 来进行前景和背景的初步区分，作者在这里将 RPN 的 loss 在含义上融入了 LOC loss 中
在 one-stage 检测器中，LOC loss 中也会包含类似 centerness loss

box classifier $C$ 可以是简单的线性层，classification loss $L_{cls}$ 可以被写为：

$O$ 是 object/region/box features
$W$ 是 box classifier $C$ 的 weight matrix
$S_{cls}$ 是输出分类 logits
$T\in\{0, 1\}$ 是 region 和 classes 的匹配
$l oss (S; T)$ 在单阶段检测器中是 cross-entropy loss，在双阶段检测器中是 focal loss

2、将目标检测重构为 phrase grounding：

不需要对每个 region/box 划分类别，grounding 任务是通过将每个 region 对齐（grounding/aligning）到 text prompt 中的 $c$ 个 phrase 上，如图 2 所示。
如何为 detection 任务设计 text prompt：将所有要检测的类别组成如下形式，每个类别名称都是需要被 grounded 的
在 grounding model 中，作者会计算 image region 和 words in prompt 之间的 alignment scores $S_{ground}$ ，
- $\in R^{M \times d}$ 是从 language encoder 中得到的上下文 word feature
- $Enc_I$ ：image encoder
- $Enc_L$ ：language encoder
训练：将公式 2 中的 classification logits $S_{cls}$ 替换为 $S_{ground}$ ，然后最小化公式 1 和 2

注意，在公式 2 中， $S_{ground} \in R^{N \times M}$ ， $T\in\{0, 1\}^{N \times c}$ ，但由于 word token 的数量 $M$ 一般都大于 phrases $c$ 的数量，原因有四个：

一些 phrases 包含多个 words（如 traffic light）
一些 single-word phrase 被分为多个 sub-word token（如 toothbrush 被分为 tooth 和 bruth）
一些 token 是被添加进去的（图 Detect: 和 ‘,’）
tokenized sequence 的尾部有 [NoObj] token

所以，当 loss 是 binary sigmoid loss 时，将 $T\in\{0, 1\}^{N \times c}$ 扩展为 $\in\{0, 1\}^{N \times M}$ ，这样就可以实现：

当 phrase 是 positive match 时，让每个 sub-word 也都实现 positive match
一些被加进去当做标识字符的 word 对所有特征都是 negative match

2.2 Language-aware deep fusion

在公式 3 中，image 和 text 分别使用不同的 encoder 来提取特征，然后在最后进行融合来计算 alignment scores，这样的模型是 late-fusion models

在 vision-language 的相关方法中，deep fusion 很重要，能够优化 phrase grounding 模型

所以本文也使用了 deep fusion 的方式来对 image 和 language encoder 的结果进行融合，也就是在后面几个 encoder layer 就对 image 和 text 特征进行融合，如图 2 中间所示

作者使用 DyHead[10] 作为 image encoder，使用 BERT 作为 text encoder，则 deep-fused encoder 为：

$L$ ：DyHead 的 DyHeadModules 的数量
BERTLayer：是在经过预训练的 BERT 的顶部新加的一个 BERT layer
$O^0$ ：vision backbone 输出的 visual feature
$P^0$ ：language backbone 输出的 token feature
X-MHA：cross-modality multi-head attention model，用于进行多模态交互， $O_{t2i}^i$ 是 token2image 交互结果， $P_{i2t}^i$ 是 image2token 交互结果，如果没有 X-MHA 的话，则退化为 late-fusion model

X-MHA 的每个 head 都计算从一个模态到另一个模态的 context vectors：

2.3 使用语义丰富的数据来进行预训练

人工标注很费时费力，很多方法研究使用 self-training 方式来扩充，一般使用 teacher 模型来生成伪边界框来训练 student model，但生成的 label 也会受限于 concept pool，student model 也只能学习预设好的 concept pool。

本文的模型可以在 detection 和 grounding data 上同时训练，grounding data 可以提供丰富的语义信息来促进定位：

首先，好的 grounding data 覆盖了很大的词汇池，比现有的检测数据集词汇池大得多，目前经过扩展的最大的检测数据集词汇不超过 2000 类，而 grounding data 可以扩展到很大，如 Flickr30K[44] 包括 44518 个独一无二的 phrases，VG Caption[28] 包括 110689 个独一无二的 phrases，远远大于检测数据集的类别数量
其次，不扩充 detection data 的情况下，也可以使用扩充 grounding data 的方式来提高语义丰富性。作者受启发于 self-training，首先使用人工标注的好的检测标注和 grounding data 预训练一个 teacher GLIP，然后使用这个 teacher model 来预测从网络获取的 image-text data 中的目标框，最后使用标注好的 data 和生成的伪标签来训练 student model，如图 3 所示，teacher 模型能够对语义丰富的描述生成准确的框

为什么 student model 的效果可能会超过 teacher model 的效果：

如图 3 所示，如图标注数据中没有某些类别的话，teacher model 可能没法直接识别特定的概念，如 vaccine 、turquoise，但是，丰富的语言概念可以给 teacher model 提供很强的指导作用，让其能够进行猜想，所以，如果模型能够定位 small vail，则也可能能够定位 vaccine，如果模型能够定位 caribbean sea，则也可能能够定位 turquoise
所以在训练 student model 时，这种猜想能力就会变成有监督的信号，让 student 模型能够学习 vaccine 和 turquoise

三、效果

3.1 迁移到现有 Benchmarks

经过预训练的 GLIP 能够很方便的用于 grounding 和 detection 任务，作者在三个数据集上进行了验证：

MS-COCO object detection，包括 80 个检测类别
LVIS object detection：包括超过 1000 个检测类别
Flickr30K phrase grounding

训练了 5 个 GLIP 变体，如表 1 所示：

GLIP-T(A)：基于 SOTA detection model——Dynamic Head，使用 word-region alignment loss 代替 classification loss，使用 Swin-Tiny backbone，在 Object365 上预训练（0.66M 数据，356 个类别）
GLIP-T(B)：使用 language-aware deep fusion，只在 Object365 上进行了预训练
GLIP-L：使用 Swin-Large 并且在这些数据上训练 FourODs (2.66M data)、Objects365、 OpenImages [27]、Visual Genome (excluding
COCO images) [28]、ImageNetBoxes [29]、GoldG、CC12M+SBU（24M image-text data collected from the web with generated boxes）

3.2 在 COCO 上进行零样本和有监督的迁移

DyHead：用于对比，先在 Object365 上训练 DyHead（因为 COCO 80 类基本包含在 Object 365），在推理的时候只推理 COCO 的 80 个类别

如表 2 所示：

GLIP model 同时在 zero-shot 和 supervised 上获得了好的效果
GLIP-T 获得了 46.7AP，超过了 Faster RCNN
GLIP-L 获得了 49.8 AP，超过了 DyHead-T，在有监督情况下， GLIP-T 超过 DyHead 5.5 AP (55.2 vs. 49.7)

在 zero-shot 性能验证时，发现了 3 点：

Objects365 和 COCO 的域很接近，所以在 Object365 上预训练的模型在 COCO 上的表现很好，zero-shot 达到了 43.6 AP。
直接将检测模型重建为 grounding model 会导致性能下降 (GLIP-T(A))，但使用 deep fusion 带来了 2AP 的提升（GLIP-T(B))

3.3 在 LVIS 上进行零样本迁移学习

GLIP 在所有类别上都表现出了很好的效果

3.4 在 Flickr30K Entities 上进行 phrase grounding 验证

3.5 分析

下表展示了在不同数据上预训练 GLIP-T 的消融实验：

证明 1：使用 detection dataset 能够提升模型性能
证明 2：grounding data 能够为模型引入更丰富的语义信息

3.6 自然环境中的目标检测

为了验证 GLIP 在 real-world 任务中的迁移能力，作者收集了一个 Object Detection in the wild（ODinW）集合，使用 13 个 Roboflow 上的开源数据集

3.7 如何将一个模型扩展到所有任务

由于现在基础模型越来越大，如何降低部署的消耗就很重要

现在很多 language model、image classification、object detection 任务都是使用一个预训练好的模型，只修改少量需要定制的超参数就可以扩展到不同的任务上

如 linear probing[26]、prompt tuning[27]、efficient task adapter[13]

1、Manual prompt tuning

GLIP 支持在 prompt 中添加特定的 input 来指定不同的任务

如图 6，左侧表示模型无法识别 stingray，但如果添加上了一些属性 prompt（如 flat and round），模型就可以定位出 stingrays，AP50 从 4.6 提到了 9.7

2、prompt tuning

在 GLIP 中，每个检测任务只有一个 prompt，效果如图 7 所示

【CVPR2025】计算机视觉|Salience DETR：显著性目标检测，精度暴涨！
论文地址：http://arxiv.org/pdf/2403.16131v1代码地址：https://github.com/xiuqhou/Salience-DETR关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要本研究旨在解决类DETR方法中存在的计算负担重和对稳定查询选择依赖性高的问题。
Rust实现FasterR-CNN目标检测全流程 KENYCHEN奉孝 rust Polars
使用Rust和FasterR-CNN进行目标检测FasterR-CNN是目标检测领域广泛使用的深度学习模型。Rust生态中可以通过tch-rs（Torch绑定）调用预训练的PyTorch模型实现。以下为完整实现步骤：环境准备安装Rust和必要的依赖：cargoaddtchcargoaddanyhow#错误处理下载预训练的FasterR-CNN模型（需PyTorch格式.pt文件），或使用Torch
LoRA微调详解：如何为AIGC模型节省90%显存 SuperAGI2025 AI大模型应用开发宝典 AIGC ai
LoRA微调详解：如何为AIGC模型节省90%显存关键词：LoRA、低秩适应、AIGC模型、参数高效微调、显存优化摘要：在AIGC（人工智能生成内容）领域，大模型（如GPT-3、LLaMA、StableDiffusion）的微调需要消耗海量显存，普通用户或企业难以负担。本文将深入解析LoRA（Low-RankAdaptation，低秩适应）这一参数高效微调技术，通过生活类比、数学原理、代码实战和应
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
《dlib库中的聚类》算法详解：从原理到实践 A小庞算法算法聚类数据挖掘机器学习 c++
一、dlib库与聚类算法的关联1.1dlib库的核心功能dlib是一个基于C++的机器学习和计算机视觉工具库，其聚类算法模块提供了多种高效的无监督学习工具。聚类算法在dlib中主要用于：数据分组：将相似的数据点划分为同一簇。特征分析：通过聚类结果发现数据潜在的结构。降维辅助：结合聚类结果进行特征选择或数据压缩。dlib支持的经典聚类算法包括K-Means和ChineseWhispers，适用于图像
目标检测数据集——交通信号灯红绿灯检测数据集
在智能交通系统迅速发展的背景下，准确且实时地识别交通信号灯的状态对于提升道路安全和优化交通流量管理至关重要。无论是自动驾驶汽车还是辅助驾驶技术，可靠地检测并理解交通信号灯的指示——特别是红灯与绿灯的区别——是确保交通安全、避免交通事故的关键环节之一。然而，复杂的光照条件、不同的天气状况以及信号灯被遮挡等情况都给交通信号灯的识别带来了不小的挑战。这是专门针对交通信号灯（尤其是红绿灯）检测的数据集，旨
基于深度学习的草莓成熟度检测系统：YOLOv5 + UI界面 + 数据集 YOLO实战营深度学习YOLO实战项目深度学习 YOLO ui 人工智能目标跟踪
引言随着农业科技的发展，智能化的农业生产方式正逐步替代传统农业。果实的成熟度检测对于农业生产的管理至关重要，尤其是在果蔬的采摘、分拣和运输过程中。草莓作为一种广泛种植且受消费者喜爱的水果，其成熟度检测一直是农业智能化的重要研究方向。传统的草莓成熟度检测方法大多依赖人工经验，劳动强度大且容易出现误差，因此，基于计算机视觉和深度学习的草莓成熟度自动检测系统成为了一种理想选择。深度学习技术，尤其是卷积神
【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
数字人视频剪辑与数字人分身源码开发的的核心技术解析微~18339948121 数字人分身源码数字人剪辑源码数字人源码 django pygame virtualenv plotly scikit-learn flask tornado
数字人视频剪辑与分身的核心技术解析数字人视频剪辑和分身技术是近年来人工智能与计算机视觉领域的热点，涉及虚拟形象生成、动作驱动、语音合成等多项技术。以下从技术实现、应用场景和工具选择三个方面展开分析。数字人视频剪辑的关键技术视频剪辑中数字人的核心在于动态形象的生成与编辑。基于深度学习的生成对抗网络（GAN）和3D建模技术可实现高保真虚拟形象构建。典型流程包括：人物建模：通过多视角图像或视频数据重建3
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
【V5.0 - 视觉篇】AI的“火眼金睛”：用OpenCV量化“第一眼缘”，并用SHAP验证它的“审美” 爱分享的飘哥 AI 人工智能 opencv 计算机视觉
系列回顾：在上一篇《给AI装上“写轮眼”：用SHAP看穿模型决策的每一个细节》中，我们成功地为AI装上了“透视眼镜”，看穿了它基于数字决策的内心世界。但一个巨大的问题暴露了：它的世界里，还只有数字。它能理解“时长60秒”，却无法感受画面的震撼。它是一个强大的“盲人数学家”。计算机视觉我们没有必要为每个视频进行切帧，可以针对开头的视频或者中间关键点视频进行切帧，让计算机识别。承上启下：“现在，我们来
计算机视觉 OpenCV Android | Mat像素操作（图像像素的读写、均值方差、算术、逻辑等运算、权重叠加、归一化等操作）... 凌川江雪
本文目录1.像素读写2.图像通道与均值方差计算3.算术操作与调整图像的亮度和对比度4.基于权重的图像叠加5.Mat的其他各种像素操作1.像素读写Mat作为图像容器，其数据部分存储了图像的像素数据，我们可以通过相关的API来获取图像数据部分；在获取图像数据的时候，知道Mat的类型与通道数目关重要，根据Mat的类型与通道数目，开辟适当大小的内存空间，然后通过get方法就可以循环实现每个像素点值的读取、
PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines
PL-SLAM文章目录PL-SLAM摘要系统介绍综述方法综述LINE-BASEDSLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD直线检测算法**一、核心原理**⚙️**二、实现方法****三、应用场景**⚖️**四、优缺点与优化****优缺点对比****总结**End摘要译文——众所周知，低纹理场景是依赖点对应的几何计算机视觉算法的主
重构未来开发范式：如何引领 AIGS 时代的技术革命小爱想睡懒觉重构
一、AIGS革命：AI重塑企业软件系统的三大趋势行业灵魂拷问：当所有企业系统都需要实时调用大模型能力时，您的开发框架能否支撑百万级并发？在数据安全成为刚需的时代，如何实现AI功能的合规化、私有化部署？JBoltAI的未来宣言：技术演进路径：从AIGC到AIGS的跃迁图谱技术代际核心特征JBoltAI实践成果行业价值AIGC1.0单点内容生成支持文本/代码/图像生成，提供智能客服对话模板效率提升30
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
机器视觉：ransac算法详解无水先生数字图形和图像处理算法计算机视觉
目录一、说明：二、算法步骤三、算法代码四、其它补充一、说明：RANSAC是一种常用的参数估计方法，全称为RandomSampleConsensus（随机抽样一致性）。它通过随机选择数据中的一部分，然后根据这些数据拟合模型，统计模型与其他数据的偏差，最终筛选出符合一定阈值的数据，用于估计参数。RANSAC可以应用于很多领域，如计算机视觉、机器人和地理信息系统等。其优点在于对噪声数据和异常值有很强的鲁
AI人工智能与OpenCV：实现智能图像编辑功能 AI智能探索者 AI Agent 智能体开发实战人工智能 opencv 计算机视觉 ai
AI人工智能与OpenCV：实现智能图像编辑功能关键词：人工智能、OpenCV、图像处理、计算机视觉、深度学习、智能编辑、图像增强摘要：本文深入探讨如何结合人工智能(AI)和OpenCV实现智能图像编辑功能。我们将从基础概念出发，详细介绍核心算法原理，展示实际代码实现，并分析典型应用场景。文章将涵盖从传统图像处理技术到深度学习方法的演进，重点讲解如何利用OpenCV和AI模型实现自动化的图像增强、
前端计算机视觉：使用 OpenCV.js 在浏览器中实现图像处理亿只小灿灿前端 OpenCV 前端计算机视觉 opencv
一、OpenCV.js简介与环境搭建OpenCV（OpenSourceComputerVisionLibrary）是一个强大的计算机视觉库，广泛应用于图像和视频处理领域。传统上，OpenCV主要在后端使用Python或C++等语言。但随着WebAssembly(Wasm)技术的发展，OpenCV也有了JavaScript版本——OpenCV.js，它可以直接在浏览器中高效运行，为前端开发者提供了前
Halcon 初步了解科学的发展-只不过是读大自然写的代码图形编程 c#视觉处理 Halcon
1.Halcon概述Halcon是德国MVTec公司开发的一套完善的机器视觉算法包，也是一款功能强大的视觉处理软件，为工业自动化领域提供了全面的解决方案。它拥有应用广泛的机器视觉集成开发环境，提供了一套丰富的图像处理和机器视觉算法，可以在各种工业应用中进行图像分析、目标检测、测量、定位、识别等任务。Halcon的核心功能包括图像处理、特征提取与匹配、3D视觉、深度学习、条码识别、OCR识别以及视觉
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
YOLOv10 全面升级解析：关键改进点一文掌握要努力啊啊啊计算机视觉 YOLO 目标跟踪人工智能目标检测深度学习
✅YOLOv10改进点详解一、前言YOLOv10是由Ultralytics团队在2024年提出的新一代目标检测模型，在保持高精度的同时进一步优化了部署效率和推理速度。它的核心改进包括：改进方向内容✅非解耦头轻量化设计消除非必要分支，减少冗余计算✅Anchor-Free模式默认启用，无需手动设置anchor✅TAL+DFLLoss提升边界框回归质量✅多任务统一接口detect/segment/pos
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
使用 C++ 和 OpenCV 构建驾驶员疲劳检测软件 whoarethenext c++opencv 开发语言
使用C++和OpenCV构建驾驶员疲劳检测软件重要声明：本文所描述的软件是一个概念验证的原型，绝对不能用作现实世界中的安全系统。真正的车载安全系统需要经过大量的测试、具备冗余设计并通过专业认证，以确保其绝对可靠。驾驶疲劳是全球范围内引发交通事故的主要原因之一。当驾驶员感到困倦时，他们的反应时间会变慢，决策能力会下降，而在方向盘后睡着的风险则会急剧增加。为了解决这一关键问题，计算机视觉技术提供了一个
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
YOLOv11性能评估全解析：从理论到实战的指标指南芯作者 D2:YOLO YOLO 计算机视觉
深入剖析目标检测核心指标，掌握模型优化的关键密码为什么需要性能评估指标？在目标检测领域，YOLO系列模型以其卓越的速度-精度平衡成为行业标杆。当我们训练或使用YOLOv11模型时，一个核心问题始终存在：如何量化模型的性能？性能评估指标正是回答这个问题的关键工具，它们不仅衡量模型效果，更是模型优化迭代的导航灯。本文将系统解析YOLOv11的七大核心评估指标，结合理论公式、可视化解释和实战代码，带您深
面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS