呆呆的猫

【AIGC】15、Grounding DINO | 将 DINO 扩展到开集目标检测

文章目录

- 一、背景
- 二、方法
- - 2.1 特征抽取和加强
  - 2.2 Language-Guided Query Selection
  - 2.3 Cross-Modality Decoder
  - 2.4 Sub-sentence level text feature
  - 2.5 Loss Function
- 3、效果
- - 3.1 zero-shot transfer of grounding DINO
  - 3.2 Referring Object detection
  - 3.3 Ablations
  - 3.4 从 DINO 到 Grounding DINO

论文：Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection

代码：https://github.com/IDEA-Research/GroundingDINO

出处：清华、IDEA

时间：2023.03.20

贡献：

本文提出了一种 open-set 的目标检测器，Grounding DINO，将 Transformer based 检测器 DINO 和 grounded pre-training 结合起来，能够根据任何输入（如类别或其他形容词）来输出任意类别目标的检测框
本文提出了将 open-set object detection 的测评扩展到 REC（表示根据输入描述提取出一个目标）数据集上，能够帮助测评模型在 free-form 文本输入情况下的表现

一、背景

理解视觉新概念是视觉模型应该具有的基本能力，基于此，作者提测了一个强大的检测器 open-set object detection，能够检测任意的能用人类语言描述的目标

而且该任务也能和其他模型结合使用，有很大的潜力，如图 1b 所示，和生成模型结合起来就能进行图像编辑

open-set 目标检测的关键点在于将语言模型引入到 closed-set 目标检测器中，来实现 open-set 的泛化，能够认识没有见过的目标

如 GLIP 将目标检测定义为一个 phrase groundig task，并使用对比训练来训练目标区域和语言短语，在各种各样的数据集上都获得了很好的效果，包括 closed-set 和 open-set 检测

由于 closed-set 和 open-set 检测很类似，所以肯定能将两者联系起来来做一个更好的 open-set 检测器

本文基于 DINO[58] 提出了一个 open-set detector，且在目标检测上获得了很好的效果

Grounding DINO 相比 GLIP 的优势：

基于 Transformer 结构，能同时适用于图像和语言数据
Transformer 结构能从大型数据集上获得更多的信息
DINO 可以端到端的优化模型，不需要使用后处理等（如 NMS）

现有的一些 open-set 检测器是怎么做的：

使用语言模型的信息来将 closed-set 检测器扩展到 open-set 检测器

closed-set 检测器的三个重要模块：

backbone：抽取图像特征
neck：特征增强
head：回归和分类等

如何使用语言模型将 closed-set 检测器扩展到 open-set 检测器：

学习 language-aware regiong embedding
这样就可以将每个目标区域划分到语言语义信息对应的空间去
其关键在于 neck 或 head 输出的地方，在 region output 和 language features 之间使用对比学习，来帮助模型学习如何对齐这两种多模态信息
如图 2 展示了三个不同的阶段进行特征融合的示例，neck（A）、query initialization（B）、head（C）

到底什么时候来进行特征融合比较好呢：

一般认为，在整个 pipeline 中进行特征的融合的效果会更好
类似于 CLIP 形式的检索结构为了高效，只需要对最后的特征来进行对比即可
但是对于 open-set detection，模型的输入是 image 和 text，所以 tight（and early）fusion 的效果更好，也就是更多的融合效果更好
但是以前的检测器（如 Faster RCNN）很难在这三个阶段都将语言特征引入来进行融合，但图像 Transformer 结构和 language 的结构很类似，所以本文作者设计了三个特征融合器，分别在 neck、query initialization、head 阶段进行融合

Neck 结构：

stacking self-attention
text-to-image cross-attention
image-to-text cross attention

Head：

query 的初始化：使用 language-guided query 选择方式来初始化
如何提高 query 特征表达：对 image 和 text 进行 cross-attention ，来作为 cross-modality decoder

很多现有的 open-set 目标检测器都会在新类别上来测试其效果，如图 1b 所示

但作者认为，只要是能描述的对象，都应该被考虑其中

本文将这个任务命名为 Referring Expression Comprehension（REC），即参照表示理解

作者在图 1b 的右侧展示了一些 REC 的例子

作者在下面三种数据集上进行了实验：

closed-set
open-set
referring

二、方法

Grounding DINO 会在给定一个输入 (image, text) 的基础上输出多个 [object boxes， noun phrases] pairs

如图 3 所示，模型会根据输入的图像和文字描述 ‘cat’ 和 ’table’ 来框出输入图像中的 cat 和 table

目标检测和 REC 任务都可以使用这个 pipeline 来对齐，类似于 GLIP：

如何实现目标检测：将所有类别的名字作为输入 text 来
如何实现 REC：对每个输入 text，REC 只需要返回一个 bbox 即可，所以作者使用输出目标的最大得分作为 REC 的输出

Grounding DINO 的结构：dual-encoder-single-decoder 的结构，整体结构如图 3 所示

一个 image backbone 来抽取图像信息
一个 text backbone 来抽取文本信息
一个 feature enhancer 来对图像和文本信息进行融合
一个 language-guided query 选择模块来进行 query 初始化
一个 cross-modality decoder 来进行 box 的修正

对每个（image， text）pair 的操作过程如下：

首先，使用 image backbone 和 text backbone 来抽取原始的图像特征和文本特征
然后，将这两组特征输入 feature enhancer 模块来进行跨模态特征融合，得到跨模态融合特征
接着，使用 language-guided query selection 模型来从 image feature 中选择跨模态特征的 query，并输入跨模态 decoder 来从这两个模态的特征中提前需要的特征并且更新 query
最后，最后一层 decoder 的输出 query 被用于预测 object box 并且提取对应的 phrases

2.1 特征抽取和加强

给定（Image，Text）pair，从类似 Swin Transformer 的结构中抽取多级图像特征，从类似 BERT 的结构中抽取文本特征

然后使用 DETR-like 的 detectors，来输出检测结果

抽取特征之后，将两组特征输入 enhancer 中来进行跨模态的特征融合，enhancer 结构包括多个 enhancer layers，其中一个如图 3 block2 所示。

使用 Deformable self-attention 来增强图像特征，使用普通的 self-attention 来增强文本特征

和 GLIP 一样，本文也使用了两个 cross-attention 来进行特征融合：

image-to-text
text-to-image

2.2 Language-Guided Query Selection

Grounding DINO 为了更好的利用 input text 来指导目标检测，设计了 language-guided query selection 模型，来选择和 input text 相关性更大的 features 来作为 decoder queries，pytorch 伪代码如 Algorithm 1 所示：

num_query：decoder 中的 queries 数量，实际使用时设定为 900
bs：batch size
ndim：feature dimension
num_img_tokens：image token 的数量
num_text_tokens：text token 的数量

language-guided query selection module 的输出：

num_query 索引，可以根据这个输出的索引来来初始化 queries

2.3 Cross-Modality Decoder

如图 3 block3 所示，作者使用 cross-modality decoder 来将 image 和 text 的特征进行结合

2.4 Sub-sentence level text feature

前面的 work 可以获得两种 text prompt，如图 4 所示

sentence level representation：如图 4a，将整个句子的特征编码为一个特征，如果一个句子有多个短语，则会抽取这些短语，忽略其他 word
word level representation：如图 4b，会对一个句子中的所有 word 进行关联性编码，会引入不必要的依赖关系，一些并不相关的单词也会被关联起来

基于上面两种编码方式的问题，作者提出了 sub-sentence level 表达的方式，就是只对 sub-sentence 内的 word 进行关联学习，不会引入不必要的联系

2.5 Loss Function

回归 loss：L1 loss 和 GIoU loss
分类 loss：对比学习 loss（预测的和 language token 之间的对比）

3、效果

作者在三种不同设置上进行了实验：

闭集： COCO 检测数据集
开集：zero-shot COCO、LVIS、ODinW
Referring detection：RefCOCO/+/g

设置细节：

作者训练了两个模型变体：
- Grounding-DINO-T（swin-T）
- Grounding-DINO-L（swin-L）
text backbone 为 BERT-base（from Hugging Face）

3.1 zero-shot transfer of grounding DINO

1、COCO Benchmark：

2、LVIS Benchmark

3、ODinW Benchmark

3.2 Referring Object detection

3.3 Ablations

因为作者提出了 tight fusion 模式，为了验证该方式是否有用，作者移除了一些 fusion block，结果见图 6

所有模型都是使用 Swin-L 基于 O365 训练的，结果证明更紧密的 fusion 能够提升最终的效果

3.4 从 DINO 到 Grounding DINO

如果直接从头开始训练 Grounding DINO 的话，费时费力，所有作者尝试使用了训练好的 DINO 权重，冻结了两个模型共用的部分权重，微调其他部分的参数，结果见表 7。

结果表明，使用 DINO 预训练好的权重，只训练 text 和 fusion block，就可以达到和重新训练一样的效果

你可能感兴趣的:(AIGC,AIGC,目标检测,深度学习)

PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
AI驱动的代码重构与优化技术 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI驱动的代码重构与优化技术概述什么是AI驱动的代码重构与优化？AI驱动的代码重构与优化技术，是指利用人工智能，特别是机器学习和深度学习的算法，对软件代码进行自动分析和改进的技术。这种技术能够通过学习大量的代码样本，识别出代码中的模式、问题和改进点，从而自动完成代码的重构和优化。重构的定义重构（Refactoring）是改进代码内部结构而不改变外部行为的过程。其目的通常是为了提高代码的可读性、可维
神经网络模型压缩&实例教程—非结构化剪枝程序先锋《python深度学习》笔记神经网络剪枝深度学习
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）3.1随机剪枝weight3.2L1范数剪枝bias4.总结最先进的深度学习技术依赖于难以部署的过度参数化模型。相反，已知生物神经网络使用高效的稀疏连接。为了在不牺牲准确性的情况下减少内存、电池和硬件消耗，通过减少模型中的参数数量来确定压缩模型的最佳技术是很重要的。这反过来又允许您在设备上部署轻量级模型，并通过设备上的私
深度学习模型压缩：非结构化剪枝与结构化剪枝的定义与对比从零开始学习人工智能深度学习剪枝人工智能
****在深度学习中，模型压缩是优化模型性能、降低存储和计算成本的重要技术之一。其中，剪枝（Pruning）是最常用的方法之一。根据剪枝的粒度和目标，剪枝可以分为非结构化剪枝（UnstructuredPruning）和结构化剪枝（StructuredPruning）。本文将详细介绍这两种剪枝方法的定义，并通过对比帮助读者更好地理解它们的差异。1.非结构化剪枝（UnstructuredPruning
从剪枝到知识蒸馏：深度学习模型压缩与加速的多重策略一键难忘剪枝深度学习算法知识蒸馏
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中文章目录从剪枝到知识蒸馏：深度学习模型压缩与加速的多重策略1.
PyTorch 模型剪枝实例教程一、非结构化剪枝小风_ 模型压缩与加速 pytorch pytorch 深度学习人工智能
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）4.总结目前大部分最先进的（SOTA）深度学习技术虽然效果好，但由于其模型参数量和计算量过高，难以用于实际部署。而众所周知，生物神经网络使用高效的稀疏连接（生物大脑神经网络balabala啥的都是稀疏连接的），考虑到这一点，为了减少内存、容量和硬件消耗，同时又不牺牲模型预测的精度，在设备上部署轻量级模型，并通过私有的设备
优化深度学习模型：PyTorch中的模型剪枝技术详解代码之光_1980 深度学习 pytorch 剪枝
标题：优化深度学习模型：PyTorch中的模型剪枝技术详解在深度学习领域，模型剪枝是一种提高模型效率和性能的技术。通过剪枝，我们可以去除模型中的冗余权重，从而减少模型的复杂度和提高运算速度，同时保持或甚至提升模型的准确率。本文将详细介绍如何在PyTorch框架中实现模型剪枝，并提供相应的代码示例。1.模型剪枝的基本概念模型剪枝主要分为两种类型：结构化剪枝和非结构化剪枝。结构化剪枝通常指的是剪除整个
Dropout: 一种减少神经网络过拟合的技术冰蓝蓝自然语言处理神经网络人工智能深度学习
在深度学习中，过拟合是一个常见的问题，尤其是在模型复杂度较高或训练数据较少的情况下。过拟合意味着模型在训练数据上表现得很好，但在未见过的数据上表现不佳，即泛化能力差。为了解决这个问题，研究者们提出了多种正则化技术，其中之一就是Dropout。什么是Dropout？Dropout是一种正则化技术，由Hinton和他的学生在2012年提出。它通过在训练过程中随机“丢弃”（即暂时移除）网络中的一些神经元
模型保存与加载：PyTorch中的实践指南冰蓝蓝自然语言处理 pytorch 人工智能 python
在深度学习项目中，模型的保存和加载是一个至关重要的步骤。它不仅有助于在训练过程中保存进度，还可以在训练完成后部署模型。PyTorch提供了灵活的方式来保存和加载模型，本文将详细介绍这些方法。模型保存在PyTorch中，有两种主要的模型保存方法：保存整个模型和仅保存模型参数。保存整个模型保存整个模型意味着保存模型的结构和参数。这种方法简单直接，但文件体积较大，且依赖于模型的具体实现。importto
深度学习中的注意力机制：解锁智能模型的新视角冰蓝蓝深度学习深度学习人工智能
在人工智能的快速发展中，深度学习模型已经成为了处理复杂数据和任务的主力军。然而，随着数据量的激增和任务的复杂化，传统的深度学习模型面临着效率和性能的双重挑战。在这样的背景下，注意力机制（AttentionMechanism）应运而生，它不仅提升了模型的处理能力，还为深度学习领域带来了新的研究视角。什么是注意力机制？注意力机制是一种受人类视觉注意力启发的技术，它允许模型在处理大量信息时，能够动态地聚
torch.unsqueeze：灵活调整张量维度的利器冰蓝蓝 transformer transformer 深度学习
在深度学习框架PyTorch中，张量（Tensor）是最基本的数据结构，它类似于NumPy中的数组，但可以在GPU上运行。在日常的深度学习编程中，我们经常需要调整张量的维度以适应不同的操作和层。torch.unsqueeze函数就是PyTorch提供的一个非常有用的工具，用于在指定位置增加张量的维度。本文将详细介绍torch.unsqueeze的用法和一些实际应用场景。什么是torch.unsqu
如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
Matlab GPU加速技术算法工程师y matlab 开发语言
1.GPU加速简介（1）为什么使用GPU加速？CPU擅长处理逻辑复杂的串行任务，而GPU拥有数千个流处理器，专为并行计算设计。对于大规模矩阵运算、深度学习训练或科学计算等任务，GPU加速可将计算速度提升数十至数百倍。（2）Matlab的GPU支持功能依赖：需安装ParallelComputingToolbox（并行计算工具箱）。硬件要求：支持CUDA的NVIDIAGPU（如Tesla、GeForc
pytorch中的DataLoader 朋也透william pytorch 人工智能 python
在PyTorch中，DataLoader是一个工具类，用于高效地加载数据并准备数据输入到模型中。它支持数据的批量加载、随机打乱、并行加载和迭代操作，是训练深度学习模型的关键组件之一。1.基本功能DataLoader的主要职责是从数据集中提取样本，并根据设置返回一个批次的数据。它与Dataset类结合使用：Dataset：定义数据集的来源、结构以及如何获取单个数据样本。DataLoader：负责从D
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
【深度学习基础】第二十四课：softmax函数的导数 x-jeff 深度学习基础深度学习人工智能
【深度学习基础】系列博客为学习Coursera上吴恩达深度学习课程所做的课程笔记。1.softmax函数softmax函数详解。2.softmax函数的导数假设神经网络输出层的激活函数为softmax函数，用以解决多分类问题。在反向传播时，就需要计算softmax函数的导数，这也就是本文着重介绍的内容。我们只需关注输出层即可，其余层和之前介绍的二分类模型一样，不再赘述。我们先考虑只有一个样本的情况
AI如何创作音乐及其案例 alankuo 人工智能
AI创作音乐主要有以下几种方式：基于深度学习的生成模型深度神经网络：通过大量的音乐数据训练，让AI学习音乐的结构、旋律、和声、节奏等特征。如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。两者相互对抗、不断优化，使生成器生成更逼真的音乐。变分自编码器（
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
差异中寻找共识：浅析中美欧AIGC服务商的标识义务人工智能
2025年1月7日，西藏日喀则地震中一张被广泛传播的图片“被压在废墟下的小男孩”被证明是AI合成图片，[1]这随即引发了社会对于人工智能生成物（ArtificialIntelligenceGeneratedContent，以下简称“AIGC”）的广泛讨论。随着AI大模型生成逼真图像、音频与视频的能力日益增强，人类作品与AIGC之间的界限愈发模糊。如不加以管控，则会产生“真相侵蚀”（TruthDec
迷雾渐开：美国AIGC可版权性剖析及案例梳理人工智能
当地时间2025年1月29日，美国版权局（U.S.CopyrightOffice,USCO）发布了版权和人工智能相关法律和政策报告的第二部分——《版权和人工智能：可版权性》（以下简称“《USCO可版权性报告》”）[1]，旨在探讨人工智能生成内容（AIGC）的可版权性问题。该报告明确指出，美国版权局认为现有的版权法足以解决AIGC问题，因此无需制定新的立法。具体而言，该报告在此前美国版权局于2023
21-梯度累积原理与实现机器人图像处理深度学习算法与模型人工智能深度学习 YOLO
一、基本概念在深度学习训练的时候，数据的batchsize大小受到GPU内存限制，batchsize大小会影响模型最终的准确性和训练过程的性能。在GPU内存不变的情况下，模型越来越大，那么这就意味着数据的batchsize智能缩小，这个时候，梯度累积（GradientAccumulation）可以作为一种简单的解决方案来解决这个问题。二、Batchsize的作用训练数据的Batchsize大小对训
MV-EB435i立体相机对垃圾分类开哥kg pytorch 深度学习卷积神经网络分类人工智能
最近在v社区发了一篇文章，懒得转移过来了链接：V社区-机器视觉技术交流社区-MV-EB435i立体相机对垃圾分类我觉得这篇文章对于刚入门深度学习想看点项目学点代码的刚刚好，因为我也是新手，嘻嘻嘻！希望这篇文章对大家有所帮助，如有错误请大家指正。
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
AI人工智能中的概率论与统计学原理与Python实战：Python实现概率模型 AI天才研究院 AI实战 AI大模型企业级应用开发实战大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的不断发展，概率论与统计学在人工智能领域的应用越来越广泛。概率论与统计学是人工智能中的基础知识之一，它们在机器学习、深度学习、自然语言处理等领域都有着重要的作用。本文将介绍概率论与统计学的核心概念、算法原理、具体操作步骤以及Python实现方法，并通过具体代码实例进行详细解释。2.核心概念与联系2.1概率论与统计学的区别概率论是一门数学学科，它研究随机事件发生的可能性。
如何使用 Python 实现生成对抗网络 NoABug python 生成对抗网络 tensorflow
如何使用Python实现生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是一种能够生成高质量、逼真图像的深度学习模型。GAN模型由两个神经网络组成：一个生成器和一个判别器。生成器的任务是以噪声为输入，生成看似真实的图像；而判别器则需要根据输入的图像，判断该图像是真实的还是由生成器生成的。下面我们将通过Python代码来实现一个简单的GAN模型。首先，我们
GAN模型的Python应用——生成对抗网络代码编织匠人 python 生成对抗网络开发语言
GAN模型的Python应用——生成对抗网络生成对抗网络（GenerativeAdversarialNetwork，GAN）是深度学习中的一种重要模型，已经被广泛应用于图像、文本生成等领域。GAN模型由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。生成器用于生成假样本，判别器用于评估真实性。两个神经网络相互博弈，通过一次次迭代训练，最终生成器可以生成足以骗过
YOLOv8 改进：添加 GAM 注意力机制鱼弦人工智能时代 YOLO
YOLOv8改进：添加GAM注意力机制引言在目标检测领域，YOLO（YouOnlyLookOnce）网络因其速度和准确性被广泛应用。然而，随着场景的复杂化，仅仅依靠卷积特征可能不足以捕捉图像中的重要信息。引入注意力机制，如GAM（GlobalAttentionMechanism），可以有效提高模型对关键区域的关注，从而提升检测性能。技术背景GAM是一种全局注意力机制，通过全局信息聚合和自适应权重分
如何使用Python实现生成对抗网络（GAN）「已注销」互联网前沿技术韩进的创作空间全栈开发知识库 python 生成对抗网络 tensorflow 深度学习数据分析
生成对抗网络（GAN）是一种深度学习模型，由两个部分组成：生成器和判别器。生成器负责生成与训练数据相似的新数据，而判别器负责判断输入数据是真实的还是由生成器生成的。这两个部分不断相互博弈，直到生成器能够生成非常逼真的数据，使判别器难以区分生成数据和真实数据。下面是一个简单的Python实现，使用TensorFlow和Keras库。在开始之前，请确保已经安装了TensorFlow和Keras。imp
【数学基础】线性代数#1向量和矩阵初步 -一杯为品- 数学线性代数矩阵
本系列内容介绍：主要参考资料：《深度学习》[美]伊恩·古德菲洛等著《机器人数学基础》吴福朝张铃著文章为自学笔记，仅供参考。目录标量、向量、矩阵和张量矩阵运算单位矩阵和逆矩阵线性相关和生成子空间范数特殊类型的矩阵和向量特征分解奇异值分解Moore-Penrose伪逆迹运算行列式标量、向量、矩阵和张量标量标量是一个单独的数。向量向量是一列有序排列的数：x=[x1x2⋮xn]\boldsymbolx=\
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他