zhangyuexiang123

2018ECCV_Learning to Navigate for Fine-grained Classification

摘要

引言

近期工作

细粒度分类 Fine-grained classification

物体检测 Object detection

排序学习 Learning to rank

方法

3.1 方法概述 Approach Overview

3.2 Navigator and Teacher

3.3 Scrutinizer

3.4 Network architecture

流程

监督

论文链接：https://openaccess.thecvf.com/content_ECCV_2018/papers/Ze_Yang_Learning_to_Navigate_ECCV_2018_paper.pdf

Pytorch代码链接：https://github.com/zxy14120448/NTS-Net

摘要

细粒度图像分类的挑战是找出判别力特征。为了处理这种情况，作者提出了自监督（self-supervision）机制，可以有效地定位信息区域，而无需边界框/部分标注（bounding box/part annotations）。

作者提出Navigator-Teacher-Scrutinizer Network，简写为NTS-Net,网络由Navigator agent，Teacher agent和Scrutinizer agent组成。

考虑到包含丰富信息的区域和其所属ground-truth类别的概率有内部一致性，作者设计了新的训练模式，从而使得Navigator能够在Teacher的指导下检测信息最丰富的区域（informative regions）。然后，Scrutinizer对Navigator生成的区域 (proposed regions)进行检查并作出预测。

提出的模型可以被视为一种多代理合作（multi-agent cooperation），其中agents彼此相互受益，共同进步。 NTS-Net可以端到端地进行训练，同时在推理过程中提供准确的细粒度分类预测以及更大的信息区域。

引言

图1. 模型框架。Navigator使得模型关注信息最丰富区域（表示为黄色矩形），Teacher评估Navigator生成的区域并提供反馈。然后，Scrutinizer对上述区域进行预测。

NTS-Net由Navigator agent，Teacher agent和Scrutinizer agent组成。具体来说：

Navigator对信息最丰富的区域进行关注: 对于图中的每个区域，Navigator预测区域信息的丰富度，并使用上述预测来找到最有信息的区域（most informative regions）。

Teacher评估Navigator生成的区域，并提供反馈：对每个建议区域（proposed region），Teacher评估其属于ground-truth类别的概率；置信度（confidence）评估利用ordering-consistenst损失函数，引导Navigator生成信息更加丰富的区域。

Scrutinizer审查Navigator生成的区域并做出细粒度分类：Navigator生成的每个建议区域扩展成相同的尺寸，Scrutinizer对其进行特征提取；区域的特征和整张图像的特征进行拼接，从而完成细粒度的图像分类。

上述过程类似于强化学习中的actor-critic机制（Actor-Critic的字面意思是“演员-评论”，相当于演员在演戏的同时有评论家指点继而演员演得越来越好），其中Navigator是actor，Teacher是critic。通过Teacher提供更加准确的监督，Navigator将会定位信息更加丰富的区域，这样，反过来也会使得Teacher受益。

论文贡献：

提出multi-agent协同学习策略，来解决在不使用bounding box/part annations情况下，细粒度分类任务中的准确定位最有信息区域的问题。
提出新的损失函数，使得Teacher通过强制区域的信息（regions' informativeness）和ground-truth类别概率的一致性，来引导Navigator定位图像中最有信息的区域。
提出了end-to-end的模型，其在推断阶段提供准确的细粒度分类预测和信息丰富的区域，并在benchmark上取得最优性能。

近期工作

细粒度分类 Fine-grained classification

细粒度分类旨在区分同一超类的从属类（subordinate classes），例如，区分野生鸟类，汽车模型等。挑战来源于找出信息区域（informative regions）和提取其中的判别特征（discriminative features）。因此，细粒度分类的关键在于开发自动方法以准确识别图像中的信息区域。

工作1：数据集提供bounding box/part annotations，因此，有些模型在训练和推断阶段充分利用这些标注信息。

而后，有些模型只在训练阶段使用bounding box/part annotations，对于这些模型，整个过程很像检测任务：即选择区域，然后对物体进行分类。

工作2：在训练和推断阶段，不需要bounding box/part annotations。

对于工作1的监督学习：利用细粒度的人工注释，如bird classification中鸟类部分的注释。虽然取得了不错的结果，但它们所需的细粒度人工注释代价昂贵，使得这些方法在实践中不太适用。

对于工作2的无监督学习：学习规则定位信息区域，不需要昂贵的注释，但缺乏保证模型聚焦于正确区域的机制，这通常会导致

精度降低。

文章提出了一种新颖的自监督（self-supervision ）机制，可以有效地定位信息区域而无需边界框/部分注释（bounding box/part annotations）。开发的模型称为NTS-Net，采用multi-agent cooperative学习方法来解决准确识别图像中的信息区域的问题。直观地，被赋予地ground-truth class的概率较高的区域应该包含更多的对象特征语义，从而增强整个图像的分类性能。因此，设计了一种新的损失函数来优化每个选定区域的信息量，使其具有与概率为ground-truth class相同的顺序，并且我们将完整图像的ground-truth class作为区域的ground-truth class。

物体检测 Object detection

早期工作：使用SIFT和HOG

近期工作：一些模型，例如R-CNN，OverFeat和SPPnet采用图像处理方法，首先生成目标建议框（object proposal），然后进行类别分类和bounding box的回归。

一些模型，例如Faster R-CNN,提出Region Proposal Network(RPN)，来生成建议框。后来，YOLO和SSD通过单阶段

框架(single-shot),提升了Faster R-CNN的速度。

一些特殊模型，例如Feature Pyramid Networks(FPN), 旨在解决多尺度问题，并从多个特征图中生成anchors。

排序学习 Learning to rank

排序学习的训练集元素列表都分配了顺序，而目标是学习元素列表的顺序。排序损失函数用来惩罚错误顺序对。

代表要排序的目标，代表目标的索引，其中，代表的顺序在之前。代表排序函数的假设集。

排序方法主要分为三类：point-wise, pair-wise, list-wise approach

Point-wise方法：给每个数据分配分数，则learning-to-rank问题就转换成了回归问题，例如使用L2损失函数：

Pair-wise方法：learning-to-rank问题转换成了分类问题，即学习二分类器。假设只从中取值，如果,则的排序要在前面。然后，损失定义在所有的数据对上，且目标是找到最优的，来最小化错误顺序的图像对：

List-wise方法：优化整个列表，且在排列上可以转换为分类问题。表示排序函数，损失定义如下：

本文方法中的Navigator损失采用multi-rating pair-wise排序损失，其强制区域的信息和ground-truth类别的概率一致。

方法

3.1 方法概述 Approach Overview

A：给定图像中的所有regions
I: 信息函数，，用来评估区域的信息丰富度
C :置信度函数，，来评估某个区域属于ground-truth类别的置信度。

条件1：

Navigator网络来近似信息函数 I

Teacher网络来近似置信度函数 C

为了满足条件1，应该优化Navigator网络，以使得和有相同的顺序。

当Navigtator与Teacher网络不断优化时，生成的更加丰富的区域，会有助于Scrutinizer网络生成更好的细粒度分类结果。

3.2 Navigator and Teacher

图2. Anchors的设计。作者使用三个尺度和三个比率。对于尺寸448的图像，anchor有三个尺度{48，96，192}和比率{1:1, 2:3, 3:2}

如图2所示，一张图像输入到Navigator网络中，然后生成一簇矩形区域，每个区域都有一个得分，得分预示着区域的信息丰富度。

如公式4所示，对上述信息列表进行排序，其中，A代表anchors的数量，代表排序信息列表中的第i个元素。

为了降低区域冗余，对region使用non-maximum suppression(NMS)。然后，将前M个informative regions送入Teacher网络，从而得到置信度。

通过优化Navigator网络，以使得和有相同的顺序。

每个建议区域通过最小化ground-truth class和predicted confidence之间的交叉熵损失（cross-entropy）来用于优化Teacher。

图3展示了M=3的整个流程，其中M是一个超参，表示了用来训练Navigator网络的区域个数。

图3. 训练Navigator网络的方法。对于一张输入图像，特征提取器提取深度特征图，然后，特征图输入到Navigator网络，用来计算所有区域的信息。使用NMS，来选择top-3(以3为例)的信息区域，并表示成。然后，从整张图像中裁剪出对应区域，并resize到预定义的尺寸，然后将他们送入Teacher网络，然后得到置信度。通过优化Navigator网络，达到和有相同顺序的目的。

3.3 Scrutinizer

随着Navigator逐渐收敛，Navigator将会生成informative object-characteristic regions, 以帮助Scrutinizer做出更好的决策。

Scrutinizer的训练是使用前K个信息区域（informative regions）和整张图像的结合。

文章【25】已经证明，使用信息区域可以降低类内变化，并且在正确标签上更有可能生成更高的置信度分数。

3.4 Network architecture

为了使得region proposal和特征图中的特征向量一致，使用全卷积网络作为特征提取器，且抛弃全连接层。

特征提取器使用在ILSVRC2012数据集上与训练的Resnet-50.

Navigator network:

类似于Feature Pyramid Networks（FPN）结构【27】，如图4所示，在不同尺度Feature maps上生成多个候选框，每个候选框的坐标与预先设计好的Anchors相对应。Navigator做的就是给每一个候选区域的“信息量”打分，信息量大的区域分数高。

作者使用的特征图尺寸是{14×14，7×7，4×4}，对应的区域尺度为{48×48，96×96，192×192}.

图4. 模型的推断阶段（以K=3为例）。首先，图像输入到特征提取器，然后Navigator网络从输入图像中提取出信息最丰富的区域；然后，从输入图像中裁剪上述区域，并resize到事先定义的尺寸；然后，使用特征提取器计算这些区域的特征；然后与输入图像的特征进行融合。最终，Scrutinizer网络处理融合的特征，并预测最终的标签。

Teacher network

就是普通的Feature extractor + FC + softmax，判断输入区域属于target lable的概率。

具体来说：

Teacher网络近似映射，并表示为每个区域的置信度。

在收到来自Navigator网络的M个尺度归一化（224×224）的信息区域后，Teacher网络输出置信度来作为教师信号（teaching signals）,来帮助Navigator网络学习。

除了共享的特征提取器外，Teacher增加了2048神经元的全连接层。

Scrutinizer network

就是一个全连接层，输入是把“各个局部区域和全图提取出来的logits”concatenate到一起的一个长向量，输出对应200个类别的Logits。

具体来说：

收到Navigator网络的top-K个信息区域后，K个区域resize到预定义的尺寸（本文实验设置的224×224大小），然后送入特征提取器，以生成K个区域的特征向量，每一个向量的长度为2048.然后，将这些特征向量与输入图像的特征连接（concatenate），并送入到全连接层，全连接层有2048×（K+1）个神经元（如图4所示）.

流程

1）尺寸（448，448，3）的原图进入网络，通过Resnet-50提取特征以后，变成一个（14，14，2048）的Feature map，还有一个经过Global Pooling之后2048维的Feature Vector和一个经过Global Pooling+ FC之后200维的Logits。

2）预设的RPN在（14，14）（7，7）（4，4）这三种尺度上根据不同的size, aspect ration生成对应的Anchors，一共1614个。

3）用步骤1中的Feature map，到Navigator中打分，用NMS根据打分结果只保留N个信息量最多的局部候选框。

4）把那N个局部区域双线性插值到（224，224），输入Teacher网络，得到这些局部区域的Feature vector和Logits。

5）把步骤1和4中的全图Feature vector和局部Feature vector给concatenate在一起，之后接FC层，得到联合分类Logits用于最终决策。

监督

1）普通的Cross-Entropy：步骤1中的全图logits, 步骤4中的part logits,步骤5中的concat logits都用label进行最简单的监督。

2）Ranking Loss: 步骤3中的信息量打分需要用步骤4中的分类概率进行监督，即对于4中的判断的属于目标label概率高的局部区域，必须在3中判断的信息量也高。

Navigator Loss:

Navigator网络预测的M个信息区域为，对应的信息为，Teacher网络预测的置信度为

Teacher Loss:

C表示置信度函数，将region预测成类别概率，第一项是所有区域交叉熵损失的求和，第二项为整张图像（full image）的交叉熵损失。

Scrutinizing loss:使用交叉熵损失来作为分类损失

Joint training algorithm：

支持向量机（SVM）在肝脏CT/MRI图像分类（肝癌检测）中的应用及实现猿享天开医学影像支持向量机机器学习人工智能算法
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
CVPR 2024 图像、视频处理总汇（视频字幕、图像超分辨率、图像分类和压缩等）点云SLAM 图形图像处理深度学习计算机视觉图像处理视频处理 3DGS CVPR2024
1、Image/VideoCaptioning(图像/视频字幕)VisualFactChecker:EnablingHigh-FidelityDetailedCaptionGenerationPolos:MultimodalMetricLearningfromHumanFeedbackforImageCaptioning⭐codeprojectPanda-70M:Captioning70MVide
ConvNeXT：面向 2020 年代的卷积神经网络
摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
【零基础学AI】第22讲：PyTorch入门 - 动态图计算与图像分类器实战 1989 0基础学AI 人工智能 pytorch python 机器学习 sklearn 深度学习
本节课你将学到理解PyTorch的核心概念和优势掌握张量(Tensor)的基本操作学会使用动态计算图构建神经网络实现一个完整的图像分类器项目训练模型并进行预测开始之前环境要求Python3.8+建议使用GPU（可选，CPU也能运行）内存：至少4GB需要安装的包#CPU版本（推荐新手）pipinstalltorchtorchvisionmatplotlibpillow#GPU版本（如果有NVIDIA
设计模式（十）醇醛酸醚酮酯设计模式设计模式
享元模式（FlyweightPattern）详解一、核心概念享元模式通过共享技术复用相同或相似的细粒度对象，以减少内存占用和提高性能。该模式将对象状态分为内部状态（可共享的不变部分）和外部状态（需外部传入的可变部分），通过共享内部状态降低对象数量。核心组件：抽象享元（Flyweight）：定义共享对象的接口，声明处理外部状态的方法。具体享元（ConcreteFlyweight）：实现抽象享元接口，
C# 多线程（三）线程池 q__y__L C#开发语言 c#
目录1.通过TPL使用线程池2.不使用TPL进入线程池的办法异步委托3.线程池优化技术最小线程数的工作原理每当启动一个新线程时，系统都需要花费数百微秒来分配资源，例如创建独立的局部变量栈空间。默认情况下，每个线程还会占用约1MB内存。线程池通过共享和回收线程来消除这些开销，使得多线程技术可以应用于非常细粒度的场景而不会造成性能损失。这在利用多核处理器以"分而治之"方式并行执行计算密集型代码时尤为有
深度解析生成式 AI：从技术原理到实战应用 LNL13 人工智能
一、生成式AI：重构数字内容生产范式（一）技术定义与核心价值生成式人工智能（GenerativeAI）是通过深度学习模型自动创造文本、图像、代码、视频等内容的技术体系，其核心在于从数据中学习概率分布并生成符合人类认知的输出。与传统判别式AI（如图像分类）不同，生成式AI实现了从"识别"到"创造"的跨越，典型应用包括：文本领域：ChatGPT对话系统、小说自动生成图像领域：MidJourney艺术创
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
PyTorch实战：从零开始构建CIFAR-10图像分类模型 (附详细代码与图解) 电脑能手 pytorch 分类人工智能深度学习 python
PyTorch实战：从零开始构建CIFAR-10图像分类模型(附详细代码与图解)大家好！今天，我们将一起踏上一段激动人心的深度学习之旅：使用强大的PyTorch框架，从零开始构建一个卷积神经网络（CNN），来解决经典的CIFAR-10图像分类问题。无论你是深度学习的新手，还是希望巩固PyTorch基础知识的开发者，本文都将为你提供一个清晰、详尽的实战指南。本文目标读完本文，你将学会：加载和预处理C
细粒度IP定位参文27（HGNN）：Identifying user geolocation（2022年）
[27]F.Zhou,T.Wang,T.Zhong,andG.Trajcevski,“Identifyingusergeolocationwithhierarchicalgraphneuralnetworksandexplainablefusion,”Inf.Fusion,vol.81,pp.1–13,2022.（用层次图、神经网络和可解释的融合来识别用户的地理定位）论文地址：https://do
图像分类：从基础原理到前沿技术随机森林404 计算机视觉分类数据挖掘人工智能
引言在当今数字化时代，图像数据正以惊人的速度增长。从社交媒体上的照片分享到医疗影像诊断，从自动驾驶到工业质检，图像分类技术已经成为人工智能领域最基础也最重要的应用之一。本文将全面介绍图像分类的基础概念、发展历程、关键技术、应用场景以及未来趋势，帮助读者系统性地理解这一领域。第一章图像分类概述1.1什么是图像分类图像分类（ImageClassification）是计算机视觉中的一项核心任务，其目标是
深度学习之分类手写数字的网络 newyork major 卷积神经网络CNN 深度学习人工智能
面临的问题定义神经⽹络后，我们回到⼿写识别上来。我们可以把识别⼿写数字问题分成两个⼦问题：把包含许多数字的图像分成⼀系列单独的图像，每个包含单个数字；也就是把图像，分成6个单独的图像分类单独的数字我们将专注于编程解决第⼆个问题，分类单独的数字。这样是因为，⼀旦你有分类单独数字的有效⽅法，分割问题是不难解决的。⼀种⽅法是尝试不同的分割⽅式，⽤数字分类器对每⼀个切分⽚段打分；如果数字分类器对每⼀个⽚段
D-FINE使用pth权重批量推理可视化图片悠悠海风代码调试深度学习人工智能 python 目标检测计算机视觉
关于D-FINE相关的内容可参考下面这篇博客：论文解读：ICLR2025|D-FINE_d-fine:redefineregressiontaskindetrsasfine--CSDN博客文章浏览阅读949次，点赞18次，收藏28次。D-FINE是一款功能强大的实时物体检测器，它将DETRs中的边界框回归任务重新定义为细粒度分布细化（FDR），并引入了全局最优定位自蒸馏（GO-LSD），在不引入额
一站式 IT 资产管理：零信任产品的多维对比 scuter_yu 安全网络
在数字化转型的浪潮中，企业面临着日益复杂的网络安全挑战，零信任安全理念应运而生并逐渐成为保障企业信息安全的重要手段。腾讯iOA零信任产品、深信服零信任安全解决方案、奇安信零信任安全解决方案以及GoogleBeyondCorp零信任网络架构等产品在市场上各有千秋，尤其在一站式IT资产管理方面，它们展现了不同的特色与优势。以下是对每款产品在一站式IT资产管理方面的分点对比：腾讯iOA零信任产品细粒度统
贝叶斯网络与深度学习的结合：图像识别和分类 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战自然语言处理人工智能语言模型编程实践开发语言架构设计
本文我将为您撰写一篇关于"贝叶斯网络与深度学习的结合：图像识别和分类"的技术博客文章。这篇文章将深入探讨贝叶斯网络和深度学习在图像识别和分类领域的结合应用。我会遵循您提供的要求和结构模板,确保文章内容全面、深入且易于理解。让我们开始吧。贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
TinyWebserver学习(6)-线程监听函数eventListen() THMOM91 c++
六、线程监听函数eventListen()一、相关知识总结1、setsockopt()函数setsockopt是用于设置套接字（socket）选项的系统调用，允许应用程序对套接字的行为进行更细粒度的控制。它通常用于配置网络通信的参数，例如超时、缓冲区大小、地址复用等。以下是详细的解析#include#includeintsetsockopt(intsockfd,intlevel,intoptnam
D-FINE模型详解及代码复现清风AI 目标跟踪人工智能计算机视觉深度学习机器学习 python 神经网络
研究背景在实时目标检测领域的快速发展背景下，D-FINE作为一项突破性的方法应运而生。它超越了现有模型如YOLOv10、YOLO11及RT-DETRv1/v2/v3，重新定义了边界框回归任务，显著提升了实时目标检测的性能上限。D-FINE通过创新的细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)机制，为目标检测领域带来了新的突破，为未来的研究奠定了基础。创新优势D-FINE模型在创新方
【EI会议征稿】东北大学主办第三届机器视觉、图像处理与影像技术国际会议（MVIPIT 2025）诗远Yolanda 图像处理计算机视觉考研视频机器学习论文阅读
一、会议信息大会官网：www.mvipit.org官方邮箱：[email protected]会议地点：辽宁沈阳主办单位：东北大学会议时间：2025年9月27日-9月29日二、征稿主题集中但不限于“机器视觉、图像处理与影像技术”等其他相关主题。机器视觉：视觉中的统计机器学习；立体视觉标定；几何建模与处理；人脸识别与手势识别；早期视觉和生物学启发的视觉；光流法和运动追踪；图像分割和图像分类；基于模型的视觉
基于MATLAB图像特征识别及提取实现图像分类 jghhh01 机器学习算法人工智能
基于MATLAB的图形处理程序，可以进行图像特征识别及提取，进而实现图像分类。hog_svm.m,2276svm_images/test_image/1.jpg,20980svm_images/test_image/2.jpg,18246svm_images/test_image/3.jpg,13835svm_images/test_image/4.jpg,18539svm_images/test
什么是Sentinel? 以及优点肘击鸣的百k路 sentinel
Sentinel是阿里巴巴开源的轻量级流量治理与系统保护组件，专注于微服务架构下的实时流量控制、熔断降级和系统稳定性保障。其核心目标是通过动态规则管理防止服务因高并发、突发流量或依赖故障导致雪崩崩溃。⚙️Sentinel的核心功能流量控制基于QPS（每秒请求数）或并发线程数限制资源访问，支持直接拒绝、匀速排队（漏桶算法）、慢启动（令牌桶算法）等策略。细粒度控制：可针对特定接口、方法甚至热点参数（如
MySQL之全场景常用工具链 AA-代码批发V哥 MySQL mysql 数据库运维
MySQL之全场景常用工具链一、基础连接与客户端工具1.1mysql命令行客户端1.2MySQLWorkbench：官方可视化1.3NavicatPremium二、管理与开发工具2.1phpMyAdmin：Web端管理首选2.2HeidiSQL：轻量Windows客户端三、性能优化工具3.1EXPLAIN：查询优化3.2SHOWPROFILE：细粒度性能分析3.3慢查询日志：捕获性能痛点四、备份与
数据标注师学习内容汇总试着数据标注师学习数据标注师
目录文本标注图像标注语音标注文本标注词性标注1词性标注2实体标注关系标注事件标注1事件标注2意图标注关键词标注分类标注问答标注对话标注图像标注拉框标注关键点标注2D标注3D标注线标注目标跟踪标注OCR标注图像分类标注语音标注语音切割转写语音校对标注拼音和停顿标注
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
DAY 43 复习日 yizhimie37 python训练营打卡笔记深度学习
@浙大疏锦行https://blog.csdn.net/weixin_45655710第一步：寻找并准备图像数据集在Kaggle等平台上，你可以找到大量用于图像分类任务的数据集，例如英特尔图像分类数据集(IntelImageClassification)或手写数字识别数据集(DigitRecognizer)。对于初学者，一个更便捷的选择是使用像TensorFlow或PyTorch这样深度学习框架内
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
“自动化失败归因”测试集-Who&When liliangcsdn 自动化人工智能语言模型
在MAS(Multi-Agent系统)中，Agent之间自主协作、信息链条长，异常常见而且诊断困难。Who&When就是测者MAS系统异常诊断的benchmark。Who&When的prompt问题来源于GAIAandAssistantBench，包含了127个LLMMulti-Agent系统中收集的异常日志，并经过系统和人工处理。Who&When样本配有如下所示的细粒度标注：“谁”(Who)：哪
AutoGen 终止控制双机制深度解析：InterventionHandler 与 TerminationCondition 的对比与实践佑瞻 AutoGen AutoGen
在智能体系统开发过程中，终止控制机制的设计往往决定了系统的稳定性与安全性。当我们在AutoGen框架下构建复杂智能体应用时，常常会遇到两类终止需求：一类是针对具体对话或任务的细粒度终止控制，另一类是面向整个运行时环境的全局终止管理。AutoGen提供的InterventionHandler干预处理程序和TerminationCondition终止条件恰好对应这两种需求场景，但这两种机制的设计理念与
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

2018ECCV_Learning to Navigate for Fine-grained Classification

摘要

引言

近期工作

细粒度分类 Fine-grained classification

物体检测 Object detection

排序学习 Learning to rank

方法

3.1 方法概述 Approach Overview

3.2 Navigator and Teacher

3.3 Scrutinizer

3.4 Network architecture

流程

监督

你可能感兴趣的:(#,细粒度图像分类)