__阿健__

【目标检测】目标检测问题综述目标检测算法盘点

问题描述

目标检测的任务是， 找出图像中的感兴趣对象，即给出它们的类别以及具体位置 (以bounding box，包围盒的形式给出)，是计算机视觉领域的核心问题之一。

目标检测和图像分类的直观比较如图所示：

目标检测的难点

图像中 物体的数量不确定(可能有多个，也可能没有)
物体本身有 不同的外观、形状、姿态
物体成像时会有 可视大小、视角差异、光照条件、遮挡情况 等因素的干扰
背景干扰等等

这些都给检测算法带来了很大的 不确定性。

目标检测常见应用

人脸检测、文本检测、交通检测、通用物体识别等

预备知识

目标检测算法常用评价指标

① 基础知识：交并比(intersection over union, IoU)

在介绍评价指标之前，我们需要先了解一下IoU的概念，即模型预测的包围盒(bounding box) 和 真实包围盒 的重合率(= 交集的面积/并集的面积 x 100%)，取值为[0, 1]。

交并比度量了模型预测的包围盒和真实包围盒的接近程度（大小和位置两个方面都考虑在内），交并比越大，两个包围盒的接近程度越高。

② mAP (mean average precision)

目标检测算法“好坏”的评估和一般二元分类的评估有所不同，我们即需要判断出正确的类别，又需要给出目标准确的位置【分类+定位两个层面】。

mAP解释起来比较复杂，网上关于mAP的介绍很多都是错误的，这边给出个人认为讲的比较好理解的一篇：详解object detection中的mAP

③ fps

目标检测算法的检测速度也是需要考虑的重要因素【有些应用对检测的低延迟有着比较高的要求，比如自动驾驶，机器人这些】。

目标检测常用数据集

PASCAL VOC 包含20个类别。通常是用VOC07和VOC12的trainval并集作为训练，用VOC07的测试集作为测试。Pascal Voc数据集详细分析

MS COCO COCO比VOC更困难。COCO包含80k训练图像、40k验证图像、和20k没有公开标记的测试图像(test-dev)，80个类别，平均每张图7.2个目标。通常是用80k训练和35k验证图像的并集作为训练，其余5k图像作为验证，20k测试图像用于线上测试。Microsoft COCO 数据集介绍

目标检测算法的基本技术

非极大值抑制算法（non maximum suppression, NMS）

非极大值抑制（non maximum suppression, NMS），主要解决的是一个目标被多次检测的问题，在所有的检测算法中都会用到。

打个比方，如下图中的人脸检测，可以看到人脸被多次检测，我们希望最后只输出其中最好的那个预测框，比如对于ROSE，只想要红色那个检测结果，那么我们可以采用NMS对重叠框进行剔除。

NMS算法的具体操作步骤【一般多类别检测场景下，对每个类别分别进行】：

对所有检测到的框按照得分进行排序，选出得分最高的检测框
然后挨个计算其与剩余框的IOU，如果值大于一定阈值（重合度过高），那么就将该框剔除（也就是所谓的非极大值抑制）
对剩余的检测框重复上述过程，直到所有检测框都被处理后我们输出最终的检测框。

深度目标检测算法简介

进入深度学习时代以来，目标检测算法主要可分为两种思路：

two stage 算法，以Faster R-CNN为代表
one stage 算法，以SSD、YOLOv3为代表。

两者的主要区别在于，

two stage算法需要先生成regions proposal (建议框，或者叫候选区域，即图像上可能包含目标的区域)，然后对候选区域进行分类和校正。
one stage算法直接对输入图片预测出物体的类别和位置【端到端】。

P.S. 国外有大牛对近年来的目标检测算法论文进行了整理和汇总：Github 地址。下图中用红色字体标出的是他认为必读的，重要的论文。

Two stage算法

前身：滑动窗口检测器

基于滑动窗口进行目标检测，也就是穷举搜索【暴力法】，即采用 不同大小和宽高比 的窗口在整张图片上以 一定的步长 进行滑动，然后对这些窗口区域做图像分类【将目标检测问题转化为图像分类问题】。

下面是伪代码。

for window in windows patch = get_patch(image, window):
	results = detector(patch)

这种方法的致命的缺点 ，就是你并不知道要检测的目标大小是什么规模，所以你要设置不同大小和宽高比的窗口去滑动，而且还要选取合适的步长，结果会导致 产生很多的子区域，而且 其中的大多数是不包含任何目标的背景区域，这些区域都要输入分类网络进行分类，将 导致大量的无用计算。

要提升性能，一个显而易见的方法就是减少窗口的数量。比如提取可能包含目标的候选区域（Region Proposal），这也正是two stage算法的初衷。

Two-Stage 基本流程

也叫作 基于候选区域的目标检测算法，上面也讲了，该类算法分两步来解决问题：

step1. 通过特定的方式提取regions proposal (候选区域，即图像上可能包含目标的区域)
step2. 对候选区域进行分类和位置校正。

Two-stage的发展历程如下图所示：

R-CNN

【目标检测框架】Two-Stage框架：R-CNN详细解读

R-CNN在2014年被提出，是 第一个基于深度学习的目标检测器。它的思路很简单：

给定一张输入图像，使用selective search提取约2k个建议框 (region proposal)
将每个建议框变形至固定size【227x227】，输入到预训练的ImageNet网络AlexNet中，提取出4096维的特征。
用线性SVM分类器来对特征分类
用回归器 (regressor)对建议框进行校正精修。

R-CNN 的检测流程如图所示：

Fast R-CNN

【目标检测框架】Two-Stage框架：Fast R-CNN 详细解读

R-CNN存在以下几个问题：

训练、测试过程繁琐。CNN网络预训练+fine-tuning训练+SVM分类器训练+bounding box 回归器训练。
需要将 region proposal 变形至固定大小，再输入网络提取特征
每张图片的每个region proposal都需要进行一次CNN提取特征。2000个建议框存在大量的重叠，故会导致许多重复冗余的卷积计算。

Fast RCNN针对上述问题进行了改进，在保证效果的同时提高效率：

特征提取部分，使用 CNN 先提取整个图像的特征图 (feature map)，再将建议框从原图映射到特征图上从而得到建议框的特征
使用ROI pooling实现从 不同大小的建议框的特征 到 相同大小特征 的转换
网络最后改用两个并行的全连接层分支，同时产生分类和bounding box回归两个输出

Fast R-CNN的检测流程如下图所示：

ROI pooling

ROI Pooling的作用是 对不同大小的特征框，提取固定大小的特征，以满足全连接层的输入要求，具体步骤为：

将一个特征框分割成H×W个网格
计算每个网格里的最大值(Max Pooling)作为该网格的输出。

Faster R-CNN

【目标检测】Two-Stage目标检测框架之 Faster R-CNN

Fast R-CNN进行预测时，每张图像的网络前向传播计算只需0.2秒，但建议框的生成却需要2秒。

Faster R-CNN最大的突破在于提出了候选区域网络 (Region Proposal Networks, RPN)，利用CNN来代替先前的Selective Search、EdgeBoxes等方法生成建议框，使得建议框的生成几乎不耗费时间。

Faster R-CNN的结构如下图所示【可以理解成RPN+Fast R-CNN】：

候选区域网络(region proposal networks, RPN)

RPN的结构如下图所示：

RPN延续了基于滑动窗口进行目标定位的思路，不同之处在于RPN是在feature map上而不是在原图上进行滑窗
feature map上 $n \times n$ 大小的滑动窗口和一个小的中间层(intermediate layer)完全连接，映射至一个低维向量(ZF为256-d, VGG为512-d)。然后该向量被输入到两个分支层产生两个网络输出，一个是 box-regression层(reg-layer，产生建议框的bounding box)，另一个是 box-classification层(cls-layer，预测建议框是前景还是背景的概率。)
对每个滑动窗口，同时给出在原图上所对应的k个不同的建议框的预测(这k个建议框只是RPN初步给出的，还要经过RPN进一步筛选，再提供给后面的检测网络)。即reg层有4k的输出编码，对应k个建议框bounding box坐标。cls层输出2k的分数，用于估计每个建议框的目标/非目标概率【对于一幅 W×H 的feature map，对应 W×H 个滑动窗口，对应 W×H×k 个建议框】。
这k个region proposal是以k个事先手工(人为)定义的reference boxes(称作anchors，锚盒)为参照得到的。这k个锚盒是以滑动窗口为中心，由不同面积大小(scale)，不同长宽比(aspect_ratio) 所确定的。

锚盒(anchor box)

Faster R-CNN使用了3组面积(128×128、256×256、512×512)、3组长宽比(1:1、1:2、2:1)，共计 k=9 种anchor【① anchor的size是针对原图而言的；② 算法允许使用比感受域更大的锚框，参照于人类通过物体的部分区域粗略地推断出一个物体的整体范围】

为什么每个滑动窗口要基于锚盒而非直接预测建议框？而且为什么要用k个？

图像中的候选区域大小和长宽比不同，直接回归比对锚盒坐标修正训练起来更困难。
使用锚盒也可以认为这是向神经网络引入先验知识的一种方式。我们可以根据数据中包围盒通常出现的形状和大小设定一组锚盒【比如高瘦的锚盒对应于人，而矮胖的锚盒对应于车辆】。
conv5特征感受野很大，很可能该感受野内包含了不止一个目标，使用多个锚盒可以同时对感受野内出现的多个目标进行预测。

FPN

待后续整理补充

在FPN被提出之前，大多的检测器只对主干网络的最后一层进行检测。尽管层数越深的特征图包含的语义信息越丰富，但其不利于对目标的定位。为此，在FPN中开发了具有横向连接的自上而下的体系结构，用于构建各种规模的高级语义。

上图为目标检测中常用的主干网络结构，其中（d）为FPN的结构。可以看到FPN中每一层的特征图都是由上一层的特征图的上采样与对原始图像的同一层进行1×1卷积而成。这使得整个网络能获得不同尺度上的语义信息而不用对原图像进行多次采样（比如a）。自从在主干网络上采用了金字塔结构，FPN展现了其在尺度变化较大的目标中的优势。现在，FPN已经成为了许多最新检测器的基本模块。

小结：提高图像级别计算，降低区域级别计算

上面说过，基于候选区域的目标检测算法分两步：第一步是从图像中提取深度特征，第二步是对每个候选区域进行分类+定位。其中，第一步是图像级(image-level)计算，一张图像只需要计算一次，而第二步是区域级(region-level)计算，每个候选区域需要分别计算一次，占用了整体主要的计算开销。

R-CNN, Fast R-CNN, Faster R-CNN, R-FCN这些算法的演进思路是逐渐提高网络中图像级别计算的比例，同时降低区域级别计算的比例【即尽可能地共用CNN运算的结果】，来加快网络的计算速度【R-CNN中几乎所有的计算都是区域级别计算，而R-FCN中几乎所有的计算都是图像级别计算】。

One stage算法

one stage算法的发展历程如下图所示：

也叫作 基于直接回归的目标检测算法。

基于候选区域的方法由于有两步操作，虽然检测准确率比较高，但速度离实时仍有一些差距。基于直接回归的方法不需要基于候选区域，直接输出分类+定位结果。这类方法只需前馈网络一次，速度更快，可以满足实时检测的需求

YOLO系列

【目标检测框架】One-Stage框架：YOLO (You Only Look Once) 入门详细解读

YOLO（You Only Look Once），由R.Joseph等人在2015提出，是深度学习领域第一个one-stage detector。

作为一个one-stage检测方法，Yolo使用一个单独的CNN网络实现端到端 (end-to-end) 的目标检测任务【即一个网络直接同时预测bounding box和类别】，而且Yolo的训练过程也是端到端的。

yolo系列采用了分而治之(即大分小，分别解决) 的思想。如下图所示，输入图片被划分为 S×S 个网格(grid)，每个网格分别对中心点落入当中的目标(object) 进行检测，输出k个bounding box【每个bounding box对应4维坐标 $(x, y, w, h)$ +置信度(confidence score)】，以及各类别的条件类别概率(conditional class probabilities)。

此后，作者又提出了YOLO的v2和v3版本，在检测精度和速度实现了飞跃性的进步。目前，YOLOv3得到了极为广泛的应用。

YOLO系列之yolo v2

yolo系列之yolo v3【深度解析】

SSD

待后续整理补充

SSD由W. Liu在2015年提出。它是深度学习时代的第二个一级检测器。 SS的主要贡献是引入了多参考和多分辨率检测技术（将在2.3.2节中介绍），从而显着提高了一级检测器的检测精度，尤其是对于某些小物体。SSD的优点是检测速度和准确性均达到了中间水平（VOC07 mAP = 76.8％）。，VOC12 mAP = 74.9％，COCO mAP @ .5 = 46.5％，快速版本的运行速度为59fps）。 SSD与以前的探测器之间的主要区别在于，前者可探测在网络的不同层上具有不同的规模的物体，而后者仅在其顶层上运行检测。

Two stage vs One stage

概述文章：

[1] 从RCNN到SSD，这应该是最全的一份目标检测算法盘点

[2] 目标检测综述

[3] 【目标检测深度学习】1.目标检测算法基础介绍（对传统目标检测方法感兴趣的可以看一看）

最新进展：

[1] 基于深度学习的目标检测算法综述 (一) (二) (三)（对2013以来，除SSD，YOLO和R-CNN系列之外的，所有引用率相对较高或是笔者认为具有实际应用价值的论文的分类概括。）

[2] 目标检测-2019年4篇目标检测算法最佳综述

计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
【安装环境】配置MMTracking环境 xuanyu22 安装环境机器学习神经网络深度学习 python
版本v0.14.0安装torchnumpy的版本不能太高，否则后面安装时会发生冲突。先安装numpy，因为pytorch的安装会自动配置高版本numpy。condainstallnumpy=1.21.5mmtracking支持的torch版本有限，需要找到合适的condainstallpytorch==1.11.0torchvision==0.12.0cudatoolkit=10.2-cpytor
Orange Pi编译脚本的分析点点吃得太多了 linux linux bash
脚本的运行流程/scripts/main.sh变量设置DEST=“${SRC}”/outputREVISION=“2.2.2”DOWNLOAD_MIRROR==“china”NTP_SERVER=“cn.pool.ntp.org”通过网络校准您计算机上的时钟BUILD_ALLCOLUMNS,LINESTTY_X,TTY_YLANGUAGE=“en_US:en”CONSOLE_CHAR=“UTF-8
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
EcmaScript和JavaScript的区别每天吃八顿前端 ecmascript
ECMAScript和JavaScript是经常被混淆的两个术语，但实际上它们之间存在一些区别：ECMAScript：ECMAScript（通常缩写为ES，并且有版本号如ES5,ES6和ES7等）是由ECMA国际（EuropeanComputerManufacturersAssociation）制定的一种脚本语言的规范。这个规范定义了语法、命令、数据类型等基本元素。ECMAScript是一种规范，
一切皆是映射：AI的去中心化：区块链技术的融合 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
一切皆是映射：AI的去中心化：区块链技术的融合作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：AI，区块链，去中心化，智能合约，共识机制，数据安全，隐私保护，分布式账本技术，机器学习，数据隐私1.背景介绍1.1问题的由来随着人工智能（AI）技术的快速发展，其在各个领域的应用越来越广泛，从自动驾驶、智能医疗到金融服务，AI正在改变着我们的生活。
安装torch报错 raise ReadTimeoutError(self._pool, None, “Read timed out.“) pip._vendor.urllib3.exceptions 待磨的钝刨 pip pytorch 人工智能
文章目录1.配置cuda的torch环境时报错1.配置命令2.报错bug2.解决方法1.增加下载超时时间：2.尝试使用镜像源：3.检查网络连接：4.分次安装：5.重试安装：6.手动下载.whl文件安装1.配置cuda的torch环境时报错1.配置命令pipinstalltorch==2.0.1torchvision==0.15.2torchaudio==2.0.2--index-urlhttps:
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
多模态大模型微调Qwen-VL微调及日志 Messi^ 人工智能-大模型应用 python 人工智能深度学习
%pipinstallmodelscope-U%pipinstalltransformersacceleratetiktoken-U%pipinstalleinopstransformers_stream_generator-U%pipinstallpillow-U%pipinstalltorchvision%pipinstallmatplotlib-Ufrommodelscopeimport(s
2024年CSP-J初赛备考建议再临TSC c++杂谈 c++学习
针对2024年CSP-J（ComputerSciencePrinciplesJunior，即计算机科学原理初级认证）的备考，首先，先来看考试可能考的东西：动规（包括背包问题），主要在程序阅读还有程序补全题考，这方面，了解动规的原理就可以轻松拿分高精，也是在阅读和补全题，了解原理即可，Z2~Z3应该就学高精了深搜广搜，基础题可能会给你一个片段，然后问你这是什么算法，或者，问你下列选项中哪个正确，给你
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
单片机在医疗设备中的应用实例教程 kkchenjj 单片机单片机嵌入式硬件
单片机在医疗设备中的应用实例教程单片机基础单片机概述单片机，全称为单片微型计算机（Single-ChipMicrocomputer），是一种将中央处理器（CPU）、存储器、输入输出接口等主要计算机部件集成在一块芯片上的微型计算机系统。它具有体积小、功耗低、成本低廉、控制功能强大等特点，广泛应用于工业控制、家用电器、汽车电子、医疗设备等多个领域。特点集成度高：单片机将计算机的主要部件集成在一块芯片上
单片机与传感器接口技术应用实例教程 kkchenjj 单片机单片机 nosql 嵌入式硬件
单片机与传感器接口技术应用实例教程单片机基础单片机概述单片机，全称为单片微型计算机（Single-ChipMicrocomputer），是一种将中央处理器（CPU）、存储器、输入输出接口等主要计算机部件集成在一块芯片上的微型计算机系统。它具有体积小、功耗低、成本低廉、控制功能强大等特点，广泛应用于工业控制、家用电器、汽车电子、通信设备、医疗器械等领域。特点集成度高：单片机将计算机的主要部件集成在一
物联网之ESP32配网方式、蓝牙、WiFi 智码帮MJ682517 Web前端嵌入式硬件物联网嵌入式硬件物联网 web前端
MENU前言SmartConfig(智能配网)AP模式(AccessPoint模式)蓝牙配网WebServer模式WPS配网(Wi-FiProtectedSetup)Provisioning(配网服务)静态配置(硬编码)总结前言ESP32配网(Wi-Fi配置)的方式有多种，每种方式都有各自的优缺点。根据具体项目需求，可以选择适合的配网方式。SmartConfig(智能配网)原理ESP32通过监听周
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
什么是DSL和GPL 牧竹子通识 DSL GPL
DSL的全称是domain-specificlanguage，它在wiki上的定义如下：Adomain-specificlanguage(DSL)isacomputerlanguagespecializedtoaparticularapplicationdomain.与之相对的是GPL(general-purposelanguage)。DSL指的是针对特定应用领域而设计使用的计算机语言，而GPL指
什么是DSL yimi1995 程序员的日常
转载：http://blog.csdn.net/dslztx/article/details/46682889DSL的全称是domain-specificlanguage，它在wiki上的定义如下：Adomain-specificlanguage(DSL)isacomputerlanguagespecializedtoaparticularapplicationdomain.与之相对的是GPL(g
ecmascript和javascript的区别？ 2301_79698214 ecmascript javascript
ECMAScript是JavaScript的标准规范，而JavaScript是基于ECMAScript规范开发的一种编程语言。简单来说，ECMAScript是一套定义了JavaScript语法和语义的规范，而JavaScript是实际的编程语言。具体来说，ECMAScript是由ECMA（EuropeanComputerManufacturersAssociation，欧洲计算机制造商协会）定义和
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

【目标检测】目标检测问题综述 目标检测算法盘点