呵呵哒(￣▽￣)"

目标检测问题定义

目标检测问题

目标检测是在图片中可变数量的目标进行查找和分类

目标种类与数量问题
目标尺度问题
外在环境干扰问题

不仅要检测出目标，还要同时检测出目标类别。（多任务）

目标检测和目标分割相对于计算机视觉领域里来说是基础的，对于计算机视觉的其它任务往往会依赖于这两个的结果来进行后续的处理。比如说目标跟踪多目标跟踪单目标跟踪

目标检测VS图像分类

左边的图是经过目标检测后输出的图像，这个图片标注了我们需要检测的物体的坐标位置，相应的坐标的矩形坐标框上会有一个零点几的小数值，这个值往往代表这个类别的置信度。

而这个置信度也说明了我们当前的检测框属于我们需要查找的目标的一个概率值，通常我们会给出一个阈值。通过这样一个阈值来过滤掉一些检测错误的目标。可以看到在左边的图中检测出非常多的目标区域。不同的目标区域也通过了不同颜色的矩形框表示出来，因此我们可以发现目标检测不仅给出了矩形框，也就是我们需要检测的目标的位置，同时也对矩形框内的物质也进行了分类，并通过不同颜色的矩形框来表现不同的类别。右边的图是图像分类，而对于图像分类，它主要是将一副图片作为输入，而它属于不同类别的概率分布则作为输出。图像分类的目的就是对指定的图片它所属的类别来进行判定。不管是图像分类还是图像检测，我们在使用深度学习的技术来进行处理的时候都需要完成特征提取的环节。对于经典或者说传统的机器学习方法来说，我们通常会设计一些手动的特征来完成特征提取这样的一个步骤。而对于深度学习我们往往通过卷积神经网这样的一个方式来完成特征的抽取。

对于目标检测和图像分类在计算机视觉领域都属于比较基础的研究。对于计算机视觉其他的研究往往会依赖于这两个任务的结果来进行后续的处理，比如说目标跟踪多目标跟踪单目标跟踪

目标检测VS目标分割

目标检测往往会采用上采样或者是反卷积来得到同原始图像同样大小的输出结果

a图表示图像分类（Image classification），只需要指定图像中的目标相应的类别就好了

b图表示目标检测（Object Iocalization），需要定位出图像目标的位置和目标相应的类别

c图表示目标分割（Semantic segmentation），需要找到当前的目标它所占的区域（语义分割）找到这些除去背景区域的其它区域，它到底属于哪个目标，精确到像素点级别，也就是说图像中的每一个像素点它到底属于哪一个目标都有明确的区分，也就是所谓的语义分割

d 图表示实例分割（Instance segmentation），它不仅要对不同图像进行语义分割，而且对于同一类别的目标需要划分出不同的实例（实例分割）

补充知识点：

目标分割也属于计算机视觉领域的基础
目标分割需要找到当前的目标所占的区域
目标检测和目标分割的模型会存在非常大的区别

目标检测与目标分割的区别：

目标检测只需要得到四个坐标点然后进行分类，目标分割需要对每一个像素点进行分割

目标检测问题方法的变迁

传统目标检测方法到深度学习目标检测方法的变迁

主要遵循了传统的手动设计特征和并结合滑动窗口来进行目标检测和定位。（存在瓶颈）

通过这种方式来进行目标检测和定位主要存在的问题可以概括为以下几点：

通过传统设计特征，往往特征一个是很难设计的，另一个设计出来的特征往往会存在各种各样的问题。比如说，它对与某些特定的条件会不适应，或者说设计出来的特征往往会不鲁棒。
而传统手工来设计特征，效率也会存在瓶颈，另外通过滑动窗口来提取目标框，并且对目标框进行分类判定的这种策略。同样在提取滑动窗口的整个流程是比较复杂的。
从DPM之后，级联在某些场景下会有某些性能提升，在ImageNet数据集上统治地位，基本上很难在往上提升。

深度学习目标检测方法

Overfeat和RCNN这些方法在使用深度学习的时候，只是利用卷积神经网络来进行特征进行提取，并没有从本质上改变搜索框和提取目标区域的策略，因此这些方法在速度上存在瓶颈。

直到后来FasterRcnn方法的提出，通过RPN网络来代替原始的滑动窗口的策略，也标志着基于深度学习的方法彻底的完成了一个端到端的过程。（性能和速度得到很大的提升）

再到后来不采用提取候选框的策略，采用直接回归目标框位置的策略，比如说YOLO和SSD

这样的方法来完成目标检测和定位能够再一次对目标检测算法速度进行进一步的提升，而且能够保证同原先的基于Proposal策略的检测算法基本上一致的检测精度。

那基于深度学习的学习算法也主要分成了两大类，一种是包括Proposal这样一个过程的目标检测方法，另外一种是直接回归目标位置的目标检测方法。

通过直接回归的方式是深度学习的方法，而通过候选框的方法目前主流的是同样也是深度学习方法，但是这样的一个框架同样也适用于传统的目标检测方法。只不过区别在于我们在进行目标特征提取的时候是采用卷积神经网络还是采用一些手动设计的特征，比如说HOG特征，积分图特征等特征。再有在提取候选框的时候会有一些不同的策略。

传统目标检测方法

Viola-Jones(积分图特征结合Adaboosts来解决人脸检测等目标检测问题)
HOG+SVM(SVM主要用于行人目标检测的任务，通过对行人目标候选区域提取HOG特征，并且结合SVM分类器来进行判定)
DPM(基于HOG特征的变种，不同地方在于DPM会加入一些额外的策略来提升检测的精度，而DPM也是目前非深度学习中目标检测效果和性能最优的一种方法)

深度学习目标检测方法

One-stage(YOLO和SSD系列)
Two-stage(Faster RCNN系列)

One-stage主要通过直接回归来进行目标检测和定位，代表性方法（YOLO和SSD）

Two-stage通过利用RPN网络对候选区域进行目标检测定位，代表性方法（Faster-RCNN）

、

目标检测问题方法

传统目标检测方法VS深度学习目标检测方法

手动设计特征深度网络学习特征
滑动窗口 Proposal或者直接回归
传统分类器深度网络
多步骤端到端
准确度和实时性差准确度高和实时性好

目标检测算法的应用场景

传统目标检测算法综述

图片作为检测算法的输入，然后对这张图片进行候选框的提取，候选框的提取通常会采用候选框的方法来进行，就会对每一个窗口中的局部图像信息进行特征抽取，这个特征抽取的部分经常会常用一些经典的计算机视觉模式识别中的关于图像特征表示的一些方法，常见的分别为基于颜色的方法，基于纹理的方法，基于形状的方法，以及一些中层次或者高层次的语义的方法。这些方法有的是需要经过学习来得到的方法，比如说来抽取最基本的直方图特征以及纹理特征。HOG特征或者说double特征，这样的一些稠密的特征，通过TCA算法来进行特征降维，或者可以采用LDA来对特征进行空间的投影，来对抽取出的基本特征进行进一步的学习，来挖掘一些更加鲁棒的特征。

低层特征：颜色纹理

中层次特征：基于这些底层特征，进行机器学习和特征挖掘来进行特征学习过程之后得到的特征，包括了PCA特征或者TCA特征，一些基于优化理论来完成的特征的学习这样的一个过程

高层次的特征：基于低层次特征和中层次特征进行进一步挖掘特征。（语义特征表示）

基于候选区域提取出来的特征进行分类判定，分类器需要经过事先的学习和训练得到的。

在这个过程中，我们对于单分类别目标的检测只需要区分当前的窗口中所包含的对象是否为背景还是是否为我们需要检测的目标，这样的一个二分类的问题。

对于多分类问题我们可能需要进一步去区分当前目标窗口中是否为背景，如果不为背景的话它属于哪一类，也就可能是一个多分类的问题，经过对候选框进行判定之后，我们就会得到一系列的可能为当前检测目标的候选框，那么这些候选框可能会存在一些重叠的状况，需要一个NMS（非极大抑制）的方法来对候选框进行合并，得到我们最终需要合并的目标，也就是我们最终的算法输出的结果。

那通常的目标检测算法主要是包括了这样的一个基本的流程，对于深度学习的目标检测算法其中有一系列的方法也会遵从这样的一个过程，区别就在于将特征提取的部分变成一个卷积神经网，而候选框提取的部分则通过一个RPN网络来完成，也就是我们经常会提到的Two-Stage的目标检测算法，而One-Stage的目标检测算法则会通过一个直接回归的方法来获得我们可能的目标的区域，或者说目标的位置，以及目标的类别

常见传统目标检测方法

Viola-Jones
HOG+SVM
DPM

Viola-Jones(人脸检测)

Haar特征抽取
训练人脸分类器（Adaboost算法等）
滑动窗口

Viola-Jones(人脸检测)

Adaboost算法(集成学习的方法)

初始化样本的权重w，样本权重之和为1
训练弱分类器
更新样本权重
循环第二步
结合做个分类器结果，进行投票

HOG+SVM（行人检测，Opencv实现）

提取HOG特征
训练SVM分类器
利用滑动窗口提取目标区域，进行分类判断
NMS
输出检测结果

HOG特征

灰度化+Gamma变换（数据平滑）
计算梯度map
图像划分成小的cell,统计每个cell梯度直方图
多个cell组成一个block，特征归一化
多个block串联，并归一化

HOG+SVM（行人检测，Opencv实现）

SVM
最大分类间隔面

常见传统目标检测方法

DPM（物体检测）

HOG的扩展
利用SVM训练得到物体的梯度

常见传统目标检测方法

DPM（物体检测）

DPM特征提取

有符号梯度
无符号梯度

DPM特征提取

有符号梯度
无符号梯度

计算DPM特征图

计算响应图（root filter 和 part filter）

Latent SVM分类器训练

检测识别

常见传统目标检测方法

NMS（非极大值抑制算法）

目的：为了消除多余的框，找到最佳的物体检测的位置
思想：选取那些领域里分数最高的窗口，同时抑制那些分数低的窗口

Soft-NMS

所有检测到的检测框进行排序，按照他们的得分来进行排序，这个得分实际上就是我们利用分类器来分类得到的一个概率值，这个概率值实际上表示我们所需要检测的目标的一个概率，我们在利用这个概率值所有的检测框进行排序之后我们选出最大的那个检测框，对于得分最大的检测框而言，就是我们首先选出得分最高的检测框，然后将那些同当前得分最大的检测框IOU面积大于某些阈值的那些框，也就是重叠率高的那些框进行删除，这个时候我们就会删掉一些检测框，同样有些检测框是与当前的检测框不重叠的，或者他们的重叠面积非常小。接下来我们就会对那些没有处理过的检测框再重新进行排序，排序完之后我们同样会选择出一个得分最大的检测框，然后计算最大的检测框同当前的检测框的IOU面积，然后将IOU面积大于某些阈值的框再进行一遍删除。我们不断地迭代这个过程，直到所有的检测框都处理过这个过程，我们就输出最终的检测结果。

对于NMS算法，有一个改进的算法叫Soft-NMS算法。

Soft-NMS(非极大值抑制算法)

相邻区域内的检测框的分数进行调整而非彻底抑制，从而提高了高检索率情况下的准确率
在低检索率时仍能对物体检测性能有明显的提升

Two-stage基本介绍

CNN卷积特征
R．Girshick et al.,2014提出RCNN到faster RCNN
端到端的目标检测（RPN网络）
准确度高，速度相对one-stage慢

Two-stage:

首先输入图片，然后对图片进行深度特征的提取，一幅图会作为输入，输入之后会经过一个卷积神经网，这里将这个卷积神经网称为主干网络，典型的主干网络就包括了VGG，ResNet等等的一些经典的神经网络的结构，再然后我们会通过一个RPN网络来完成我们之前在传统网络的目标检测算法中滑动窗口所完成的任务，也就是产生产生候选区域，这样的一些候选区域会通过一个RPN网络来完成，并且在进行候选框区域提取的时候会完成一个对候选框区域的分类，这个分类的过程就将候选区域分为背景和目标这样的两种不同的类别，并且在RPN网络产生候选区域的时候会对目标的区域进行初步的预测，那也就是区域分类和位置精修的两个环节。得到候选区域后，进行进一步的位置精确的回归和修正。这里就需要一个roi_pooling。接下来我们得到候选目标对应到feature map上的它的那一段区域或者说特征之后，通过一个fc层，也就是全连接层，来进一步对候选区域进行进一步的表示。接下来我们通过分类和回归这样的两个分支来分别完成对候选目标他的类别的判定，以及对候选目标位置的精修这样的两个过程，这里呢我们的类别不同于RPN网络的网络类别，在这里我们通常会得到物体的真实类别，比如说对于VOC数据集我们通常回去判定21类别，对于一些单词检测我们通常只会用到两个类别，回归主要得到当前物体的具体的坐标位置，实际上具体的坐标位置会表示为一个矩形框，对于一个矩形框我们会通过四个值来完成矩形框的表示，也就是分别为坐上角的顶点坐标以及矩形框的长和宽，得到（x,y,w,h），这样的四个值最终表示目标区域的位置。

Two-Stage常见算法

RCNN
Faster RCNN
Faster RCNN
Faster RCNN变种

Two-Stage核心组件

CNN网络
RPN网络

CNN网络设计原则

从简到繁再到简的卷积神经网

（最开始的卷积神经网络是非常简单的，比较经典的就是LeNet ,LeNet包括了几个卷积层，几个pooling层，激活层，softmax层和loss层，它的结构非常简单，但是它的性能在一些大规模会有一些瓶颈，比如说网络的表达能力抽象能力相对来说会弱一点，经历过LeNet之后呢，又提出了其他网络，这些网络都是尽可能的提升网络的深度，网络越深它的非线性表达的能力就会越强，因为现实中的很多任务中往往不是线性的而是非线性的，因此呢尽可能的加深网络能够得到物体更加抽象的表达，另外通过研究也发现越深层次的网络特征，对于图像最初的一些变化更加的不敏感，也就是说越深层次的特征，它的鲁棒性会越好，因此我们希望尽可能的加大网络的深度。但是实际上加大网络的深度一方面会加大网络的规模，另一方面会导致梯度消失，或者说梯度离散这样的一些问题，这也是目前解决神经网难以实现涉及到非常非常深的原因，目前可能设计到几百层的网络就很难训练了，典型的代表就是ResNet网络结构，ResNet通过简单的网络堆叠能够达到100多层的网络深度，GoogleNet，这样一系列的Inception，，这些追求的是加大网络的宽度来增加网络的表达能力，比较具有代表性的就是Google提出的一系列的Inception结构的网络结构，这也是目前卷积神经网络一个重要的分支）

在发展到现在，因为很多卷积神经网它希望跑在终端而不是跑在云端，因此我们在设计网络结构的时候可能会希望网络尽可能的轻量型，那这个时候就会出现轻量型的网络的原则，在设计网络的时候考虑性能和网络模型大小它的一个平衡，其中比较具有代表性的轻量级网络就包括了。。。。

除了设计轻量型的网络结构，还有对网络进行压缩，裁剪，量化等等一系列的策略来减小网络的大小，能够使网络在尽可能在小的损失性能的情况下压缩模型大小，使网络最终跑在一些功耗和性能比较差的设备上。对于卷积神经网络的设计原则我们一方面是从网络它的结构复杂程度上来解释，另一方面我们可以从多尺度特征融合的网络来考虑。

多尺度特征融合的网络
更轻量级的CNN网络

（设计网络的时候需要考虑网络的性能，他的模型的大小，它的耗时，以及它的参数量，这些对于产品的落地是具有非常重要的意义的）

Two-Stage核心组件

RPN网络
区域推荐（Anchor机制）
ROI Pooling
分类和回归

除了主干网络也就是所谓的卷积神经网络以外还需要一个非常重要的神经网络也就是RPN网络。

输入的图片在经过卷积层，也就是我们刚才所提到的CNN过程之后我们会得到经过主干网络之后提取出来的feature maps，这个feature maps通常为（n,c,w,h）四维的卷积特征。n代表batch size的数量，也就是当前样本的数量，c 代表channel，w,h表示长宽。可能会与我们原始图片的长宽相差一定的倍数，一方面我们在进行卷积的时候可能会产生一些长宽的损失，这些损失的前提就是基于我们没有使用padding策略，在有一种我们使用pooling层的时候也会对图像进行一些下采样来得到更大的感受野，但是会缩小图片的尺寸，再有就是c，c是对应到不同的卷积核，对于我们通过卷积之后得到的一个feature maps之后会通过一个RPN网络来完成区域推荐和候选目标的筛选，这个步骤就相当于利用传统目标的检测算法进行目标检测时会用到的滑动窗口的策略。这里需要重点了解的内容包括了区域推荐算法，RPN网络的区域推荐算法也就是所谓的Anchor机制，需要了解对于候选区域筛选的得到之后会通过ROI Pooling 来提取候选目标，然后利用一个分类和回归网络对候选区域进行精确的分类和坐标位置的回归。最重要的两个步骤就是区域推荐和ROI PoolIng

RPN网络

区域推荐（Anchhor机制）

对于当前的feature maps的大小为 (n*c*w*h)，实际上我们这里的Anchor是指对于feature maps对于feature maps我们选择其中的每一个点来作为一个锚点，这个锚点就是所谓的候选区域的中心点，我们以每一个点来作为中心点去提取候选区，这样的每一个点我们都称之为一个Anchor。接下来以这个点为中心去提取候选区域，这个候选区域我们通常会按照一定的比例来提取候选区域。对于Faster Rcnn这里我们通常会采用9个不同的尺度来提取9个候选区域，换句话说，我们对于一个feature maps，我们会提取出多少个候选区域呢，提取（w*h*9(这里的9是因为提取9个候选区域，如果是n个候选区域，则 w*h*n)）的候选区域，这个就是所谓的anchor。这样的一个候选区域我们会通过针对于候选区域以及我们的真值（GT），我们利用真值来对这样的一些候选区域进行筛选，经过筛选之后我们得到正样本和负样本，正样本表示包含目标的候选区域，负样本表示不包含目标的候选区域，包含与不包含通常会通过一个IOU来进行判定，也就是说真值和候选区域的重叠面积，如果候选区域同真值的覆盖面积超过了0.7（取值），我们认为是一个正样本，如果小于0.3（取值），我们认为是一个负样本

当前的feature maps的大小为w*h，而我们的真值候选区域目标它的坐标则是针对于原始的feature maps，原始的图像Image来讲的，我们如何判定在当前的feature maps上的一个候选区域同真值的候选区域它的一个重叠面积。图像进行下采样的时候是按照一定的倍数进行下采样的，对于其中的候选区域它的，对于真实图片中的一个目标区域实际上我们可以通过这样的一个下采样的过程来找到它在当前feature maps上所对应的真值的候选区域，比如说我们的feature maps按照8倍的进行下采样，也就是说我们的大小相当于原始图像的1/8，这个时候图像中的目标区域的大小也会下采样1/8，那它的坐标的位置实际上可以理解成一个相对的位置，而我们在计算IOU的时候通常会根据这样的一个相对位置来进行计算。

RPN网络

ROI Pooling
输入：特征图标 ,rois(1*5*1*1)以及ROI参数
输出：固定尺寸的feature map

ROI Pooling（完成抠图（相应的feature map）+resize(固定feature map的大小)）

Two-Stage改进方向

更好的网络特征
更精准的RPN
更完善的ROI分类
样本后的处理
更大的mini-Batch

基于One-Stage的目标检测算法综述

使用CNN卷积特征
直接回归物体的类别概率和位置坐标值（无region proposal）
准确度低，速度相对two-stage快

One-Stage常见算法

YoloV1/V2/V3
SSD/DSSD等
Retina-Net
等等

One-stage VS Two-stage

One-stage

优点

速度快

避免背景错误，产生false positives

学到物体的泛化特征

缺点

精度低（定位，检出率）

小物体的检测效果不好

Two-Stage

优点

精度高（定位，检出率）

Anchor机制

共享计算量

缺点

速度慢

训练时间长

误报高

图片是视频截图获取的，我是你们的好朋友呵呵哒！！！

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
深度学习-13-小语言模型之SmolLM的使用皮皮冰燃深度学习深度学习
文章附录1SmolLM概述1.1SmolLM简介1.2下载模型2运行2.1在CPU/GPU/多GPU上运行模型2.2使用torch.bfloat162.3通过位和字节的量化版本3应用示例4问题及解决4.1attention_mask和pad_token_id报错4.2max_new_tokens=205参考附录1SmolLM概述1.1SmolLM简介SmolLM是一系列尖端小型语言模型，提供三种规
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
基于深度学习的文本引导的图像编辑 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的文本引导的图像编辑（Text-GuidedImageEditing）是一种通过自然语言文本指令对图像进行编辑或修改的技术。它结合了图像生成和自然语言处理（NLP）的最新进展，使用户能够通过描述性文本对图像内容进行精确的调整和操控。1.文本引导的图像编辑的挑战文本和图像之间的对齐：如何将文本中的语义信息准确地映射到图像中的特定区域或元素是一个关键挑战。这涉及到多模态数据的对齐和理解。编
深度学习--对抗生成网络（GAN, Generative Adversarial Network） Ambition_LAO 深度学习生成对抗网络
对抗生成网络（GAN,GenerativeAdversarialNetwork）是一种深度学习模型，由IanGoodfellow等人在2014年提出。GAN主要用于生成数据，通过两个神经网络相互对抗，来生成以假乱真的新数据。以下是对GAN的详细阐述，包括其概念、作用、核心要点、实现过程、代码实现和适用场景。1.概念GAN由两个神经网络组成：生成器（Generator）和判别器（Discrimina
深度学习：怎么看pth文件的参数奥利给少年深度学习人工智能
.pth文件是PyTorch模型的权重文件，它通常包含了训练好的模型的参数。要查看或使用这个文件，你可以按照以下步骤操作：1.确保你有模型的定义你需要有创建这个.pth文件时所用的模型的代码。这意味着你需要有模型的类定义和架构。2.加载模型权重使用PyTorch的load_state_dict方法来加载权重。这里是如何操作的：importtorchimporttorch.nnasnn#定义模型结构
chatgpt赋能python：如何在Python中安装Keras库？ turensu ChatGpt python chatgpt keras 计算机
如何在Python中安装Keras库？Keras是一个简单易用的神经网络库，由FrançoisChollet编写。它在Python编程语言中实现了深度学习的功能，可以使您更轻松地构建和试验不同类型的神经网络。如果您是一名Python开发人员，肯定会想知道如何在您的Python项目中安装Keras库。在本文中，我们将向您展示如何安装和配置Keras库。步骤1：安装Python要使用Keras库，您需
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
Keras深度学习框架入门及实战指南司莹嫣Maude
Keras深度学习框架入门及实战指南keraskeras-team/keras:是一个基于Python的深度学习库，它没有使用数据库。适合用于深度学习任务的开发和实现，特别是对于需要使用Python深度学习库的场景。特点是深度学习库、Python、无数据库。项目地址:https://gitcode.com/gh_mirrors/ke/keras一、项目介绍Keras简介Keras是一款高级神经网络
深度学习驱动的车牌识别：技术演进与未来挑战逼子歌深度学习车牌识别神经网络字符识别 YOLO 卷积神经网络
一、引言1.1研究背景在当今社会，智能交通系统的发展日益重要，而车牌识别作为其关键组成部分，发挥着至关重要的作用。车牌识别技术广泛应用于交通管理、停车场管理、安防监控等领域。在交通管理中，它可以用于车辆识别、交通违法监控和车流统计等，提高交通管理的效率和准确性。在停车场管理中，实现车辆的自动识别和收费，提升管理和服务水平。在安防监控领域，可用于追踪嫌疑人及犯罪行为。深度学习的出现为车牌识别带来了重
每天五分钟玩转深度学习PyTorch：模型参数优化器torch.optim 幻风_huanfeng 深度学习框架pytorch 深度学习 pytorch 人工智能神经网络机器学习优化算法
本文重点在机器学习或者深度学习中，我们需要通过修改参数使得损失函数最小化(或最大化)，优化算法就是一种调整模型参数更新的策略。在pytorch中定义了优化器optim，我们可以使用它调用封装好的优化算法，然后传递给它神经网络模型参数，就可以对模型进行优化。本文是学习第6步(优化器)，参考链接pytorch的学习路线随机梯度下降算法在深度学习和机器学习中，梯度下降算法是最常用的参数更新方法，它的公式
什么是AIGC？有哪些免费工具？ chent_某位 AIGC
AIGC（AIGeneratedContent），即“人工智能生成内容”，是指通过人工智能技术自动生成各种类型的数字内容。AIGC让机器能够根据输入的信息或数据生成符合人类需求的文本、图像、音频、视频等内容，极大提高了内容创作的效率。AIGC的背景与起源随着深度学习和自然语言处理技术的快速发展，人工智能已经不再局限于简单的任务，如分类、预测和数据分析，而是具备了生成内容的能力。生成式AI模型，如O
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
如何有效的学习AI大模型？ Python程序员罗宾学习人工智能语言模型自然语言处理架构
学习AI大模型是一个系统性的过程，涉及到多个学科的知识。以下是一些建议，帮助你更有效地学习AI大模型：基础知识储备：数学基础：学习线性代数、概率论、统计学和微积分等，这些是理解机器学习算法的数学基础。编程技能：掌握至少一种编程语言，如Python，因为大多数AI模型都是用Python实现的。理论学习：机器学习基础：了解监督学习、非监督学习、强化学习等基本概念。深度学习：学习神经网络的基本结构，如卷
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程牙牙要健康深度学习 onnx onnxruntime 深度学习 python 人工智能
【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程提示:博主取舍了很多大佬的博文并亲测有效,分享笔记邀大家共同学习讨论文章目录【深度学习】【OnnxRuntime】【Python】模型转化、环境搭建以及模型部署的详细教程前言模型转换--pytorch转onnxWindows平台搭建依赖环境onnxruntime调用onnx模型ONNXRuntime推理核
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

目标检测问题定义

你可能感兴趣的:(深度学习)