香菇不相识

目标检测之YOLO V2 V3

YOLO V2

YOLO V2是在YOLO的基础上，融合了其他一些网络结构的特性（比如：Faster R-CNN的Anchor,GooLeNet的 $1\times1$ 卷积核等），进行的升级。其目的是弥补YOLO的两个缺陷：

YOLO中的大量的定位错误
和基于区域推荐的目标检测算法相比，YOLO的召回率（Recall）较低。

YOLO V2的目标是：在保持YOLO分类精度的同时，提高目标定位的精度以及召回率。其论文地址：
YOLO 9000:Better，Faster，Stronger。

YOLO论文的名称总是如此的直抒胸臆，

Better 指的是和YOLO相比，YOLO V2有更好的精度
Faster 指的是修改了网络结构，其检测更快
Stronger 指的就是YOLO 9000,使用联合训练的方法，同时使用目标检测和图像分类的数据集，训练YOLO V2，训练出来的模型能够实时的识别多达9000种目标，所以也称为YOLO9000。

Better

这部分主要是改进YOLO的两个缺点：

定位不精确
召回率较低（和基于候选区域的方法相比）

YOLO V2种并没有加深或者加宽网络结构，反而简化了网络（faster）。

Batch Normalization
这个是CNN网络通用的方法了，不但能够改善网络的收敛性，而且能够抑制过拟合，有正则化的作用。
High Resolution Classifier
相比图像的分类任务，目标检测需要更高的图像分辨率。而为了提取图像的特征，目标检测网络的提取特征部分，通常要在ImageNet数据集上进行预训练。从AlexNet结构开始，大多数分类的网络的输入图像都小于 $256 \times 256$ ，在YOLO中，使用 $224 \times 224$ 的图像进行预训练，但是在目标检测的网络中使用 $448 \times 448$ 的图像进行训练。这样就意味着，从用于分类的特征提取模型切换到目标检测网络，还需要适应这种图像分辨率的改变。
在YOLO V2中对此进行了改变了，使用ImageNet数据集，首先使用 $224 \times 224$ 的分辨率训练160个epochs，然后调整为 $448 \times 448$ 在训练10个epochs。

Convolutional With Anchor Boxes

在YOLO中在最后网络的全连接层直接预测目标边框的坐标，在YOLO V2中借鉴 Fast R-CNN中的Anchor的思想。

去掉了YOLO网络的全连接层和最后的池化层，使提取特征的网络能够得到更高分辨率的特征。
使用 $416 \times 416$ 代替 $448 \times 448$ 作为网络的输入。这是因为希望得到的特征图的尺寸为奇数。奇数大小的宽和高会使得每个特征图在划分cell的时候就只有一个center cell（比如可以划分成77或99个cell，center cell只有一个，如果划分成88或1010的，center cell就有4个）。为什么希望只有一个center cell呢？因为大的object一般会占据图像的中心，所以希望用一个center cell去预测，而不是4个center cell去预测。网络最终将416416的输入变成1313大小的feature map输出，也就是缩小比例为32。（5个池化层，每个池化层将输入的尺寸缩小1/2）。
Anchor Boxes 在YOLO中，每个grid cell只预测两个bbox，最终只能预测98个bbox（ $7\times 7\times 2=98$ ），而在Faster RCNN在输入大小为 $1000\times 600$ 时的boxes数量大概是6000，在SSD300中boxes数量是8732。显然增加box数量是为了提高object的定位准确率。过少的bbox显然影响了YOLO的定位的精度，在YOLO V2中引入了Anchor Boxes的思想，其预测的bbox则会超过千个（以输出的feature map为 $13 \times 13$ 为例，每个grid cell有9个anchor box的话，其预测的bbox数量为 $13 \times 13 \times 9 = 1521$ 个）。

Dimension Clusters

YOLO V2中引入了Faster R-CNN思想，但是让大佬单纯的使用别人的想法而不加以改进是不可能的。在Faster R-CNN中每个Anchor box的大小以及形状是预先设定好的，然后在网络种通过边框回归来调整每个Anchor Box的边框。但是，如果开始就选择好的边框（Faster R-CNN中的边框是手工设计的，3种大小，3种形状共9种），那么网络肯定能更好的预测。
YOLO 作者使用据类的思想，对训练集能够生成的所有Anchor box做聚类，以此来找到合适的预设的Anchor box.另外作者发现如果采用标准的k-means（即用欧式距离来衡量差异），在box的尺寸比较大的时候其误差也更大，而我们希望的是误差和box的尺寸没有太大关系。所以通过IOU定义了如下的距离函数，使得误差和box的大小无关,故使用如下的距离度量
$\text { box, centroid } ) = 1 - \text { IOU } ( \text { box, centroid } )$
也就是针对同一个grid cell，其将IOU相近的聚到一起，如下图

左边表示选择不同聚类中心的 $K$ 和平均IOU的关系，不同曲线表示两种数据集：2007 VOC 和COCO。 YOLO V2选择了 $K = 2$ ，在模型的复杂度和召回率之间做个平衡。右边5种紫框和黑色的边框表示两种数据集下，最终聚类选择的5中bbox的形状和大小，从图看出两种数据集的形状类似大小相近。图中也可以看出，一个的大的bbox差不多是正方形，另外3个是高瘦的形状，最后一个则是矮胖的形状，这和Faster R-CNN手动选择的9种形状还是有所不同的。

Direct location prediction

解决了每个Grid Cell生成的bounding box的个数问题，直接按照Faster R-CNN的方法，又遇到了第二个问题：模型不稳定，特别是在早期的迭代中，而这种不稳定是由于预测box的位置 $(x, y)$ 引起的。在区域推荐的方法中，其网络学习的结果 $(t x, t y)$ bbox的中心位置相对于ground truth的中尉 $(x, y)$ 的平移量，如候选区域的bbox的中心为 $x_p,y_p)$ ，宽和高为 $w_p,h_p)$ ，则有如下的等式
$x = x_p + w_p * tx \\ y = y_p + h_p * ty$
这种位置的平移是没有任何限制的,例如， $t_x = 1$ ,则将bbox在 $x$ 轴向右移动 $w_p$ ； $t_x = -1$ 则将其向左移动 $w_p$ 。也是说，不管初始的bbox在图像的什么位置，通过预测偏移量可以将bbox移动到图像的任何位置。对于YOLO V2这种随机初始化bbox的位置，需要训练很久的一段时间才能学习到平移量的合适的值。

基于候选区域的R-CNN 其初始的bbox并不是随机的，而是通过RPN网络生成的。

YOLO V2中没有使用候选区域的直接预测偏移量，而是沿用YOLO的方法，预测位置相对于当前grid cell的偏移量。YOLO V2网络最后输出的特征层为 $13 \times 13$ ，然后每个cell生成5个bbox，针对每个bbox得到5个值 $t_x,t_y,t_w,t_h,t_o)$ ， $t_x,t_y)$ 表示bbox中心相对于grid cell左上角的偏移，并且将其平移量限制在一个grid cell内，使用 $s i g m o i d$ 函数处理处理偏移值，将其限制在 $(0, 1)$ 范围内（每个grid cell的尺度看做1）。所以得到下面的公式
$\begin{aligned} b _ { x } & = \sigma \left( t _ { x } \right) + c _ { x } \\ b _ { y } & = \sigma \left( t _ { y } \right) + c _ { y } \\ b _ { w } & = p _ { w } e ^ { t _ { w } } \\ b _ { h } & = p _ { h } e ^ { t _ { h } } \end{aligned}$
其中， $C_x,C_y)$ 为当前grid cell相对于图像的左上角的距离，以grid cell的个数为单位。 $p_w,p_h$ 为为先验框的宽和高。

如下图，

$C_x,C_y)$ 为当前grid cell相对于图像的左上角的距离，以grid cell为单位，则当前cell的左上角坐标为 $(1, 1)$ ; $p_w,p_h$ 为为先验框的宽和高,其值也是相对于特征图的大小，在特征都中每个cell的大小为1。这里记特征图的大小为 $(W, H)$ （YOLO V2为 $(13, 13)$ ），这样就可以将边框相对于图像的大小和位置计算出来
$\begin{aligned} b _ { x } & = (\sigma \left( t _ { x } \right) + c _ { x })/W \\ b _ { y } & = (\sigma \left( t _ { y } \right) + c _ { y })/H \\ b _ { w } & = p _ { w } e ^ { t _ { w } } / W\\ b _ { h } & = p _ { h } e ^ { t _ { h } }/H \end{aligned}$
在将上面得到的 $b_x,b_y,b_w,b_H$ 乘以图像的宽和高（像素为单位）就可以求得边框在图像的位置。

例如，假如预测输出的值 $t_x,t_y,t_w,t_h) = (0.2,0.1,0.2,0.32)$ ；当前cell的相对于特征图左上角的坐标为 $(1, 1)$ ，Anchor box预设的宽和高为 $p_w = 3.19275,p_h = 4.00944$ ，则有
$KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ b_x &= 0.2 + 1…$

上面的计算的距离都是相对于 $13 \times 13$ 的特征图而言的，其单位为grid cell的边长。 YOLO V2输入的图像尺寸为 $416 \times 416$ ，则每个grid cell的边长为 $416 / 13 = 32$ ，将上述位置换算到以像素为单位
$KaTeX parse error: No such environment: align* at position 8: \begin{̲a̲l̲i̲g̲n̲*̲}̲ b_x &= 1.2 * 3…$
这样就得到了一个在原图上以 $(38.4, 35.2)$ 为中心，宽高为 $(124.78, 176.68)$ 的边框。

Fine-Grained Features

YOLO V2是在 $13 \times 13$ 的特征图上做检测，这对于一些大的目标是足够了，但是对于小目标则需要更写细粒度的特征。 Faser R-CNN和SSD都在不同层次的特征图上产生区域建议（SSD直接就可看得出来这一点），获得了多尺度的适应性，YOLO V2则使用了一种不同的方法，添加要给转移层(passthrough layer)，该层将浅层的特征图( $26 \times 26$ )连接到最终使用的深层特征度(#13 \times 13$)。

这个转移层有点类似ResNet的dentity mappings结构，将浅层和深层两种不同尺寸的特征连接起来，将 $26 \times 26 \times 512$ 的特征图和 $13 \times 13 \times 1024$ 的特征图连接起来。passthrough layer，具体来说就是特征重排（不涉及到参数学习）， $26 \times 26 \times 512$ 的特征使用按行和按列隔行采样的方法，就可以得到4个新的特征图，维度都是 $13 \times 13 \times 512$ 的特征，然后做concat操作，得到 $13 \times 13 \times 2048$ 的特征图，将其拼接到后面 $13 \times 13 \times1024$ 得到 $13 \times 13 \times 3072$ 的特征图，相当于做了一次特征融合，有利于检测小目标。下图是passthrough layer的一个实例

Multi-Scale Training

YOLO中使用 $448\times448$ 作为输入，而且由于使用了全连接层，无法改变输入的图像的大小；在 YOLO V2中将全连接层替换为了卷积层，也就是说只有卷积层和池化层，这样就可以处理任意尺寸的图像。为了应对不同尺寸的图像，YOLO V2中在训练的时候使用不同的尺寸图像。

YOLO V2在训练的时候每经过几轮（每经过10epochs）迭代后就会微调网络，随机选择新的图片尺寸。YOLO网络使用的降采样参数为32，那么就使用32的倍数进行尺度 $\{320,352,\cdots，608\}$ 。最终最小的尺寸为 $320 \times 320$ ，最大的尺寸为 $608 \times 608$ 。

Summary

YOLO V2针对YOLO定位不准确以及召回率低的问题，进行一些改变。主要是借鉴Faster R-CNN的思想，引入了Anchor box。并且使用k-means的方法，通过聚类得到每个Anchor应该生成的Anchor box的的大小和形状。为了是提取到的特征有更细的粒度，其网络中借鉴ResNet的思想，将浅层的高分辨率特征和深层的特征进行了融合，这样能够更好的检测小的目标。最后，由于YOLO V2的网络是全卷积网络，能够处理任意尺寸的图像，在训练的时候使用不同尺度的图像，以应对图像尺寸的变换。

Faster

大多数检测网络有赖于VGG-16作为特征提取部分，VGG-16的确是一个强大而准确的分类网络，相应的其计算量也是巨大的。 YOLO V2中使用基于GoogLeNet的网络结构Darknet-19，在损失一些精度的情况下，大大的提高运算速度。

Darknet-19作为YOLO V2的特征提取网络，参考了一些其他的网络结构的经验

VGG，使用了较多的 $3\times3$ 卷积核，在每一次池化操作后把通道数翻倍。
GoogLeNet的network in network的思想，网络使用了全局平均池化（global average pooling），把 $1\times1$ 的卷积核置于 $3\times3$ 的卷积核之间，用来压缩特征。
使用batch normalization稳定模型训练，抑制过拟合

最终得出的基础模型就是Darknet-19，如下图，其包含19个卷积层、5个最大值池化层（maxpooling layers ），下图展示网络具体结构。Darknet-19在ImageNet图片分类top-1准确率72.9%，top-5准确率91.2%

上述的网络结构是用于ImageNet的预训练网络，其输入的是 $224\times224$ （最后几轮调整为 $448 \times 448$ ）。在ImageNet预训练完成后，需要调整上面的网络结构：去掉最后的卷积层，添加三个 $\times 3 \times 1024$ 的卷积层，且在这三个卷积层的每个后面添加 $\times 1$ 的卷积层。在检测的时，输入的是 $416 \times 416$ ，通过了5个池化层的降维，在最后的卷积层输出的特征为 $13 \times 13 \times 1024$ 。前面提到，为了得到更细粒度的特征，添加了passthrough layer,将浅层的 $26 \times 26 \times 512$ （是输入到最后一个池化层前的特征）融合到最终输出的 $13 \times 13 \times 1024$ ，作为最终用于检测的特征 $KaTeX parse error: Expected 'EOF', got '\3' at position 14: 13 \times 13 \̲3̲072$ 。

用于的检测的cell有$13 \times 13 $，每个 c e l l 要生成的 5 个 b b o x ，每个 b b o x 需要预测其位置和置信度$ (t_x,t_y,t_w,t_h,t_0)$以及其每个类别的概率20个，所以最终输出为 $13 \times 13 \times 5 \times (5 + 20) = 13 \times 13 \times 125$ .

Stroner YOLO9000

YOLO9000是在YOLOv2的基础上提出的一种可以检测超过9000个类别的模型，其主要贡献点在于提出了一种分类和检测的联合训练策略。众多周知，检测数据集的标注要比分类数据集打标签繁琐的多，所以ImageNet分类数据集比VOC等检测数据集高出几个数量级。在YOLO中，边界框的预测其实并不依赖于物体的标签，所以YOLO可以实现在分类和检测数据集上的联合训练。对于检测数据集，可以用来学习预测物体的边界框、置信度以及为物体分类，而对于分类数据集可以仅用来学习分类，但是其可以大大扩充模型所能检测的物体种类。

summary

YOLO V2在YOLO主要的改动就是，引入了Anchor box以及修改了其用于特征提取的网络，在检测时去掉了全连接层，整个网络全部使用卷积层。

YOLO V3

YOLO作者对 YOLO V2做了一些小的改动。主要以下两个方面:

使用残差模型,构建更深的特征提取网络
使用FPN架构（Feature Pyramid Networks for Object Detection）来实现多尺度检测

Darkent-53

YOLO V3特征提取网络使用了残差模型，相比YOLO V2使用的Darknet-19，其包含53个卷积层所以称为Darknet-53.其网络结构如下图

Darknet-53在ImageNet数据集上的性能

和ResNet相比，其速度快了很多，精度却相差不大。

多尺度预测

采用FPN架构（Feature Pyramid Networks for Object Detection）来实现多尺度检测，如下图

YOLOv3采用了3个尺度的特征图（当输入为 $416 \times 416$ 时）: $(13\times 13)，(26\times 26),(52\times 52)$ ,YOLOv3每个位置使用3个先验框，所以使用k-means得到9个先验框，并将其划分到3个尺度特征图上，尺度更大的特征图使用更小的先验框。

summary

大体学习了下YOLO系列的目标检测，但是其中的一些细节还不是很明了，需要结合代码实现了。

深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
基于yolov8的安全帽反光衣护目镜检测系统python源码+onnx模型+评估指标曲线+精美GUI界面 FL1623863129 深度学习 YOLO
【算法介绍】基于YOLOv8的安全帽、反光衣及护目镜检测系统是一款集成了前沿深度学习与计算机视觉技术的智能监控系统。该系统利用YOLOv8这一尖端的目标检测模型，结合云计算与自动化图像处理技术，实现对工地、化工厂、煤矿等高风险作业区域工作人员安全装备穿戴情况的实时监控。该系统能够无死角地检测工作人员是否按规定佩戴安全帽、反光衣及护目镜，有效提高了安全管理的效率和准确性。一旦系统识别到未按规定穿戴安
梯度下降法的神经网络容易收敛到局部最优，为什么应用广泛？ woshicver 神经网络算法机器学习人工智能深度学习
链接：https://www.zhihu.com/question/68109802编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：夕小瑶https://www.zhihu.com/question/68109802/answer/263503269反对回答区中一部分称“模型收敛于鞍点”的回答。当然也有的大牛可以一针见血，那我就对这个问题多展开一下吧，让鲜血流的更猛烈一些。（害怕.jpg）
深度学习与计算机视觉：实例入门-第六章 javastart 图象处理深度学习 tensorflow opencv2
给深度学习入门者的Python快速教程-番外篇之Python-OpenCV《深度学习与计算机视觉》全书网址：https://frombeijingwithlove.github.io…本篇原网址：https://zhuanlan.zhihu.com/p/24425116本篇是前面两篇教程：给深度学习入门者的Python快速教程-基础篇给深度学习入门者的Python快速教程-numpy和Matplo
工业界和学术界最大区别是什么？ woshicver 人工智能大数据机器学习微软社交网络
链接：https://www.zhihu.com/question/332602866编辑：深度学习与计算机视觉声明：仅做学术分享，侵删能源类工科博士在读，正在面临工业界和学术界的抉择，想知道两者的区别，以便提前做好准备。科研状态自我感觉挺舒适，习惯了自由自在，没有太大约束的生活，但是感觉自己做的东西浮在空中，落地会摔粉碎。学术圈目前应该是越来越难了吧，人才多，评职称艰难。隔壁实验室的讲师每天走得
有哪些能玩上一天的网站？ woshicver 交互设计 ai 办公软件编程语言微软
链接：https://www.zhihu.com/question/380741546编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：知乎用户https://www.zhihu.com/question/380741546/answer/1116841377这个网站叫「世界上最危险的写作工具」，它的目的是促进你不停地写作。工作原理是这样：开始写作前先设定一个时间目标，比如五分钟，那就意味着
写论文有哪些神网站？ woshicver
来源：https://www.zhihu.com/question/35931336编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：匿名用户https://www.zhihu.com/question/35931336/answer/665522751.学术网站大全推荐理由：包含了差不多可以查文献的所有网站，值得一看2.OpenStaxCollege推荐理由：盖茨夫妇建立免费大学教科书数据
你写论文时发现了哪些非常神的网站？小白学视觉数据库人工智能编程语言大数据搜索引擎
链接：https://www.zhihu.com/question/35931336转自：深度学习与计算机视觉声明：仅做学术分享，侵删作者：luluCHENGhttps://www.zhihu.com/question/35931336/answer/9983314041.文献检索类的网站我只推荐一个，只靠一个它我就完成了我3万字的硕士论文！隆重推出：大木虫学术导航不知道这个网站真的血亏!大木虫学
如何写好一篇高质量的IEEE/ACM Transaction级别的计算机科学论文? woshicver 人工智能 java 编程语言机器学习算法
链接：https://www.zhihu.com/question/22790506/answer/316005175编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：知乎用户https://www.zhihu.com/question/22790506/answer/81787300恭喜你已经有了一个A类别的idea和相应的实现以及数据，那么接下来就是写文章的问题了。计算机论文写作还是有一
深度学习在计算机视觉中的应用 a谷雨c 深度学习计算机视觉人工智能
深度学习在计算机视觉中的应用一、引言深度学习是现代计算机科学中最活跃的研究领域之一，其在计算机视觉中的应用尤为突出。计算机视觉是一门研究如何让计算机“看懂”图像、视频和现实世界的科学。深度学习技术的快速发展，为计算机视觉领域提供了前所未有的机遇。二、深度学习与计算机视觉深度学习的核心是神经网络，其可以自动提取图像中的特征，并进行分类和识别。在计算机视觉中，深度学习被广泛应用于图像分类、目标检测、人
深度学习与计算机视觉技术的融合 a谷雨c 深度学习计算机视觉人工智能
深度学习与计算机视觉技术的融合一、引言随着人工智能技术的不断发展，深度学习已经成为了计算机视觉领域的重要支柱。计算机视觉技术能够从图像和视频中提取有用的信息，而深度学习则能够通过学习大量的数据来提高计算机视觉技术的性能。本文将探讨深度学习与计算机视觉技术的融合，以及这种融合如何推动计算机视觉技术的发展。二、深度学习与计算机视觉技术的融合深度学习与计算机视觉技术的融合主要体现在以下几个方面：1.目标
【深度学习与计算机视觉】8、深度学习背景与人工神经网络呆呆的猫深度学习与计算机视觉深度学习计算机视觉机器学习
文章目录一、基础知识二、神经网络2.1神经网络的结构：2.2为什么神经网络在分类问题中的效果比较好：2.3BP算法一、基础知识线性分类器：工业界有很多算法完成分类的问题，比如线性分类器，输入一张32x32x3的矩阵，利用f(wx+b)得到属于不同类别的得分向量，方便演示，x列向量只选了4个值，w为3x4的矩阵，偏置项是为了让分类线可以上下平移，更好的分类，我们希望正确类别的得分比较高。两种理解方式
如何评价 IEEE Access 成为了 Top 期刊？ woshicver 人工智能 ai 社交网络 glassfish java
链接：https://www.zhihu.com/question/435657468编辑：深度学习与计算机视觉声明：仅做学术分享，侵删在最新的2020版中科院分区中，IEEEAccess分区为大类二区，Top期刊。作者：知乎用户https://www.zhihu.com/question/435657468/answer/1651104041利益相关——终于还是用了一把这个词儿，中过一篇IEEE
算法工程师当前选哪个方向好？视学算法算法广告大数据编程语言机器学习
公众号关注“视学算法”设为“星标”，消息即可送达！链接：https://www.zhihu.com/question/398876586编辑：深度学习与计算机视觉声明：仅做学术分享，侵删当前2020年，从社会需求，工资待遇，未来发展方面讲，算法工程师哪个方向好？1，计算机视觉；2,自然语言处理；3，风控；4，推荐系统？作者：YanChihttps://www.zhihu.com/question/
我们可以一起来聊聊算法工程师当前选哪个方向好？ Wang_AI 广告算法大数据编程语言机器学习
链接：https://www.zhihu.com/question/398876586编辑：深度学习与计算机视觉声明：仅做学术分享，侵删当前2020年，从社会需求，工资待遇，未来发展方面讲，算法工程师哪个方向好？1，计算机视觉；2,自然语言处理；3，风控；4，推荐系统？作者：YanChihttps://www.zhihu.com/question/398876586/answer/13488375
深度学习之PyTorch物体检测实战，读书笔记（一）艾1 yTorch物体检测实战深度学习 pytorch 计算机视觉
一.深度学习与计算机视觉机器学习的思想是让机器自动地从大量的数据中学习出规律，并利用该规律对未知的数据做出预测。深度学习的发展离不开编辑切换为居中添加图片注释，不超过140字（可选）深度学习在计算机视觉中的应用编辑切换为居中添加图片注释，不超过140字（可选）1.传统的物体检测算法思路编辑切换为居中添加图片注释，不超过140字（可选）2014年的RCNN(RegionswithCNNfeature
深度学习与计算机视觉的具体介绍格格巫 MMQ!! 深度学习神经深度学习计算机视觉人工智能
人工智能是人类一个非常美好的梦想，跟星际漫游和长生不老一样。我们想制造出一种机器，使得它跟人一样具有一定的对外界事物感知能力，比如看见世界。在上世纪50年代，数学家图灵提出判断机器是否具有人工智能的标准…人工智能是人类一个非常美好的梦想，跟星际漫游和长生不老一样。我们想制造出一种机器，使得它跟人一样具有一定的对外界事物感知能力，比如看见世界。在上世纪50年代，数学家图灵提出判断机器是否具有人工智能
深度学习与计算机视觉（一） @@老胡计算机视觉深度学习计算机视觉人工智能
文章目录计算机视觉与图像处理的区别人工神经元感知机-分类任务Sigmoid神经元/对数几率回归对数损失/交叉熵损失函数梯度下降法-极小化对数损失函数线性神经元/线性回归均方差损失函数-线性回归常用损失函数使用梯度下降法训练线性回归模型线性分类器多分类器的决策面softmaxRegression训练softmaxregression交叉熵损失解决参数冗余训练softmaxClassifier混淆矩阵
有没有什么可以节省大量时间的 Deep Learning 效率神器？ woshicver 人工智能 java 深度学习大数据机器学习
链接：https://www.zhihu.com/question/384519338编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：Finghttps://www.zhihu.com/question/384519338/answer/1160886439最近发现的一个神库。深度学习实验结果保存与分析是最让我头疼的一件事情，每个实验要保存对应的log，trainingcurve还有生成图
目前计算机视觉的现状和趋势，你怎么看？小白学视觉计算机视觉人工智能机器学习深度学习
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达链接：https://www.zhihu.com/question/361846939编辑：深度学习与计算机视觉目前计算机视觉领域相对于目前硬件和技术水平来说目标检测，追踪，分割，VQA到底发展到了什么地步，未来有哪些可以走下去的方向？多模态融合？你怎么看？作者：凤舞九天https://www.zhihu.com/questio
读博会改变人的性格吗？小白学视觉 weex systemd j2ee twitter 人工智能
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达本文转自|深度学习与计算机视觉读博二年级中。因为科研底子一般，所以不太被导师看重，因此发文章不愿开口请导师帮忙，这样就更不可能发文章。压力很大。有一种不确定的感觉。最关键的是，每天从睁开眼就是自己一个人去写论文，看文献，在脑海中一遍遍建构抽象的理论，自说自话，但是又一遍遍推翻自己的理论。难受。本硕期间都是985211，所以自认为
如何写好一篇SCI 并快速发表呢? woshicver 编程语言机器学习人工智能 bmp html
链接：https://www.zhihu.com/question/337000233编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：东东东https://www.zhihu.com/question/337000233/answer/766361014一篇SCI学术论文是指通过实验研究或者理论研究，所解决的一个科学问题的总结。本人是从事实验科学研究的，所以谈一谈基于科学实验的论文的写法。
对学术不怎么热爱，只想当大学老师而去读博可以么？ zenRRan weex internet 360 dns服务器 instance
点击上方，选择星标或置顶，每天给你送干货！阅读大概需要20分钟跟随小博主，每天进步一丢丢编辑：深度学习与计算机视觉仅作学术分享，不代表本公众号立场，侵权联系删除转载：https://www.zhihu.com/question/397721200/answer/1306501096作者：小青柑https://www.zhihu.com/question/397721200/answer/12692
研究生计算机专业的方向有哪些? woshicver 算法人工智能数据库编程语言 java
链接：https://www.zhihu.com/question/349899328/answer/1752872326编辑：深度学习与计算机视觉声明：仅做学术分享，侵删作者：CSGOGOGOhttps://www.zhihu.com/question/349899328/answer/1631226070国外的计算机研究生主要的专业方向主要分为：人工智能(ArtificialIntellige
同组博士师兄的结果复现不出来，我应该怎么办？ woshicver 人工智能算法机器学习 java 编程语言
链接：https://www.zhihu.com/question/502804990编辑：深度学习与计算机视觉声明：仅做学术分享，侵删今年研二，老师给了一个课题，让接着师兄的工作继续做。但是师兄的结果复现不出来，师兄不愿意给代码。前段时间因为马上要硕士生开题，所以骗了老师说我可以复现出来结果了。但是现在继续按着自己的仿真做下去，和师兄的现象完全不一样，应该怎么办比较好，有类似经历的小伙伴，你是否
《零基础实践深度学习》(第2版)学习笔记，（五）深度学习与计算机视觉智驾 AI 深度学习
文章目录1.计算机视觉概述2.图像分类3.目标检测1.计算机视觉概述图像分类目标检测2.图像分类3.目标检测
为什么说大模型训练很难？ woshicver
链接：https://www.zhihu.com/question/498271491编辑：深度学习与计算机视觉声明：仅做学术分享，侵删自从Bert网络模型产数量超过3亿规模，当时候只是觉得性能好，没想到GPT系列出来后，GPT-3直接用170B规模的参数量模型精度碾压竞品。接着就是新一轮的竞争了，后面的事情就有点可怕了，Google推出万亿稀疏switchtransformer，huawei推出
自动驾驶BEV感知的下一步是什么？ woshicver 自动驾驶人工智能机器学习
链接：https://www.zhihu.com/question/538920658编辑：深度学习与计算机视觉声明：仅做学术分享，侵删目前BEV感知似乎已经成了nuScenes/Waymoleaderboard上的主流，如纯camera的BEVFormer等，做Sensorfusion的TransFusion等，那么BEV感知还有什么可以填的坑吗？或者说BEV感知目前是否存在一个通病，学术界和工
学习指南—深度学习与计算机视觉学习经验总结【从学术到工作】 AI研习图书馆
一、引言计算机视觉的黄金时代真的到来了吗？近年来，随着深度学习技术的革新、计算存储的扩大、可视化数据集的激增，计算机视觉领域的研究开始蓬勃发展，如火如荼。在自动驾驶、智能安防、智慧城市、医疗保健、商业零售、航空能源、虚拟现实等诸多人工智能热门领域，计算机视觉技术落地开花，熠熠生辉。计算机视觉研究工作在学术界和工业界取得的巨大成功，每年吸引着数以万计的研究人员蜂拥而至，加入炼丹师的序列。甚至连生物医
技术部门Leader是不是一定要技术大牛担任？ woshicver
链接：https://www.zhihu.com/question/377457299/answer/2865702041编辑：深度学习与计算机视觉声明：仅做学术分享，侵删在实际工作中，我发现两种情况：第一种情况：技术部门的负责人，技术特别厉害的人不一定管理能力就很强，有时候工作量都在他身上。没有把所有组员的力量聚拢在一块使劲，搞得他很累，组员也发挥不了成绩。第二种情况：技术负责人技术能力一般，但
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

目标检测之YOLO V2 V3

YOLO V2

Better

Convolutional With Anchor Boxes

Dimension Clusters

Direct location prediction

Fine-Grained Features

Multi-Scale Training

Summary

Faster

Stroner YOLO9000

summary

YOLO V3

Darkent-53

多尺度预测

summary

你可能感兴趣的:(深度学习与计算机视觉)