车娜希n

FAST-RCNN

RBG的RCNN使用region proposal（具体用的是Selective Search Koen van de Sande: Segmentation as Selective Search for Object Recognition）来得到有可能得到是object的若干（大概10^3量级）图像局部区域，然后把这些区域分别输入到CNN中，得到区域的feature，再在feature上加上分类器，判断feature对应的区域是属于具体某类object还是背景。当然，RBG还用了区域对应的feature做了针对boundingbox的回归，用来修正预测的boundingbox的位置。RCNN在VOC2007上的mAP是58%左右。
RCNN存在的问题：1、一张图像上有大量的重叠框，所以这些候选框送入神经网络时候，提取特征会有冗余！ 2、训练的空间需求大。因为RCNN中，独立的分类器和回归器需要很多的特征作为训练。RCNN中提取候选框，提取特征和分类回归是分开的，可独立。
FAST-RCNN步骤
1、使用SS算法，在图像上生成2k个候选区域
2、将整张图片传入CNN，提取整张图片的特征
3、利用ROIPooling，在整张图片特征上扣取候选区域的特征（不同大小的候选区特征大小相同）
4、利用扣取的特征，对每个候选区域进行分类和候选框的回归精修

SPP的作用：不管输入的尺寸大小，输出都是固定的。

我们从上面网络结构图可以看出：最右边的不管输入是什么尺寸，每个特征图只输出一个值；中间的是不管输入什么尺寸，将特征图分为2*2个矩阵，每个矩阵取出一个值，一共有4个值；同理，最左边输出有16个值。所以不管输入特征图的大小，每一个特征图经过SPP以后都会产生21维的特征向量。

ROI pooling layer具体操作

根据输入image，将ROI映射到feature map对应位置
将映射后的区域划分为相同大小的sections（sections数量与输出的维度相同）
对每个sections进行max pooling操作
这样我们就可以从不同大小的方框得到固定大小的feature maps

摘要

本文为目标检测提出了一种基于快速区域的卷积网络方法(FAST R-CNN)。FAST R-CNN建立在以前工作的基础上，利用深度卷积网络对目标进行有效分类。与以往的工作相比，FAST R-CNN在提高训练和测试速度的同时，也提高了检测精度。Fast R-CNN训练非常深的VGG16网络比R-CNN快9倍，测试时快213倍，并在Pascal voc 2012上取得了更好的效果。与sppnet相比，Fast R-CNN训练速度为VGG16 的3倍快，测试速度为10倍快，且精度更高。FAST R-CNN是在python和c++(使用caffe)中实现的，并且可以在开放源代码的MIT许可下获得：https: //github.com/rbgirshick/fast-rcnn.

一、引言

最近，深度卷积网络[14，16]大大提高了图像分类[14]和目标检测[9，19]的准确性。与图像分类相比，目标检测是一项更具有挑战性的任务，需要更复杂的方法来解决。由于这一复杂性，目前的方法(例如，[9，11，19，25]在多级流程中训练模型速度缓慢，且效果不佳。
复杂性的提高是因为检测需要精确地定位对象，这就产生了两个主要的挑战。首先，必须处理许多候选对象位置(通常称为“建议框”)。第二，这些候选框只提供粗略的位置，必须加以改进才能实现精确的定位。这些问题的解决方案往往会影响速度、准确性或简单性。
在本文中，我们简化了基于ConvNet的目标检测器的训练过程[9，11].我们提出了一种单级训练算法，它联合学习对目标方案进行分类并细化它们的空间位置。
此方法可以训练出一个非常深的检测网络，比VGG16快9倍，比SPPnet[11]快3倍。在运行时，检测网络在0.3s内处理图像(不包括对象提议时间)，同时在Pascal voc 2012[7]上达到最高精度，为66%(R-CNN为62%)。

1.1 RCNN和SPP-Net

基于区域的卷积网络方法(RCNN)[9]利用深度ConvNet对目标建议框进行分类，获得了很好的目标检测精度。然而，R-CNN有明显的缺点：
1.训练是一个多阶段的过程。 R-CNN第一次使用对数损失函数完成了关于目标建议框的ConvNet。然后，它使用svms拟合ConvNet特性。这些svms充当对象检测器，取代通过微调学习的Softmax分类器。在第三个训练阶段，边框才被学习到。
2.训练在空间和时间上都是昂贵的。 对于svm和bounding-box回归的训练，从每个图像中的每个对象建议框中提取特征并写入磁盘。对于非常深的网络(如VGG16)，这个过程需要GPU用2.5天的时间来处理VOC07的trainval集的5k图像。这些特性需要数百GB的存储空间。
3.目标检测速度慢。 在测试时，从每个测试图像中的每个对象建议框中提取特征.使用VGG16进行检测每张图片需要47s(在GPU上)。
R-CNN速度慢，因为它对每个对象建议框执行一个ConvNet前向传递，而不需要共享计算。空间金字塔池化网络(Sppnet)[11]被提出通过共享计算来加速R-CNN。sppnet方法计算整个输入图像的卷积特征映射，然后使用从共享特征映射中提取的特征向量对每个对象建议框进行分类。通过最大限度地将建议框内的特征映射部分合并成固定大小的输出(例如，6×6)，为建议框提取特征。多个输出大小被池化，然后像在空间金字塔池[15]中那样连接。在测试时间，sppnet将R-CNN加速10至100倍。由于建议框特征提取速度更快，训练时间也减少了3倍。
sppnet也有明显的缺点。像R-CNN一样，训练是一个多阶段的过程，包括提取特征，用log损失函数对网络进行微调，训练svm，并最终拟合bounding-box回归器。特性也被写入磁盘。但与R-CNN不同，微调算法不能更新空间金字塔池之前的卷积层。毫不奇怪，这种限制(固定的卷积层)限制了非常深的网络的精度。

1.2. Contributions

我们提出了一种新的训练算法，在提高训练速度和精度的同时，弥补了R-CNN和sppnet的缺点。我们称这种方法为“Fast R-CNN”，因为它的训练和测试相对较快。Fast R-CNN方法有几个优点：
1.检测质量(MAP)高于R-CNN，sppnet
2.训练是单一阶段，使用多任务损失
3.训练可以更新所有网络层
4。功能缓存不需要磁盘存储。
FAST r-cnn是用python和c++(caffe[13])编写的，在开放源码的MIT许可下可以在 https://github.com/rbgirshick/ fast-rcnn.

二、Fast-RCNN的架构和训练

图1.快速r-CNN架构。一个输入图像和多个感兴趣区域(ROIS)被输入到全卷积网络中。每个ROI集合成一个固定大小的特征映射，然后通过完全连接层(FCS)映射到一个特征向量。该网络每个ROI有两个输出向量：Softmax概率和每类bounding-box回归偏移量。该体系结构是经过训练的端到端的多任务损失。
Fig.1说明了Fast R-CNN的体系结构。一个快速的R-CNN网络接受一个完整的图像和一组对象建议框作为输入。该网络首先用多个卷积(Conv)和最大池化层处理整个图像，生成一个Conv特征映射。然后，对于每个对象建议框，感兴趣区域(ROI)池化层从特征映射中提取固定长度的特征向量。每个特征向量被输入到一个完全连接(FC)层的序列中，这些层最终被划分为两个兄弟级输出层：一个在k个对象类上生成Softmax概率估计，另一个层为每个k个对象类输出四个实值数字。每组4个值编码一个k类的bounding-box位置。

2.1 ROI池化层

ROI池层使用最大池化将感兴趣的任何有效区域内的特征转换为具有固定空间范围 h×w(例如，7×7)的小特征映射，其中h和w是与任何特定ROI无关的层超参数。在本文中，ROI是进入Conv特征映射的矩形窗口。每个ROI由一个四元组(r，c，h，w)定义，该元组指定其左上角(r，c)及其高度和宽度(h，w)。
ROI最大池化层的工作原理是将h×w 的ROI窗口划分为近似大小为h/H×w/W的子窗口的H×W的网格，然后将每个子窗口pooling输出的值合并到相应的输出网格单元中。池化独立地应用于每个特征映射通道，如标准的最大池化。ROI层只是sppnet[11]中使用的空间金字塔池层的特例，其中只有一个金字塔级别。我们使用[11]中给出的池子窗口计算。

2.2、从预先训练的网络初始化

我们用三个预先训练过的ImageNet[4]网络进行实验，每个网络都有5个最大池化层和5-13个Conv层(详见4.1节)。当预先训练的网络初始化一个快速的R-CNN网络时，它会经历三个转换.。
首先，将最后一个最大池化层替换为ROI池化层，通过设置H和W与网络的第一个全连接层兼容(例如，H=W=7表示VGG16)
其次，网络的最后一个全连接层和Softmax(为1000路ImageNet分类训练)被替换为前面描述的两个兄弟层(一个全连接层后接k+1类别的Softmax和一个全连接层后接特定类别的bounding-box回归器)。

2.3、检测微调

利用反向传播训练所有网络权值是快速R-CNN的一项重要能力。首先，让我们阐明为什么SPPnet无法更新空间金字塔池层以下的权重。
其根本原因是当每个训练样本(即ROI)来自不同的图像时，通过SPP层的反向传播效率很低，这正是R-CNN和SPPnet网络被训练的方式。低效率源于这样一个事实：每个ROI可能有一个非常大的感受域，通常跨越整个输入图像。由于前向传播必须处理整个感受域，训练输入量很大(通常是整个图像)。
我们提出了一种在训练过程中利用特征共享的高效训练方法。在FAST R-CNN训练中，随机梯度下降(SGD)分层采样mini-batch，首先对N个图像进行采样，然后从每幅图像中采样R/N个ROI。关键的是，来自同一图像的ROIS在向前和向后传播中共享计算和内存。减小N可以减少了mini-batch计算量。例如，当使用N=2和R=128时，所提出的训练方案比从128幅不同图像(即R-CNN和sppnet策略)中采样一次ROI快约64倍。
这种策略的一个关注点是，它可能会导致训练收敛速度缓慢，因为来自同一图像的ROI是相关的。这似乎不是一个实际的问题，我们取得了较好的结果，N=2和R=128比R-CNN使用更少的SGD迭代。
除了分层抽样之外，FAST R-CNN还使用了一个简化的训练过程，通过一个微调阶段联合优化Softmax分类器和bounding-box回归器，而不是将Softmax分类器、svms和回归器训练在三个不同的阶段[9，11]。此过程的组成部分(loss、mini-batch抽样策略、通过ROI池化层的反向传播和SGD超参数)如下所述。
多任务损失：一个Fast R-CNN网络有两个兄弟输出层。第一个输出k+1个类别的离散概率分布(每ROI)， $p=(p_0,...,p_K)$ 。和往常一样，p是由全连接层的k+1个输出接Softmax计算的。第二个兄弟层输出bounding-box回归偏移量， $t^k=(t^k_x,t^k_y,t^k_w,t^k_h)$ 。对于每个K对象类，按k索引。我们使用了[9]中给出的 $t^k$ 参数化，其中指定了相对于对象方案的尺度不变平移和对数空间高度/宽度移动。
每个训练ROI都被标记为一个ground-truth类u和一个ground-truth bounding-box回归目标v。我们使用多任务损失函数L对每个标记的roi进行分类和bounding-box回归的联合训练：
$L(p,u,t^u,v)=L_{cls}(p,u)+λ[u≥1]L_{loc}(t^u,v)$
其中 $L_{cls}(p,u)=-logp_u$ 是u的log损失。

第二个任务损失定义在类u和 $v=(v_x,v_y,v_w,v_h)$ 的真实bounding-box回归目标元组上。当u≥1，[u≥1]值为1，否则为0。按照惯例，捕获所有背景类标记为u=0。对于背景ROI，不存在ground-truth bounding-box的概念，因此 $L_{loc}$ 被忽略。对于bounding-box回归，我们使用损失：
$L_{loc}(t^u,v)=∑_{i∈\{x,y,w,h\}}smooth_{L_1}(t^u_i-v_i)$
$smooth_{L_1}(x)=\left\{ \begin{aligned} 0.5x^2 &&if|x|<1\\ |x|-0.5&&otherwise \end{aligned} \right.$
是一种鲁棒的L1损失，与r-cnn和sppnet中使用的L2损失相比，它对异常值更不敏感（因为L2是平方）。当回归目标是无界的，L2损失的训练可能需要仔细调整学习率，以防止梯度暴涨。Eq3消除了这种敏感性。
方程中的超参数λ控制两项任务loss之间的平衡。我们将ground-truth回归目标 $v_i$ 归一化为零均值和单位方差.所有实验都使用λ=1。
我们注意到，[6]使用相关的loss来训练一个与类无关的对象提取网络。与我们的AP-proach不同，[6]主张采用两种网络系统，即SEPA分别进行定位和分类。Overfeat[19]、r-cnn[9]和sppnet[11]也训练分类器和 bounding-box定位器，但是这些方法都是分阶段训练的，我们发现对于快速r-cnn来说，这些方法是次优的(5.1节)。
mini-batch抽样 ：在微调过程中，每个SGDmini-batch由N=2幅图像组成，随机一致地选择(通常的做法是，我们实际上迭代了数据集的排列)。我们使用R=128的mini-batch，从每幅图像中抽取64个ROIs.与[9]一样，我们从目标建议框与真实边界框的重叠交并比(IOU)大于等于0.5的ROI中获取25%的ROI。这些ROI包括标记为前景对象类(即u≥1)的示例。其余的ROI是从目标建议框中取样的，IOU在[0.1，0.5)间。这些是背景示例，标记为u=0。较低的阈值0.1似乎作为一个启发式的难例子挖掘[8]。在训练期间，图像水平翻转的概率为0.5。不使用其他数据增强。
**通过roi池化层的反向传播：**反向传播将衍生物通过ROI池化层传播。为了清晰起见，我们假mini-batch只有一个图像(N=1)，但是对N>1的扩展很简单，因为向前传递处理所有图像都是独立的。
设 $x_i∈R$ 是ROI池化层的第i个激活输入，而 $y_{rj}$ 是该层第r个ROI的第j个输出。ROI池化层计算 $y_{rj}=x_{i*(r,j)}$ ，其中 $i∗(r,j)=argmax_{i^{'}∈R(r,j)}x_{i^{'}}$ 。 $R (r, j)$ 是输出单元 $y_{rj}$ 的最大池化所经过的子窗口中输入的索引集。可以将单个 $x_i$ 分配给几个不同的输出 $y_{rj}$ 。
ROI池化层的后向函数计算损失函数相对于每个输入变量xi的偏导数，方法是按照argmax转换： ${∂L\over ∂x_i}=∑_r∑_j[i=i^*(r,j)]{∂L\over∂y_{rj}}$
就是说，对于每个mini-batch ROI r和每个池输出单元 $y_{rj}$ ，如果i是通过最大池化为选择的argmax，则会累积偏导数 ${∂L\over ∂y_{ri}}$ 。在反向传播中，偏导数 ${∂L\over ∂y_{ri}}$ 已经由ROI池化层上的层的反向函数来计算。
**SGD超参数：**利用标准差分别为0.01和0.001的零均值高斯分布，对用于softmax（软最大值分类）和bounding-box回归的全连接层进行了初始化。偏差被初始化为0。所有层都使用1的每层学习速率作为权重，2用于偏置，全局学习速率为0.001。在VOC07或VOC12的训练中，我们运行SGD进行30k的小批量迭代，然后将学习率降低到0.0001，再训练10K的迭代。当我们对较大的数据集进行训练时，我们运行SGD进行更多的迭代，如后面所述。动量为0.9，参数衰减为0.0005(关于权重和偏置)。

2.4.尺度不变性

我们探讨了两种实现尺度不变目标检测的方法：(1)通过“brute force”学习和(2)利用图像金字塔。这些战略遵循[11]中的两种方法。在“brute force”法中，在训练和测试过程中，每幅图像都以预先定义的像素大小进行处理。网络必须从训练数据中直接学习尺度不变的目标检测。
相比之下，多尺度方法通过图像金字塔为网络提供了近似的尺度不变性.在测试时，图像金字塔被用来对每一个目标方案进行近似规模的规范化。在多尺度训练中，我们随机抽样一个金字塔尺度，每次一幅图像被采样，如下[11]，作为数据增强的一种形式。由于GPU内存的限制，我们只对较小的网络进行多尺度训练。

三、Fast R-CNN的检验

一旦fast r-cnn网络被微调，检测就相当于向前传播(假设目标建议框是预先计算的)。该网络以图像(或图像金字塔，编码为图像列表)和R对象建议框列表来得分作为输入。在测试时，R通常在2000左右，尽管我们将考虑它更大的情况(≈45k)。当使用图像金字塔时，每个ROI被分配到缩放，使得缩放后的ROI在区域[11]中最接近224x224像素。
对于每个测试的ROI，R正向传递输出一个类后验概率分布p和一组相对于R的预测bounding-box偏移量(每个k类都有自己的精化bounding-box预测)。我们使用估计的概率为每个对象类k指定一个检测置信度为r。然后，我们使用r-cnn[9]中的算法和设置，独立地对每个类执行非极大抑制。

3.1.截断SVD以提高检测速度

对于全图像分类，计算全连接层的时间比Conv层少。相反，为了检测要处理的ROI数目很大，并且几乎一半的前向通过时间用于计算全连接层(参见图)。使用截断的SVD[5，23]压缩大的全连接的层很容易加速。
在这种技术中，含有权重为u×v的矩阵w参数的层被近似SVD分解为：
$W≈U∑_tV^T$
在这个因式分解中，u是一个u×t矩阵，它包含w的前t个左奇异向量， $_t$ 是包含w的t个奇异值的t×t对角矩阵，v是包含w的前t个右奇异向量的v×t矩阵。截断的SvD将参数从UV减少到t(u+v)，如果t比min(u，v)小得多，这是非常显著的。为了压缩网络，将对应于w的单个全连接层替换为两个全连接层，它们之间没有非线性。这些层中的第一层使用权重矩阵 $_tV^T$ (无偏差)，第二层使用u(具有与w相关的原始偏差)。这种简单的压缩方法提供了良好的加速比，当ROIs的数目很大时。

四、主要结论

本文的三个主要贡献：
1、VOC07，2010和2012上最先进的mAP
2、与r-cnn，sppnet 相比，快速训练和测试。
3、微调vgg16中的conv层改进map

4.1.实验装置

我们的实验使用了三个预先训练过的ImageNet模型，它们都可以在线上使用。第一个是来自r-cnn[9]的caffenet(本质上是alexnet[14])。我们也可以将此caffenet称为模型s，表示“小”。第二个网络是[3]的vgg CNN m 1024，其深度与s相同，但更宽。我们把这个网络模型叫做m，意思是“中等”。最后的网络是[20]中非常深的vgg16模型。因为这个模型是最大的，所以我们称它为模型L。在本节中，所有的实验都使用单尺度的训练和测试(s=600；详见5.2节)。

4.2.2010年和2012年成果

这些数据集上，我们比较了FAST r-CNN(简称FRCN)与Comp 4(外部数据)轨道上来自公共排行榜的顶级方法(表2，表3)。对于NUS nin C 2000和婴儿学习方法，目前还没有相关的出版物，我们无法找到使用的ConvNet体系结构的确切信息；它们是网络中网络设计的变体[17]。所有其他方法都是从同一个预先训练的vgg16网络中初始化的。
FAST r-CNN以65.7%的特征(和68.4%的额外数据)获得了VOC12的最高结果。这也是两个数量级的速度比其他方法，这都是基于“慢”的r-cnn流程。在VOC10上，SegDeepM[25]实现了一个更高的mAP比快速的r-cnn(67.2%比66.1%)。SegDeepM是关于VOC12加分割注释的训练；它的设计是为了提高r-cnn的准确性，使用马尔可夫随机场对r-cnn检测和从O2P[1]语义分割方法中的分段进行推理。快速r-cnn可以用SegDeepM代替r-cnn，这样可以得到更好的效果。当使用扩大的07 12训练集(见表2标题)时，快速r-cnn的地图增加到68.8%，超过了SegDeepM。

4.3. VOC 2007 结果

在VOC2007，我们比较了快速的r-cnn，r-cnn和sppnet.所有方法都从相同的预先训练的vgg16网络开始，并使用bounding-box回归。vgg16sppnet结果由[11]作者计算。sppnet在训练和测试中使用五种量表。快速r-cnn在sppnet上的改进说明，尽管FAST r-cnn使用单尺度的训练和测试，但对conv层的微调使MAP得到了很大的改进(从63.1%提高到66.9%)。R-CNN实现了66.0%的map。作为一个小问题，sppnet在Pascal没有被标记为“困难”的例子进行了训练。删除这些例子提高了快速r-cnn map到68.1%.所有其他实验都使用“困难”的例子。

4.4.训练和测试时间

快速的训练和测试时间是我们的第二大成果。表4比较了快速rcnn、r-cnn和sppnet之间的训练时间(小时)、测试速率(每张图像秒数)，以及voE 07上的地图。对于vg 16，快速r-cnn处理图像的速度比没有截断SvD的r-cnn快146×，用它处理图像的速度为213×。训练时间从84小时减少到9.5小时，缩短了9×10。与sppnet相比，快速rcnn列车vg 16 2.7×捷(9.5比25.5小时)，测试速度7×快而不截断SvD或10×快。快速r-cnn也消除了数百GB的磁盘存储，因为它没有缓存功能。

表4.快速rcnn、r-cnn和sppnet中相同模型的运行时比较。快速r-cnn采用单尺度模式。sppnet使用[11]中规定的五个比例。†时间由[11]的作者提供。在NVIDIA K40 GPU上测量时间。
**截段的SvD：**截断的SvD可以减少30%以上的检测时间，只需在特征图上下降一点点(0.3个百分点)，并且无需在模型压缩后执行额外的微调。Fig2说明利用vgg16层fc6层中25088×4096矩阵的前1024个奇异值和4096×4096fc7层的前256个奇异值如何在不损失MAP的情况下减少运行时。如果压缩后再进行一次细调的话，map上会有更小的下降，从而可以进一步加快速度.。

图2.在截断SvD之前和之后进行vgg16的计时。在SvD之前，全连接层fc6和fc7占45%的时间。

4.5.哪一层要细调？

对于sppnet论文[11]中考虑的深度较小的网络，仅对全连接层进行微调似乎就足以获得很好的精度。我们假设这一结果不会适用于非常深的网络。为了验证微调conv层对于vgg16很重要，我们使用快速r-cnn来微调，但是冻结13个conv层，以便只有全连接层才能学习。此消融模拟单尺度sppnet训练，将MAP从66.9%降至61.4%(表5)。本实验验证了我们的假设：通过ROI池化层进行训练对于非常深的网非常重要。
这是否意味着所有的conv层都应该进行微调？总之，没有。在较小的网络(s和m)中，我们发现conv1是泛型的和任务无关的(众所周知的事实[14])。是否允许conv1学习，对map没有任何意义。对于vgg16，我们发现只需要从conv3_1和以上更新层(13个conv层中的9个)。这是一种实用的观察方法：(1)用conv2_1进行更新，使训练速度比从conv3_1学习慢1.3倍(12.5比9.5小时)；(2)从conv1溢出GPU内存中进行更新。从conv2_1向上学习时，map的差异仅为0.3点(表5，最后一栏)。所有快速r-cnn的结果在本文中使用vgg16微调层conv3_1及以上；所有的实验模型s和m微调层conv2以上。

5.设计评价

我们进行了实验，以了解rcnn与r-cnn和sppnet相比有多快，以及评估设计决策。按照最佳实践，我们在Pascal语音07数据集上进行了这些实验。

5.1.多任务训练有用吗？

多任务训练是很方便的，因为它避免了管理一系列经过连续训练的任务。但是它也有改善结果的潜力，因为任务通过共享表示(ConvNet)相互影响[2]。多任务训练能提高快速r-cnn的目标检测精度吗？
为了测试这个问题，我们在eq中训练只使用分类损失LCLS的基线网络。1(即设置λ=0)。这些基线是在表6每组的第一栏中为模型s、m和l打印的。请注意，这些模型没有bounding-box回归器。接下来(每组第二列)，我们采用多任务损失(Eq)训练的网络。1，λ=1)，但我们在测试时禁用了bounding-box回归。这隔离了网络的分类精度，并允许将苹果与基线网络进行比较。
在这三个网络中，我们观察到多任务训练相对于单纯的分类训练提高了纯分类的准确性。改进范围为0.8~1.1个地图点，多任务学习显示出一致的积极效果。
最后，我们采用基线模型(只对分类损失进行训练)，在bounding-box回归层上定位，并使用对其进行训练，同时保持所有其他网络参数的冻结。每组中的第三列显示了这种分阶段训练方案的结果：MAP比第一列有所改进，但分阶段训练的效果不如多任务训练(每组第四列)。

5.2.尺度不变性：蛮力还是技巧？

我们比较了两种实现尺度不变目标检测的策略：蛮力学习(单尺度)和图像金字塔(多尺度).在任何一种情况下，我们定义图像的尺度s为其最短边的长度。
对于某些图像，所有使用s=600像素的单尺度实验都可能小于600，因为我们将最长的图像侧限制在1000个像素，并保持图像的高宽比。选择这些值是为了使vgg16在微调期间适合GPU内存。较小的模型不受内存约束，可以从更大的s值中受益；但是，为每个模型优化s不是我们主要关心的问题。我们注意到PASCAL图像平均为384×473像素，因此单尺度设置通常会将图像提升1.6倍。因此，ROI池化层的平均有效步长为≈10像素。
在多尺度设置中，[11]我们使用(s∈{480，576，688，864，1200})中指定的五个标度，以便于与sppnet进行比较。然而，我们限制最长的一面在2000像素，以避免超过GPU内存。

表7显示了用一种或五种尺度训练和测试的模型s和m。也许在[11]中最令人惊讶的结果是单尺度检测的性能几乎和多尺度检测一样好。我们的发现证实了他们的结果：深度网络擅长直接学习尺度不变性。多尺度方法在计算时间上只提供了少量的地图增长，但成本却很高(表7)。在vgg16(模型l)的情况下，我们仅限于通过实现细节使用单个比例。然而，它实现了66.9%的map，略高于为r-cnn[10]报道的66.0%，尽管r-cnn使用“无限”尺度，即每个提案都被扭曲成标准大小。
由于单尺度处理提供了速度和精度之间的最佳折衷，特别是对于非常深的模型，在这个分区之外的所有实验都使用单尺度的训练和测试，s=600像素。

5.3.我们需要更多的训练数据吗？

当提供更多的训练数据时，一个好的目标检测器应该得到改进。朱等人[24]发现DPM[8]地图仅在几百到1000个训练示例之后就饱和了。在这里，我们用VOC12斜交集增加了VOC07的斜交集，大致将图像的数量增加到16.5k，以评估快速的r-cnn。训练集的扩大提高了VOC07测试的MAP，从66.9%提高到70.0%(表1)。在此数据集上进行训练时，我们使用60k的小批处理迭代，而不是40k。
我们对VOC10和2012进行了类似的实验，我们为其构建了一个21.5k图像的数据集，该数据集来自VOC07trainval、test和voc12trainval。在此数据集上进行训练时，我们使用100 k SGD迭代，将学习速度降低0.1×每40k迭代(而不是每30k)。10和2012年，MAP分别从66.1%提高到68.8%，从65.7%提高到68.4%。

5.4.svms的表现优于Softmax吗？

快速r-cnn使用在微调过程中学习到的Softmax分类器，而不是像在r-cnn和sppnet中所做的那样训练1-VS-REST线性svms。为了了解这一选择的影响，我们在快速r-cnn中实施了带有硬负挖掘的特设svm训练。我们使用与r-cnn相同的训练算法和超参数。

表8显示，在所有三个网络中，Softmax略优于svm，比svm高0.1至0.8个百分点。这一效果很小，但它表明，“一次”微调比以往的多阶段训练方法是足够的。我们注意到，与1-VS-REST svms不同的是，Softmax在得分ROI时引入了类间的竞争。

5.5.更多的建议总是更好吗？

有(广义)两种类型的对象检测器：使用稀疏的对象建议集(例如选择性搜索[21])和使用密集的检测器(例如DPM[8])。分类稀疏提案是一种级联式[22]，在这种类型中，提案机制首先拒绝了大量的候选方案，使分类器有一小部分待评估的集合。当应用于DPM检测时，这种级联提高了检测精度[21]。我们发现，提出的分类器级联也提高了快速的r-CNN的准确性。
采用选择性搜索的质量模式，对每幅图像从1k到10k的方案进行扫描，每次对模型m进行再训练和再测试。如果提案是一个纯粹的计算角色，增加每个图像的建议数量不应该损害mAp。
我们发现，随着建议数的增加，map会上升，然后略有下降(图)。3、实心蓝线)。这个实验表明，用更多的建议淹没深层分类器并没有帮助，甚至轻微地降低了准确性。

如果没有实际的实验，这个结果是很难预测的。测量对象提案质量的最新技术是平均召回(Ar)[12]。当每幅图像使用固定数目的建议时，AR与map有很好的相关性，使用r-cnn的几种建议方法。Fig3表明AR(实心红线)与map的相关性不是很好，因为每幅图像的建议数是不同的。必须谨慎使用AR；更多提案所导致的更高的AR并不意味着MAP将增加。幸运的是，使用m模型进行训练和测试所需时间不到2.5个小时。因此，快速r-cnn能够有效、直接地评估对象提案图，这比代理度量更可取。
我们还研究了快速r-cnn时，使用密集产生的盒子(超过规模，位置，和纵横比)，在大约45K盒/图像。这个密集足够丰富，当每个选择性搜索框被其最近的(IOU)密集框所取代时，MAP只下降1个点(到57.7%，图)。3，蓝色三角形)。
密集框的统计量与选择性搜索框的统计值不同。从2k选择性搜索盒开始，加入1000×{2，4，6，8，10，32，45}密集盒的随机样本，对map进行测试。对于每个实验，我们重新训练和再测试模型m。当添加这些密集框时，MAP下降的幅度比添加更多选择性搜索框时更大，最终达到53.0%。
我们还训练和测试快速r-cnn只使用密集盒(45K/图像)。此设置产生的map为52.9%(蓝色钻石)。最后，我们检查是否需要硬负挖掘的svms来处理密集盒分布。svms做得更糟：49.3%(蓝色圆圈)。

5.6.初步的Ms coco结果

我们将快速r-cnn(Vg 16)应用于Ms coco数据集[18]，以建立一个初步的基线。我们在80k图像训练集上训练240 k迭代，并使用评估服务器在“test-dev”集上进行评估。帕斯卡式地图为35.9%；新的coco式AP(平均超过IOU阈值)为19.7%。

六、结论

本文提出了一种对R-CNN和sppnet进行快速更新的方法.除了报告最新的检测结果外，我们还提供了详细的实验，希望能提供新的见解。特别值得注意的是，稀疏的目标建议似乎提高了检测器的质量。在过去，这个问题花费太大(时间太长)，但随着r-cnn的快速增长，这个问题变得实际起来。当然，可能还存在一些尚未被发现的技术，这些技术允许密集的盒子执行以及稀疏的建议。这些方法，如果得到发展，可能有助于进一步加快目标检测。

致谢。我感谢凯明，他，拉里齐尼克，和皮奥特美元提供了有益的讨论和鼓励。

References [1] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV, 2012. 5 [2] R. Caruana. Multitask learning. Machine learning, 28(1), 1997. 6 [3] K. Chatfield, K. Simonyan, A. Vedaldi, and A. Zisserman. Return of the devil in the details: Delving deep into convolutional nets. In BMVC, 2014. 5 [4] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. FeiFei. ImageNet: A large-scale hierarchical image database. In CVPR, 2009. 2 [5] E. Denton, W. Zaremba, J. Bruna, Y. LeCun, and R. Fergus. Exploiting linear structure within convolutional networks for efficient evaluation. In NIPS, 2014. 4 [6] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In CVPR, 2014. 3 [7] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) Challenge. IJCV, 2010. 1 [8] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. TPAMI, 2010. 3, 7, 8 [9] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. 1, 3, 4, 8 [10] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Regionbased convolutional networks for accurate object detection and segmentation. TPAMI, 2015. 5, 7, 8 [11] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV, 2014. 1, 2, 3, 4, 5, 6, 7 [12] J. H. Hosang, R. Benenson, P. Dollar, and B. Schiele. What ´ makes for effective detection proposals? arXiv preprint arXiv:1502.05082, 2015. 8 [13] Y. Jia, E. Shelhamer, J. Donahue, S. Karayev, J. Long, R. Girshick, S. Guadarrama, and T. Darrell. Caffe: Convolutional architecture for fast feature embedding. In Proc. of the ACM International Conf. on Multimedia, 2014. 2 [14] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012. 1, 4, 6 [15] S. Lazebnik, C. Schmid, and J. Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006. 1 [16] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard, and L. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comp., 1989. 1 [17] M. Lin, Q. Chen, and S. Yan. Network in network. In ICLR, 2014. 5 [18] T. Lin, M. Maire, S. Belongie, L. Bourdev, R. Girshick, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zit- ´ nick. Microsoft COCO: common objects in context. arXiv e-prints, arXiv:1405.0312 [cs.CV], 2014. 8

[19] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. In ICLR, 2014. 1, 3 [20] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In ICLR, 2015. 1, 5 [21] J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013. 8 [22] P. Viola and M. Jones. Rapid object detection using a boosted cascade of simple features. In CVPR, 2001. 8 [23] J. Xue, J. Li, and Y. Gong. Restructuring of deep neural network acoustic models with singular value decomposition. In Interspeech, 2013. 4 [24] X. Zhu, C. Vondrick, D. Ramanan, and C. Fowlkes. Do we need more training data or better models for object detection? In BMVC, 2012. 7 [25] Y. Zhu, R. Urtasun, R. Salakhutdinov, and S. Fidler. segDeepM: Exploiting segmentation and context in deep neural networks for object detection. In CVPR, 2015. 1,

你可能感兴趣的:(论文解读)

【论文解读】DSVP：通过动态扩展实现快速探索的双阶段视点规划器 Travis.X 论文解读自动驾驶动态规划人工智能
标题：DSVP:Dual-StageViewpointPlannerforRapidExplorationbyDynamicExpansion作者：HongbiaoZhu,ChaoCao,YukunXia,SebastianScherer,JiZhang,andWeidongWang来源：https://frc.ri.cmu.edu/~zhangji/publications/IROS_2021.
论文解读 | 《忍冬桑黄发酵产黄酮类化合物的研究》桑黄研究员健康医疗人工智能
出版日期：2022年发表刊物：《中南林业科技大学》论文作者：朱姝枚桑黄（Sanghuangporus）是一种传统的药用真菌，具有显著的免疫增强和抗肿瘤功效。黄酮类化合物作为桑黄中的高含量次生代谢物，主要存在于其菌丝和子实体中，对人体健康具有重要作用。近年来，随着人们对健康的日益关注，利用食用菌作为原料提取黄酮类化合物的研究逐渐成为营养学领域的重要课题。忍冬桑黄（Sanghuangporusloni
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割 985小水博一枚呀论文解读深度学习 transformer 人工智能网络 cnn
【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割文章目录【深度学习遥感分割|论文解读2】UNetFormer：一种类UNet的Transformer，用于高效的遥感城市场景图像语义分割2.Re
[论文解读] 多机器人系统动态任务分配综述「已注销」算法
https://www.emerald.com/insight/content/doi/10.1108/IR-04-2020-0073/full/html多机器人/多智能体动态环境任务分配决策动态任务调度策略该文章主要是想对目前stateoftheart多机器人动态任务调度策略做一个全面的评价，注意定语挺多的，里面的方法也较多为近几年的智能调度那些算法。衡量方法主要考虑到了应用场景、限制、目标方程
【每日论文】Forgetting Transformer: Softmax Attention with a Forget Gate WHATEVER_LEO 每日论文 transformer 深度学习人工智能自然语言处理计算机视觉语言模型
下载PDF或查看论文，请点击：LlamaFactory-huggingfacedailypaper-每日论文解读|LlamaFactory|LlamaFactory摘要现代循环序列模型的一个关键组件是遗忘门。虽然Transformer没有显式的循环形式，但我们展示了一种通过以数据依赖的方式降低未归一化注意力分数的自然方法，将遗忘门融入Transformer。我们称这种注意力机制为“遗忘注意力”，并
[arxiv论文解读]LlamaFactory：100+语言模型统一高效微调强化学习曾小健 #LLM大语言模型语言模型人工智能自然语言处理
该文档是一篇关于LLAMAFACTORY的学术论文，这是一个用于高效微调大型语言模型（LLMs）的统一框架。这篇论文详细介绍了LLAMAFACTORY的设计、实现和评估，以及它在语言建模和文本生成任务中的应用。下面是对文档内容的详细解释：摘要（Abstract）背景：大型语言模型（LLMs）在多种应用中展现了卓越的推理能力，但需要有效的微调方法来适应下游任务。问题：现有的高效微调方法缺乏一个系统化
【目标检测论文解读复现NO.38】基于改进YOLOv8模型的轻量化板栗果实识别方法人工智能算法研究院中文核心论文解读复现目标检测 YOLO 目标跟踪
前言此前出了目标改进算法专栏，但是对于应用于什么场景，需要什么改进方法对应与自己的应用场景有效果，并且多少改进点能发什么水平的文章，为解决大家的困惑，此系列文章旨在给大家解读最新目标检测算法论文，帮助大家解答疑惑。解读的系列文章，本人已进行创新点代码复现，有需要的朋友可关注私信我。本文仅对论文代码实现，如果原文章的作者觉得不方便，请联系删除，尊重每一位论文作者。一、摘要为实现自然环境下的板栗果实目
论文解读（全头皮重建方向）：3DCMM FLOWVERSE 3d 3D人头补全
从面部到完整头部：3DCMM的技术原理解析引言在计算机图形学和人体工学领域，3D头部模型的需求日益增加。无论是虚拟化身的创建还是头盔的个性化设计，仅有面部模型往往不足以满足要求，完整的头部几何（包括头皮）才是关键。传统的3D可变形模型（3DMM）多集中于面部重建，头皮区域因数据稀缺和技术限制常被忽略。2022年发表于VRCAI’22的论文《3DCMM:3DComprehensiveMorphabl
【AI日记】24.10.30 做项目的一些前期准备工作 AI完全体 AI日记人工智能机器学习自然语言处理 langchain 日记读书学习资源
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】工作工作1内容：看AI大佬访谈B站地址：SamAltman最新5月播客长篇访谈|@All-In播客2024.5.11时间：1.5小时评估：继续工作2内容：思考如何开始自己的RAG项目时间：0.5小时决定：采用搭积木的方法来做自己的RAG项目。从最基础的开始，不断学习各种RAG和NLP相关的技术，然后不断加入到自己的项目中，而不
《深入浅出LLM基础篇》（三）：大模型结构分类 GoAI 深入浅出LLM 深入浅出AI 自然语言处理NLP 大模型 LLM 人工智能 transformer chatgpt
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
《深入浅出多模态》（五）：多模态经典模型ALBEF GoAI 深入浅出多模态多模态大模型 LLM 深度学习人工智能
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介绍：</
【论文解读】神经网络就像“数学乐高积木”：多层前馈网络如何用简单函数拼接复杂世界神经美学茂森无痛入门神经网络神经网络网络人工智能
K.Hornik,M.Stinchcombe,andH.White.Multilayerfeed-forwardnetworksareuniversalapproximators.NeuralNet-works,2(5):359-366,1989论文解读神经网络就像“数学乐高积木”：多层前馈网络如何用简单函数拼接复杂世界第一节：通俗解释——万能近似定理的核心思想万能近似定理（UniversalAp
DeepSeek-V2 论文解读：混合专家架构的新突破进一步有进一步的欢喜 DeepSeek-V2 大模型 MoE 混合专家架构
论文链接：DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel目录一、引言二、模型架构（一）多头部潜在注意力（MLA）：重塑推理效率（二）DeepSeekMoE：经济高效的训练架构三、预训练（Pre-Training）：夯实模型基础（一）实验设置（二）评估四、对齐（Alignment）：优化模型表现（一
论文解读（MGAE）《MGAE: Masked Autoencoders for Self-Supervised Learning on Graphs》虚幻私塾 python python 开发语言
优质资源分享学习路线指引（点击解锁）知识定位人群定位Python实战微信订餐小程序进阶级本课程是pythonflask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。Python量化交易实战入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统论文信息论文标题：MGAE:MaskedAutoencodersforSelf-SupervisedLearningonG
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读 tangjunjun-owen paper解读 DeepSeek R1 DeepSeek zero 大语言模型
文章目录前言一、摘要二、引言三、贡献1.贡献后训练：基础模型的大规模强化学习蒸馏：较小的模型也可以很强大2.评估结果概览reasoningtasksknowledgeohters四、方法1.Overview2.DeepSeek-R1-Zero:ReinforcementLearningontheBaseModelReinforcementLearningAlgorithm(GRPO重点)Rewar
【AI知识点】余弦相似度（Cosine Similarity） AI完全体 AI知识点人工智能机器学习深度学习线性代数相似性比较自然语言处理向量的距离
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】余弦相似度（CosineSimilarity）是一种用于衡量两个向量在方向上的相似程度的指标。它主要用于文本分析、自然语言处理（NLP）、推荐系统等任务中，能够衡量两个向量之间的相似性，而不受向量的长度（模）影响。可对比点积相似性（dot-productsimilarity）来学习1.余弦相似度的定义余弦相似度通过计算两个向量之间的夹角的
【书生·浦语大模型实战营】学习笔记（一）：全链路开源体系介绍 GoAI 深入浅出LLM 深入浅出AI 大模型书生人工智能 LLM llama
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·浦语大模
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
【AI日记】25.01.25 AI完全体 AI日记人工智能 kaggle 比赛机器学习读书
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AIkaggle比赛：ForecastingStickerSales读书书名：法治的细节律己AI：8小时，良作息：00:30-8:30，良短视频：大于1小时，差读书和写作：1小时，优饮食：安全健康
【AI知识点】三种不同架构的大语言模型（LLMs）的区别 AI完全体 AI知识点人工智能语言模型自然语言处理机器学习深度学习注意力机制自注意力机制
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】在自然语言处理（NLP）中，预训练语言模型（LLMs,LargeLanguageModels）通常基于不同的架构，如仅编码器的模型（Encoder-only）、编码器-解码器的模型（Encoder-Decoder），以及仅解码器的模型（Decoder-only）。这三种架构有着显著的区别，主要体现在功能、适用任务和性能上。下面从架构、功能
LoongServe论文解读：prefill/decode分离、弹性并行、零KV Cache迁移 04290629 LLM笔记 transformer 人工智能算法深度学习
LoongServe论文解读：prefill/decode分离、弹性并行、零KVCache迁移LoongServe:EfficientlyServingLong-contextLargeLanguageModelswithElasticSequenceParallelism论文提出了一种支持弹性分配的推理框架，通过引入弹性序列并行（ElasticSequenceParallelism，简称ESP）
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
Qwen-VL论文解读 dream_home8407 人工智能
Qwen-VL：用于理解、定位、文本阅读等的通用视觉-语言模型摘要在本文中，我们介绍了Qwen-VL系列，这是一组大规模的视觉-语言模型（LVLMs），旨在感知和理解文本和图像。从Qwen-LM开始，我们通过精心设计的（i）视觉受体，（ii）输入-输出接口，（iii）3阶段训练管道，以及（iv）多语言多模态清洗语料库，赋予其视觉能力。除了传统的图像描述和问答，我们还通过图像-标题-框元组的对齐实现
CT-Mamba:一种用于低剂量CT降噪的混合卷积状态空间模型论文解读 ZcZc__1 深度学习人工智能图像处理
论文：CT-Mamba:AHybridConvolutionalStateSpaceModelforLow-DoseCTDenoising代码：zy2219105/CT-Mamba，作者称将会在论文正式发表后提供。本文参考了该网站，其对CT-Mamba提供了更详细的描述：https://www.aimodels.fyi/papers/arxiv/ct-mamba-hybrid-convolutio
ViT论文解读 freshfish丶文献阅读深度学习计算机视觉 transformer
ViT论文解读本文主要记录YiZhu大佬对于ICLR2021的一篇论文精读ANIMAGEISWORTH16x16WORDS:TRANSFORMERSFORIMAGERECOGNITIONATSCALE论文地址：https://arxiv.org/pdf/2010.11929.pdf源码地址：https://github.com/google-research/vision_transformer标
AAAI2024论文解读|Memory-Efficient Reversible Spiking Neural Networks-water-merged paixiaoxin 文献阅读论文合集脉冲神经网络可逆架构内存效率深度学习训练优化 AAAI
论文标题Memory-EfficientReversibleSpikingNeuralNetworks内存高效可逆脉冲神经网络论文链接Memory-EfficientReversibleSpikingNeuralNetworks论文下载论文作者HongZhang,YuZhang内容简介本文提出了一种可逆脉冲神经网络（RevSNN），旨在降低脉冲神经网络（SNNs）在训练过程中对中间激活和膜电位的内
自学成才之路，DeepSeek R1 论文解读智识世界Intelligence 神经网络深度学习自然语言处理课程设计学习方法
DeepSeekR1的论文看完后，后劲很大。虽然我推荐所有人都去阅读一下，但我估计实际去读的人应该很少。今天把论文里的三个亮点，用通俗易懂地方式写出来，希望能让更多人了解这篇论文有多么重要。亮点一：告别“刷题班”，纯“实战”也能练出推理大神！我们平时学习，是不是经常要“刷题”？做大量的练习题，才能巩固知识，提高解题能力。以前训练AI模型，也差不多是这个套路，要先给AI“喂”大量的“习题”（监督数据
【AI日记】25.01.22 AI完全体 AI日记人工智能机器学习 kaggle 比赛读书
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AIkaggle比赛：ForecastingStickerSales读书书名：自由宪章，论美国的民主阅读原因：了解美国的架构设计和底层原理，有人说坚决不走美西方的邪路，我想了解下到底邪在哪，好更加有针对性的批判，尽量知己知彼律己AI：8小时，良作息：1:00-9:00，良短视频：0.5-1小时，良读书和写作：1.
AAAI2024论文解读|Towards Fairer Centroids in k-means Clustering面向更公平的 k 均值聚类中心 paixiaoxin 文献阅读论文合集支持向量机机器学习人工智能聚类公平性 k 均值聚类质心代表性群体代表性公平性
论文标题TowardsFairerCentroidsink-meansClustering面向更公平的k均值聚类中心论文链接TowardsFairerCentroidsink-meansClustering论文下载论文作者StanleySimoes,DeepakP,MuirisMacCarthaigh内容简介本文提出了一种新的聚类级质心公平性（Cluster-levelCentroidFairne
【AI日记】25.01.06 AI完全体 AI日记人工智能机器学习 kaggle 比赛
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】AI参加：kaggle比赛ForecastingStickerSales读书书名：国家为什么会失败阅读原因：2024年诺贝尔经济学奖得主的力作，之前我已经读过他另一本书了《權力與進步》备注：有兴趣的建议读未删减版https://book.douban.com/subject/26388427/discussion
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方