小小码农在线码字

RCNN论文翻译(更新中……)

RCNN论文翻译
- - Abstract
  - 1.Introduction
  - 2.Object dection with R-CNN
  - - 2.1. Module design
    - 2.2. Test-time dection
    - 2.3. Training
    - 2.4. Results on PASCAL VOC 2010-12
    - 2.5. Results on ILSVRC2013 detection
  - 3. Visualization, ablation, and modes of error
  - - 3.1. Visualizing learned features
    - 3.2. Ablation studies
    - 3.3. Network architectures
    - 3.4. Detection error analysis
    - 3.5. Bounding-box regression
    - 3.6. Qualitative results
  - 4. The ILSVRC2013 detection dataset
  - - 4.1. Dataset overview
  - References

RCNN论文翻译

注：本人英语水平欠佳，翻译有误之处还望海涵，欢迎指正，不胜感激。

论文地址：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report

作者：Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik UC Berkeley

作者邮箱：{rbg,jdonahue,trevor,malik}@eecs.berkeley.edu

Abstract

在公开数据集 $P A S C A L V O C$ 上测试的目标检测性能在最近几年趋于平稳。性能最好的方法是复杂的集成系统，通常将多个低级图像特征和高级上下文结合在一起。在这篇文章中，我们提出了一种简单、可扩展的检测算法，相比于之间在 $V O C 2012$ 上的实现了 $m A P$ 为 $53.3$ 的最佳结果相比，我们将平均精度提升了 $30$ 。我们的方法包括两个关键的见解：

我们将具有大容量的卷积神经网络应用于自底向上的区域建议，以便来定位和分割目标。
由于带有标签的训练数据的缺乏，对辅助任务进行监督性的预训练，接着进行特定区域的微调，可以显著提高性能。

因为我们结合了区域提案和卷积神经网络，所以我们称这个方法为 $R - C N N$ ：具有 $C N N$ 特征的区域。我们也比较了 $R - C N N$ 和 $O v e r F e a t$ ，这是一个基于类 $C N N$ 架构的滑动窗口检测器。我们发现 $R - C N N$ 在 $200$ 类的 $I L S V R C 2013$ 校验数据集上的表现远远超过 $O v e r F e a t$ 。代码可在下述链接查看：http://www.cs.berkeley.edu/˜rbg/rcnn.。

1.Introduction

功能问题。最近十几年，在视觉识别任务的进展很大程度上取决于 $S I F T$ 和 $H O G$ 。如果我们看一下规范的视觉识别任务 $P A S C L A V O C$ 目标检测的表现，人们普遍认为该过程在 $2010 - 2012$ 年发展缓慢，在构建集成系统和对成功的方法进行细微改变而取得了较小的进展。

$S I F T$ 和 $H O G$ 是 $b l o c k - w i s e$ 定向直方图，我们可以粗略地将其与V1中的复杂细胞联系起来， $V 1$ 是灵长类动物视觉通路上的第一个皮层区域。但是我们知道识别发生在下游的几个阶段，这表明计算特征时可能存在分层、多阶段的过程，而这些过程相对于视觉识别来说信息更加丰富。

福岛的“新认知机”[19]，一种受生物学启发的层次和移动不变模式识别模型，是一种对这一过程的早期尝试。但是这种“新认知机”缺乏一个监督训练算法。在 $R u m e l h a r t$ 等人的基础上， $L e C u n$ 等人证明了：通过反向传播的随机梯度下降可以有效地训练卷积神经网络，这是一种“新认知机”的推广模型。

$C N N$ 在20世纪90年代大量使用[27],但是后来随着支持向量机的兴起而过时。2012年， $K r i z h e v s k y$ [25]等人通过在 $I m a g e N e t$ 大尺度视觉识别挑战 $(I L S V R C)$ 上显示了更高的视觉分类准确率而重燃了大家对 $C N N$ 的热情。他们的成功源于对 $120$ 万张标签图像进行训练，并对 $L e C u n$ 的 $C N N$ 进行了一些调整(例如： $m a x (0, x)$ 校正非线性和 $“ d r o p o u t ”$ 正则化)。

在 $I L S V R C 2012$ 年的研讨会上， $I m a g e N e t$ 结果的意义受到了热烈的讨论。中心问题可以归纳如下： $I m a g e N e t$ 上的 $C N N$ 分类结果在多大程度上可以推广到 $P A S C A L V O C$ 挑战下的目标检测结果?

我们通过弥合图像分类和目标检测之间的差距来回答这个问题。这篇文章是第一篇证明了相比于基于类 $H O G$ 特征的系统， $C N N$ 可以明显地提高目标检测的性能。为了实现这个目标，我们聚焦于两点：用深度网络定位目标，用少量的带注的检测数据训练高容量的模型。

不同于图像分类，检测需要对图像中的目标进行定位。一种方法是将框架定位问题作为回归问题。然而， $S z e g e d y$ 等人和我们自己的研究都表明，这种策略在实践中并不是非常的合适(他们在 $V O C 2007$ 上报告的 $m A P$ 为 $30.5$ ，我们是 $58.5$ )。另一种方法是建立滑动窗口检测器。 $C N N$ 以这种方式使用了至少 $20$ 年，尤其是受约束的物体上，例如：人脸或者步行者。为了保持高的空间分辨率，这些CNNs通常有2个卷积和池化层。然而，在我们的网络中，高度较高的单元有5个卷积层，在输入图像中有很大的接受域( $195 * 195$ 像素)和步长( $32 * 32$ 像素)，这使得在滑动窗口模式下的精确定位成为一个开放的科技挑战。

相反，我们在“区域识别”的范式下解决 $C N N$ 定位问题，该范式在目标检测和语义分割下都非常成功。测试时，我们的方法为每个输入图像生成约 $2000$ 个不同类别的区域建议，并通过 $C N N$ 对每个区域建议提取一个特定长度的特征向量，最后，使用特定类别的线性支持向量机对区域进行分类。我们使用一种简单的技术(放射图像扭曲)来计算每个区域建议的特征大小的CNN输入，而不管区域的形状。图1显示了我们方法的一个概况，高亮显示了我们的结果。因为我们的方法结合了区域提案和 $C N N$ ，所以我们命名为 $R - C N N$ ：具有 $C N N$ 特征的区域。

在这篇论文的跟新版本中，通过在 $200$ 类的 $I L S V R C 2013$ 数据集上跑 $R - C N N$ 模型，我们对 $R - C N N$ 和最新提出的 $O v e r F e a t$ 检测系统进行了直接的比较。 $O v e r F e a t$ 使用了滑动窗口进行检测，并且是到现在为止在 $I L S V R C 2013$ 数据集上表现最好的方法。结果表明， $R - C N N$ 显著优于 $O v e r F e a t$ ，其 $m A P$ 达到 $31.4$ ，相比于 $O v e r F e a t$ 其 $m A P$ 为 $24.3$ 。

检测面临的第二个问题是带标签的数据不足，现有的所有可用数据对于训练一个大的 $C N N$ 网络来说仍然是不足的。对于这个问题，传统的解决方法是：首先使用不监督方法进行预训练，再使用监督性的微调。(比如：[35])。这篇论文的第二个贡献是证明了：当数据缺失的时候，先在大数据集( $I L S V R C$ )上试用监督式的预训练，然后在小数据集上( $P A S C A L$ )进行一个特定区域的微调，是一种更加有效的方法。在我们的实验中，检测时的微调贡献了 $8$ 个百分点的 $m A P$ 性能。经过微调，我们的系统在 $V O C 2010$ 上实现了 $54$ 的 $m A P$ ，相比之下，进行高度调优的基于 $H O G$ 的可变形部件模型是 $33$ [17,20]。我们还向读者介绍了 $D o n a h u e$ 等人的同时代研究，他们的研究表明， $K r i z h e v s k y$ 的 $C N N$ 可以(无需微调)作为黑盒特征提取器，在包括场景分类、细粒度子分类和领域适应在内的多个识别任务中产生出色的性能。

我们的系统也是相当有效的。唯一特定于类的计算是一个相当小的矩阵向量乘积和贪婪的非最大抑制。这个计算特性来自于所有类别共享的特征，这些特征比以前使用的区域特征低两个数量级(cf.[39])。

了解我们方法的失效模式对于改进它也很关键，因此我们报告了来自 $H o i e m$ 等人[23]的检测分析工具的结果。作为这个分析的一个直接的结果，我们得出结论：一个简单的边界框回归方法可以有效的减少错误定位，这是主要错误模型。

这介绍技术细节之前，我们强调：由于 $R - C N N$ 操作是在区域上的，因此将其扩展到语义分割也是非常自然的。话不多说，我们也实现了在 $P A S C A L V O C$ 分割任务上很有竞争力的结果，在 $V O C 2011$ 测试数据集上其平均分解准确率达到 $47.9$ 。

2.Object dection with R-CNN

我们的目标检测系统包含了三个部分，首先产生独立类别的区域提案。这些提议定义了我们提供给检测器的候选检测集。第二部分是一个可以从每个区域提取特定长度的特征向量的卷积神经网络。第三部分是一个特定类别的线性支持向量机的结合。在这一节，我们展示我们每一个模块的设计，描述他们的测试时的用法，以及他们学习怎样的参数和在 $P A S C A L V O C 2010 - 12$ 和 $I L S V R C 2013$ 上的检测结果。

2.1. Module design

Regin proposals. 最近有很多论文提供了生成独立类别的区域提案的方法。比如： $o b j e c t n e s s [1], s e l e c t i v e s e a r c h [39], c a t e g o r y - i n d e p e n d e n t o b j e c t p r o p o s a l s [14], c o n s t r a i n e d p a r a m e t r i c m i n - c u t s (C P M C) [5], m u l t i - s c a l e c o m b i n a t o r i a l g r o u p i n g [3], 和 C i r e s ¸ a n e t a l . [6],$ 他通过将 $C N N$ 作用于规律分割的正方形的作物来检测有丝分裂细胞。这是一种区域提案的特殊情况。尽管 $R - C N N$ 对于特殊的区域提案方法是不可知的，但是我们使用选择性搜索来与之前的工作进行一个控制比较。

Feature extraction. 我们使用 $K r i z h e v s k y$ 等人描述的 $C N N$ 的 $C a f f e$ [24]实现，从每个区域建议中提取一个 $4096$ 维的特征向量。特征的计算方法是通过五个卷积层和两个完全连通的层向前传播一幅均值减后的 $227 \times 227 R G B$ 图像。我们向读者推荐[24,25]以了解更多的网络架构细节。

为了计算每个区域提案的特征，我们首先要将图像数据转变成一种 $C N N$ 可以接受的形式(他的构架需要 $227 * 227$ 的像素大小的特定输入)。在对于我们任意形状区域的许多可能变换中，我们选择最简单的。尽管候选区域的大小和长宽比不同，我们都使用严格的边界框将其扭曲到所需的大小。在翘曲之前，我们扩大了紧密边界框，这样在翘曲大小下，原始框周围的翘曲图像上下文正好是 $p$ 像素(我们使用 $p = 16$ )。图2显示了变形训练区域的随机抽样。替代翘曲的方法在附录 $A$ 中讨论。

2.2. Test-time dection

在测试阶段，我们使用 $S S$ 方法在测试图像上提取 $2000$ 个区域提案(在所有实验中我们都使用 $S$ S的“ $f a s t m o d e$ ”)。为了计算特征，我们扭曲每个提议，并使用 $C N N$ 进行前向传播。然后，对于每个类，我们使用 $S V M$ 训练每个提取的特征向量。给定图像中所有的得分区域，我们应用贪婪非最大抑制(每个类独立)，如果一个区域与大于学习阈值的更高的得分选择区域有交集-overunion ( $I o U$ )重叠，则拒绝该区域。 $(G i v e n a l l s c o r e d r e g i o n s i n a n i m a g e, w e a p p l y a g r e e d y n o n - m a x i m u m s u p p r e s s i o n (f o r e a c h c l a s s i n d e p e n d e n t l y) t h a t r e j e c t s a r e g i o n i f i t h a s a n i n t e r s e c t i o n - o v e r u n i o n (I o U) o v e r l a p w i t h a h i g h e r s c o r i n g s e l e c t e d r e g i o n l a r g e r t h a n a l e a r n e d t h r e s h o l d .)$

Run-time analysis. 两个特性使得检测更加地高效，一是 $C N N$ 的参数由所有的类别所共享。第二，与其他常见的方法相比，例如使用视觉字袋编码的空间金字塔 $(s p a t i a l p y r a m i d s w i t h b a g - o f - v i s u a l - w o r d e n c o d i n g s)$ ， $C N N$ 计算的特征向量是低维的。例如， $U V A$ 检测系统[39]使用的特征比我们的大两个数量级( $360 k$ $v s .$ $4 k$ 维)。

这种共享的结果是，花费在计算区域建议和特征上的时间( $G P U$ 上是 $13 s / 图像$ ， $C P U$ 上是 $53 s / 图像$ )被摊分在所有类上。唯一的特定类的计算是特征和支持向量机权值之间的点积，和非最大抑制。在实践中，一幅图像的所有点积都被批成一个矩阵-矩阵积。特征矩阵一般为 $2000 \times 4096$ ，支持向量机权值矩阵为 $4096 \times N$ ，其中 $N$ 为类数。

该分析表明， $R - C N N$ 可以扩展到数千个对象类，而无需使用近似技术，如散列。即使有 $100 k$ 个类，在现代的多核 $C P U$ 上，得到的矩阵乘法也只需要 $10 秒$ 。这种效率不仅仅是使用区域提案和共享特征的结果。 $U V A$ 系统，UVA系统，由于其高维特性，将慢两个数量级，同时需要 $134 G B$ 的内存，仅存储 $100 k$ 线性预测器，相比之下，我们的低维特性仅 $1.5 G B$ 。

将 $R - C N N$ 与 $D e a n$ 等人最近关于使用 $D P M s$ 和哈希[8]进行可扩展检测的工作进行对比也很有趣。当引入 $10, 000$ 个分心物类时，他们报告了在每幅图像 $5$ 分钟的运行时间下，在 $V O C 2007$ 上的 $m A P$ 约为 $16$ 。使用我们的方法， $10 k$ 检测器可以在一个 $C P U$ 上运行大约一分钟，因为没有做出近似， $m A P$ 将保持在 $59$ (章节 $3.2$ )。

2.3. Training

Supervisede pre-training. 我们在一个仅有图像级标注的辅助数据集( $I L S V R C 2012$ 分类)上对 $C N N$ 进行有区别的预训练，预训练使用开源的 $C a f f e C N N$ 库。简单提一下，我们的 $C N N$ 和 $K r i z h e v s k y$ 等人的 $C N N$ 的性能表现很接近，在 $I L S V R C 2012$ 分类数据集， $t o p - 1$ 上的错误率提高了 $2.2$ 个百分点。这种差异是由于训练过程的简化所致。这种误差是由于训练过程的简化构成的。

Domain-speciific fine-tuning. 为了使我们的 $C N N$ 适应新的任务(检测)和新的域(弯曲建议窗口)，我们继续使用仅弯曲区域建议的 $C N N$ 参数的随机梯度下降( $S G D$ )训练。除了用一个随机初始化的 $(N + 1)$ 路分类层( $N$ 为对象类的数量， $1$ 为背景)替换 $C N N$ 的 $I m a g e N e t$ 特有的 $1000$ 路分类层外， $C N N$ 的架构没有改变。 $V O C$ 的 $N = 20, I L S V R C 2013$ 的 $N = 200$ 。我们将所有与 $g r o u n d - t r u t h$ 方框重叠的 $L o U \geq 0.5$ 的区域提案视为该方框类别的积极因素，其余的视为消极因素。我们以 $0.001$ (初始预训练率的十分之一)的学习率开始 $S G D$ ，这允许在不破坏初始化的情况下进行微调。在每个 $S G D$ 迭代中，我们统一抽样 $32$ 个正窗口(所有类)和 $96$ 个背景窗口，以构建大小为 $128$ 的小批。我们将抽样倾向于正窗口，因为与背景相比，正窗口是非常罕见的。

Object catagory classifiers. 考虑一个检测车的二分类器。很明显，一个紧紧围绕着汽车的图像区域应该是一个积极的例子。同样，与汽车无关的背景区域显然也是一个反面例子。但不太清楚的是，如何标记与汽车部分重叠的区域。我们用 $l o U$ 重叠阈值来解决这个问题，低于该阈值的区域被定义为否定。重叠阈值 $0.3$ 是通过网格搜索 ${0,0.1，…， 0.5}$ 。我们发现仔细选择这个阈值很重要。设置为 $0.5$ ，如[39]，减少 $5$ 点的 $m A P$ 。类似地，设置为 $0$ 减少了 $4$ 个点的 $m A P$ 。正例子被简单地定义为每个类的要求解的范围的预测范围。

一旦特征被提取，并且训练标签被使用，对于每一个类别，我们来优化线性 $S V M$ 。因为训练数据太大难以存在内存中，我们采用标准的硬负挖掘方法[17,37](hard negative mining method)。硬负挖掘会迅速收敛，在实践中，mAP在经过所有图像之后就会停止增长。在附录 $B$ 中，我们讨论了为什么在微调和支持向量机训练中，正面和负面例子的定义是不同的。我们还讨论了训练检测支持向量机所涉及的权衡，而不是简单地使用经过微调的 $C N N$ 的最终 $s o f t m a x$ 层的输出。

2.4. Results on PASCAL VOC 2010-12

遵循 $P A S C A L V O C$ 最佳实践[15]，我们在 $V O C 2007$ 数据集上验证了所有设计决策和超参数(章节3.2)。对于 $V O C 2010 - 12$ 数据集的最终结果，我们在 $V O C 2012$ 训练上微调 $C N N$ ，在 $V O C 2012$ 训练上优化我们的检测支持向量机。我们只向评估服务器提交了两种主要算法变体的测试结果一次(带和不带边界框回归)。

表 $1$ 显示了 $V O C 2010$ 的完整结果。我们将我们的方法与四个方法进行比较，包括 $S e g D P M$ [18]，它将 $D P M$ 检测器与语义分割系统[4]的输出相结合，并使用额外的检测器间上下文和图像分类器重评分。

最相关的比较是与 $U i j l i n g s$ 等人[39]的= $U V A$ 系统，因为我们的系统使用相同的区域建议算法。为了对区域进行分类，他们的方法构建了一个四级空间金字塔，并使用密集采样的 $S I F T$ 、扩展的对手 $S I F T$ 和 $R G B S I F T$ 描述符进行填充，每个向量都用4000字的码本进行量化。采用直方图交集核支持向量机 $(a h i s t o g r a m i n t e r s e c t i o n k e r n e l S V M)$ 进行分类。与他们的多特征、非线性核支持向量机方法相比，我们在 $m A P$ 方面取得了很大的改进，从 $35.1$ 提高到 $53.7$ ，同时速度也快得多(章节 $2.2$ )。我们的方法在 $V O C 2011 / 12$ 测试中取得了类似的性能( $53.3$ )。

2.5. Results on ILSVRC2013 detection

我们使用与 $P A S C A L V O C$ 相同的系统超参数，在 $200$ 类 $I L S V R C 2013$ 检测数据集上运行 $R - C N N$ 。我们遵循相同的协议，只向 $I L S V R C 2013$ 评估服务器提交两次测试结果，一次带边界框回归，一次不带边界框回归。

图 $3$ 将 $R - C N N$ 与 $2013$ 年 $I L S V R C$ 竞赛的参赛作品以及竞赛后的 $O v e r F e a t$ 结果[34]进行了比较。 $R - C N N$ 获得了 $31.4$ 的 $m A P$ ，这明显领先于 $O v e r F e a t$ 的 $24.3$ 的第二好结果。为了了解 $A P$ 在类上的分布情况，本文还给出了箱形图，并在本文末尾的表 $8$ 中给出了 $p e r c l a s s A P$ 的表。大多数参赛作品 $(O v e r F e a t 、 N E C - M U 、 U v A E u v i s i o n 、 T o r o n t o A$ 和 $U I U C - I F P$ )使用了卷积神经网络，这表明在如何将cnn应用于目标检测方面存在显著的细微差别，导致结果差异很大。在第 $4$ 节中，我们将概述 $I L S V R C 2013$ 检测数据集，并提供有关在其上运行 $R - C N N$ 时所做选择的详细信息。

3. Visualization, ablation, and modes of error

3.1. Visualizing learned features

第一层滤镜可以直接可视化，很容易理解[25]。它们捕捉有方向的边缘和对手的颜色。理解随后的层则更具挑战性。 $Z e i l e r$ 和 $F e r g u s$ 在[42]中提出了一种视觉上吸引人的反卷积方法。我们提出了一种简单的(和补充的)非参数方法，可以直接显示网络学习到了什么。

其理念是在网络中挑选出一个特定的单元(特征)，并将其当作自身的目标探测器来使用。也就是说，我们计算了该单元在一组大量的未提交的区域提案(大约 $1000$ 万个)上的激活情况，将提案从激活程度最高到最低进行排序，执行非最大抑制，然后显示得分最高的区域。我们的方法让被选中的单位“自己说话”，通过显示它触发的确切输入。我们避免平均，以便看到不同的视觉模式和洞察由单位计算的不变性。

我们从 $pool_5$ 层可视化单元，这是网络的第五层，也是最后一个卷积层的maxpooled输出。 $pool_5$ $ feature map$为 $6 \times 6 \times 256 = 9216$ 维。忽略边界效应，在原始的 $227 \times 227$ 像素输入中，每个 $pool_5$ 单元都有 $195 \times 195$ 像素的接受场。一个中央的 $pool_5$ 单元有一个接近全局的视图，而靠近边缘的一个有一个较小的、剪切的支撑。

图 $4$ 中的每一行显示了来自 $C N N$ 的 $pool_5$ 单元的前 $16$ 个激活，我们在 $V O C 2007 t r a i n v a l$ 上对其进行了微调。 $256$ 个功能独特的单元中的 $6$ 个被可视化(附录 $D$ 包括更多)。这些单元被选择来展示网络学习的一个代表性样本。在第二行，我们看到一个单位发射狗脸和点数组。第三行对应的单元是一个红色斑点检测器。也有检测人脸和更多抽象图案的探测器，如文本和带窗的三角形结构。网络似乎学习了一种表现形式，它将少数类调优的特征与形状、纹理、颜色和材料属性的分布式表现形式结合在一起。随后的全连接层fc6有能力为这些丰富特性的大量组合建模。

3.2. Ablation studies

Performance layer-by-layer, without fine-tuning. 为了了解哪些层对检测性能至关重要，我们分析了 $V O C 2007$ 数据集上 $C N N$ 最后三层的每一层的结果。第 $3.1$ 节简要描述了层 $pool_5$ 。最后两层概述如下。

$f c 6$ 层与 $pool_5$ 已完全连接。为了计算特征，它将一个 $4096 \times 9216$ 权重矩阵乘以 $pool_5$ 特征映射(重塑为一个 $9216$ 维向量)，然后添加一个偏差向量。这个中间向量是分量式半波整流( $x \leftarrow m a x (0, x)$ )。

$f c 7$ 层是网络的最后一层。它是通过将 $f c 6$ 计算的特征乘以一个 $4096 \times 4096$ 的权重矩阵来实现的，同样地，加上一个偏差向量并进行半波校正。

我们首先查看没有在 $P A S C A L$ 上进行微调时 $C N N$ 的结果，也就是说，所有 $C N N$ 参数都只在 $I L S V R C 2012$ 上进行了预先训练。逐层分析性能(表 $2$ 第 $1 - 3$ 行)显示， $f c 7$ 特性的泛化程度比fc6差。这意味着 $29$ ，即大约 $1680$ 万， $C N N$ 的参数可以在不降低 $m A P$ 的情况下被删除。更令人惊讶的是，除去 $f c 7$ 和 $f c 6$ 产生了相当好的结果，即使 $pool_5$ 的特征计算只使用了 $C N N$ 的 $6$ 的参数。 $C N N$ 的大部分表征能力来自于它的卷积层，而不是更大、更紧密相连的层。这一发现表明，仅使用 $C N N$ 的卷积层，在计算任意大小的图像的密集特征图(在 $H O G$ 意义上)时，具有潜在的实用价值。这种表示方式将支持在 $pool_5$ 特性之上使用滑动窗口检测器(包括 $D P M$ )进行实验。

Performance layer-by-layer, with fine-tuning. 现在我们看看当有微调时 $C N N$ 在 $V O C 2007$ 训练集上表现结果。提升效果是显著的(如表 $2$ 的 $4 - 6$ 行)：微调将 $m A P$ 增加了 $8.0$ 个百分点。其对 $pool_5$ 层的贡献远大于 $f c 6$ 和 $f c 7$ ，这表明从 $I m a g e N e t$ 学习到的 $pool_5$ 特性是通用的，大多数改进是通过在它们之上学习特定领域的非线性分类器获得的。

Comparison to recent feature learning methods. 在 $P A S C A L V O C$ 检测中，特征学习方法的尝试相对较少。我们来看看最近的两种建立在可变形部件模型上的方法。为了参考，我们还包括了基于 $h o g$ 的标准 $D P M$ [20]的结果。

第一种 $D P M$ 特征学习方法 $D P M S T$ [28]，用“sketch token”概率的直方图来增强HOG特征。直观地说，sketch token是通过图像中心的紧密分布的轮廓。通过随机森林训练（在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。），将 $35 \times 35$ 个像素斑块分类为 $150$ 个 $s k e t c h t o k e n$ 或背景中的一个，计算每个像素处的 $s k e t c h t o k e n$ 概率。

第二种方法 $D P M H S C$ [31]用稀疏编码( $H S C$ )直方图代替 $H O G$ 。为了计算一个 $H S C$ ，在每个像素使用 $100 个 7 \times 7$ 像素(灰度)原子的学习字典来解决稀疏代码激活。由此产生的激活将以三种方式(全波和半波)、空间池、单元l2归一化，然后进行功率转换( $x←sign(x)|x|^α$ )。

所有的 $R - C N N$ 变量都强于三个 $D P M$ 方法(表 $2$ 第 $8 - 10$ 行)，包括两个使用特征学习的方法。与仅使用HOG特性的DPM最新版本相比，我们的 $m A P$ 高出了 $20$ 个百分点: $54.2$ 比 $33.7$ ——相对提高了 $61$ 。结合使用 $H O G$ 和 $s k e t c h t o k e n s$ 比单独使用 $H O G$ 高 $2.5$ 个百分点的 $m A P$ 值，而 $H S C$ 比 $H O G$ 提高了 $4$ 个映射点(对它们内部的 $D P M$ 进行比较——两者都使用了性能低于开源版本[20]的非开源 $D P M$ 实现)。这些方法分别获得 $29.1$ 和 $34.3$ 的 $m A P$ 。

3.3. Network architectures

在这篇论文中我们的大部分结果所使用的网络结构都是来自 $K r i z h e v s k y$ 等人所提出的网络结构。但是我们发现网络结构的选择对于 $R - C N N$ 检测性能具有很大的影响。在表 $3$ 中我们展示了最近由 $S i m o n y a n$ 和 $Z i s s e r m a n$ [47]提出的使用 $16$ 层网络在 $V O C 2007$ 上的检测结果。这个网络结构是在最近的ILSVRC $2014$ 分类挑战比赛中获得最好的表现之一的。该网络具有同质结构，由13层 $3 \times 3$ 个卷积核组成，最大池化层 $5$ 个，顶层 $3$ 个全连通层。我们将该网络简称为 $O - N e t$ ，将基线成为 $T - N e t$ 。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-l18OCSRn-1611559357080)(images/image-20210123110028147.png)]

为了在 $R - C N N$ 中使用 $O - N e t$ ，我们从 $C a f f e M o d e l Z o o$ 下载了 $VGG_ILSVRC_16_layers$ 的公开预训练网络权重。然后我们使用曾用于 $T - N e t$ 的方法对网络进行微调。唯一的区别是为了适应 $G P U$ 的内存我们使用使用更小的批( $24 e x a m p l e s$ )。表三的结果表明当 $R - C N N$ 使用 $O - N e t$ 网络时其表现明显优于使用 $T - N e t$ 时 $R - C N N$ 的表现，其 $m A P$ 从 $58.5$ 提升到了 $66.0$ 。但是这也有一个不可忽视地缺点就是计算时间太长，大约是使用 $T - N e t$ 时的 $7$ 倍时长。

3.4. Detection error analysis

[23]为了揭示我们方法的错误模式，了解微调是如何改变它们的，并查看我们的错误类型与 $D P M$ 的比较，我们使用了 $H o i e m$ 等人的优秀的检测分析工具。分析工具的完整总结超出了本文的范围，我们鼓励读者咨询[23]以了解一些更详细的细节(如“规范化 $A P$ ”)。为了使得上下文相关内容可以被最好地理解消化，所以我们在图5和图 $6$ 的标题中进行讨论。

3.5. Bounding-box regression

基于错误分析，我们提出了一种简单的减少定位错误的方法，受DPM的边界框回归的启发，我们训练一个线性回归模型来预测一个新的检测窗口对于给定 $pool_5$ 特征的选择性搜索区域建议。详见附录 $C$ ，表 $1$ ，表 $2$ 和图 $5$ 的结果表明这个简单的方法修正了很多的错误定位检测，提升了 $3$ 到 $4$ 个百分点的 $m A P$ 。

3.6. Qualitative results

$I L S V R C 2013$ 的定性检测结果如图8和图9所示。每幅图像都是从 $val_2$ 集合中随机采样的，所有探测器的检测精度都大于 $0.5$ 。注意，这些并不是精心策划的，并且给出了实际运行中的检测器的真实印象。图 $10$ 和图 $11$ 中显示了更多定性的结果，但这些结果是经过策划的。我们选择每一张图片是因为它包含有趣的、令人惊讶的或神奇的结果。这里也显示了精度大于 $0.5$ 的所有检测。

4. The ILSVRC2013 detection dataset

在第 $2$ 节中，我们展示了 $I L S V R C 2013$ 检测数据集的结果。这个数据集不如 $P A S C A L V O C$ 均匀，需要选择如何使用它。由于这些决策非常重要，所以我们将在本节讨论它们。

4.1. Dataset overview

将 $I L S V R C 2013$ 检测数据集分为三个集合: $t r a i n (395, 918) ， v a l (20, 121) ， t e s t$ (40,152)，其中每个集合中的图像数量在括号中。val和测试分割来自相同的图像分布。这些图像在复杂性(对象数量、杂波数量、姿态变化等)方面与 $P A S C A L V O C$ 图像相似。 $v a l$ 和 $t e s t$ 分割被详尽地注释，这意味着在每个图像中，来自所有 $200$ 个类的所有实例都用边界框标记。相比之下，训练集是根据 $I L S V R C 2013$ 分类图像分布来提取的。这些图像具有更多的可变复杂性，偏向于单个中心对象的图像。与 $v a l$ 和 $t e s t$ 不同的是， $t r a i n$ 图像(因为它们的数量很大)没有被详尽地注释。在任何给定的 $t r a i n$ 映像中，来自 $200$ 个类的实例可以被标记，也可以不被标记。除了这些图像集之外，每个类还有一组额外的负面图像。负面图像会被手动检查，以确认它们不包含相关类的任何实例。在这项工作中没有使用负图像集。关于 $I L S V R C$ 如何收集和注释的更多信息可以在[11,36]中找到。

因为它们的数量很大)没有被详尽地注释。在任何给定的 $t r a i n$ 映像中，来自 $200$ 个类的实例可以被标记，也可以不被标记。除了这些图像集之外，每个类还有一组额外的负面图像。负面图像会被手动检查，以确认它们不包含相关类的任何实例。在这项工作中没有使用负图像集。关于 $I L S V R C$ 如何收集和注释的更多信息可以在[11,36]中找到。

未完更新中…

References

[1] B. Alexe, T. Deselaers, and V. Ferrari. Measuring the objectness of image windows. TPAMI, 2012. 2
[2] P. Arbelaez, B. Hariharan, C. Gu, S. Gupta, L. Bourdev, and ´ J. Malik. Semantic segmentation using regions and parts. In CVPR, 2012. 10, 11
[3] P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marques, and J. Ma- ´lik. Multiscale combinatorial grouping. In CVPR, 2014. 3
[4] J. Carreira, R. Caseiro, J. Batista, and C. Sminchisescu. Semantic segmentation with second-order pooling. In ECCV, 2012. 4, 10, 11, 13, 14
[5] J. Carreira and C. Sminchisescu. CPMC: Automatic object segmentation using constrained parametric min-cuts. TPAMI, 2012. 2, 3
[6] D. Cires¸an, A. Giusti, L. Gambardella, and J. Schmidhuber. Mitosis detection in breast cancer histology images with deep neural networks. In MICCAI, 2013. 3
[7] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005. 1
[8] T. Dean, M. A. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, and J. Yagnik. Fast, accurate detection of 100,000 object classes on a single machine. In CVPR, 2013. 3
[9] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. FeiFei. ImageNet Large Scale Visual Recognition Competition 2012 (ILSVRC2012). http://www.image-net.org/ challenges/LSVRC/2012/. 1
[10] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. FeiFei. ImageNet: A large-scale hierarchical image database. In CVPR, 2009. 1
[11] J. Deng, O. Russakovsky, J. Krause, M. Bernstein, A. C. Berg, and L. Fei-Fei. Scalable multi-label annotation. In CHI, 2014. 8
[12] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition. In ICML, 2014. 2
[13] M. Douze, H. Jegou, H. Sandhawalia, L. Amsaleg, and ´
C. Schmid. Evaluation of gist descriptors for web-scale image search. In Proc. of the ACM International Conference on Image and Video Retrieval, 2009. 13
[14] I. Endres and D. Hoiem. Category independent object proposals. In ECCV, 2010. 3
[15] M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and
A. Zisserman. The PASCAL Visual Object Classes (VOC)
Challenge. IJCV, 2010. 1, 4
[16] C. Farabet, C. Couprie, L. Najman, and Y. LeCun. Learning
hierarchical features for scene labeling. TPAMI, 2013. 10
[17] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part
based models. TPAMI, 2010. 2, 4, 7, 12
[18] S. Fidler, R. Mottaghi, A. Yuille, and R. Urtasun. Bottom-up
segmentation for top-down detection. In CVPR, 2013. 4, 5
[19] K. Fukushima. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological cybernetics, 36(4):193–202, 1980. 1
[20] R. Girshick, P. Felzenszwalb, and D. McAllester. Discriminatively trained deformable part models, release 5. http: //www.cs.berkeley.edu/˜rbg/latent-v5/. 2, 5, 6, 7
[21] C. Gu, J. J. Lim, P. Arbelaez, and J. Malik. Recognition ´ using regions. In CVPR, 2009. 2
[22] B. Hariharan, P. Arbelaez, L. Bourdev, S. Maji, and J. Malik. ´
Semantic contours from inverse detectors. In ICCV, 2011. 10
[23] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In ECCV. 2012. 2, 7, 8
[24] Y. Jia. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe. berkeleyvision.org/, 2013. 3
[25] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012. 1, 3, 4, 7
[26] Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard, and L. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comp., 1989. 1
[27] Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradientbased learning applied to document recognition. Proc. of the IEEE, 1998. 1
[28] J. J. Lim, C. L. Zitnick, and P. Dollar. Sketch tokens: A ´ learned mid-level representation for contour and object detection. In CVPR, 2013. 6, 7 object detection. In CVPR, 2013. 6, 7
[32] H. A. Rowley, S. Baluja, and T. Kanade. Neural networkbased face detection. TPAMI, 1998. 2
[33] D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Parallel Distributed Processing, 1:318–362, 1986. 1
[34] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. In ICLR, 2014. 1, 2, 4, 10
[35] P. Sermanet, K. Kavukcuoglu, S. Chintala, and Y. LeCun. Pedestrian detection with unsupervised multi-stage feature learning. In CVPR, 2013. 2
[36] H. Su, J. Deng, and L. Fei-Fei. Crowdsourcing annotations for visual object detection. In AAAI Technical Report, 4th Human Computation Workshop, 2012. 8
[37] K. Sung and T. Poggio. Example-based learning for viewbased human face detection. Technical Report A.I. Memo No. 1521, Massachussets Institute of Technology, 1994. 4
[38] C. Szegedy, A. Toshev, and D. Erhan. Deep neural networks for object detection. In NIPS, 2013. 2
[39] J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013. 1, 2, 3, 4, 5, 9
[40] R. Vaillant, C. Monrocq, and Y. LeCun. Original approach for the localisation of objects in images. IEE Proc on Vision, Image, and Signal Processing, 1994. 2
[41] X. Wang, M. Yang, S. Zhu, and Y. Lin. Regionlets for generic object detection. In ICCV, 2013. 3, 5
[42] M. Zeiler, G. Taylor, and R. Fergus. Adaptive deconvolutional networks for mid and high level feature learning. In CVPR, 2011. 4
[43] K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv preprint, arXiv:1409.1556, 2014. 6, 7, 14

你可能感兴趣的:(神经网络,神经网络,计算机视觉,深度学习,机器学习)

AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
Jetson平台编译Tengine space01 AIoT Jetson 人工智能深度学习计算机视觉
1.Tengine简介Tengine于2017年在GitHub（https://github.com/OAID/Tengine）开源，是OPENAILAB（开放智能）推出的自主知识产权的边缘AI计算框架，致力于解决AIoT产业链碎片化问题，加速AI产业化落地。Tengine兼容多种操作系统和深度学习算法框架，简化和加速面向场景的AI算法在嵌入式边缘设备上快速迁移，以及实际应用部署落地，可以十倍提升
机器人-组成结构-感知 - 决策 - 执行具身智能-查布嘎具身智能机器人人工智能
目录一、感知系统内部传感器：外部传感器：二、智能决策系统机器学习家族1.1机器学习2.1深度学习2.2深度学习模型(主要属于监督/强化学习范畴，但结构通用)：3.1监督学习3.2监督学习模型4.1半监督学习4.2无/半监督学习模型：5.1无监督学习5.2生成模型(可属于监督/无监督)：6.1强化学习7.1其他学习三、控制系统（运控）①对应小脑和脊柱一、感知系统①对应人体的五官。由具有不同功能的各种
深度学习篇---矩阵 Atticus-Orion 嵌入式知识篇上位机知识篇嵌入式硬件篇深度学习矩阵人工智能
在机械臂解算、深度学习网络等硬件和软件领域中，矩阵运算作为核心数学工具，承担着数据表示、变换、映射和优化的关键作用。以下从具体领域出发，详细总结涉及的矩阵运算及对应的核心知识：一、机械臂解算领域机械臂解算（运动学、动力学分析）的核心是描述“关节空间”与“操作空间”的映射关系，矩阵运算用于精准刻画坐标系转换、运动传递和力/力矩分析。1.运动学解算（正/逆运动学）核心目标：通过矩阵描述关节角度与末端执
飞算JavaAI：力臻开发之本真，破 AI 代码之繁琐，传统项目一键生成微学AI 人工智能 java javaAI
飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成文章目录飞算JavaAI：力臻开发之本真，破AI代码之繁琐，传统项目一键生成一、前言二、飞算JavaAI是什么？2.1背景与实力2.2飞算JavaAI的“独门绝技”三、飞算JavaAI实战体验3.1IDEA插件安装配置3.2Main中写一个简单的梯度下降算法3.3main函数搭建一个卷积神经网络网络3.4飞算JavaAI：需求分析
机器学习入门（五）：线性回归—从模型函数到目标函数米饭超人
从数据反推公式假设我们获得了这样一张表格，上面列举了美国纽约若干程序员职位的年薪：enterimagedescriptionhere大家可以看到，表格中列举了职位、经验、技能、国家和城市几项特征。除了经验一项，其他都是一样的。不同的经验（工作年限），薪水不同。而且看起来，工作年头越多，工资也就越高。那么我们把Experience与Salary抽取出来，用x和y来分别指代它们。enterimaged
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移
AI驱动的电路仿真革命：从物理模型到智能学习的范式转移人工智能正颠覆传统电路仿真方法，本文将深入解析AI在电路建模、优化与故障诊断中的前沿应用，揭示智能仿真如何提升10倍效率并突破物理限制。一、AI电路仿真的数学基础1.1图神经网络建模电路拓扑电路可抽象为图结构G=(V,E)G=(V,E)G=(V,E)：VVV：节点（电子元件）EEE：边（连接关系）图卷积网络(GCN)更新公式：H(l+1)=σ(
Python深度学习实践：LSTM与GRU在序列数据预测中的应用 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：LSTM与GRU在序列数据预测中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来序列数据预测是机器学习领域的一个重要研究方向，涉及时间序列分析、自然语言处理、语音识别等多个领域。序列数据具有时间依赖性，即序列中每个元素都受到前面元素的影响。传统的机器学习算法难以捕捉这种时间依赖性，而深度学习
一个例子带你入门机器学习
目录1.为建模选择数据2.选择预测目标3.选择“特征”4.构建您的模型（这篇文章将使用经典墨尔本房价数据集作为例子，引导机器学习的流程，数据集为melb_data.csv，请在csdn的下载区自行下载，运行代码时需要将数据集下载在同个目录下）1.为建模选择数据数据集有太多的变量，多到难以理解，甚至无法很好地打印出来。如何将这海量的数据削减为能够理解的内容？我们将首先凭借直觉选择几个变量。后续将介绍
初探机器学习与力学研究的交叉领域 faderbic 机器学习人工智能深度学习
目录关于如何踏入机器学习领域机器学习与力学研究的交叉方向1.使用机器学习加速有限元求解2.结合有限元计算和机器学习预测复杂材料结构与力学性能的关系3.结构健康检测4.疲劳寿命预测总结关于如何踏入机器学习领域因为我本科的专业是力学，所以当我开始关注机器学习领域时，首先考虑的是机器学习和力学的交叉领域。对于很多对人工智能感兴趣的朋友，想加入人工智能的潮流却不知道从何学起，我提供一个思路，我认为将自己学
[NIPST AI]对抗性机器学习攻击和缓解的分类和术语 Anooyman 人工智能网络安全人工智能大语言模型网络安全安全
原文link：https://nvlpubs.nist.gov/nistpubs/ai/NIST.AI.100-2e2025.pdfIntroduction人工智能（AI）系统在过去几年中持续全球扩展。这些系统正在被众多国家开发并广泛部署于各自的经济体系中，人们在生活的许多领域都获得了更多使用AI系统的机会。本报告区分了两大类AI系统：预测型AI（PredictiveAI，PredAI）和生成型A
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO 深度学习计算机视觉人工智能
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现打架检测（C#代码，UI界面版）工业相机使用YoloV8模型实现打架检测工业相机通过YoloV8模型实现打架检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人脸识别检测（C#代码，UI界面版）工业相机使用YoloV8模型实现人脸的检测工业相机通过YoloV8模型实现人脸识别检测的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）格林威工业相机机器视觉数码相机 YOLO c#人工智能计算机视觉开发语言
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现人物识别（C#代码，UI界面版）工业相机使用YoloV8模型实现人物识别工业相机实现YoloV8模型实现人物识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实现
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版）格林威机器视觉工业相机数码相机 YOLO 深度学习计算机视觉人工智能视觉检测 c#
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现动物分类（C#源码，UI界面版））工业相机使用YoloV8模型实现动物分类工业相机实现YoloV8模型实现动物分类的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入YoloV8模型重要核心代码代码实
通俗易懂：什么是决策树？淦暴尼算法 python 决策树算法机器学习
1.引言：决策树就像“选择题”你是否曾经在生活中做过“选择题”？比如：今天要不要带伞？晚饭吃什么？该不该买那件心仪已久的商品？其实，我们的大脑经常会像“决策树”一样，通过一连串问题和判断，逐步缩小选择范围，最终做出决定。**决策树（DecisionTree）**就是这样一种模拟人类决策过程的机器学习模型。它通过“提问-分支-决策”的方式，把复杂问题拆解成一系列简单的判断，广泛应用于分类（如判断邮件
java毕业设计-基于Javaweb的家常小菜烹饪学习管理系统的设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿刘 vue spring boot 毕业设计 java 课程设计学习
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费开题报告、任务书、全bao定制+
java毕业设计源码案例-基于ssm+协同过滤的个性化小说推荐系统设计与实现(源码+LW+部署文档+全bao+远程调试+代码讲解等) 项目帮 springboot java 计算机毕设 java 课程设计开发语言
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
AI 大模型重塑软件开发流程万花丛中一抹绿人工智能
一、AI大模型的定义与发展历史AI大模型是基于海量数据训练的深度学习模型，具备强大的自然语言理解、逻辑推理和知识生成能力。在软件开发领域，以GPT-4、CodeLlama、GitHubCopilotX为代表的大模型，能理解代码语法、语义及业务逻辑，实现代码生成、漏洞检测等复杂任务。其发展可追溯至2017年，谷歌提出Transformer架构，为大模型奠定了核心基础。2018年，GPT-1问世，参数
机器学习中的数据预处理：从入门到实践耐思nice～机器学习由浅入深-吴恩达机器学习人工智能
在当今的智能时代，机器学习已经渗透到我们生活的方方面面。比如我们常用的推荐系统，它能根据我们的浏览记录精准推送喜欢的商品或视频，这背后就离不开机器学习的支撑。而一个优秀的机器学习模型，离不开高质量的数据，数据预处理正是保证数据质量的关键环节，它就像烹饪前的食材处理，直接影响着最终“菜品”的口感，也就是模型的性能。今天，我们就来全面学习机器学习中数据预处理的关键步骤。一、数据预处理的重要性数据预处理
PyTorch笔记6----------神经网络案例 HuashuiMu花水木 PyTorch笔记 pytorch 笔记
1.回归网络波士顿房价预测模型搭建波士顿房价数据集下载链接：百度网盘请输入提取码提取码:5279导入所需包importtorchimportnumpyasnpimportre读取数据ff=open('housing.data').readlines()data=[]foriteminff:out=re.sub(r"\s{2,}","",item).strip()#通过正则表达式去除所有空格data
计算机专业大数据毕业设计-基于 Spark 的音乐数据分析项目(源码+LW+部署文档+全bao+远程调试+代码讲解等) 程序猿八哥数据可视化计算机毕设 spark 大数据课程设计 spark
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌️技术范围：：小程序、SpringBoot、SSM、JSP、Vue、PHP、Java、python、爬虫、数据可视化、大数据、物联网、机器学习等设计与开发。主要内容：免费功能设计，开题报告、任务书、全b
Protein FID：AI蛋白质结构生成模型评估新指标
一、引言：蛋白质生成模型面临的评估挑战近年来，AI驱动的蛋白质结构生成模型取得了令人瞩目的进展，但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准，但计算机模拟评估对于快速开发和比较机器学习模型至关重要。然而，尽管最先进的模型在当前评估指标上表现卓越，但它们在实际设计应用中的成功率仍然相对有限。例如，有研究报告显示生成结构的实验成功率仅为3%，而计算机模拟评分却远高于
在 Conda 中删除环境及所有安装的库 Studying 开龙wu conda
注意事项1.删除环境前确保你没有在该环境中运行任何程序。2.删除操作是不可逆的，所有该环境中的包和配置都会被永久删除。3.如果你想保留环境的配置信息，可以在删除前使用condaenvexport>environment.yml导出环境配置。关于requirements.txt和environment.yaml文件使用介绍详情可参考以往文章，争对机器学习和深度学习里Python项目开发管理项目依赖的
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制王莽v2 机器人神经网络神经网络算法控制器
[论文]基于强化学习的控制输入非线性水下机器人自适应神经网络控制摘要本文研究了在水平面内运动的全驱动自主水下机器人的轨迹跟踪问题。在我们的控制设计中考虑了外部干扰、控制输入非线性和模型不确定性。基于离散时间域的动力学模型，两个神经网络(包括一个临界神经网络和一个作用神经网络)被集成到我们的自适应控制设计中。引入临界神经网络来评价设计的控制器在当前时间步长内的长期性能，并利用作用神经网络来补偿未知动
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，