AndyLiu1997

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记

文章目录

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记-2014

Abstract
1.Introduction
2.Vision Tasks
3.Classification

3.1Model Design and Training
3.2Feature Extractor
3.3Multi-Scale Classification
3.4Results
3.5ConvNets and Sliding Window Efficiency

4.Localization

4.1Generation Predictions
4.2Regressor Training
4.3Combining Predictions
4.4Experiments

5.Detection
6.Discussion

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks论文阅读笔记-2014

Abstract

我们提出了一个使用CNN用于分类、定位、检测的集成框架，展示了如何将多尺度以及滑窗方法有效的应用在一个卷积网络中，同时介绍了一种新的基于深度学习的定位方法（通过学习去预测目标的边界）。bbox之后被累积而不是抑制，以便提升检测结果的信度，我们也展示了，**可以同时使用一个shared network学习多个不同任务。**集成网络取得了ILSVRC2013定位任务的冠军，对于检测与分类任务取得很好结果。最后，我们从我们最好的模型中提出一个特征提取器，叫做OverFeat。

1.Introduction

从图片中识别出最主要的目标的类别这一任务一直以来都是一个很重要的任务。CNN在小的数据集比如Caltech-101的准确率尽管不错，但没有达到破纪录的水平。然而，大型数据集的到来使得卷积网络极大地提升了效果，比如ImageNet。

ConvNet在这些任务上的主要优点在于，整个系统是端到端训练的，输入raw pixels，输出最后categories，从而不用人工设计特征提取器。主要的不足在于，它们需要非常非常多的标注数据。

本文主要贡献点在于，展示训练一个CNN网络同时完成分类、定位以及检测，这样可以对这些任务的分类准确率和定位准确率都有所提升。文章**提出了一种新的整合方法，将目标检测、识别、定位整合到一个ConvNet中，提出了一种通过积累预测的box来完成定位和检测的方法。我们认为，通过将许多次定位的预测结果进行组合，探测过程就可以在不在背景样本训练的情况下进行，这样可以避免时间消耗以及复杂的bootstraping过程。**不在背景中训练也是的网络只关心positive classes来取得更高准确率。

虽然ImageNet分类数据集中的图像都包含一个大致位于中间且占据图像大部分的目标，但是我们感兴趣的目标有时在尺寸以及图像中的位置上变化范围很大。解决这个问题的第一个方法是在图像中多个位置使用ConvNet处理，使用滑窗的这种方式，并且多尺度处理。尽管使用这种方式，也可能会出现，滑窗正好包含一个可识别目标的一部分（比如狗的头），**而不是整个目标，也不是目标的中心。这就导致分类结果很好，但是检测和定位结果较差。**因此，第二种想法是训练一个系统，不止对每个窗口进行分类，而且生成包含与这个窗口相关的目标的位置以及bbox预测。第三种想法是在每个位置和尺寸上对每一类目标是否在该位置存在积累证据。

ImageNet在定位和分类任务都取得了很好的效果，但是并没有解释为什么会奏效，我们的文章是第一篇清晰解释为什么ConvNets可以在ImageNet上被用来定位和检测。在本文中，定位与检测这两个术语的意思与ImageNet2013竞赛中的一致，它们的唯一区别在于评估准则的（evaluation criterion）不同，都包含了对图像中每个目标预测bbox。

2.Vision Tasks

我们按照难度把CV任务排序：分类、定位、检测，每一个优势后面任务的一个子任务。我们把所有任务集合到一个框架中，共享学习到的feature。接下来将分别介绍。

我们在参加了ILSVRC2013竞赛。

比赛中的分类任务是：每张图片与一个label相连接，标签指出图像中的主要目标，允许5次猜测（top-5 error rate），这是因为图像中可能存在许多小的未标记目标。

比赛中的定位任务是：同样是每张图片5次猜测，对每一个猜测返回一个预测的bbox，IoU>0.5认，同时label为正确类才为正确（每次猜测返回一个label和对应的一个bbox），一般就只有一个目标，对分类的结果的bbox进行预测。

检测任务：与定位任务的主要不同在每张图可能有很多不同的目标（也可能是0）。通过平均准确率均值（mAP）来惩罚假阳性。

下图展示了我们在定位和检测中的一些例子，分类和定位任务share同一个dataset，而检测任务由于可能包含多种目标，需要额外标注。

3.Classification

我们的分类网络结构与AlexNet类似，但是提升了网络设计和inference step。

3.1Model Design and Training

我们在ImageNet2012训练集上进行训练（1.2million，1000类），与AlexNet一样，我们训练时固定输入图像尺寸，多尺度训练在下部分介绍。每张图像下采样到最小维度256像素，随机取5个crop（221 * 221）以及它们的水平翻转，batchsize = 128，网络的权重随机初始化服从分布 $(\mu,\sigma)=(0,1*10^{-2})$ ，之后使用SGD进行优化，动量0.6，权值衰减参数1*10-5。学习率初始化为0.05，在（30,50,60,70,80）个epoah之后减半。FC层（6,7层）使用Dropout（0.5）。

在表1和表3中我们详细列出了网络结构，注意到，在训练过程中，==我们的结构输出是非空间的（non-spatial），因为输出是1 * 1 *channels的，与之相反，测试阶段，我们输出是空间的（spatial）。==前五层与AlexNet结构相似，使用了ReLU和最大池化。不同点如下，没使用对比归一化（前者的LRN？），池化层是不重叠的，在前两层我们使用更小的步长2得到了更大的特征图，更大的步长提升了速度但是影响了准确率。

图二中我们展示了前两层卷积层，第一层主要获取了方向边缘、图案样式、斑点。第二层由许多形式，一些扩散了，一些是粗线条结构和边缘。

3.2Feature Extractor

我们与论文一起发布了一个特征提取器“OverFeat”，用来为CV任务提供powerful features，有两个版本，fast/accurate。每种结构都在表1和表3中列出，表4中我们比较了它们的参数量和连接量。accurate模型比fast更准确（14.18%相比于16.39%，表2），但是它需要接近两倍的连接。使用7种accurate模型组合可以达到13.6%分类错误率。

3.3Multi-Scale Classification

AlexNet中，使用固定的10个crop（4个角+1个中间以及它们的水平翻转）的结果平均，来加强表现。然而，这种方法可能会忽略图像中的某些区域，而且这些crop的重叠也会导致计算的冗余。另外，它只使用在单一尺度，这个尺度可能不是网络表现最好的尺度。

我们将整张图像放入网络，多尺度进行处理。尽管滑窗法在一些种类的模型上不可用，但在卷积网络还是很有效的。这种方法可以使得更多的views进行投票得出最好结果，在保持效率的同时提升了鲁棒性。对任意输入尺寸的图像，在每个尺度处理之后得到的是一个C-channels的空间图，C为类别数。

总体的下采样率大概为2 * 3 * 2 *3 =36，因此，当densely处理之后，同一坐标轴方向，输入图像每36个像素最后生成一个分类向量。这种输出的粗略分布比原来10个crop的方法相比降低了表现，因为网络滑窗没有与图像中的目标很好的对齐。为了解决这个问题，我们在最后一个池化层每个偏移处使用下采样操作，这就移除了这一层对分辨率的损失，使得下采样率由36变成了12。

下面具体解释如何完成这个分辨率提升操作。我们将输入图像rescale到6种尺度，导致在第五层的池化之前有多种分辨率（表5）。这些特征图之后进行池化操作然后送入分类器，按照图3中的流程进行处理。

（a）对给定尺度这张图像，从layer 5 池化前开始。

（b）对每个未池化的maps，进行一个3 * 3的非重叠最大池化操作，一共3 * 3次池化，每次对池化操作的位置有一个偏移，对{x，y}分别偏移{0,1,2}。

（c）经过上面操作之后一共得到了3 * 3 = 9个池化之后的特征图。

**（d）分类器（6、7、8层）的输入是固定的尺寸5 * 5，对每一个池化后的输入都生成C-维的输出向量。把分类器当作滑窗（5 * 5），对（c）之后的每个图进行操作，生成一系列二维的 * 9（上面生成9个图） * C的输出。**相当于把FC层当作卷积。

（e）最后把九个输出进行组合，reshape成一个二维图 * C通道的输出。

上述过程的一维解释过程见图三。

这些操作可以看作是把最后一层池化层和FC层在每个可能的偏移位置近几年行出来，然后把这些输出交错来得到融合的结果。

上面的过程对每张图像的水平翻转同样进行一遍。我们通过下面的方法得到最后的分类结果：**首先对图片以及翻转图片的所有尺度的结果，找到每一类的空间最大值，把每个输出变成1 * 1 * C，之后对这些若干个1 *1 *C结果进行平均，得到一个1 1 C结果，最后根据评价规则找到top-1或top-5结果。

直观来看，网络的两部分，特征提取层与分类层，以相反的方式工作。在特征提取阶段，filters一次将整个图像进行卷积操作，从计算角度看，这比使用固定尺寸滑窗再将不同位置的结果汇集到一起有效率得多。然而这些在分类阶段正好相反，分类阶段我们要在最后一层卷积层输出的不同尺寸位置的特征图中找到一个固定尺寸的表示（representation），因此分类器使用固定的5 * 5，并且在所有的特征图上使用。上面的策略可以使得特征图中的特征表示与分类器的特征表很好的完成对齐（fine alignment）。

3.4Results

在表2中，我们使用不同的方法进行实验，并且将它们与AlexNet效果进行对比。使用上面的6个尺度的方法，进行fine stride，取得了16.27%的top-5错误率。如预想的一样，使用更少的尺度训练会降低表现。图3中展示的fine stride方法在单尺度中带来相对小的提升，但是对于多尺度来说也很重要。

在图4中，我们给出了我们在2013比赛中的测试结果，我们的模型（OverFeat）取得了14.2%准确率（使用了7个网络综合，每个都由不同的初始化进行训练的），获得了第五名。**在比赛之后，我们通过使用更大的模型（更多特征以及更多层数）使得结果提升到13.6%的错误率。**由于时间限制，这些大的模型未被完全训练，之后还会有提升。

3.5ConvNets and Sliding Window Efficiency

与许多滑窗方法对输入的每个滑窗进行计算整个pipeline相反，卷积网络滑窗时十分高效，因为它对重叠的区域的计算自然共享。

对于网络中的FC层，我们也可以替换为卷积层，方法就是将卷积核的大小，设置为输入的大小，channel数为原本线性输出的维度，之后的FC层可以更换成1 * 1的卷积核。这样网络就是一个全卷积网络，这样做的好处在于：

原来网络是固定尺寸输入，最后卷积层要打平，连接FC层，这块的全连接操作输入输出维度都是固定的。对于测试时，尺寸不同就无法进行，也要随机crop到这个尺寸（AlexNet），效果不好。

**经过修改之后，都变成卷积操作，训练时最后的输出是1 * 1 * C，测试时，根据输入尺度不同，输出可能是x * y * C，再对 x*y 进行某种池化操作变成1 * 1，即可得到输出，实现了对不同尺寸输入都可以完成测试。**如图5所示，由于卷积是bottom-up，相邻窗口共有的计算只需要执行一次。

4.Localization

对训练好的分类网络，把分类器替换成regression回归网络，使它在每个空间位置和尺度来预测目标的bbox。之后将这些回归的预测结果以及分类结果进行组合。

4.1Generation Predictions

在所有的位置和尺度上同时运行分类器以及回归网络，因为它们共享特征提取层，所以只有最后的回归层需要在分类层计算之后，再进行计算。最后softmax输出层，对每一种类别calss，会对每一个位置的框中是否存在这个类别的目标给出一个信度分数，因此我们可以给每一个bbox分配一个信度。

4.2Regressor Training

回归层将第五层之后经过池化的特征图作为输入，**有两层隐层的FC层，分别为4096和1024通道。最后的输出是四维的，分别对应左上角和右下角的坐标，**与分类一样，由于使用fine stride，结果也是有3 * 3的copies。具体结构如图8所示。

我们从分类网络固定前面的特征提取层，并且使用L2 loss（预测bbox与ground truth之间）来训练回归网络。最后的回归层是class-specific，有1000个不同的版本，每一类一种，我们使用与3.1中一致的尺度设置来训练回归网络。**将ground truth移入到最后一层3 * 3offset中与输出的预测结果进行对比。如图8(d)，输出为：2 *3 的map中（共9层shifts），每个位置有一个四维输出；将ground trut移到该层进行对比，求L2loss。**当然，只对2 * 3块中，生成的预测bbox与输入视野重叠大于0.5的进行回归，因为小于0.5就不太可能包含物体。

使用多尺度训练和回归网络对于跨尺度预测结果的组合很重要，单尺度训练可能在这个尺度表现很好但是在其他尺度表现不佳。**多尺度训练将使预测在各个尺度之间正确匹配，并指数增加合并的预测的置信度。**但是反过来，这也使得网络只在这几个尺度表现比较好，而不是在各种尺度上表现都不错（这是检测所要应对的问题）。

4.3Combining Predictions

见图7，我们通过一种贪婪融合策略（greedy merge strategy）来对回归的bbox进行组合，算法如下：

（a） $C_s$ 表示以下这些类别的集合：表示该尺度s（s=1、2、3、4、5、6）下，进行检测的top-k输出类别。

（b） $B_s$ 表示以下预测bbox的集合：对 $C_s$ 中的每个类别在对应尺度s上，通过回归网络进行预测，得到的bbox。

（c）合并所有的 $B_s$ ，得到所有bbox的集合 $B$ 。

（d）重复merging过程，直到：

（e） $(b^*_1,b^*_2)=argmin_{b_1\ne b_2\in B}match\_score(b_1,b_2)$ （选取匹配分数最小，即最相近的两个bbox进行融合）

（f）如果 $match\_score(b^*_1,b^*_2)>t$ ，停止（说明两个框匹配程度较差，不进行融合）

（g）否则，对这两个框进行box_merge，将结果送入B，原来的删除。

计算match_score：将两个bbox的中心坐标距离以及两个box相交区域之和。

计算box_merge：计算bbox坐标的平均值，box融合。

最后将具有最大的class score的融合后的bbox输出为预测结果，这也是不断累积这些bbox对应的输入window进行检测得到的class outputs，最后最大score的融合后的bbox作为结果。

图6就是一个将bboxs融合成一个高信度bbox的例子。例子中，一些乌龟和鲸鱼的bbox在中间的multi-step步骤中出现，但是在最后结果中消失。不只是因为这些bbox信度很低（最大0.11和0.12），同样因为这些bbox没有熊的bbox那么连贯以得到信度的提升。熊的bboxes有很强的信度（每个尺度平均都有0.5）和好的匹配分数，因此在融合之后，大部分熊的bbox融合为一个高信度bbox，而假阳性由于缺少连续性和信度，消失了。这种分析方法通过奖励bbox的连续性，对假阳性更加鲁棒。

4.4Experiments

我们网络在ImageNet2012的验证集上实验结果如图9所示，图10展示了2012和2013定位比赛的结果。

我们的多尺度且multi-view方法取得很好效果，如图9，只是用中间的部分错误率很高。

对每个class使用单独的最后一层（Per-Class Regressor，PCR）令人吃惊地居然没有共享最后一层的效果好。这可能是因为相对来说单独每类的图像还是较少，导致训练未完成。通过对相似的class共享最后一层，可能会取得更好的效果。（比如对于所有类别的狗，训练一种top layer，对于所有交通工具类别，训练一种top layer）。

5.Detection

检测的训练过程与分类的训练过程相似，只不过一张图像的多个位置被同时训练，可能有多个目标。因为模型是卷积的，所以所有位置的权值都是共享的。与定位任务最主要的不同在于当没有目标存在时，预测背景类别（background class）的必要性。通常来说，负样本例子通常在训练中随机出现，然后通过bootstrapping过程添加负样本到训练中，bootstrapping的size需要调整好以免模型在小数据集上过拟合。为了克服以上问题，**我们通过为每个图像选择一些有趣的负面示例（例如随机的或最令人反感的示例）来进行负面的训练。**这种方法虽然更耗计算，但是流程更简单，由于检测的特征提取用的是分类任务的，无需改变，那么负训练这个过程并没有消耗太多时间。

图11中我们给出了ILSVRC2013检测比赛的结果，我们的方法与前三名的其他两个不同，它们最开始使用了一个分割操作来使得候选windows从200000降到2000，这种方法加速了测试，而且减少了假阳性。与dense sliding相比，selective search效果更好，因为它将不太可能的window抛弃，减少了假阳性。

6.Discussion

提出了一种多尺度、滑窗的方法，可以用来分类、定位、检测。目前在ILSVRC2013数据集分别排名4、1、1。第二个贡献在于我们解释了为什么卷积网络可以有效应用在检测和定位任务中。我们提出了一个整合的流程，在共享特征提取的基础上，完成不同的任务。

我们的方法可能在下面几个方面改进：

对于定位，我们没有在整个网络进行反向传播（只在回归网络），这样可能会提升表现。

我们使用的是L2 loss，而不是衡量表现的IoU，直接使用IoU也许会提升。

对bbox增加额外的参数可能会降低输出的相关性，这样可能会对训练有帮助。

头歌实训作业算法设计与分析-动态规划(第1关：0/1背包问题) Milk夜雨头歌实训作业算法动态规划
任务描述求解0/1背包问题。问题描述有n个重量分别为{w1，w2，…，wn}的物品，它们的价值分别为{v1，v2，…，vn}，给定一个容量为W的背包。设计从这些物品中选取一部分物品放入该背包的方案，每个物品要么选中要么不选中，要求选中的物品不仅能够放到背包中，而且重量和为W，并具有最大的价值。测试说明测试输入：第一行为2个整数，分别表示物品数量n（1≤n≤20）和背包容量W（1≤W≤10000）。
【新春不断更】数据结构与算法之美：二叉树 <但凡. 数据结构与算法之美数据结构算法 c++
Hello大家好，我是但凡！很高兴我们又见面啦！眨眼间已经到了2024年的最后一天，在这里我要首先感谢过去一年陪我奋斗的每一位伙伴，是你们给予我不断前行的动力。银蛇携福至，万象启新程。蛇年新春之际，愿你们万事顺遂，岁月皆安，新的一年所想皆如愿，所行皆坦途。好了，给生活添点passion，开始今天的编程之路！我的博客：left=NULL;p->right=NULL;p->x=a;returnp;}1
使用 Python 和 scikit-learn 实现 KNN 分类：以鸢尾花数据集为例弥树子 python scikit-learn 分类
在机器学习的世界里，K-NearestNeighbors（KNN）算法是一种简单而强大的分类方法。它基于一个直观的想法：相似的数据点往往属于同一类别。本文将通过Python的scikit-learn库实现KNN分类，以经典的鸢尾花数据集为例，展示从数据加载到模型评估的完整流程。1.KNN算法简介KNN是一种监督学习算法，主要用于分类和回归任务。它的工作原理非常简单：对于一个新的数据点，算法会查找训
machine learning knn算法之使用KNN对鸢尾花数据集进行分类知识鱼丸 machine learning 机器学习算法分类
通过导入必要的scikit-learn导入必要的库，加载给定的数据，划分测试集和训练集之后训练预测和评估即可具体代码如下：importnumpyasnpfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardS
DeepSeek--通向通用人工智能的深度探索者油泼辣子多加专业名词解释人工智能
一、词源与全称“DeepSeek"由"Deep”（深度）与"Seek"（探索）组合而成，中文译名为"深度求索"。其全称为"深度求索人工智能基础技术研究有限公司"，英文对应"DeepSeekArtificialIntelligenceResearchInstitute"。这一命名体现了企业对深度学习技术与未知领域持续探索的双重追求。二、发展历程初创期（2023）公司成立于中国杭州，创始团队汇聚了来自
【计算机视觉】图像滤波油泼辣子多加计算机视觉计算机视觉人工智能 python 神经网络
1.图像滤波定义图像滤波是一种非常重要的图像处理技术，图像平滑、边缘检测、边缘增强、去除噪声都属于图像滤波，图像滤波是一种基于邻域的算法。通过图像滤波，可以实现图像平滑、边缘检测；图像平滑也叫图像模糊，用以去除图像中的噪声、伪影等，它是图像处理和计算机视觉的常见步骤。函数模糊类型特点使用场景cv.blur均值模糊简单快速，所有像素权重相等基础平滑和降噪cv.GaussianBlur高斯模糊中心权重
linux git clone出现fatal: unable to access Failed to connect to github.com port 443: Timed out解决方案 herosunly C/C++/Linux解决方案 linux git github timeout port 443
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了linuxgitclone出现fatal:unabletoaccessF
LSTM的推导与实现 YZXnuaa NLP Python库
最近在看CS224d，这里主要介绍LSTM(LongShort-TermMemory)的推导过程以及用Python进行简单的实现。LSTM是一种时间递归神经网络，是RNN的一个变种，非常适合处理和预测时间序列中间隔和延迟非常长的事件。假设我们去试着预测‘IgrewupinFrance...（很长间隔）...IspeakfluentFrench’最后的单词，当前的信息建议下一个此可能是一种语言的名字
Github趋势榜的新年冠军，竟是用AI玩数独 beyondma AI与最新技术演进 AI MINST Github
今天笔者无意中打开Github发现了这个目前趋势榜霸榜的项目是是一个利用AI玩数独的项目AI_Sudoku（Github发址：https://github.com/neeru1207/AI_Sudoku）笔者体验了一下感觉还是比较有意思的，AI_Sudoku本质上就是使用图像识别的方式来完成MINST数字识别，然后再使用dancinglinksx算法解出数独问题，对于初学者来说既能解决AI的入门问
基于微信小程序的生鲜销售应用设计与实现赵谨言论文经验分享毕业设计
标题:基于微信小程序的生鲜销售应用设计与实现内容:1.摘要随着移动互联网的普及和人们生活水平的提高，生鲜产品的线上销售逐渐成为一种趋势。本设计旨在开发一款基于微信小程序的生鲜销售应用，为用户提供便捷、高效的购物体验。该应用采用了先进的技术和算法，实现了生鲜产品的在线展示、下单、支付、配送等功能。通过对用户需求的分析和市场调研，我们设计了简洁明了的界面和操作流程，使用户能够轻松地浏览商品、下单购买。
LeetCode：62.不同路径 xiaoshiguang3 代码随想录-跟着Carl学算法 leetcode 算法 java 动态规划
跟着carl学算法，本系列博客仅做个人记录，建议大家都去看carl本人的博客，写的真的很好的！代码随想录LeetCode：62.不同路径一个机器人位于一个mxn网格的左上角（起始点在下图中标记为“Start”）。机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角（在下图中标记为“Finish”）。问总共有多少条不同的路径？示例1：输入：m=3,n=7输出：28示例2：输入：m=3,n=
YOLO11涨点优化：特征融合创新 | 多层次特征融合（SDI），小目标涨点明显| UNet v2，比UNet显存占用更少、参数更少 AI小怪兽 YOLO11魔术师深度学习目标检测计算机视觉目标跟踪神经网络 python
本文独家改进：多层次特征融合（SDI），能够显著提升不同尺度和小目标的识别率如何引入到YOLO11：1)替代原始的Concat；改进结构图如下：《YOLOv11魔术师专栏》将从以下各个方向进行创新：【原创自研模块】【多组合点优化】【注意力机制】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化】【小目标性能提升】【前沿论文分享】【训练实战篇】订阅者通过添加WX:AI_CV
AI智能制造软件有什么用处雪叶雨林行业资讯 AI 人工智能制造
随着信息技术与制造业的深度融合，人工智能（AI）逐渐成为提升制造效率和灵活性的重要工具。AI智能制造软件通过集成数据分析、机器学习和自动化流程，为企业提供了优化生产、降低成本和提高质量的新途径。生产过程优化实时监控与反馈AI智能制造软件能够实时收集生产线上的各类数据，如温度、压力、速度等参数，并通过机器学习算法进行分析处理。一旦检测到异常情况，系统会立即发出警报并提供改进建议，帮助企业快速响应问题
Ubuntu22.04系统下MVS运行海康威视工业相机 boss-dog 海康威视工业相机 ubuntu MVS 海康威视相机
之前的开发环境是Ubuntu16.04，最近因项目需求换到了Ubuntu22.04系统，安装了ROS2-humble，重新记录下开发过程。Ubuntu16.04系统可参考：VMware虚拟机中Ubuntu16.04系统下通过MVS运行海康威视工业相机Linux环境中对海康威视工业相机SDK进行二次开发（QT+CMake+Opencv+海康SDK）1.官网安装包下载https://www.hikro
人脸识别的经典深度学习方法明初啥都能学会深度学习人工智能
人脸识别的经典深度学习方法引言1.卷积神经网络（CNN）1.1LeNet1.2AlexNet1.3VGGNet1.4ResNet2.人脸检测2.1Viola-Jones算法2.2基于深度学习的人脸检测3.人脸特征提取3.1主成分分析（PCA）3.2人脸对齐3.2.1基于特征点的对齐3.2.2基于深度学习的对齐4.人脸识别模型4.1传统机器学习方法4.2基于深度学习的方法5.公式解读5.1卷积运算5
mbedtls | 06 - 非对称加密算法的配置与使用（RSA算法） Mculover666 mbedtls RSA
mbedtls系列文章mbedtls|01-移植mbedtls库到STM32的两种方法mbedtls|02-伪随机数生成器（ctr_drbg）的配置与使用mbedtls|03-单向散列算法的配置与使用（MD5、SHA1、SHA256、SHA512）mbedtls|04-对称加密算法的配置与使用（AES算法）mbedtls|05-消息认证码的配置与使用（HMAC算法、GCM算法）Demo工程源码ht
LeetCode：70. 爬楼梯 xiaoshiguang3 代码随想录-跟着Carl学算法 leetcode 算法 java 动态规划
跟着carl学算法，本系列博客仅做个人记录，建议大家都去看carl本人的博客，写的真的很好的！代码随想录LeetCode：70.爬楼梯假设你正在爬楼梯。需要n阶你才能到达楼顶。每次你可以爬1或2个台阶。你有多少种不同的方法可以爬到楼顶呢？示例1：输入：n=2输出：2解释：有两种方法可以爬到楼顶。1阶+1阶2阶示例2：输入：n=3输出：3解释：有三种方法可以爬到楼顶。1阶+1阶+1阶1阶+2阶2阶+
基于深度学习的遥感目标检测系统：UI界面、R-CNN模型与数据集准备 2025年数学建模美赛 R-CNN检测系统人工智能深度学习 r语言 cnn python ui 目标检测
一、引言遥感图像中的目标检测在很多领域，如环境监测、土地利用、城市规划、农业资源监测等方面有着广泛应用。遥感图像具有高分辨率和丰富的空间信息，但同时也带来了目标检测中的许多挑战，特别是在目标尺度变化、遮挡和复杂背景的情况下。因此，采用深度学习技术，尤其是卷积神经网络（CNN）和区域卷积神经网络（R-CNN），在遥感图像目标检测中取得了显著的成果。本文将详细介绍基于深度学习的遥感目标检测系统，使用R
[c语言日寄]越界访问：意外的死循环 siy2333 c语言日寄 c语言开发语言学习算法笔记
【作者主页】siy2333【专栏介绍】⌈c语言日寄⌋：这是一个专注于C语言刷题的专栏，精选题目，搭配详细题解、拓展算法。从基础语法到复杂算法，题目涉及的知识点全面覆盖，助力你系统提升。无论你是初学者，还是进阶开发者，这里都能满足你的需求！【食用方法】1.根据题目自行尝试2.查看基础思路完善题解3.学习拓展算法【Gitee链接】资源保存在我的Gitee仓库：https://gitee.com/siy
ultralytics 是什么？博刻 AI 学习笔记 python
ultralytics是一个用于计算机视觉任务的Python库，专注于提供高效、易用的目标检测、实例分割和图像分类工具。它最著名的功能是实现YOLO（YouOnlyLookOnce）系列模型，特别是最新的YOLOv8。1.YOLO是什么？YOLO是一种流行的目标检测算法，以其速度快和精度高而闻名。YOLO的核心思想是将目标检测问题转化为一个回归问题，直接预测目标的边界框和类别。YOLOv8是YOL
NASA锂电池容量增量数据处理 Art1st `Sakura matlab
Matlab电池充放电画图nasaB005即5号电池在1.5A的恒流(CC)模式下充电，直到电池电压达到4.2V，然后继续以恒压(CV)模式充电，直到充电电流下降到20mA。在恒流(CC)2A水平下放电，直到电池电压分别降至2.7V、2.5V、2.2V和2.5V(电池5、6、7和18)。阻抗测量通过电化学阻抗谱(EIS)频率扫描进行，范围从0.1Hz到5kHz。当电池达到寿命结束(EOL)标准时，
mysql 树形结构_MySQL 树形结构数据库设计 | 剑花烟雨江南来B mysql 树形结构
程序设计过程中，我们常常用树形结构来表示某些数据的关联关系，如企业的部门上下级、电商平台的商品分类等等，通常而言，我们需要通过数据库来完成数据的持久化。由于关系型数据库没有一个很好的树形结构解决方案，因此设计合适的Schema以及其对应的CURD算法是关键。接下来，我们以电商商品分类结构来介绍几种解决方案。邻接表邻接表就是把所有节点都放在一张表中，然后用一个属性来记录每个节点的父节点。如下：CRE
Kaggle房价预测一名小菜鸟的学习之路深度学习pytorch 深度学习机器学习 python 人工智能神经网络
Kaggle房价预测作为深度学习基础篇章的总结，我们将对本章内容学以致用。下面，让我们动手实战一个Kaggle比赛：房价预测。本节将提供未经调优的数据的预处理、模型的设计和超参数的选择。我们希望读者通过动手操作、仔细观察实验现象、认真分析实验结果并不断调整方法，得到令自己满意的结果。%matplotlibinlineimporttorchimporttorch.nnasnnimportnumpya
C++ 与机器学习：构建高效推理引擎的秘诀 salsm C++编程魔法师 c++机器学习开发语言
随着深度学习模型逐渐从研究走向生产环境，推理能力成为部署中的关键环节。模型的推理引擎需要以极低的延迟快速处理输入数据，同时最大化地利用硬件资源。虽然Python被广泛用于模型的训练和开发，但C++却在推理领域独占鳌头，其性能优势和硬件控制能力无可替代。在这篇文章中，我们将从为什么选择C++、构建高效推理引擎的细节，以及相似的开源项目三个方面深入探讨如何利用C++打造高效的机器学习推理引擎。目录为什
【Java程序员面试专栏数据结构】五高频面试算法题：二叉树存在morning Java 程序员技术栈 #二叉树 java 面试算法
一轮的算法训练完成后，对相关的题目有了一个初步理解了，接下来进行专题训练，以下这些题目就是二叉树相关汇总的高频题目总的来说，前序遍历是自上而下调整或比较节点，中序遍历用来对节点排序，后序遍历是自下而上的寻找或求最值供上层决策，这里的上下指的是树的层高题目关键字解题思路时间空间二叉树的前序遍历DFS-前序遍历按照根左右的顺序进行递归，补充迭代思路，依赖辅助栈O(n)O(n)二叉树的中序遍历DFS-中
《动手学深度学习》(PyTorch版) chaser&upper 深度学习 pytorch 深度学习 python
《动手学深度学习》PyTorch版前言简介面向人群食用方法方法一方法二方法三目录原书地址引用阅读指南前言读书啦！！！本项目将《动手学深度学习》原书中MXNet代码实现改为PyTorch实现。原书作者：阿斯顿·张、李沐、扎卡里C.立顿、亚历山大J.斯莫拉以及其他社区贡献者，GitHub地址：https://github.com/d2l-ai/d2l-zh此书的中英版本存在一些不同，针对此书英文版的P
从简单到深刻的认知发展 AI架构设计之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
认知发展，人工智能，深度学习，神经网络，机器学习，自然语言处理，计算机视觉1.背景介绍认知发展是人类从简单到复杂的思维方式演进的过程，它涉及感知、记忆、语言、推理和决策等多个方面。随着人工智能技术的飞速发展，我们开始尝试用计算机模拟人类的认知能力，构建能够学习、理解和解决复杂问题的智能系统。从早期的符号逻辑到如今的深度学习，人工智能的发展经历了多个阶段。早期的人工智能研究主要集中在规则和逻辑推理上
改进候鸟优化算法之三：引入自适应策略的候鸟优化算法（AS-MBO）搏博算法算法人工智能机器学习启发式算法 python
引入自适应策略的候鸟优化算法（MigratingBirdsOptimizationwithAdaptiveStrategy，简称AS-MBO）是对传统候鸟优化算法（MigratingBirdsOptimization，MBO）的一种改进。MBO算法本身是一种基于群体智能的元启发式优化算法，其灵感来源于候鸟迁徙时的“V”字形飞行队列，通过模拟候鸟的迁徙行为来优化问题的解。一、传统MBO算法概述（1）
使用onnxruntime-web 运行yolov8-nano推理 CHEN_RUI_2200 机器学习 YOLO
ONNX（OpenNeuralNetworkExchange）模型具有以下两个特点促成了我们可以使用onnxruntime-web直接在web端上运行推理模型，为了让这个推理更直观，我选择了试验下yolov8识别预览图片：1.跨平台兼容性ONNX是一种开放的格式，可以在不同的深度学习框架之间共享模型，如PyTorch、TensorFlow、MXNet和Caffe2。这使得用户可以在一个框架中训练模
【C语言算法刷题】第9题花生_TL00007 C语言算法刷题算法 c语言数据结构
题目描述给定一个非空字符串S，其被N个‘-’分隔成N+1的子串，给定正整数K，要求除第一个子串外，其余的子串每K个字符组成新的子串，并用‘-’分隔。对于新组成的每一个子串，如果它含有的小写字母比大写字母多，则将这个子串的所有大写字母转换为小写字母；反之，如果它含有的大写字母比小写字母多，则将这个子串的所有小写字母转换为大写字母；大小写字母的数量相等时，不做转换。输入输出描述输入两行：第一行为参数K
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1