bryant_meng

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》

ECCV-2014

目录
- 1 Motivation
- 2 Advantages
- 3 Method（Deep Networks with spatial pyramid pooling）
  - 3.1 Convolutional Layers and Feature Maps
  - 3.2 The Spatial Pyramid Pooling Layer
  - 3.3 Training the Network with the Spatial Pyramid Pooling Layer
    - 3.3.1 Single-size training
    - 3.3.2 Multi-size training
- 4 SPP-net for image classification
  - 4.1 Experiments on ImageNet 2012 Classification
    - 4.1.1 Baseline Network Architectures
    - 4.1.2 Multi-level Pooling Improves Accuracy
    - 4.1.3 Multi-size Training Improves Accuracy
    - 4.1.4 Full-image Representations Improve Accuracy
    - 4.1.5 Multi-view Testing on Feature Maps
    - 4.1.6 Summary and Results for ILSVRC 2014
  - 4.2 Experiments on VOC 2007 Classification
  - 4.3 Experiments on Caltech101
- 5 SPP-net for object detection
  - 5.1 Detection Algorithm
  - 5.2 Detection Results
  - 5.3 Complexity and Running Time
  - 5.4 Model Combination for Detection
  - 5.5 ILSVRC 2014 Detection
- 6 存在的问题
- 补充知识
  - 1Bag-of-Words
  - 1.1 起源
  - 1.2 为什么要用BoW模型描述图像？
  - 1.3 构建BOW码本步骤

1 Motivation

Existing deep convolutional neural networks (CNNs) require a fixed-size (e.g., 224×224) input image. This requirement is “artificial” and may reduce the recognition accuracy for the images or sub-images of an arbitrary size/scale.

limits both the aspect ratio and the scale of the input image

When applied to images of arbitrary sizes, current methods mostly fit the input image to the fixed size, either via cropping or via warping, as shown in Figure 1 (top).

In this work, we equip the networks with a more principled pooling strategy, “spatial pyramid pooling”, to eliminate the above requirement.

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第2张图片

主要改进（与RCNN比）

共享卷积计算
空间金字塔池化

2 Advantages

Our method computes convolutional features 30-170× faster than the recent and most accurate method R-CNN (and 24-64× faster overall) while achieving better or comparable accuracy on Pascal VOC 2007.（快）
In ImageNet Large Scale Visual Recognition Challenge (ILSVRC) 2014, our methods rank #2 in object detection and #3 in image classification among all 38 teams. （准）

3 Method（Deep Networks with spatial pyramid pooling）

SPP-net（fig1 bottom）

We add an SPP layer on top of the last convolutional layer.The SPP layer pools the features and generates fixed length outputs, which are then fed into the fully connected layers (or other classifiers). In other words, we perform some information “aggregation” at a deeper stage of the network hierarchy (between convolutional layers and fully-connected layers) to avoid the need for cropping or warping at the beginning.

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第3张图片

3.1 Convolutional Layers and Feature Maps

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第4张图片

55-th filter：circle shape
66-th filter：^ shape
118-th filter：v shape

So why do CNNs require a fixed input size?

The deep network described above needs a fixed image size. However, we notice that the requirement of fixed sizes is only due to the fully-connected layers that demand fixed-length vectors as inputs.

3.2 The Spatial Pyramid Pooling Layer

全部用的是max pooling
k*M dimention

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第5张图片

maxpooling 后的效果如下

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第6张图片

max pooling 的计算方法如下
Consider the feature maps after conv5 that have a size of a×a (e.g., 13×13). With a pyramid level of n×n bins

话不多说，for examples，下图，把 conv5 的13*13*256 分别 max pooling 到 3*3*256、 2*2*256、1*1*256，filter 的 size 和step 用以下的公式， ⌊ ⌋ 表示 floor， ⌈ ⌉ 表示 ceil

3*3*256：size = ⌈133⌉=5 , stride = ⌊133⌋=4 ，然后 ⌊13−54⌋+1=3
2*2*256：size = ⌈132⌉=7 , stride = ⌊132⌋=6 ，然后 ⌊13−76⌋+1=2
1*1*256：size = ⌈131⌉=13 , stride = ⌊131⌋=13 ，然后 ⌊13−1313⌋+1=1

3.3 Training the Network with the Spatial Pyramid Pooling Layer

3.3.1 Single-size training

As in previous works, we first consider a network taking a fixed-size input (224×224) cropped from images.
conv5 13*13

3.3.2 Multi-size training

Rather than crop a smaller 180*180 region, we resize the aforementioned 224*224 region to 180*180. So the regions
at both scales differ only in resolution but not in content/layout.

224*224 conv5 13*13
180*180 conv5 10*10

In theory, we could use more scales/aspect ratios, with one network for each scale/aspect ratio and all networks sharing weights, or we could develop a varying-size implementation to avoid network switching. We will study this in the future.（更多尺寸will study in the future）

Note that the above single/multi-size solutions are for training only. At the testing stage, it is straightforward to apply SPP-net on images of any sizes.（测试可以是任何的size）

下面是训练和测试的流程图

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第8张图片

4 SPP-net for image classification

4.1 Experiments on ImageNet 2012 Classification

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第9张图片

4.1.1 Baseline Network Architectures

table2 （a）

ZF-5
Convnet*-5（AlexNet中，We put the two pooling layers after conv2 and conv3 (instead of after conv1 and conv2））
Overfeat5
Overfeat7

4.1.2 Multi-level Pooling Improves Accuracy

table2 （b）

The training and testing sizes are both 224*224.
use a 4-level pyramid. The pyramid is （6*6, 3*3, 2*2, 1*1） (totally 50 bins).
still use the standard 10-view prediction with each view a 224*224 crop

（b）比（a）好 not simply due to more parameters; rather, it is because the multi-level pooling is robust to the variance in object deformations and spatial layout.

作者做了另外一个实验
To show this, we train another ZF-5 network with a different 4-level pyramid: （4*4, 3*3, 2*2, 1*1）(totally 30 bins). This network has fewer parameters than its no-SPP counterpart, because its fc6 layer has 30*256-d inputs instead of 36*256-d. The top-1/top-5 errors of this network are 35.06/14.04. This result is similar to the 50-bin pyramid above (34.98/14.14), but considerably better than the no-SPP counterpart (35.99/14.76).

4.1.3 Multi-size Training Improves Accuracy

table2 （c）

The training and testing sizes are both 224*224.
still use the standard 10-view prediction with each view a 224*224 crop

To the best of our knowledge, our method is the first one that trains a single network with input images of multiple scales/sizes.

4.1.4 Full-image Representations Improve Accuracy

table3

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第10张图片

Comparing Table 2 and Table 3, we find that the combination of multiple views is substantially better than the single full-image view. However, the fullimage representations are still of good merits.

4.1.5 Multi-view Testing on Feature Maps

figrue 5（table4 最后一行） vs 10-view prediction（table4 倒数第二行）

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第11张图片

we resize an image so min(w; h) = s，s 属于（224; 256; 300; 360; 448; 560）

We use 18 views for each scale: one at the center, four at the corners, and four on the middle of each side, with/without flipping (when s = 224 there are 6 different views).

6 + 18*5 = 96

The combination of these 96 views reduces the top-5 error from 10.95% to 9.36%. Combining the two full image
views (with flipping) further reduces the top-5 error to 9.14%.

4.1.6 Summary and Results for ILSVRC 2014

table 4

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第12张图片

6 + 18*5 = 96

The combination of these 96 views reduces the top-5 error from 10.95% to 9.36%. Combining the two full image
views (with flipping) further reduces the top-5 error to 9.14%.

结果排名 (table5)
After combining eleven models, our team’s result (8.06%) is ranked #3 among all 38 teams attending ILSVRC 2014.

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第13张图片

we expect that it will further improve the advanced (deeper and larger) convolutional architectures in the future.

4.2 Experiments on VOC 2007 Classification

table 6

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第14张图片

与别的方法对比下
table 8

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第15张图片

4.3 Experiments on Caltech101

table7

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第16张图片

与别的方法对比下

table 8

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第17张图片

The fully-connected layers are less accurate, and the SPP layers are better. This is possibly because the object categories in Caltech101 are less related to those in ImageNet, and the deeper layers are more category-specialized.

5 SPP-net for object detection

5.1 Detection Algorithm

ss 产生2000 candidate window
resize min（w,h）= s
extract the feature maps from the entire image（convnet）
4-level spatial pyramid (1*1, 2*2, 3*3, 6*6, totally 50 bins),This generates a 12,800-d (256*50) representation for each window
fc
Then we train a binary linear SVM classifier for each category on these features,ground truth 为 positive window，iou <0.3 negetive，与 negetive overlap 超过70%的直接pass
iou [0.5,1] 为正，[0.1,0.5) 负，each mini-batch 25% positive，bbox regression to predict window as RCNN, 用 conv5的特征，the windows used for the regression training are overlapping with ground truth window by at least 50%

5.2 Detection Results

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第18张图片

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第19张图片

5.3 Complexity and Running Time

table 9

5.4 Model Combination for Detection

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第20张图片

5.5 ILSVRC 2014 Detection

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第21张图片

6 存在的问题

最后，通过上面的性能评价可以看到，SPP-Net在速度上有大幅的提升，其所提出的共享卷积计算的思想在后续的Fast R-CNN与Faster R-CNN中都在沿用，但是从SPP-Net的训练过程可以看出，它是无法finetune卷积层的，这个问题在Fast RCNN中通过多任务损失函数与Roi Pooling提出得以解决。

SPP-Net的训练过程依然是一个多阶段的训练，这一点和R-CNN一样，并为改进。由于是多阶段训练，过程中需要存储大量特征。

补充知识

1Bag-of-Words

1.1 起源

Bag of words模型最初被用在文本分类中，将文档表示成特征矢量。它的基本思想是假定对于一个文本，忽略其词序和语法、句法，仅仅将其看做是一些词汇的集合，而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子（因为里面装的都是词汇，所以称为词袋，Bag of words 即因此而来），然后看这个袋子里装的都是些什么词汇，将其分类。如果文档中猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些，而银行、大厦、汽车、公园这样的词汇少些，我们就倾向于判断它是一篇描绘乡村的文档，而不是描述城镇的。举个例子，有如下两个文档：

文档一：Bob likes to play basketball, Jim likes too.
文档二：Bob also likes to play football games.

基于这两个文本文档，构造一个词典：

Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”，8. “games”, 9. “Jim”, 10. “too”}。

这个词典一共包含10个不同的单词，利用词典的索引号，上面两个文档每一个都可以用一个10维向量表示（用整数数字0~n（n为正整数）表示某个单词在文档中出现的次数）：

1：[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
2：[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]

向量中每个元素表示词典中相关元素在文档中出现的次数(下文中，将用单词的直方图表示)。不过，在构造文档向量的过程中可以看到，我们并没有表达单词在原来句子中出现的次序（这是 Bag-of-words 模型的缺点之一，不过瑕不掩瑜甚至在此处无关紧要）。

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第22张图片

1.2 为什么要用BoW模型描述图像？

SIFT 特征虽然也能描述一幅图像，但是每个 SIFT 矢量都是 128 维的，而且一幅图像通常都包含成百上千个 SIFT 矢量，在进行相似度计算时，这个计算量是非常大的，通行的做法是用聚类算法对这些矢量数据进行聚类，然后用聚类中的一个簇代表 BOW 中的一个视觉词，将同一幅图像的 SIFT 矢量映射到视觉词序列生成码本，这样每一幅图像只用一个码本矢量来描述，这样计算相似度时效率就大大提高了。

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第23张图片

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第24张图片

1.3 构建BOW码本步骤

假设训练集有M 幅图像，对训练图象集进行预处理。包括图像增强，分割，图像统一格式，统一规格等等。
提取SIFT特征。对每一幅图像提取SIFT特征（每一幅图像提取多少个SIFT特征不定）。每一个SIFT特征用一个128维的描述子矢量表示，假设 M 幅图像共提取出 N 个SIFT特征。
用 K-means对 2 中提取的N个 SIFT 特征进行聚类，聚类中心有k个（在BOW模型中聚类中心我们称它们为视觉词），码本的长度也就为k，计算每一幅图像的每一个SIFT特征到这k个视觉词的距离，并将其映射到距离最近的视觉词中（即将该视觉词的对应词频+1）。

完成这一步后，每一幅图像就变成了一个与视觉词序列相对应的词频矢量。

设视觉词序列为{眼睛鼻子嘴}（k=3），则训练集中的图像变为：

第一幅图像：[1 0 0]

第二幅图像：[5 3 4]……

构造码本。码本矢量归一化因为每一幅图像的SIFT特征个数不定，所以需要归一化。如上述例子，归一化后为[1 0 0],1/12*[5 3 4].测试图像也需经过预处理，提取SIFT特征，将这些特征映射到为码本矢量，码本矢量归一化，最后计算其与训练码本的距离，对应最近距离的训练图像认为与测试图像匹配。

当然，在提取sift特征的时候，可以将图像打成很多小的patch，然后对每个patch提取SIFT特征。

总结一下，整个过程其实就做了三件事，首先提取对 n 幅图像分别提取SIFT特征，然后对提取的整个SIFT特征进行k-means聚类得到 k 个聚类中心作为视觉单词表，最后对每幅图像以单词表为规范对该幅图像的每一个SIFT特征点计算它与单词表中每个单词的距离，最近的+1，便可得到该幅图像的码本。实际上第三步是一个统计的过程，所以BOW中向量元素都是非负的。Yunchao Gong 2012年NIPS上有一篇用二进制编码用于图像快速检索的文章就是针对这类元素是非负的特征而设计的编码方案。

用 K-meas 把 sift 特征聚类，聚类中心构成视觉单词表

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第25张图片

计算每个sift 特征到视觉单词表 中每个单词的距离，最近的+1，便可得到该幅图像的码本

【SPP-net】《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》_第26张图片

参考
【1】目标识别：Bag-of-words表示图像
【2】Object Detection系列（二） SPP-Net

100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
数据分析-24-时间序列预测之基于keras的VMD-LSTM和VMD-CNN-LSTM预测风速皮皮冰燃数据分析数据分析
文章目录1普通的LSTM模型1.1数据重采样1.2数据标准化1.3切分窗口1.4划分数据集1.5建立模型1.6预测效果2VMD-LSTM模型2.1VMD分解时间序列2.2对每一个IMF建立LSTM模型2.2.1IMF1—LSTM2.2.2IMF2-LSTM2.2.3统一代码2.3评估效果3CNN-LSTM模型3.1数据预处理3.2建立模型3.3效果预测4VMD-CNN-LSTM模型4.1VMD分解
基于深度学习的农作物病害检测 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的农作物病害检测利用卷积神经网络（CNN）、生成对抗网络（GAN）、Transformer等深度学习技术，自动识别和分类农作物的病害，帮助农业工作者提高作物管理效率、减少损失。1.农作物病害检测的挑战病害种类繁多：农作物病害的类型多样，不同病害在同一作物上的表现差异很大，同时同一种病害在不同生长阶段的症状也可能不同。环境影响：天气、光照、湿度等外部环境因素会影响农作物的表现，使得病害检
yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
探索深度学习的奥秘：从理论到实践的奇幻之旅小周不想卷深度学习
目录引言：穿越智能的迷雾一、深度学习的奇幻起源：从感知机到神经网络1.1感知机的启蒙1.2神经网络的诞生与演进1.3深度学习的崛起二、深度学习的核心魔法：神经网络架构2.1前馈神经网络（FeedforwardNeuralNetwork,FNN）2.2卷积神经网络（CNN）2.3循环神经网络（RNN）及其变体（LSTM,GRU）2.4生成对抗网络（GAN）三、深度学习的魔法秘籍：算法与训练3.1损失
卷积神经网络（CNN）详细介绍及其原理详解（二） FFmpeg123 Pytorch cnn 深度学习人工智能
接上一文继续;五、全连接层假设还是上面人的脑袋的示例，现在我们已经通过卷积和池化提取到了这个人的眼睛、鼻子和嘴的特征，如果我想利用这些特征来识别这个图片是否是人的脑袋该怎么办呢？此时我们只需要将提取到的所有特征图进行“展平”，将其维度变为1×x1×x1×x，这个过程就是全连接的过程。也就是说，此步我们将所有的特征都展开并进行运算，最后会得到一个概率值，这个概率值就是输入图片是否是人的概率，这个过程
【AI大咖】再认识Yann LeCun，一个可能是拥有最多中文名的男人喜欢打酱油的老鸟再认识Yann LeCun 一个可能是拥有最多中文名的男人
https://www.toutiao.com/i6693678422733881860/上一期扒了扛起深度学习大旗的Hinton先生，今天聊一位他的学生，深度学习中CNN的崛起离不开的男人——YannLeCun。一位陪伴Hinton三十年磨一剑，最终笑傲AI界的法国人。让我们一起记住这张面孔。作者|小满言有三编辑|小满言有三130秒了解LeCunYannLeCun，CNN之父，纽约大学终身教授，
TextCNN：文本卷积神经网络模型一只天蝎编程语言---Python cnn 深度学习机器学习
目录什么是TextCNN定义TextCNN类初始化一个model实例输出model什么是TextCNNTextCNN（TextConvolutionalNeuralNetwork）是一种用于处理文本数据的卷积神经网（CNN）。通过在文本数据上应用卷积操作来提取局部特征，这些特征可以捕捉到文本中的局部模式，如n-gram（连续的n个单词或字符）。定义TextCNN类importtorch.nnasn
影像设备国产替代究竟有多重要？这家企业提前布局8K时代 8K超高清科技媒体智能硬件人工智能
从过往看，国产替代不是一个新概念，更是一个从被动到主动的转变。1.“黑屏计划”与互联网2008年是特殊的一年。这一年，中国成为世界上最大的互联网国家。根据中国互联网络信息中心（CNNIC）统计数据显示，我国网民数达到2.98亿人，互联网普及率达22.6%。网民数量居世界第一位，平均每5个人中就有一个是网络公民。也是在PC互联网进入巅峰时期的这一年，中国网民们突然收到了一则通知，提及若Office用
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
《自然语言处理 Transformer 模型详解》黑色叉腰丶大魔王自然语言处理 transformer 人工智能
一、引言在自然语言处理领域，Transformer模型的出现是一个重大的突破。它摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）架构，完全基于注意力机制，在机器翻译、文本生成、问答系统等众多任务中取得了卓越的性能。本文将深入讲解Transformer模型的原理、结构和应用。二、Transformer模型的背景在Transformer出现之前，RNN及其变体（如LSTM和GRU）是自然语言
深度学习算法在图算法中的应用（图卷积网络GCN和图自编码器GAE）大嘤三喵军团深度学习算法网络
深度学习算法在图算法中的应用1.图卷积网络（GraphConvolutionalNetworks,GCN）图卷积网络（GCN）是一种将卷积神经网络（ConvolutionalNeuralNetworks,CNN）推广到图结构数据的方法。GCN被广泛用于节点分类、图分类、链接预测等任务。优势和好处灵活性：GCN可以处理不规则和不均匀的数据结构，比如社交网络、分子结构、交通网络等。高效性：GCN使用局
产品笔记之数据来源木马良人
1.中国互联网络发展状况统计报告，每半年发布1次，http://www.cnnic.cn/hlwfzyj/hlwxzbg/。2.中国信息通信研究院-手机市场运行分析报告，每月发布1次，http://www.caict.ac.cn/kxyj/qwfb/qwsj/。3.Questmobile：http://www.questmobile.com.cn/blog.html4.易观千帆https://qi
基于深度学习的动态场景理解 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的动态场景理解是一种通过计算机视觉技术自动分析和解释动态环境中物体、事件和交互的能力。该技术在自动驾驶、智能监控、机器人导航、增强现实等领域有着广泛应用，通过深度学习模型，特别是卷积神经网络（CNNs）、递归神经网络（RNNs）、图神经网络（GNNs）等，对复杂动态场景进行实时解读。1.动态场景理解的核心技术1.1卷积神经网络（CNNs）**卷积神经网络（CNNs）**擅长处理图像数据
深度学习特征提取魔改版太强了！发文香饽饽！深度之眼深度学习干货人工智能干货人工智能深度学习机器学习论文特征提取
要说CV领域经久不衰的研究热点，特征提取可以占一席，毕竟SLAM、三维重建等重要应用的底层都离不开它。再加上近几年深度学习兴起，用深度学习做特征提取逐渐成了主流，比传统算法无论是性能、准确性还是效率都更胜一筹。目前比较常见的深度学习特征提取方法有基于transformer、基于CNN、基于LSTM以及基于GAN，都发展的比较成熟。但为了追求更快速、准确、鲁棒的特征点提取，研究者们开始致力于改进深度
PyTorch库学习之nn.ConvTranspose2d(模块) Midsummer-逐梦 #torch pytorch 学习人工智能
PyTorch库学习之nn.ConvTranspose2d(模块)一、简介nn.ConvTranspose2d是PyTorch中的一个模块，用于实现二维转置卷积（也称为反卷积或上采样卷积）。转置卷积通常用于生成比输入更大的输出，例如在生成对抗网络（GANs）和卷积神经网络（CNNs）的解码器部分。二、语法和参数语法torch.nn.ConvTranspose2d(in_channels,out_c
LeYOLO 用于目标检测的新型可扩展和高效CNN架构 | 最新轻量化SOTA! 5GFLOP下无对手！迪菲赫尔曼 YOLOv8改进实战目标检测 cnn 架构 pytorch 深度学习轻量化
本改进已集成到YOLOv8-Magic框架。论文地址：https://arxiv.org/pdf/2406.14239代码地址：https://github.com/LilianHollard/LeYOLO/tree/main在深度神经网络中，计算效率对于目标检测至关重要，尤其是在新型模型更倾向于速度而非计算效率（浮点运算次数，FLOP）的情况下。这种演变在一定程度上忽视了嵌入式和面向移动的AI目
中文车牌识别系统 `End-to-end-for-Chinese-Plate-Recognition` 教程皮静滢Annette
中文车牌识别系统End-to-end-for-Chinese-Plate-Recognition教程End-to-end-for-chinese-plate-recognition基于u-net，cv2以及cnn的中文车牌定位，矫正和端到端识别软件，其中unet和cv2用于车牌定位和矫正，cnn进行车牌识别，unet和cnn都是基于tensorflow的keras实现项目地址:https://gi
速盾：没有备案的网站能否接入CDN使用？速盾cdn web安全安全
随着互联网的高速发展，更多的网站开始使用CDN（内容分发网络）来提升网站的访问速度和性能。CDN作为一个分布式的网络服务器集群，可以将网站的静态资源存储在离用户最近的服务器上，从而加快资源的访问速度。然而，CDN服务提供商在为网站提供CDN服务之前，需要对网站进行一系列的备案手续。备案是指根据相关法律法规，将网站的信息注册到中国互联网信息办公室（CNNIC）或其他相关机构进行审批和备案登记。备案的
[ROS自定义消息问题]ImportError: cannot import name ‘GQCNNGrasp‘ from ‘gqcnn_ros.msg‘ (unknown location) 小刘同学321 python ROS msg
在使用ROS运行Python代码时，经常会遇到无法引用自定义消息文件的情况。这其实是一个比较常见的问题，通常是由于ROS找不到消息文件所在的路径导致的。问题描述：在ROS中运行Python代码时，如果尝试导入自定义消息文件，可能会遇到类似如下的错误：ImportError:Nomodulenamed'gqcnn_ros.msg'解决办法：解决这个问题的关键是手动添加消息文件所在的路径到Python
【计算机视觉前沿研究热点顶会】ECCV 2024中Mamba有关的论文平安顺遂事事如意顶刊顶会论文合集计算机视觉论文笔记目标跟踪 ECCV Mamba 状态空间模型人工智能
MambaIR：状态空间模型图像恢复的简单基线近年来，图像恢复技术取得了长足的进步，这在很大程度上归功于现代深度神经网络的发展，如CNN和Transformers。然而，现有的修复骨干往往面临全局接受域和高效计算之间的两难困境，阻碍了它们在实践中的应用。最近，选择性结构化状态空间模型，特别是改进的Mamba模型，在线性复杂度的长程依赖建模方面显示出了巨大的潜力，为解决上述困境提供了一条途径。然而，
Python中的深度学习神经网络 2301_78297473 深度学习 python 神经网络
文章目录1.引言-简介-深度学习与Python的关系2.神经网络的原理-神经网络基础知识-Python中的神经网络库与工具-构建与训练神经网络模型的步骤深度学习训练过程3.卷积神经网络的原理-卷积层与池化层-特征提取与全连接层-Python中的CNN库与工具4.Python中深度学习的挑战和未来发展方向-计算资源与速度-迁移学习与模型压缩-融合多种深度学习算法1.引言-简介深度学习是机器学习的一个
如何在3D无序抓取中应用深度学习算法？道亦无名人工智能 3d 深度学习算法
在3D无序抓取中，深度学习算法的应用极大地提升了系统的识别精度和效率。以下是深度学习算法在3D无序抓取中的具体应用方式：一、物体识别图像预处理：首先，通过3D相机获取的点云数据或深度图像需要进行预处理，包括去噪、滤波、分割等步骤，以提高后续处理的准确性。特征提取：利用深度学习算法（如卷积神经网络CNN）对预处理后的图像进行特征提取。这些特征可以是物体的形状、纹理、边缘等，有助于区分不同的物体。分类
【大模型实战篇】大模型周边NLP技术回顾及预训练模型数据预处理过程解析（预告）源泉的小广场大模型自然语言处理人工智能大模型 LLM 预训练模型数据预处理高质量数据
1.背景介绍进入到大模型时代，似乎宣告了与过去自然语言处理技术的结束，但其实这两者并不矛盾。大模型时代，原有的自然语言处理技术，依然可以在大模型的诸多场景中应用，特别是对数据的预处理阶段。本篇主要关注TextCNN、FastText和Word2Vec等低成本的自然语言处理技术，如何在大模型时代发挥其余热。今天先抛出这个主题预告，接下来会花些时间，逐步细化分析这些周边技术的算法原理、数学分析以及大模
[Instance Normalization] The Missing Ingredient for Fast Stylization emergency_rose paper阅读笔记大数据
BN->IN，能有效提升纹理风格转化任务的图像生成质量1、原因1）生成图像的对比度主要取决于style图像，而非content图像；通过instancenormalization，可以去除content图像的个体对比度差异，从而简化生成过程2）高度非线性的contrastnormalization很难通过CNNblock（包含卷积、池化、上采样、BN等）来实现，因此需要直接在architectur
深度学习论文精读（7）：MTCNN hwl19951007 计算机视觉论文精读
深度学习论文精读（7）：MTCNN论文地址：JointFaceDetectionandAlignmentusingMulti-taskCascadedConvolutionalNetworks译文地址：https://zhuanlan.zhihu.com/p/37884254参考博文1：https://zhuanlan.zhihu.com/p/38520597官方地址：https://kpzhan
MTCNN人脸检测算法 samuelwang_ccnu 深度学习
人脸检测是指识别数字图像中的人脸。人脸检测可以视为目标检测的一种特殊情况。在目标检测中，任务是查找图像中特定类的所有对象的位置和大小。例如行人和汽车。在人脸检测中应用较广的算法就是MTCNN（Multi-taskCascadedConvolutionalNetworks的缩写）。MTCNN算法是一种基于深度学习的人脸检测和人脸对齐方法，它可以同时完成人脸检测和人脸对齐的任务，相比于传统的算法，它的
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring