Paul-Huang

Spatial Transformer Networks(STN)-论文笔记

论文： Spatial Transformer Networks

作者：Max Jaderberg Karen Simonyan Andrew Zisserman Koray Kavukcuoglu

code1：https://github.com/oarriaga/STN.keras

code2：https://github.com/kevinzakka/spatial-transformer-network

1. 问题提出

CNN在图像分类中取得了显著的成效，主要是得益于 CNN 的深层结构具有： $\color{red}平移不变性、缩小不变性$ ；还对缺失的 $\color{red}空间不变性（spatially\;invariance）$ 做了相应的实验。
- $平移不变性$ 主要是由于 Pooling 层和步长不为1的卷积层的存在带来的。实际上主要是池化层的作用：
  - 层越多，越深，池化核或卷积核越大，空间不变性也越强；
  - 但是随之而来的问题是局部信息丢失，所以这些层越多准确率肯定是下降的，所以主流的CNN分类网络一般都很深，但是池化核都比较小，比如2×2。
- $缩小不变性$ 主要是通过降采样来实现的。降采样比例要根据数据集调整，找到合适的降采样比例，才能保证准确率的情况下，有较强的空间不变性。
  - 比如ResNet，GoogLeNet，VGG，FCN，这些网络的总降采样比例一般是 16或32，基本没有见过 64倍，128倍或者更高倍数的降采样（会损失局部信息降低准确率），也很少见到 2倍或者4倍的降采样比例（空间不变性太弱，泛化能力不好）。
$\color{red}空间不变性（spatially\;invariance）$ 这些不变性的本质就是图像处理的经典手段：空间变换，又服从于同一方法：坐标矩阵的仿射变换。因此DeepMind设计了 $\color{red}Spatial\;Transformer\;Networks$ (简称STN)，目的就是显式地赋予网络对于以上各项变换(transformation)的不变性(invariance) .
–

2. 图像处理技巧

2.1 仿射变化

主要是要处理 $(2\times 3)$ 的变换矩阵：
$\mathcal{T}_{\theta} = \begin{bmatrix} \theta _{11} & \theta _{12} & \theta _{13} \\ \theta _{21} & \theta _{22} & \theta _{23} \end{bmatrix}\tag{2.1}$

平移：
$\left[\begin{array}{ccc} 1 & 0 & \theta_{13} \\0 & 1 & \theta_{23} \end{array}\right]\left[\begin{array}{l}x \\y \\1 \end{array}\right]=\left[\begin{array}{l} x+\theta_{13} \\y+\theta_{23} \end{array}\right]\tag{2.2}$
缩放：
$\left[\begin{array}{ccc} \theta_{11} & 0 & 0 \\0 & \theta_{22} & 0 \end{array}\right]\left[\begin{array}{l}x \\y \\1 \end{array}\right]=\left[\begin{array}{l} \theta_{11} x \\\theta_{22} y\end{array}\right]\tag{2.3}$
旋转：
对于旋转操作，设绕原点顺时针旋转 $\alpha$ 度，坐标仿射矩阵为:
$\left[\begin{array}{ccc} \cos (\alpha) & \sin (\alpha) & 0 \\ -\sin (\alpha) & \cos (\alpha) & 0 \end{array}\right]\left[\begin{array}{l}x \\y \\1 \end{array}\right]=\left[\begin{array}{c}\cos (\alpha) x+\sin (\alpha) y \\-\sin (\alpha) x+\cos (\alpha) y \end{array}\right]\tag{2.4}$

由于图像的坐标不是中心坐标系，通常需要做Normalization，把坐标调整到 $[- 1, 1]$ 。这样，就绕图像中心旋转了。

2.2 逆向坐标映射

假设fixed image 的坐标点是 $x^{tar}, y^{tar}]$ ，source iamge 的坐标点是 $x^{sour}, y^{sour}]$ ，则一般的坐标映射可以表示为：
$\begin{bmatrix} \theta_{11} & \theta_{12} & \theta_{13} \\ \theta _{21} & \theta _{22} & \theta _{23} \end{bmatrix}\begin{bmatrix} x^{sour} \\ y^{sour} \\ 1 \end{bmatrix}=\begin{bmatrix} x^{tar} \\ y^{tar} \\1 \end{bmatrix}\tag{2.5}$

逆向坐标映射表示为（ $\theta'$ and $\theta$ are different）：
$\begin{bmatrix} \theta'_{11} & \theta'_{12} & \theta'_{13} \\ \theta' _{21} & \theta' _{22} & \theta' _{23} \end{bmatrix}\begin{bmatrix} x^{tar} \\ y^{tar} \\ 1 \end{bmatrix}=\begin{bmatrix} x^{sour} \\ y^{sour} \\1 \end{bmatrix}\tag{2.6}$
STN采用逆向映射，因为：target image 是固定的，正向的插值过程，都是引用像素坐标是浮点数，相对来说很难插值；对应逆向变换，得到的Source坐标是浮点数，用Source像素插值更加便捷。

2.3 双线性插值

一个[1,10]图像放大10倍问题，我们需要将10个像素，扩展到为100的数轴上，整个图像应该有100个像素。
但其中90个对应Source图的坐标是非整数的，是不存在的，如果我们用黑色(RGB(0,0,0))填充，此时图像是惨不忍睹的。所以需要对缺漏的像素进行插值，利用图像数据的局部性近似原理，取邻近像素做平均生成。
双线性插值是一个兼有质量与速度的方法:
插值一般表达式：
$V_{i}^{c}=\sum_{n}^{H} \sum_{m}^{W} U_{n m}^{c} k\left(x_{i}^{s}-m ; \Phi_{x}\right) k\left(y_{i}^{s}-n ; \Phi_{y}\right) \forall i \in\left[1 \ldots H^{\prime} W^{\prime}\right] \forall c \in[1 \ldots C]\tag{2.7}$
- $U_{n m}^{c}$ 是输入feature map上第 $c$ 个通道上坐标为 $(n, m)$ 的像素值；
- $V_{i}^{c}$ 是输出 feature map上第 $c$ 个通道上坐标为 $\left(x_{i}^{t}, y_{i}^{t}\right)$ 的像素值；
- $k ()$ 表示插值核函数；
- $\Phi x, \Phi y$ 代表 $\mathrm{x}$ 和 $\mathrm{y}$ 方向的揷值核函数的参数；
- $H, W$ 输入 $U$ 的尺寸；
- $H^{\prime}, W^{\prime}$ 输出 $V$ 的尺寸；
双线性插值的公式：
$V_{i}^{c}=\sum_{n}^{H} \sum_{m}^{W} U_{n m}^{c} \max \left(0,1-\left|x_{i}^{s}-m\right|\right) \max \left(0,1-\left|y_{i}^{s}-n\right|\right)\tag{2.8}$
这个插值核函数做的是利用 $U$ 中离当前源坐标 $\left(x_{i}^{s}, y_{i}^{s}\right)$ (小数坐标) 最近的 4个整数坐标 $(n, m)$ 处的像素值做双线性插值然后拷贝到 $V$ 中的 $\left(x_{i}^{t}, y_{i}^{t}\right)$ 坐标处。

3. 整体框架

3.1 整体描述

Spatial Transformer Networks的结构，主要的部分—共有三个，它们的功能和名称如下:

$\color{blue}Localisation\;net$ (参数预测)：
是自己定义的网络，它输入 $U$ ，输出变化参数 $\theta$ ，这个参数用来映射 $U$ 和 $V$ 的坐标关系(公式(2.1))。
$\color{green}Grid\;generator$ (坐标映射):
根据 $V$ 中的坐标点和变化参数 $\theta$ ，计算出 $U$ 中的坐标点(公式(2.6))。
- 这里是因为 $V$ 的大小是先定义好的，当然可以得到 $V$ 的所有坐标点，而填充 $V$ 中每个坐标点的像素值的时候，要从 $U$ 中去取，所以根据 $V$ 中每个坐标点和变化参数 $\theta$ 进行运算，得到一个坐标。
- 在sampler中就是根据这个坐标去 $U$ 中找到像素值，这样子来填充 $V$ 。
$\color{gray}Sampler$ (像素的采集):

根据Grid generator得到的一系列坐标和原图 $U$ （因为像素值要从 $U$ 中取）来填充，因为计算出来的坐标可能为小数，要用另外的方法来填充，比如双线性插值。

3.2 基本结构与前向传播

DeepMind为了描述这个空间变换层，首先添加了坐标网格计算的概念，即：
- 对应输入源特征图像素的坐标网格——Sampling Grid，保存着 $x^{Source},y^{Source})$
- 对应输出源特征图像素的坐标网格——Regluar Grid ，保存着 $x^{Target},y^{Target})$

$\color{blue}Localisation\;net$ (参数预测)：对应着初始化的6个参数。
$\color{green}Grid\;generator$ (坐标映射):对应着图中的①②。
$\mathcal{T}_{\theta}(G_i)\begin{bmatrix} x^{tar} \\ y^{tar} \\ 1 \end{bmatrix} = \begin{bmatrix} \theta'_{11} & \theta'_{12} & \theta'_{13} \\ \theta' _{21} & \theta' _{22} & \theta' _{23} \end{bmatrix}\begin{bmatrix} x^{tar} \\ y^{tar} \\ 1 \end{bmatrix}=\begin{bmatrix} x^{sour} \\ y^{sour} \\1 \end{bmatrix}, where\;i=1,2,3,4..,H∗W\tag{3.1}$
$\color{gray}Sampler$ (像素的采集)：对应着图中的③④。

3.3 梯度流动与反向传播

添加空间变换层之后，梯度流动变得有趣，如图：

后流(①):
$Error\;Gradient$ $\rightarrow \ldots \ldots \rightarrow \frac{\partial N e x t}{\partial V_{i}^{c}}$
这是Back Propagation从后层继承的动力源泉，没有它，你就不可能完成Back Propagation。
里流(②):
$\left\{\begin{aligned} \frac{\partial V_{i}^{c}}{\partial x_{i}^{S}} \rightarrow \frac{\partial x_{i}^{S}}{\partial \theta} \\ \frac{\partial V_{i}^{c}}{\partial y_{i}^{S}} \rightarrow \frac{\partial y_{i}^{S}}{\partial \theta} \end{aligned}\right.\tag{3.3}$

个人对这股流的最好描述就是: 一江春水流进了小黑屋。
是的，你没有看错，这股流根本就没有流到网络开头，而是在定位网络处就断流了。由此来看，定位网络就好像是在主网络旁侧偷建的小黑屋，是一个违章湕筑。
所以也无怪乎作者说，定位网络直接変成了一个回归模型，因为更新完参数，流就断了，独立于主网络。

前流(③):
$\frac{\partial V_{i}^{c}}{\partial U_{n m}^{i}} \rightarrow \frac{\partial U_{n m}^{i}}{\partial \text { Previous }}\tag{3.4}$
这是Back Propagation传宗接代的根本保障，没有它，Back Propagation就断子绝孙了。

3.4 局部梯度

论文中多次出现[局部梯度] (Sub-Gradient) 的概念。采样核函数，是不连续的，不能如下直接求导:
$g=\frac{\partial V_{i}^{c}}{\partial \theta}\tag{3.5}$
而应该是分两步，先对 $x_{i}^{S} 、 x_{i}^{S}$ 求局部梯度: $\frac{\partial V_{i}^{c}}{\partial x_{i}^{c}} 、 \frac{\partial V_{i}^{c}}{\partial y_{i}^{c}}$ ，后有：
$\left\{\begin{aligned} g=\frac{\partial V_{i}^{c}}{\partial x_{i}^{S}} \cdot \frac{\partial x_{i}^{S}}{\partial \theta} \\ g=\frac{\partial V_{i}^{c}}{\partial y_{i}^{S}} \cdot \frac{\partial y_{i}^{S}}{\partial \theta} \end{aligned}\right.\tag{3.6}$
有趣的是，对于Theano这种目动求导的 Tools，局部梯度可以直接被忽视。
因为Theano的Tensor机制，会聪明地讨论并且解离非连续函数，追踪每一个可导子式，即便你用了作者们的优雅的采样函数， Tensor.grad函数也能精确只对许出的4个点求导，所以在Theano里讨论非连续函数和局部梯度，是会贻笑大方的。

4. 实验

4.1 Distorted MNIST

这个试验的数据集是 MNIST，不过与原版的MNIST 不同，这个数据集对图片上的数字做了各种形变操作，比如平移，扭曲，放缩，旋转等。

不同形变操作的简写表示：
- 旋转：rotation ( R),
- 旋转+缩放+平移：rotation, scale and translation (RTS),
- 投影变换：projective transformation ( P),
- 弹性变形：elastic warping (E) – note that elastic warping is destructive and can not be inverted in some cases.
文章将 Spatial Transformer 模块嵌入到两种主流的分类网络，FCN和CNN中（ST-FCN 和 ST-CNN ）。Spatial Transformer 模块嵌入位置在图片输入层与后续分类层之间。
试验也测试了不同的变换函数对结果的影响：
- 仿射变换：affine transformation (Aff),
- 投影变换：projective transformation (Proj),
- 薄板样条变换：16-point thin plate spline transformation (TPS)

其中CNN的模型与 LeNet是一样的，包含两个池化层。为了公平，所有的网络变种都只包含 3 个可学习参数的层，总体网络参数基本一致，训练策略也相同。

左侧：不同的形变策略以及不同的 Spatial Transformer网络变种与 baseline的对比；

右侧：一些CNN分错，但是ST-CNN分对的样本
- (a )：输入
- (b )：Spatial Transformer层的源坐标（Tθ(G) ）可视化结果
- (c )：Spatial Transformer层输出

很明显：ST-CNN优于CNN, ST-FCN优于FCN，说明Spatial Transformer确实增加了空间不变性

FCN中由于没有池化层，所以FCN的空间不变性不如CNN，所以FCN效果不如CNN

ST-FCN效果可以达到CNN程度，说明Spatial Transformer确实增加了空间不变性

ST-CNN效果优于ST-FCN，说明池化层确实对增加空间不变性很重要

在 Spatial Transformer 中使用 plate spline transformation (TPS) 变换效果是最好的

Spatial Transformer 可以将歪的数字扭正

Spatial Transformer 在输入图片上确定的attention区域很明显利于后续分类层分类，可以更加有效地减少分类损失

4.2 Street View House Numbers

Street View House Numbers是一个真实的街景门牌号数据集，共200k张图片，每张图片包含1-5个数字，数字都有形变。

baseline character sequence CNN model ：11层，5个softmax层输出对应位置的预测序列
STCNN Single ：在输入层添加一个Spatial Transformer
ST-CNN Multi ：前四层，每一层都添加一个Spatial Transformer 见下面 tabel 2 右侧
localisation networks 子网络：两层32维的全连接层
使用仿射变换和双线性插值

结果：

参考

arleyzhang：基础DL模型-STN-Spatial Transformer Networks-论文笔记
Spatial Transformer Networks笔记
详细解读Spatial Transformer Networks（STN）-一篇文章让你完全理解STN了
Spatial Transformer Networks
论文笔记：空间变换网络（Spatial Transformer Networks）

FOKS-TROT: 一个高效、易用的全功能开源知识图谱生成工具柳旖岭
FOKS-TROT:一个高效、易用的全功能开源知识图谱生成工具项目简介FOKS-TROT是一个基于Python的全功能开源知识图谱生成工具，旨在帮助研究人员和开发者快速构建具有丰富信息的知识图谱。该项目由hkx3upper在GitCode上开发并维护。通过FOKS-TROT，您可以轻松地将各种数据源（如文本文件、数据库、API）转换为结构化的知识图谱，并对其进行可视化分析和机器学习任务。此外，该工
PSINS工具箱函数介绍——ggnss（ggpsvars+gbdvars+gglovars） MATLAB卡尔曼 PSINS函数 matlab PSINS
文章目录关于工具箱工具箱概述学习路径指南GNSS参数初始化函数`ggnss`函数功能参数体系结构典型应用场景系统参数初始化操作指南执行流程运行结果解析函数源码深度解析代码架构扩展开发建议关于工具箱kfinit是kf的参数初始化函数，用于初始化滤波参数本文所述的代码需要基于PSINS工具箱，工具箱的讲解：PSINS初学指导：https://blog.csdn.net/callmeup/article
GenAI 平台，3 分钟即可构建基于 Claude、DeepSeek 的 AI Agent DO_Community 人工智能
DigitalOcean云服务在前不久发布了GenAI平台——一个让任何团队都能在几分钟内构建和部署AI代理的平台。DigitalOcean的GenAI平台持续扩展，让人工智能驱动的开发变得更加易用、灵活且强大。近日，Digitalocean宣布将Anthropic的Claude模型和DeepSeekR1引入Digitalocean的生态系统，为你提供更多构建和部署AI应用的选择。通过Anthro
线性回归理论狂踹瘸子那条好脚 python
###线性回归与Softmax回归####线性回归线性回归是一种用于估计连续值的回归方法。它的应用场景非常广泛，比如在房地产市场中，参观一个房子后，我们可以通过线性回归模型来估计房子的价格，从而决定出价。线性回归的核心思想是通过训练数据来学习参数，使得模型的预测值与真实值之间的差异最小化。在神经网络中，线性回归可以看作是一个单层神经网络。通过损失函数来衡量预测值与真实值之间的差异，常用的损失函数包
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！ V__17671155793 人工智能
智享AI直播三代系统，马斯克旗下AI人工智能直播工具,媲美DeepSeek！在科技飞速发展的当下，人工智能正以前所未有的态势重塑着各个行业的格局。直播领域，作为信息传播与商业交互的前沿阵地，也在AI技术的赋能下迎来了颠覆性的变革。其中，马斯克旗下的智享AI直播三代系统宛如一颗璀璨的新星，横空出世，以其卓越的性能和创新的理念，迅速在竞争激烈的直播市场中崭露头角，甚至被业界誉为可媲美DeepSeek的
蓝队基础：企业网络安全架构与防御策略重生之物联网转网安网络安全安全
声明学习视频来自B站up主**泷羽sec**有兴趣的师傅可以关注一下，如涉及侵权马上删除文章，笔记只是方便各位师傅的学习和探讨，此文章为对视频内容稍加整理发布，文章所提到的网站以及内容，只做学习交流，其他均与本人以及泷羽sec团队无关，切勿触碰法律底线，否则后果自负！！！！有兴趣的小伙伴可以点击下面连接进入b站主页[B站泷羽sec](https://space.bilibili.com/35032
2025年三个月自学手册网络安全（黑客技术）网安kk web安全安全网络网络安全人工智能
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包什么是网络安全网络安全可以基于攻击和防御视角来分类，我们经常听到的“红队”、“渗透测试”等就是研究攻击技术，而“蓝队”、“安全运营”、“安全运维”则研究防御技术。如何成为一名黑客很多朋友在学习安全方面都会半路转行，因为不知如何去学，在这里，我将这个整份答案分为黑客（网络安全）入门必备、黑客（网络安全）职业指南、黑客（网络安全）学习导航
入门网络安全工程师要学习哪些内容【2025年寒假最新学习计划】白帽黑客2659 学习 web安全安全网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包大家都知道网络安全行业很火，这个行业因为国家政策趋势正在大力发展，大有可为!但很多人对网络安全工程师还是不了解，不知道网络安全工程师需要学什么?知了堂小编总结出以下要点。网络安全工程师是一个概称，学习的东西很多，具体学什么看自己以后的职业定位。如果你以后想成为安全产品工程师，学的内容侧重点就和渗透测试工程师不一样，如果你想成为安全开发
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 安全 web安全网络网络安全 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
在项目中调用本地Deepseek（接入本地Deepseek） mr_cmx AI ai 前端 DeepSeek AI
前言之前发表的文章已经讲了如何本地部署Deepseek模型，并且如何给Deepseek模型投喂数据、搭建本地知识库，但大部分人不知道怎么应用，让自己的项目接入AI模型。文末有彩蛋哦！！！要接入本地部署的deepseek，我就要利用到我们之前部署时安装的ollama服务，并调用其API本地API接口1、生成文本（GenerateText）url:POST/api/generate功能：向模型发送提示
DeepSeek与ChatGPT：会取代搜索引擎和人工客服的人工智能革命云边有个稻草人热门文章 chatgpt 搜索引擎人工智能 DeepSeek
云边有个稻草人-CSDN博客在众多创新技术中，DeepSeek和ChatGPT无疑是最为引人注目的。它们通过强大的搜索和对话生成能力，能够改变我们与计算机交互的方式，帮助我们高效地获取信息，增强智能服务。本文将深入探讨这两项技术如何结合使用，为用户提供更精准、更流畅的对话和搜索体验。目录一、介绍1.1什么是DeepSeek？1.2什么是ChatGPT？1.3DeepSeek与ChatGPT的结合：
muzero 算法原理战神哥
Muzero算法是一种通用的强化学习算法，它可以在没有预先设定策略的情况下进行学习。它通过模拟整个游戏进程来自我学习，并通过回报函数来评估每一步的决策。Muzero算法的核心部分是一个叫做模型的神经网络，它会对游戏的状态进行预测，预测未来的游戏状态。另一部分是策略网络，它会根据当前状态预测每一步的最优决策。Muzero算法通过不断地训练模型和策略网络，来提高它们的准确性，从而使得机器学到了如何玩游
Android Gradle使用总结 Wei_Leng Android studio android gradle 脚本
其他Groovy入门学习http://blog.csdn.net/zhaoyanjun6/article/details/70313790AndroidGradleAndroid项目使用Gradle作为构建框架，Gradle又是以Groovy为脚本语言。所以学习Gradle之前需要先熟悉Groovy脚本语言。Groovy是基于Java语言的脚本语言，所以它的语法和Java非常相似，但是具有比jav
LLM与知识图谱融合:智能运维知识库构建 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着信息技术的飞速发展，IT运维管理面临着越来越大的挑战。海量的设备、复杂的网络环境、日益增长的数据量，使得传统的运维方式难以满足需求。为了提高运维效率和质量，智能运维应运而生。智能运维的核心是将人工智能技术应用于运维领域，通过机器学习、深度学习等算法，实现自动化、智能化的运维管理。其中，大语言模型（LLM）和知识图谱是两个重要的技术方向。LLM能够理解和生成自然语言，可以用于构建智能
RT-Thread I2C 驱动框架学习笔记 DgHai RT-Thread mcu 单片机
RT-ThreadI2C驱动框架（5.1.0）II2C驱动包括两大部分，I2C驱动总线驱动和I2C设备驱动。I2C总线驱动负责控制I2C总线的硬件，包括发送和接收数据的时序控制，以及处理总线冲突等。它与嵌入式系统的硬件层交互，实现对I2C总线的底层操作，使得应用程序可以通过I2C总线与外部设备进行通信。I2C设备驱动负责管理和控制连接在I2C总线上的具体外部设备。它与I2C总线驱动和嵌入式系统的驱
CCNP350-401学习笔记（351-400题）殊彦_sy CCNP题库学习
351、WhichnewenhancementwasimplementedinWi-Fi6?A.4096QuadratureAmplitudeModulationModeB.ChannelbondingC.Wi-FiProtectedAccess3D.UplinkandDownlinkOrthogonalFrequencyDivisionMultipleAccess352、HowdoesIGMPf
中国光伏储能产业2025 - 2030：现状、挑战与前景展望 CodeJourney. 数据库人工智能算法架构 python
在全球积极应对气候变化、大力推动能源转型的大背景下，中国光伏储能产业作为新能源领域的关键力量，正处于快速发展的关键时期。2025-2030年，这一产业面临着诸多机遇与挑战，其发展态势不仅关乎中国能源结构的优化和可持续发展目标的实现，也对全球清洁能源转型产生着深远影响。本文将依据Deepseek的预测，深入剖析这一时期中国光伏储能产业的现状、核心驱动力、挑战与风险以及前景展望。一、2025年：产业蓬
前端开发入门指南：HTML、CSS和JavaScript基础知识方向感超强的 javascript css html 前端
引言：大家好，我是一名简单的前端开发爱好者，对于网页设计和用户体验的追求让我深深着迷。在本篇文章中，我将带领大家探索前端开发的基础知识，涵盖HTML、CSS和JavaScript。如果你对这个领域感兴趣，或者想要了解如何开始学习前端开发，那么这篇文章将为你提供一个良好的起点。1.前端开发概述在我们深入了解前端开发的细节之前，让我们先了解一下前端开发的定义和作用。简而言之，前端开发涉及构建用户直接与
16、电科院FTU检测标准学习笔记-基本性能2 six2me 配电自动化(FTU)测试笔记学习笔记 FTU 配电检测
作者简介：本人从事电力系统多年，岗位包含研发，测试，工程等，具有丰富的经验在配电自动化验收测试以及电科院测试中，本人全程参与，积累了不少现场的经验————————————————————————————————————目录交流工频电量影响量试验频率带来的影响谐波变化带来的影响不平衡电流对功率的影响三相功率测量元件之间相互作用引起的改变故障电流采集电流过载检测（大电流）状态量输出（遥控）输入SOE分
C语言流程控制学习笔记前端熊猫 C语言 c语言学习笔记
1.顺序结构顺序结构是程序中最基本的控制结构，代码按从上到下的顺序依次执行。大多数C语言程序都是由顺序结构组成的。2.选择结构选择结构根据条件的真假来决定执行哪一段代码。在C语言中，选择结构主要有以下几种：2.1if语句if语句用于根据条件的真假来执行相应的代码块。if(condition){//当条件为真时执行的代码}2.2if-else语句if-else语句用于在条件为真时执行一段代码，为假时
六、soul源码学习-SpringCloud项目本地运行 caihuayuan4 面试题汇总与解析 spring sql java 大数据
一、本地部署NacosNacos本地部署可以参考：http://www.iocoder.cn/Nacos/install/?self二、搭建SpringCloud项目示例代码:https://github.com/wyc192273/soul-learn-project/tree/main/sofa-demo搭建了简单的SpringCloud服务后，需要在项目中引入如下依赖：org.dromara
《DeepSeek-R1 vs ChatGPT-4：AI大模型“王座争夺战”的终极拆解报告》 Athena-H LLM 人工智能 gpt chatgpt ai
引言：大模型时代的双雄博弈在生成式AI爆发式迭代的今天，DeepSeek-R1与ChatGPT-4分别以“中国智造新锐”与“全球标杆王者”的身份，掀起技术路线与应用生态的激烈碰撞。本文从架构设计、场景适配、性能极限三大维度，揭示两大模型的真实战力图谱。一、核心技术架构：差异化路线对决对比维度DeepSeek-R1ChatGPT-4模型架构多模态混合专家模型（MoE+Transformer）纯Dec
人生建议往死里学网络安全！零基础也能跨行学习！！漏洞挖掘还能做副业黑客老哥 web安全学习安全 php 网络安全
一、网络安全的重要性：从‘不学会被黑’到‘学会保护别人’网络安全的概念现在不再是技术圈的独立话题，它已经渗透到社会的各个领域。从个人的隐私保护、企业的数据安全，到国家的信息防护，网络安全几乎影响了每一个人的生活。无论是黑客攻击、勒索病毒、数据泄露，还是国家间的信息战，网络安全已经成为现代社会的基础设施之一。所以，首先要明白学习网络安全的重要性：你不仅是在学习技术，更多的是在为自己和他人的安全“筑城
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！网安詹姆斯 web安全 CTF 网络安全大赛 python linux
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
CTF学习法则——寒假篇新手赶快收藏吧！网络安全技术分享学习网络安全 web安全 CTF
CTF（CapturetheFlag）是网络安全领域中的一种比赛形式，涵盖了漏洞利用、逆向工程、加密解密、编码解码等多方面的技术，参与者通过解决难题（称为“Flag”）获得积分。对于想要在寒假期间提升CTF技能的同学们，以下是一些有效的学习法则，可以帮助你高效地进行学习和提升：1.合理规划学习时间寒假时间有限，建议制定合理的学习计划：每天固定时间学习：保持稳定的学习节奏，避免临时抱佛脚。分阶段学习
机器学习·文本数据读写处理 AAA顶置摸鱼 python 深度学习机器学习人工智能数据处理
前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
java进阶篇--生产环境如何排查bug和优化 JVM？爱分享的淘金达人 Java源码剖析(30讲)jvm优化 jvm调优优化jvm 生产环境优化jvm 生产环境jvm优化
通过前面几个课时的学习，相信你对JVM的理论及实践等相关知识有了一个大体的印象。而本课时将重点讲解JVM的排查与优化，这样就会对JVM的知识点有一个完整的认识，从而可以更好地应用于实际工作或者面试了。我们本课时的面试题是，生产环境如何排查问题？回答：如果是在生产环境中直接排查JVM的话，最简单的做法就是使用JDK自带的6个非常实用的命令行工具来排查。它们分别是：jps、jstat、jinfo、jm
JavaScript——操作浏览器窗口 yiqi_perss JavaScript
学习内容：今天学习了alert提示框，提示框中的内容，就是alert后边小括号中的内容例如：alert('我要学JavaScript!');alert('我要学习!');学习总结：日常小总结例如：后面的分号；可以随便去掉，不影响运行效果。不能去掉小括号，否则会报错，不信你可以试试。必须是英文引号，否则会报错。课外扩展：历史渊源例如：ECMAScript是一种语言标准，而JavaScript是网景公
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR

Spatial Transformer Networks(STN)-论文笔记

Spatial Transformer Networks(STN)-论文笔记

1. 问题提出

2. 图像处理技巧

2.1 仿射变化

2.2 逆向坐标映射

2.3 双线性插值

3. 整体框架

3.1 整体描述

3.2 基本结构与前向传播

3.3 梯度流动与反向传播

3.4 局部梯度

4. 实验

4.1 Distorted MNIST

4.2 Street View House Numbers

参考

你可能感兴趣的:(小样本学习&病理学习,SNT,deep,learning,CNN)