深度学习炼丹师-CXD

超分之SRGAN

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

使用生成对抗网络的逼真单图像超分辨率

一作：Christian Ledig

是Twitter2017年的一篇论文。

超分之SRGAN代码实现

文章目录

- 0. 摘要
- 1. 引言
- - 1.1 相关工作
  - - 1.1.1 介绍了SR技术的发展历程
    - 1.1.2 介绍了SR技术中卷积神经网络的设计思路
    - 1.1.3 重点介绍了SR技术中损失函数的设计
  - 1.2 主要贡献
- 2 算法
- - 2.1 对抗网络结构
  - - 2.1.1 对抗性最大-最小问题
    - - 角度一：（沐神讲解GAN）
      - 角度二：（从内层到外层）
    - 2.1.2 深度生成网络结构：（SRResNet）
    - 2.1.3 辨别器网络结构：（CNN）
  - 2.2 感知损失函数（Perceptional loss function）
  - - - 注意：
    - 2.2.1 内容损失（content loss）
    - - 注意：
    - 2.2.2 对抗损失（adversarial loss）
- 3 实验
- - 3.1. 数据集
  - 3.2. 评价指标
  - 3.3. 成果
  - 3.4. 实验要点
- 4. 结论

0. 摘要

首先说明，SR技术仍然存在未解决的核心问题：
- 使用较大的放大因子进行SR技术时，如何恢复更精细的纹理细节？
接着说明，最近的工作都是在集中在最小化均方误差：
- 但是，使用MSE，生成的SR图像缺乏高频细节，并且感知效果不好。
然后提出本论文的模型SRGAN：
- 一种用于图像超分辨率（SR）的生成对抗网络（GAN）。
- 第一个能够推断4倍放大因子的逼真自然图像的框架。
然后提出了一种感知损失函数，包括对抗损失和内容损失：
- 对抗损失，使生成的SR图像与原始HR图像更接近：
  - 判别器网络经过训练可以区分SR图像和原始HR图像。
- 内容损失：
  - 使用感知相似性而不是像素级的相似性的内容损失。
然后提出，SRGAN的深度残差网络：
- 优势：能够从公共基准上大量下采样的图像中恢复照片般真实的纹理。
最后提出了一种新的主观的图像质量评价指标，
- 并且SRGAN实现了SOAT

1. 引言

首先介绍了SR技术，
然后详细说明，当前的SR技术使用MSE的不足：
- 1. SR问题是一种不适定性问题（ill-posed）:
  - 对于高缩放因子尤其明显，重建的SR图像通常不存在纹理细节。
- 2.对于有监督的SR算法：
  - 目前都是通过最小化生成SR图像与原始HR图像的均方误差（MSE）。
  - 最小化MSE，也可以最大化PSNR（用于评估SR算法的常用指标）
  - 但是MSE和PSNR捕获感知相关差异（如高纹理细节）的能力非常有限，因为他们都是基于像素级图像差异定义的。
  - 因此，高的PSNR并不一定能反应感知效果较好的SR结果。
  - 因此，使用MSE来优化SR算法，可能会导致生成的SR图像过于平滑（模糊），但是仍然有较高的PSNR。
最后，说明了自己模型的特点：
- SRGAN使用具有跳跃连接和不同于MSE的残差网络作为优化目标。
- 使用VGG网络的高阶特征图结合判别器来定义感知损失，去鼓励生成SR图像在感知上与原始HR图像难以区分。

1.1 相关工作

1.1.1 介绍了SR技术的发展历程

1.1.2 介绍了SR技术中卷积神经网络的设计思路

1.1.3 重点介绍了SR技术中损失函数的设计

MSE是像素级的损失函数，很难处理恢复丢失的高频细节（如纹理）所固有的不确定性；
最小化MSE，会使模型生成的SR图像寻找最优的像素级平均值，这会造成生成SR图像过于平滑，从而导致感知质量较差。（也就是生成SR图像比较模糊）
Johnson 等人和 Bruna 等人提出使用从预训练的 VGG 网络中提取的特征，而不是低级像素级误差测量。
- 作者根据从 VGG19网络提取的特征图之间的欧氏距离制定了一个损失函数。

1.2 主要贡献

我们通过针对 MSE 优化的 16 blocks deep ResNet (SRResNet)，通过 PSNR 和结构相似性 (SSIM) 测量，为具有高放大因子 (4×)的图像 SR 设定了新的技术水平。
我们提出 SRGAN，它是一种基于 GAN 的网络，针对新的perceptual loss进行了优化。将基于 MSE 的内容损失替换为根据 VGG 网络的特征图计算的损失。
我们对三个公共基准数据集的图像进行了广泛的平均意见得分 (MOS) 测试，确认 SRGAN 是最新技术。

2 算法

Method (估计生成网络的参数)

最终目标是训练一个生成函数 G，用于估计给定的 LR 输入图像及其对应的 HR 对应图像。

符号含义:

$I^{SR}$ : 超分辨率图像(生成图像: 从输入的 $I^{LR}$ , 重建出相应的高分辨率图像) ( W × H × C)
$I^{HR}$ : 高分辨率图像 (数据本身: 仅在训练期间使用) ( W × H × C)
$I^{LR}$ : $I^{HR}$ 对应的低分辨率图像(生成图像: 通过对 $I^{HR}$ 应用高斯滤波器，然后使用下采样因子 r 进行下采样操作来获得的) (不同的论文中, $I^{LR}$ 的生成方式不同) ( rW × rH × C)
G: 生成函数(针对给定的 LR 输入图像估计其对应的 HR的对应图像)
$G_{θ_G}$ : 生成网络的前馈网络, 其中 $θ_G$ 是参数.
$θ_G = {\{W_{1:L};b_{1:L}\}}$ : L 层深度网络的权重和偏差(通过优化SR(-特定的损失函数 $l^{SR}$ )获得的可学习参数)
$I^{HR}_n$ , $I^{lR}_n$ : n = 1, …, N

用mini-batch的方式来估计生成网络的参数：
$\widehat{θ}_{G} = arg\,\underset{θ_G}{min} \frac{1}{N}\sum_{n=1}^{N}l^{SR}(G_{θ_G}(I^{LR}_n), I^{HR}_n) \qquad\qquad\qquad(1)$

2.1 对抗网络结构

`允许人们训练生成模型G，其目标是欺骗可微的鉴别器D，该鉴别器D被训练来区分超分辨率图像和真实图像。通过这种方法，生成器G可以学习创建与真实图像高度相似的解决方案。

2.1.1 对抗性最大-最小问题

符号含义:

$D_{θ_D}$ : 判别网络, 其中 $θ_D$ 是参数。(估计样本来自真实图像而不是通过G的生成图像的概率。)

判别器网络 $D_{θ_D}$ 以交替的方式与生成器网络 $G_{θ_G}$ 一起优化，来解决对抗性最小-最大问题：

$\underset{θ_G}{min}\,\underset{θ_D}{max}\quad\mathbb{E}_{I^{HR}～p_{train}(I^{HR})}[logD_{θ_D}(I^{HR})] + \mathbb{E}_{I^{LR}～p_G(I^{LR})}[log(1 - D_{θ_D}(G_{θ_G}(I^{LR})))]\qquad(2)$

角度一：（沐神讲解GAN）

前一项 — $\mathbb{E}_{I^{HR}～p_{train}(I^{HR})}[logD_{θ_D}(I^{HR})]$ :

输入I, 来自真实图像HR -->把HR放入辨别器D中
（假设辨别器D完美, 认为HR一定是真实数据），D(HR)=1 -->log(1) = 0，即： 前一项 = 0
（假设辨别器D不完美，认为HR不一定是真实数据）， 0log(D) <0，即： 前一项 <0

后一项 — $\mathbb{E}_{I^{LR}～p_G(I^{LR})}[log(1 - D_{θ_D}(G_{θ_G}(I^{LR})))]$ :

输入 $I^{LR}$ -->通过生成器G生成对应的 $I^{HR}$
–>（假设辨别器D完全正确）那么 $D_{θ_D}(G_{θ_G}(I^{LR}))$ = 0 -->1- 0 = 1 --> $l o g (1)$ =0, 即: 后一项等于0
–>（假设辨别器D做的不那么好）那么 $D_{θ_D}(G_{θ_G}(I^{LR}))$ >0 (极端情况下: (D认为数据一定是真实数据) =1) -->1- (00(极端情况下：=0) -->log(0<(1- D)<1) < 0 (极端情况下：-∞), 即：后一项 < 0

所以：

如果要让辨别器D完美的分辨出输入图像是真实图像还是生成图像，就要训练辨别器D，来最大化辨别器D, 即： $\underset{θ_D}{max}$
如果要让生成器G去使辨别器D尽量的犯错，（让D分辨不出图像是来自真实图像还是生成图像），就要训练生成器G（生成图像和真实图像的误差尽量缩小），来最小化log(1-D(G(LR)))，即： $\underset{θ_D}{max}$

角度二：（从内层到外层）

初始化生成器G和迭代器D
在每一轮的训练迭代中：
1. 首先先看内层的max $θ_D$ ：（相当于固定生成器G，来更新辨别器D）。
  - 由于初始化的生成器G没有训练，生成的G(LR)会和HR差别很大。
  - 所以刚开始的辨别器D通过学习，最大化辨别器D的参数 $θ_D$ ，从而很容易判别是HR或G(LR)，给HR打一个较高的分数，给生成图像G(LR)打一个较低的分数。
2. 然后在看外层的min $θ_G$ ：（相当于固定辨别器D，来更新生成器G）
  - 生成器G通过学习，不断最小化生成器参数 $θ_G$ ，从而不断缩小生成图像G(LR)和HR的差距，使得D(G(LR))尽可能的变大。
  - 即生成器网络的训练是为了让输出结果通过辨别器输出一个较高的分数，从而欺骗辨别器，让辨别器难以分别图像是生成图像SR还是原始图像HR。
    （因此，生成器变强后，也会促使下一次辨别器网络会继续增强，增加区分真假的能力；
    在轮到生成器，它也会继续增加生成图像G(LR)在辨别器的分数。然后辨别器继续提升，不断循环迭代，两者互相对抗，交替成长。最后，通过训练，得到的生成器网络就是我们最终想要的网络。）

2.1.2 深度生成网络结构：（SRResNet）

从上图来看：

SRGAN网络的生成网络G（SRResNet）使用残差结构，目的是：
- 使用skip connection 来加强信息跨层之间的流动以及防止网络深度的加深导致的梯度消失问题。
生成网络G（SRResNet）可分为：低层特征提取层、高层特征提取层、反卷积（转置卷积）层以及CNN重建层。
- 低层特征提取层：
  - 含有64个9×9的kernels，stride=1的卷积层、PReLU。
- 高层特征提取层：
  - 含有B个相同布局的残差块(residual blocks)：
    - 每个残差块使用两个具有64个3 ×3 的kernels，stride=1的卷积层、BN、PReLU、Elementwise Sum（）。
- 反卷积（转置卷积）层：
  - 亚像素 / sub-pixel、亚像素卷积_亚像素卷积层
  - 含有2个经过训练的亚像素卷积层，用于提高图像的分辨率。
    - 每个反卷积块使用256个3×3的kernels，stride=1的卷积层、PixelShuffler ×2(上采样倍数为2的像素重组)、PRelu
- CNN重建层：
  - 含有3个9×9的kernels，stride=1的卷积层。

2.1.3 辨别器网络结构：（CNN）

从上图来看：

SRGAN网络的判别网络实质上就是一个很普通的CNN网络
判别网络主要有：stride=1的卷积层、Leaky ReLU、stride=2的卷积层、BN、Dense层、Sigmoid。
- 激活函数：Leaky ReLU：
  - 使用激活函数：Leaky ReLU(α=0.2)，目的是防止一些负性输出坏死。
- Dense层+sigmoid函数：
  - 用来做一个二分类（实质上就是对生成图像SR和初始图像HR进行打分）
- stride=2的卷积层：
  - 整体的判别网络就是一个没有池化层的VGG网络，其中每经过了一次stride=2的跨步卷积（主要时为了减少冗余信息的计算），图像的size就会减小，接着下一层的feature map的数量就会翻倍。

2.2 感知损失函数（Perceptional loss function）

由公式1可知，感知损失函数 $l^{SR}$ 对于生成器网络的性能至关重要。

之前的loss一般都是使用MSE：
- MSE本质上是像素级差异的平均化的计算，会使得PSNR或SSIM有很高的分数。并且本论文也证明了，最高 PSNR 并不一定反映感知上更好的 SR 结果
- 正因为MSE是基于像素级图像差异定义的，所以MSE捕获感知相关差异（如高纹理细节）的能力非常有限，很难处理恢复丢失的高频细节所固有的不确定性，缺乏高频内容，所以使用MSE作为loss function会使得图像过于平滑。
所以本论文提出了一种新的用于评估感知相关特征的损失函数—perceptual loss
- 感知损失函数 = 内容损失函数与一定比率的对抗损失函数的加权和，公式如下：
  ![[Pasted image 20230909094922.png]]

注意：

我们采用感知损失来训练生成网络，它由内容损失：文中取MSE或者VGG损失以及一定比率的对抗损失(GAN网络本身就有的损失函数)组成。
SRResNet是只由MSE损失函数训练的，而不是感知损失，但是网络还是用的上面的网络；而SRGAN的训练中，生成网络部分才使用感知损失训练的。

2.2.1 内容损失（content loss）

像素级(pixel-wise)的MSE loss：
- 之所以还启用MSE损失，是因为PSNR也是我们比较看重的一个点，我们强调肉眼感知上的高分辨率，但也不能少了PSNR的评价，因此MSE可作为总体loss的一部分。

MSE loss 公式如下：
$I^{SR}_{X}=l_{MSE}^{SR} = \frac{1}{r^2WH}\sum^{rW}_{x=1}\sum^{rH}_{y=1}(I^{HR}_{x,y} - G_{θ_G}(I^{LR})_{x,y})^2\quad\quad\quad (4)$

特征图级(feature-map-wise)的VGG loss：
- 所谓的VGG损失是作者采用预训练好的VGG-19网络的特征向量，使得生成网络的结果通过VGG某一层之后产生的feature map和标签 $I^{HR}$ 通过VGG网络产生的feature map做loss，作者指出这种VGG loss更能反应图片之间的感知相似度。

符号含义：

$\phi_{i, j}$ ： VGG19 网络中第 i 个 maxpooling 层之前的第 j 个卷积（激活后）获得的特征图。
$W_{i,j}、H_{i,j}$ ：别表示VGG网络中feature map的维度，一般指的是feature map的张数。

VGG损失为重建图像 $G_{θ_G}(I^{LR})$ 特征表示和参考图像 $I^{HR}$ 的欧几里得距离（the eculidean distance） :
$I^{SR}_{X}=l^{SR}_{VGG/i,j} = \frac{1}{W_{i,j}H_{i,j}}\sum^{W_{i,j}}_{x=1}\sum^{H_{i,j}}_{y=1}(\phi_{i,j}(I^{HR})_{x,y} - \phi_{i,j}(G_{θ_G}(I^{LR}))_{x,y})^2$
$l_{percep}=l_{VGG/i,j} = \frac{1}{W_{i,j}H_{i,j}}\sum^{W_{i,j}}_{x=1}\sum^{H_{i,j}}_{y=1}(\phi_{i,j}(I^{HR})_{x,y} - \phi_{i,j}(G_{θ_G}(I^{LR}))_{x,y})^2$

注意：

VGG损失是feature-map-wise，它拥有比MSE更好地能力去衡量感知上的相似度。
- feature-map-wise是对HR 和 SR 图像整体做loss，因此它提升的是 SR 图像整体感知；
- 而MES是针对像素级(pixel-wise)，这样很容易将图像局部细节平滑掉。这一点在后续实验中也会体现出来。

2.2.2 对抗损失（adversarial loss）

符号含义：

$D_{θ_D}(G_{θ_G}(I^{LR}))$ ：重建图像 $G_{θ_G}(I^{LR})$ 是自然HR图像的概率。

对抗损失函数 $l^{SR}_{Gen}$ 是基于辨别器 $D_{θ_D}(G_{θ_G}(I^{LR}))$ 在所有训练样本上的损失，我们要最小化:
$l^{SR}_{Gen}=\sum^{N}_{n=1}-logD_{θ_D}(G_{θ_G}(I^{LR}))$
目的就是要让生成网络的结果产生较高的判别值来骗过判别网络

3 实验

3.1. 数据集

训练集：
- a random sample of 350 thousand images from the ImageNet database
- obtained the LR images by downsampling the HR images (BGR, C = 3) using bicubic kernel with downsampling factor r = 4.
- For each mini-batch we crop 16 random 96 × 96 HR sub images of distinct training images
- 使用ImageNet数据库35万张图像的随机样本。
- 通过使用x4的双三次插值对HR图像进行进行下采样，来获得LR图像。
- 对于每个小批量，裁剪不同训练图像的16个随机96×96HR子图像。
测试集：
- Set5，Set14，BSD100
所使用的放大因子：up-scale-factor = 4

3.2. 评价指标

PSNR/SSIM：
- 本文提出PSNR 和 SSIM 等标准定量测量无法捕获和准确评估人类视觉系统的图像质量。
- 客观评价方法：过观察者对无失真图像和有失真图像评价得分差异再归一化来判断图像质量。
MOS（本文提出的一种新的图像质量评价指标）：
- mean opinion score: 平均意见得分，（1~5，bad quality~excellent quality）
- MOS 评级更接近原始高分辨率图像。
- 主观评价方法：通过对观察者的评分归一化来判断图像质量

3.3. 成果

3.4. 实验要点

作者从ImageNet上取下35W张图片作为网络的训练集，然后将裁剪后的96 × 96 96\times 9696×96的H R HRHR图片通过Bicubic× 4 \times 4×4下采样得到L R LRLR图像。
mini-batch=16。
生成网络部分设置16个残差块。
采用Adam做优化。
SRResNet(MSE-based)使用学习率为 $10^{-4}$ ，训练100W个epoches。对于SRGAN的训练，由于SRResNet可以作为SRGAN的生成网络，因此作者将训练好的SRResNet的参数作为生成网络的初始参数来避免陷入局部最优。
SRGAN变体的训练方式：前10W个epoches采用 $10^{-4}$ 的学习率，后10W个epoches采用 $10^{-5}$ 的学习率。

4. 结论

本文提出了在SISR领域的一种称之为SRGAN模型，其可以重建出具有较高感知质量，即人肉眼感知舒适的，具有丰富细节的图像。
SRResNet可以单独作为一个SR网络，作者采用MSE为Loss函数，使用× 4 \times 4×4的缩放倍数和16个残差块来实现当时的SOAT(sate of the art)。
SRGAN中的生成网络就是SRResNet网络，其以ResNet块为基本结构，是一个具有深度的SR网络。生成网络使用感知损失进行训练，而不是传统的MSE方法，它使用预训练之后的VGG网络产生的feature map级进行计算，再加上本身生成网络带有的对抗损失。此外判别器也需要去训练，两个网络结合起来就是我们的SRGAN网络。
本文提出了一种新的用于评价图像photo-realistic的标准——MOS，SRGAN在这个指标下达到了最佳的性能，重建出人肉眼感知最舒适的高分辨率图像。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
22、文档：Google Docs的强大与易用性 pear55 探索云技术的无限可能 Google Docs 云端文档语音输入
文档：GoogleDocs的强大与易用性1.GoogleDocs简介GoogleDocs是Google提供的在线办公套件的一部分，它是一个基于云端的文字处
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
利用技术分享提升个人影响力 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《利用技术分享提升个人影响力》关键词：技术分享、个人品牌、影响力、内容创作、互动反馈、持续成长摘要：本文将深入探讨技术分享在个人发展中的重要作用，通过详细分析技术分享的意义、平台选择、内容创作、互动反馈及个人影响力提升策略，帮助读者掌握利用技术分享提升个人影响力的实用方法。第一部分：引言与基础第1章：技术分享的意义与价值1.1.1技术分享的历史与发展技术分享作为一种知识传播的方式，其历史可以追溯到
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
盲超分的核心概念小冷爱读书数学建模盲超分超分重建
一、盲超分的本质与数学建模1.退化过程的数学表达低分辨率图像（LR）可看作高分辨率图像（HR）经过退化模型后的结果：：观测到的低分辨率图像：待恢复的高分辨率图像：模糊核（BlurKernel）⊗：卷积操作↓：下采样（步长为）：加性噪声（如高斯噪声、泊松噪声等）盲超分的核心问题：在未知、、的情况下，从估计。2.为什么传统超分方法会失效？传统方法（如SRCNN、EDSR）假设退化是固定的（如双三次下采
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Vue3组件库实战: 打造高复用UI系统武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js layui 毕业设计
Vue3组件库实战:打造高复用UI系统介绍什么是Vue3组件库在前端开发中，UI组件库是非常重要的一部分。Vue3组件库是基于Vue.js3.x版本开发的一套可用于构建Web应用的UI组件集合，可以帮助开发者快速搭建页面并保证页面的一致性和美观性。目标关键词：Vue3组件库设计与构建设计原则组件库的设计需要遵循一定的原则，比如易用性、可维护性、扩展性等。在设计阶段需要考虑到不同场景的使用，并且保证
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
zookeeper etcd区别 sun007700 zookeeper etcd 分布式
ZooKeeper与etcd的核心区别体现在设计理念、数据模型、一致性协议及适用场景等方面。‌ZooKeeper基于ZAB协议实现分布式协调，采用树形数据结构和临时节点特性，适合传统分布式系统；而etcd基于Raft协议，以高性能键值对存储为核心，专为云原生场景优化，是Kubernetes等容器编排系统的默认存储组件。‌‌1‌‌2‌架构与设计目标差异‌‌ZooKeeper‌。‌设计定位‌:专注于分
2025.07.09华为机考真题解析-第一题100分春秋招笔试突围最新互联网春秋招试题合集华为
点击直达笔试专栏《大厂笔试突围》春秋招笔试突围在线OJ笔试突围OJ01.花园灯具照明设计问题描述K小姐正在为她的私人花园设计照明系统。花园是一条长廊，由nnn
线性代数同济教材每一部分的现实意义 ZhuBin365 其它算法
一、行列式(Determinants)的现实意义：不仅仅是数字，而是“尺度”和“特性”行列式虽然计算结果是一个数值，但它绝不是一个孤立的数字，它在现实世界中代表着“尺度”和“特性”的重要信息：现实意义核心：“衡量变化的能力”和“判定系统特性”“尺度”：衡量体积/面积的缩放比例：在现实世界中，很多变换都会改变物体的形状和大小。行列式就像一个“尺度”，衡量了线性变换对面积(二维)或体积(三维及以上)的
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
让电机转起来--基于STM32F1控制两相步进电机转动-新手小白入（完整代码）梦想是成为甜妹儿 stm32 嵌入式硬件单片机
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、基础内容1、步进电机2、电机驱动器3、接线方法二、最简单控制电机转动程序1.定时器的输出比较功能生成PWM波2.电机方向控制3.主函数三、进阶版电机控制程序1.加入按键控制2.motor.c中添加一个函数3.主函数总结前言本帖分享步进电机与驱动器的接线方式、速度计算与代码分析。第一次接触电机的小白可能会面对无数的代码分
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
技术演进中的开发沉思-32 MFC系列：生命周期 chilavert318 熬之滴水穿石 windows c++
今天，我们继续MFC以一种更亲近的方式，梳理这个框架的脉络，看看一个MFC程序从诞生到运行的完整故事。一、MFC类层次结构昨天已经梳理过MFC的类层次了，今天梳理其生命周期，还是要提一下。因为它确实很重要，如果把MFC比作一个庞大的家族，那类层次结构就是它的族谱。最顶层的CObject就像家族的老祖宗，所有成员都流淌着它的血液——封装了最基础的功能，比如对象的创建与销毁、序列化等。往下分，就像家族
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源