浅度学习的ryan

CV笔记02：单图训练的SinGAN

SinGAN

文章目录

SinGAN
- 一、SinGAN是什么？
- 二、背景和相关工作
- 三、模型
- - 1. 文章的目的
  - 2. 方法
  - 3. 模型的结构
  - - 1) 生成器
    - 2) 判别器
    - 3) 单尺度图像
    - 4) 训练过程
  - 4. 关于感受野
  - 5. 两种损失
  - - Adversarial loss
    - Reconstruction loss
- 四、实验应用
- - 尺度影响
  - 如何评价GAN网络的好坏？
  - - AMT：衡量生成图片的质量和多样性
    - FID（Fréchet Inception Distance ）
- 五、创新点
- 六、结论
- 补充知识点
- - 1. 图像金字塔
  - 2. 多尺度学习
  - 3. patch-GANs（马尔可夫判别器）
  - 4. 梯度消失，梯度爆炸
  - 5. 残差网络resnet
  - 6. 采样

从单个训练图像中学到的图像生成。我们提出SinGAN ,一种在单个自然图像上训练的新的无条件生成模型。我们的模型使用专用的多尺度对抗训练方案来跨多个尺度学习图像的补丁统计信息；然后可以将其用于生成新的逼真的图像样本，该样本在创建新的对象配置和结构的同时保留原始补丁分布。

一、SinGAN是什么？

SinGAN，这是一个可以从单张自然图像学习的非条件性生成式模型。
这个模型可以捕捉给定图像中各个小块内的内在分布，然后利用学到的信息，生成高质量、更多样性的样例，这些样例有着与原图相似的图像内容。
SinGAN的结构是多个全卷积GANs组成的金字塔，这些全卷积GANs都负责学习图像中的某个小块中的数据分布，不同的GANs学习的小块的大小不同。
这种设计可以让它生成具有任意大小和比例的新图像，这些新图像在具有给定的训练图像的全局结构和细节纹理的同时，还可以有很高的可变性。
与此前的从单张图像学习GAN的研究不同的是，该方法是一个非条件性模型（也就是说它是从噪声生成图像的）。

三个关键字：单个自然图像、非条件生成模型、内部尺度分布

作用是：生成高质量图像（同时又可以保持训练图像的整体结构和精细的纹理特征）

举例：油画作品变化、图片编辑、图像物体融合、超分辨率图像、动画生成

二、背景和相关工作

普通GAN的应用情况使用已经比较全面，但是对训练数据集有限制。
本文将GAN带入了一个新领域–从单幅自然图像中学习非条件生成模型。单幅自然图像通常具有足够的内部统计信息，可以使网络学习到一个强大的生成模型。
作者提出了一种具有简单统一架构的模型SinGAN，能够处理包含复杂结构和纹理的普通自然图像，而不必依赖于具有同一类别图像的数据集。这是通过金字塔结构的全卷积GAN实现的，每个GAN负责捕捉不同尺度的图像分布。

文章中反复强调：

SinGAN：一种在单幅自然图像上训练的新型非条件生成模型
训练数据源是来自单个图像
一个统一的模型

作者提出sinGAN，打破了两个限制。SinGAN就在一张图像上训练，不在乎图像的类别，不管数据集都单类的人脸数据等，还是多类的分类数据等，都只在一张图像上训练，自然不在乎图像的类别的。采用Unconditional GAN能处理很多种任务同样是首创。

另一方面，从新的角度上诠释了生成图像。以往的GAN，往往都在提供了某一类的众多的图像作为训练集，然后生成器学习到这些样本中的相同特征的分布。比如说人脸都有眼睛嘴巴等。那么我就用人脸举例子。然后测试的时候，输入噪声，网络就能输出带有人脸特征的人脸了。但SinGAN从新的角度，不去学习人脸类的共同特征，转而学习单一人脸图像的数据分布，这样网络可以生成这个人的脸，同时可能有不同视角下的这个人的脸。

三、模型

1. 文章的目的

我们的目标是学习一个无条件的生成模型，该模型捕获单个训练图像x的内部统计数据。

此任务在概念上与常规GAN设置相似，不同之处在于，此处训练样本是单幅图像不同尺度下的采样图像，而不是数据集中的整个图像样本。

模型选择处理更一般的自然图像，赋予模型生成纹理外的其他功能。为了捕捉图像中目标形状和排列位置这样的全局属性（如天空在顶部，地面在底部），以及精细的细节和纹理信息，SinGAN包含具有层级结构的patch-GANs（马尔可夫判别器），其中每个判别器负责捕捉x不同尺度的分布，如模型图所示。GAN的接收场较小，容量有限，因此无法记住单个图像。

虽然在GAN中已经探索使用了类似的多尺度结构，但本文还是第一个为从单幅图像进行内部学习而探索的网络结构。

2. 方法

SinGAN在仅仅一张图像上训练，这张图片既是训练样本也是测试样本。在这张图像上训练完了之后，同样在这样图片上测试。如果你想换一张图像测试，就必须先在那张图像上训练，这是有异于其他GAN的。

作者把原图按照一定的比例下采样，得到很多的下采样版本的图像，作者称这些样本为patch，用这些patches训练（patch的意思一般都是指从原图crop）

SinGAN采用无条件GAN方式设计，而且是级联式的Generator-Discriminator pair的形式。每一个G-D都负责一种尺度。作者发现，通过学习patch内部的数据分布，网络最终能在测试时输出保留原图中目标的结构以及形象，但是又不同于原图的真实图像。

3. 模型的结构

多尺度结构

单尺度模型

层级结构马尔科夫判别器

The generation of an image sample starts at the coarsest scale and sequentially passes through all generators up to the finest scale, with noise injected at every scale.

图像样本的生成从最粗的尺度开始，依次通过所有生成器，直到最细的尺度，在每个尺度注入噪声。

All the generators and discriminators have the same receptive field and thus capture structures of decreasing size as we go up the generation process.

所有的生成器和判别器都有相同的接收域，因此在生成过程中捕获的结构尺寸都在减小。

1) 生成器

从最下面看开始看。先看G生成器这边，假设有N个尺度，最下面的第N个尺度是最粗糙的，最上面的尺度是最细的（finest）。

当处于最粗糙尺度时

$\tilde{x}_N=G_N(z_N)$
在粗尺度上，这一代是纯生成，即 $G n$ 映射空间高斯白噪声 $z_N$ 到图像样本 $\tilde{x}_{N}$ 。这一层的有效接受域通常为图像高度的一半，因此 $G_N$ 会生成图像和对象全局结构的总体布局。

处于上面的N-1个更小尺度

$\tilde{x}_n=G_n(z_n,(\tilde{x}_{n+1})\uparrow^r),\qquad nx~n=Gn(zn,(x~n+1)↑r),n<N$

图像样本的生成从最粗糙的级别开始，然后依次通过所有生成器，直到最精细的级别，并在每个级别注入噪声。所有的生成器和鉴别器都具有相同的接收域，因此在生成过程中捕获的结构尺寸都在减小。

2) 判别器

判别器 $D_{\tilde{x}}$ 和经过resize的patch x送到D中，和普通GAN的思路一样。论文采用的D是马尔科夫判别器，G和D的结构是相同的。（马尔科夫判别器在补充知识点有介绍）

3) 单尺度图像

其中ψn是一个有着5个Conv(3×3)-BatchNorm-LeakyReLU卷积块。我们在最粗糙的尺度上从每个块32个内核开始，然后每4个尺度增加2倍。因为生成器是全卷积的，所以我们可以在测试时生成任意大小和宽高比的图像(通过改变噪声图的尺寸)。

这张图具体来说，就是噪音 $z_n$ 是添加到图像 $(\tilde{x}_{n+1})\uparrow^r$ ，将噪声图和图像叠加后输入网络，送入一个卷积序列层，将网络输出与原图叠加后作为最终的输出。网络学习到的将是图像中缺失的细节信息（G输出的是后一个尺度所丢失的细节）。这确保了GAN不会忽略噪声。而卷积层的作用是生成的遗漏的细节 $(\tilde{x}_{n+1})\uparrow^r$ （残差学习的思想）。输出的丢失细节加上上采样得到的更粗糙的图，就变成了更细化更具体的图。

4) 训练过程

从最大到最小尺度顺序地训练多尺度结构。一旦每个GAN被训练，它就会被固定下来。

我们可以先将图像缩小，再切出大图像块来训练。这样图像块分辨率低，容易训练，并且也保留了图像的整体信息。举个例子，对于原先200x200分辨率的图像，我们先降采样到40x40，再切成若干个11x11的块，能切出约800个，再用这800多个图像块训练GAN，生成的图像块应当保留了图像整体的布局信息。

虽然这样生成的图像很模糊，但我们已经有了一个整体的大致结构，只需要给图像上加上细节就可以了。不难想到，我们之前在原始图像上切出的11x11小图像块训练的GAN模型就有了意义，里面包含了我们目前所需要的细节信息。

再多加几个尺度进来，从最模糊的图像逐步加入细节。
SinGAN使用多个GAN结构分别学习了不同尺度下分辨率11x11的图像块的分布，并从粗糙到细致、从低分辨率到高分辨率逐步生成真实图像。

4. 关于感受野

这里有5个3x3的卷积层构成，感受野是11x11。

而最粗的那一个尺度上，输入的是原图经过下采样最小的patch，经过固定的11×11的感受野，因为输入的图像是原图缩小到很小的patch，即便是网络仅有很小的感受野，也能覆盖掉输入图像很大的区域，对应回原图，就是很大的区域。而越往细的尺度上，由于输入图像越来越大，感受野不变，能覆盖的尺度会越来越小。所以effective patch size越来越小，但也越关注细节，所以输出图像的细节更加丰富，逼真。

论文中也说明了小感受野的好处

5. 两种损失

对抗损失

重建损失

Adversarial loss

WGAN-GP:针对WGAN的问题的一种改进

Reconstruction loss

损失函数由adversarial loss和reconstruction loss两部分组成。其中adversarial loss使用了WGAN-GP loss，可以认为是文初提到的GAN loss的升级版，可以提升训练稳定性。reconstruction loss的目的是希望存在一组随机噪声输入，最终输出的图像就是原图。

四、实验应用

我们将探讨SinGAN在许多图像处理任务中的应用。为此，我们在训练后使用我们的模型，不进行架构更改或进一步调优，并对所有应用采用相同的方法。该思想是利用这样一个事实，即在推理时，SinGAN只能生成与训练图像具有相同patch分布的图像。因此，可以通过在n < N的某个尺度将图像(可能是向下采样的版本)注入到生成金字塔中，并通过生成器将其前馈传输，从而使其patch分布与训练图像的patch分布匹配，从而进行操作。不同的注入规模导致不同的效果。我们考虑以下应用。

1、paint-to-image（绘画到图像）：

在目标图像上训练SinGAN，在测试时将剪切画进行下采样将其输入到一个粗尺度中（n-1或n-2），

保留了画面的整体结构，真实地生成了与原图匹配的纹理和高频信息。

2、Harmonization（协调性）：

把粘贴的对象与背景图像融为一体，在原始图片（背景图）上进行SinGAN训练，在测试时将要粘贴的部分进行下采样，最后根据背景图像调整其外观和纹理（取得相对的平衡）。

3、Editing（编辑）：

在原始图像上找到要编辑的对象（建筑物），将它们组合到一起给SinGAN来训练，训练输出的结果与原始图像结合，重新生成一个图像。

4、Animation（图像到动画）：

从单个图像上来合成动图

如：一群鸟的图像中，模型可以获取鸟的所有羽翼的姿势（闪电也如此）

5、Super-resulation（超分辨率）：

通过因子s为输入的图像增加分辨率。先训练低分辨率图像，其中加入了一个重构损失，给了一个=的权重，并且加入了金字塔尺度因子 $r=\sqrt[k]{s}$ 。因为一些小结构倾向于在整个图的多个尺度反复出现，所以在测试时，作者通过因子r 为低分辨率上采样，然后和噪声一起作为输入送到最后一个生成器 $G_0$ 中。之后反复重复上述步骤 $k$ 次，最终得到高分辨率的图像。

尺度影响

在测试中的尺度影响

因为网络是多级的，在训练中有N个尺度，但是在测试中，可以使用更少的尺度，或者改变所使用的的尺度，来控制生成图像的变化。比如从第N-2个尺度开始，就会生成一些更真实的样本。下图的对比中，可以发现，从第N个尺度生成的斑马，有很多条腿。但是从第N-1个尺度开始，生成的样本就很真实了。而且对于细节保留的更多。

在训练中尺度的影响

选择更丰富的尺度，能捕获全局的结构，也是因为感受野大了。
尺度数目越小（意味着本身就从一个很细化的patch开始训练），仅仅能捕获到局部的纹理细节。丢失了全局的结构内容。

如何评价GAN网络的好坏？

在对抗生成网络中，生成器能骗过判别器 —> 出色；判别器能查出生成器 —> 出色。

但是判别器不能很好的衡量生成图片的质量和多样性。

通常，我们使用IS（inception score）和FID（Fréchet Inception Distance）这两个指标来评价不同的GAN模型。

相较于IS来说，FID会对模型坍塌这种问题更加敏感，所以更加适合GAN的学习。

共同的缺点：不适合描述模型的空间关系

文章采用了AMT和FID两种度量标准

AMT：衡量生成图片的质量和多样性

解释：

（1）在非配对的情况下，混淆度更大；

（2）随着图片多样性的增多，混淆度会减小

FID（Fréchet Inception Distance ）

本文用到的真实图像和生成图像的深度特征的偏差
$FID(x,g)=||\mu_x-\mu_g||^2_2+Tr(\sum_x+\sum_g-2(\sum_x\sum_g)^\frac{1}{2})$
较低的FID表示图片具有较高的质量和多样性。

解释：N-1生成的SIFID值低于N生成的，说明N-1级的图片具有较高质量和多样性

五、创新点

训练样本是单个图像，不是数据库中的样本集。
SinGAN改善了上述不足，生成器Gn和判别器Dn使用同一个感受野，是第一个从单个图像进行内部学习的探索者；
与之前所有GAN相比，SinGAN定义的损失是针对所有图像的（并不是对于随机样本的损失）— 这允许网络可以学习边界条件。

六、结论

该论文介绍了一种可以从单幅自然图像中学习的新型非条件生成框架–SinGAN。证明了其不仅可以生成纹理，还具有为复杂自然图像生成各种逼真样本的能力。作者通过实验证明，SinGAN可以为多种图像处理任务提供非常强大的工具。

存在问题：

例如，如果训练图像只包含一条狗，SinGAN不会生成不同犬种的样本。

补充知识点

1. 图像金字塔

一组不同分辨率的图像。将不同scale 的图像送入网络提取出不同scale 的特征做融合，对于整个网络性能的提升很大。

采样方法：重叠和不重叠采样，如果是不重叠的，采样尺度因子为2，那就是每增加一层，行列分辨率为原来的1/2。如果是重叠的，采样尺度因子 r > 1时，分辨率的放大倍数将为γ^n 。

2. 多尺度学习

多尺度：对信号的不同粒度的采样

粒度越大（稀疏的采样）可以看到整体趋势（左图），但粒度越小（更密集的采样）可以看到更多的细节（右图）。

如果你的任务是判断图片中是否有前景（12*8）

如果你的任务是识别图片中的水果（64*48）

如果你的任务是后期合成该图片的景深（640*480）

3. patch-GANs（马尔可夫判别器）

它完全由卷积层构成，最后输出的是一个n $\times$ n的矩阵，最后取输出矩阵的均值作为True/False的输出。

输出矩阵中的每一个输出，代表着原图中一个感受野，对应了原图的一片（patch），而具有这样结构的GAN被称为PatchGAN。（黄色部分**–patch**大小就是跟感受野有关）

每一层感受域的计算公式为：

图像中感受野：

结论：

Scale越大时 $\rightarrow$ fake和real在大致区域上会比较像

Scale较为精细时 $\rightarrow$ 两者在细节上已经比较像了。

4. 梯度消失，梯度爆炸

以前馈神经网络为例，假设存在一个网络结构如图：

其表达式为： $f(w_1)=f_3(w_3f_2(w_2f_1(w_1)))$

对表达式进行链式求导后： $\frac{\partial f}{\partial w_1}=\frac{\partial f_3}{\partial f_2}w_3\times\frac{\partial f_2}{\partial f_1}w_2\times\frac{\partial f_1}{w_1}$

5. 残差网络resnet

解决梯度消失或梯度爆炸，让网络达到更深。由多个残差块构成。

残差块（Residual block）：远跳连接，可以训练更深的网络，也不会使得训练到越深损失不可控的问题。它可以根据残差块的不同使得网络变得简单。

使用残差网络“解决”梯度消失

论文参考：Deep Residual Learning for Image Recognition

或者参考我的上一篇残差网络的笔记 CV笔记01：残差网络学习

6. 采样

上采样（upsampling）：

保证分辨率的前提下来放大图像，使得放大后的图像能够在更高的分辨率的屏幕上显示。

三种方式：插值法 (Interpolation) 、反卷积 (Deconvolution) 和反池化 (unPooling)

要将图像分辨率提升s倍，上采样因子， $r=\sqrt[k]{s}\qquad k\in N$

下采样（downsampling）：

生成图像的缩略图

原理：对一个M $\times$ N的图像，进行s倍的下采样（s是m，n的公约数），用一个s $\times$ s的窗口来取m $\times$ n的图像的一个像素。最后的得到的这个像素点的值（pk）是s $\times$ s窗口内所有像素点（Ii）的均值：
$p_k=\displaystyle \sum_{i\in win(k)}{\frac{I_i}{s^2}}$

SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
day39 心落薄荷糖 Python训练营 python
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
图扑软件智慧云展厅，开启数字化展馆新模式智慧园区可视化 5g 人工智能大数据安全云计算
随着疫情的影响以及新兴技术的不断发展，展会的发展形式也逐渐从线下转向线上。通过“云”上启动、云端互动、双线共频的形式开展。通过应用大数据、人工智能、沉浸式交互等多重技术手段，构建数据共享、信息互通、精准匹配的高精度“云展厅”，突破时空壁垒限制。图扑软件运用HT强大的渲染功能，数字孪生“云展位”，1:1复现实际展厅内部独特的结构造型和建筑特色。也可以第一人称视角漫游，模拟用户在展厅内的参观场景，在保
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》