HheeFish

生成式对抗网络(GANs)及变体

生成式对抗网络GANs及变体

1.基础GAN
2.条件生成对抗网络(cGAN)
3.Wasserstein GAN (WGAN)
- WAN-GP (improved WGAN)
3.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks (DCGANs)
4.Progressive Growing of GANs for Improved Quality, Stability, and Variation (ProGAN)
5.Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets (InfoGAN)
6.Image-to-Image Translation with Conditional Adversarial Networks (pix2pix)
7.Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks(CycleGAN)
8.A Style-Based Generator Architecture for Generative Adversarial Networks(StyleGAN)
9.Recurrent GAN (RGAN) and Recurrent Conditional GAN (RCGAN)
10.LSGAN（Least Square GAN）

1.基础GAN

生成式对抗网络是Ian Goodfellow等人在2014年开发的。GANs属于生成模型。GANs是基于最小最大值和零和博弈理论。为此，GANs由两个神经网络组成:一个是Generator，另一个是Discriminator。生成器的目标是学习生成虚假的样本分布来欺骗鉴别器，而鉴别器的目标是学习区分生成器生成的真实分布和虚假分布。
GAN的总体结构由生成器和鉴别器组成，如图1所示。生成器(G)将一些随机噪声向量Z作为输入，然后尝试使用这个噪声向量G(Z)生成图像。然后将生成的图像传递给Discriminator，并根据Discriminator的输出更新Generator的参数。Discriminator (D)是一个二进制分类器，它同时查看生成器生成的真实样本和虚假样本，并试图决定哪些是真实的，哪些是虚假的。给定一个样本图像X，鉴别器模型的概率是虚假或真实的图像。然后将概率作为反馈传递回Generator。随着时间的推移，生成器和鉴别器模型都试图通过相互竞争来打败对方，这就是生成式对抗网络的术语“对抗性”的来源，优化是基于极大极小博弈问题。在训练过程中，Generator和Discriminator的参数都使用反向传播进行更新，生成器的最终目标是能够生成逼真的图像，而Discriminator的最终目标是逐步更好地从真实图像中检测生成的虚假图像。

GANs使用的是Goodfellow等人在首次引入GANs时引入的Minimax损失函数。生成器试图最小化下面的函数，而判别器试图最大化它。极小极大损失的表达式为:

在这里E_x是所有实际数据样本的期望值，D(x) 是鉴别器估计x是真的概率，G(z)是给定随机噪声矢量z作为输入的生成器输出，D(G(z))是鉴别器估计生成的假样本是真的的概率，E_z是生成机所有随机输入的期望值。

2.条件生成对抗网络(cGAN)

条件生成对抗网[118]或CGAN是GANs的扩展，用于条件样本生成。这可以控制生成数据的模式。CGAN使用一些额外的信息uy, 例如类标签或其他模式，通过连接这些额外信息和输入，并将其馈送到生成器G和鉴别器D。可以如下所示修改Minimax目标函数，

3.Wasserstein GAN (WGAN)

WGAN[7]的作者提出了一种新的算法，可以替代传统的GAN训练。他们表明，他们的新算法提高了模型学习的稳定性，并防止了模式崩溃等问题。对于批判模型，WGAN使用权值剪裁，这确保权值(模型参数)保持在预定义的范围内。作者发现Jensen-Shannon散度并不是测量不相交部分分布距离的理想方法。因此，他们使用了Wasserstein距离，该距离使用了Earth mover’s(EM)距离的概念，而不是测量生成的数据分布和真实数据分布之间的距离，在训练模型时试图保持One-Lipschitz连续性。

彻底解决GAN训练不稳定的问题，不再需要小心平衡生成器和判别器的训练程度
基本解决了collapse mode的问题，确保了生成样本的多样性
训练过程中终于有一个像交叉熵、准确率这样的数值来指示训练的进程，这个数值越小代表GAN训练得越好，代表生成器产生的图像质量越高（如题图所示）
以上一切好处不需要精心设计的网络架构，最简单的多层全连接网络就可以做到

最终给出了改进的算法实现流程，而改进后相比原始GAN的算法实现流程却只改了四点：

判别器最后一层去掉sigmoid
生成器和判别器的loss不取log
每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数c
不要用基于动量的优化算法（包括momentum和Adam），推荐RMSProp，SGD也行

WAN-GP (improved WGAN)

部分参考：
W-GAN系 (Wasserstein GAN、 Improved WGAN)
DCGAN、WGAN、WGAN-GP、LSGAN、BEGAN原理总结及对比

WGAN-GP是WGAN之后的改进版，主要还是改进了连续性限制的条件，因为，作者也发现将权重剪切到一定范围之后，比如剪切到[-0.01,+0.01]后，发生了这样的情况，如下图左边表示

发现大多数的权重都在-0.01 和0.01上，这就意味了网络的大部分权重只有两个可能数，对于深度神经网络来说不能充分发挥深度神经网络的拟合能力，简直是极大的浪费。并且，也发现强制剪切权重容易导致梯度消失或者梯度爆炸，梯度消失很好理解，就是权重得不到更新信息，梯度爆炸就是更新过猛了，权重每次更新都变化很大，很容易导致训练不稳定。梯度消失与梯度爆炸原因均在于剪切范围的选择，选择过小的话会导致梯度消失，如果设得稍微大了一点，每经过一层网络，梯度变大一点点，多层之后就会发生梯度爆炸。为了解决这个问题，并且找一个合适的方式满足lipschitz连续性条件，作者提出了使用梯度惩罚（gradient penalty）的方式以满足此连续性条件，其结果如上图右边所示。
梯度惩罚就是既然Lipschitz限制是要求判别器的梯度不超过K，那么可以通过建立一个损失函数来满足这个要求，即先求出判别器的梯度d(D(x))，然后建立与K之间的二范数就可以实现一个简单的损失函数设计。但是注意到D的梯度的数值空间是整个样本空间，对于图片（既包含了真实数据集也包含了生成出的图片集）这样的数据集来说，维度及其高，显然是及其不适合的计算的。作者提出没必要对整个数据集（真的和生成的）做采样，只要从每一批次的样本中采样就可以了，比如可以产生一个随机数，在生成数据和真实数据上做一个插值

所以WGAN-GP的贡献是：

提出了一种新的lipschitz连续性限制手法—梯度惩罚，解决了训练梯度消失梯度爆炸的问题。
比标准WGAN拥有更快的收敛速度，并能生成更高质量的样本
提供稳定的GAN训练方式，几乎不需要怎么调参，成功训练多种针对图片生成和语言模型的GAN架构

但是论文提出，由于是对每个batch中的每一个样本都做了梯度惩罚（随机数的维度是(batchsize，1)），因此判别器中不能使用batch norm,但是可以使用其他的normalization方法，比如Layer Normalization、Weight Normalization和Instance Normalization，论文中使用了Layer Normalization，weight normalization效果也是可以的。

3.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks (DCGANs)

Radford等人[134]引入了深度卷积生成对抗网络(DCGANs)。顾名思义，DCGANs对生成器和鉴别器模型都使用深度卷积神经网络。最初的GAN架构只使用多层感知器或MLP，但由于CNN比MLP更擅长图像，DCGAN的作者在Generator G和Discriminator D神经网络架构中使用了CNN。以下列出了DCGANs神经网络体系结构的三个关键特性

首先，对于图所示的Generator，将卷积替换为转置后的卷积，因此Generator在每一层的表示依次变大，因为它从一个低维潜在向量映射到一个高维图像。用大步卷积(Discriminator)和部分大步卷积(Generator)替换任何池化层。
第二，在生成器和鉴别器中使用批处理归一化。
第三，在Generator中使用ReLU激活除输出使用Tanh外的所有层。在所有层的鉴别器中使用LeakyReLU激活。
第四，使用Adam优化器，而不是带有动量的SGD。

以上所有的修改都使DCGAN实现了稳定的训练。DCGAN很重要，因为作者证明，通过强制某些约束，我们可以开发出复杂的高质量生成器。作者还对普通GAN架构做了其他一些修改

4.Progressive Growing of GANs for Improved Quality, Stability, and Variation (ProGAN)

Karras等人[78]引入了一种新的训练方法，用于训练GAN生成高分辨率图像。ProGAN的想法是，通过在训练过程中逐渐增长的鉴别器和生成器网络，能够合成高分辨率和高质量的图像。ProGAN通过逐步训练Generator从低分辨率图像到高分辨率图像(参见图4)，使它更容易生成高分辨率的图像。在渐进式GAN中，生成器的第一层产生非常低分辨率的图像，随后的层增加细节。通过渐进式学习过程，训练相当稳定。

5.Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets (InfoGAN)

InfoGAN【19】背后的主要动机是使GANs能够学习解耦合的表示，并以无监督的方式控制生成图像的属性或特征。要执行此操作，而不是仅使用noize向量z作为输入，作者将噪声向量分解为两部分，第一部分是传统的噪声向量z第二个是新的“潜在代码向量”c. 此代码对输出图像有可预测的影响。InfoGAN【19】的目标函数如下所示

其中λ是正则化参数，I(c;G(z,c))是潜在代码c和生成器输出G(z,c)之间的互信息. 其思想是最大化潜在代码和生成器输出之间的互信息。这鼓励潜在代码c尽可能包含真实数据分布的重要相关特征。然而，计算互信息I(c;G(z,c))是不实际的，因为它需要后验信息P(c|x), 因此只能计算I(c;G(z,c))的近似值。这可以通过定义辅助分布Q(c|x)来估计P(c|x)的近似值。因此，目标函数的最终形式由互信息的下界近似给出

6.Image-to-Image Translation with Conditional Adversarial Networks (pix2pix)

使用pix2pix将边缘映射到彩色图像[70]。D，鉴别器，学习区分伪元组(生成器生成)和实际元组(边缘，照片)。G，生成器，学习如何欺骗鉴别器。与无条件GAN相比，生成器和鉴别器都查看输入边图

pix2pix[70]是一种条件生成式对抗网络(cGAN[118])，用于解决通用的图像到图像的翻译问题。GAN由一个具有U-Net[137]架构的Generator和一个PatchGAN[70]分类器组成。pix2pix模型不仅学习从输入图像到输出图像的映射，而且构造一个损失函数来训练这种映射。有趣的是，不像常规的GANs, pix2pix生成器没有随机噪声向量输入。相反,生成机学习从输入图像x映射到输出图像G(x)。鉴别器的目标或损失函数是传统的对抗损失函数。生成器的另一方面是使用对抗训练的L1损失或生成的图像和真实图像/目标图像之间的像素距离损失来训练。퐿1损失仍鼓励特定输入生成的图像尽可能接近真实或地面实况图像对应的输出。这导致更快的收敛和更稳定的训练。条件GAN的损失函数：

L1损失或图像间像素距离损失为:

最终的优化目标为：

其中λ为超参数权重系数。Pix2PixHD[170]是Pix2Pix算法的改进版本。Pix2PixHD的主要目标是生成高分辨率的图像并执行语义操作。为此，作者引入了多尺度生成器和鉴别器，并结合了cga和特征匹配损失函数。训练集由一对对应的图像(s_i,x_i)，s_i是一个语义标签地图,x_i是相应的自然形象。cGAN损失函数为:

ith-layer特征提取器的鉴别器D_k为D_k^（i)(从输入到i层)。特征匹配损失L_FM(G,D_k):.

其中TT总层数，N_i表示在每一层的元素数量。给出了pix2pixHD的目标函数

7.Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks(CycleGAN)

pix2pix的一个致命缺陷是，它需要成对的图像进行训练，因此不能用于没有输入和输出对的未配对数据。CycleGAN【197】通过引入循环一致性损失来解决这个问题，该损失试图在一个周期的翻译和反向翻译后保留原始图像。在此公式中，不再需要匹配图像对进行训练。CycleGAN使用两个生成器和两个鉴别器。生成器G用于将图像从X域转换到Y域。另一方面，生成器F将图像从Y转换为X(G: X->Y; F: Y->X). 鉴别器D_y区分y和G(x)和鉴别器D_X区分x和G(y). 对抗性损失适用于两个映射函数。对于映射函数G : X →Y及其鉴别器D_Y , 目标函数如下所示


λ控制两个目标的相对重要性

8.A Style-Based Generator Architecture for Generative Adversarial Networks(StyleGAN)

StyleGAN[80]的主要目标是产生高质量、高分辨率的面部图像，这些图像在本质上是多样化的，并提供对生成的合成图像风格的控制。StyleGAN是ProGAN[78]模型的扩展，ProGAN模型在训练过程中，通过Discriminator和Generator网络的增量(逐渐)增长，采用渐进式增长的方法合成高分辨率和高质量的图像。需要注意的是，StyleGAN的变化只影响Generator网络，这意味着它们只影响生成过程。与传统GAN相同的Discriminator和loss函数并没有改变。升级后的Generator包括对ProGAN的Generator的几个添加，如图8所示。并描述如下:

基线渐进式GAN：作者使用渐进式GAN（ProGAN[78]）作为基线，从中继承网络架构和一些超参数
双线性上/下采样：ProGAN模型使用最近邻上/下采样，但StyleGAN的作者对生成器和鉴别器都使用双线性采样层
映射网络、样式网络和AdaIN：代替输入噪声向量푧 它直接进入生成器，通过映射网络获得中间噪声向量푤z。映射网络的输出(w) 通过学习的仿射变换（A），然后通过自适应实例规范化（68）或AdaIN模块进入合成网络。在图中，“A”代表学习的仿射变换。AdaIN模块传输由映射网络在仿射变换后创建的编码信息，这些信息在卷积层之后被合并到生成器模型的每个块中。AdaIN模块首先将特征映射的输出转换为标准高斯，然后添加样式向量作为偏差项。映射网络f是一个标准的深度神经网络，由8个完全连接的层和合成网络g组成由18层组成
删除传统输入：包括ProGAN在内的大多数模型都使用随机输入来生成生成器的初始图像。然而，StyleGAN的作者发现，图像特征由푤 还有亚当。因此，他们通过消除传统的输入层来简化体系结构，并使用学习到的常量张量开始图像合成
添加噪声输入：在评估非线性之前，在每次卷积之后添加高斯噪声。如图所示。“B”是每个通道应用于噪声输入的学习比例因子
混合正则化：作者还介绍了一种新的正则化方法，以减少相邻样式的相关性，并对生成的图像进行更细粒度的控制。而不是只传递一个潜在向量z, 通过映射网络作为输入，得到一个向量w, 作为输出，混合正则化传递两个潜在向量，z1和z2，通过映射向量得到两个向量，w1和w2。使用的w1和w2对于每次迭代都是完全随机的。这种技术可以防止网络假设相邻的样式相互关联。

9.Recurrent GAN (RGAN) and Recurrent Conditional GAN (RCGAN)

除生成合成图像外，GAN还可以生成顺序数据[38,119]。而不是建模数据分布在原始特征空间中,时间序列数据的生成模型也捕捉到了条件分布P(X_t|X_1:t−1)给定的历史数据。循环神经网络与传统神经网络在结构上的主要区别在于，我们在生成器和鉴别器上都用循环神经网络(RNNs)取代了DNNs/ CNNs。这里，RNN可以是RNN的任何变体，如长短期记忆(LSTM)和门控循环单元(GRU)，它捕捉输入数据的时间依赖性。在循环条件GAN (RCGAN)中，Generator和Discriminator都以一些辅助信息为条件。[38]实验表明，RGAN和RCGAN能够有效地生成真实的时间序列合成数据。
我们阐述了RGAN和RCGAN的架构。生成器RNN在每个时间步取随机噪声生成合成序列。然后，判别器RNN作为分类器来区分输入的真伪。如果是RCGAN，条件输入连接到生成器和鉴别器的顺序输入。与GAN类似，RGAN中的Discriminator最大限度地减少了生成数据与真实数据之间的交叉熵损失。判别器损耗公式如下:

其中，X_n (X_n∈ R^T×d) 和y_n (y_n∈ {1,0}^T) 是鉴别器的输入和输出，具有序列长度T和特征尺寸d。y_n 对于实数序列是1向量，对于合成序列是0向量。CE(·)是平均交叉熵函数RNN_D(·)是RNN的鉴别器。生成器损耗公式如下：

Z_n∈ R^T×m是随机噪声向量. 在RCGAN的情况下，生成器和鉴别器的输入也串联了条件信息c_n在每个时间步:

10.LSGAN（Least Square GAN）

部分参考：
CSDN:LSGAN (Least Squares Generative Adversarial Networks)
知乎：LSGAN——最小二乘GAN

最小二乘GAN，目标函数将是一个平方误差，考虑到D网络的目标是分辨两类，如果给生成样本和真实样本分别编码为a,b，那么采用平方误差作为目标函数，D的目标就是

G的目标函数将编码a换成编码c，这个编码表示D将G生成的样本当成真实样本，

作者列出了传统的GAN其实在优化的是JS散度,因此，对于作者提出的LSGANs, 研究了LSGANs损失函数和f散度 (f-divergence)之间的联系,避免了使用JS散度下造成的梯度为0，其中需要满足b-c=1 且b-a=2

Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
AIGC空间智能在服装设计领域的颠覆性变革 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶 AIGC ai
AIGC空间智能在服装设计领域的颠覆性变革关键词：AIGC、空间智能、服装设计、数字孪生、生成式AI、3D人体建模、智能设计系统摘要：本文深入探讨AIGC（人工智能生成内容）与空间智能技术在服装设计领域的融合创新，揭示其如何通过三维人体建模、场景模拟、智能生成算法重构传统设计流程。从技术原理层解析空间智能的核心模块，结合生成对抗网络（GAN）、Transformer模型等前沿算法，展示从创意生成到
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
MapReduce学习笔记
1.MapReduce做什么Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。Reducer负责对map阶段的结果进行汇总。2.MapReduce工作机制实体一：客户端，用来提交MapReduce作业。实体二：JobTracker，用来协调作业的运行。实体三：TaskTracker，用来处理作业划分后的任务。实体四：HDFS，用来在其它实体间共享作业文件。3.编写MapRed
uni-app学习笔记二十一--pages.json中tabBar设置底部菜单项和图标 moxiaoran5753 uni-app 学习笔记
如果应用是一个多tab应用，可以通过tabBar配置项指定一级导航栏，以及tab切换时显示的对应页。在pages.json中提供tabBar配置，不仅仅是为了方便快速开发导航，更重要的是在App和小程序端提升性能。在这两个平台，底层原生引擎在启动时无需等待js引擎初始化，即可直接读取pages.json中配置的tabBar信息，渲染原生tab。Tips当设置position为top时，将不会显示i
03 数据可视化的世界非常广阔，除了已提到的类型，还有许多更细分或前沿的可视化形式。晨曦543210 信息可视化人工智能
十五、机器学习与数据科学专用图表特征重要性图（FeatureImportancePlot）用途：展示机器学习模型中各特征对预测结果的贡献度。示例：随机森林模型中影响房价预测的关键因素。混淆矩阵热力图（ConfusionMatrixHeatmap）用途：分类模型性能评估，显示预测结果与真实标签的对比。示例：疾病诊断模型的真阳性/假阳性分布。学习曲线（LearningCurve）用途：分析模型训练过程
[文献阅读]ReAct: Synergizing Reasoning and Acting in Language Models xiao_yuzaijia 周报语言模型
文章目录摘要Abstract:思考与行为协同化Reason(Chainofthought)ReActReAct如何协同推理+响应Action（动作空间）协同推理结果总结摘要ReAct:SynergizingReasoningandActinginLanguageModels[2210.03629]ReAct:SynergizingReasoningandActinginLanguageModels
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
C# 学习笔记-多线程操作、异常排除鱼听禅 C#c#多线程
多线程操作、异常排除1.异常解决1.1关于创建调用提示非单线程的问题2.关于无法捕获的异常2.1AccessViolationException异常1.异常解决1.1关于创建调用提示非单线程的问题调试过程中，创建多线程调用Excel时提示：在可以调用OLE之前，必须将当前线程设置为单线程单元(STA)模式。请确保您的Main函数带有STAThreadAttribute标记解决方法是，设置线程属性为
Tesla的FSD 架构设计 WSSWWWSSW 智能驾驶汽车人工智能 FSD
特斯拉的FSD（完全自动驾驶）架构设计以端到端神经网络为核心，结合专用硬件加速、海量数据训练和持续OTA迭代，形成了一套高度集成的系统。以下从硬件、软件、算法、数据处理和安全机制五个维度展开分析：一、硬件架构：从HW3.0到AI5的算力跃迁HW3.0基础设计采用三星14nm工艺的定制SoC，包含12个Cortex-A72CPU核心、2个NPU（合计73.7TOPS算力）和Mali-G71GPU，支
LSTM 论文（Hochreiter & Schmidhuber, 1997）精读（三）
文章：SeppHochreiter,JürgenSchmidhuber;LongShort-TermMemory.NeuralComput1997;9(8):1735–1780.doi:https://doi.org/10.1162/neco.1997.9.8.1735第2节PreviousWork（已有研究），这是论文对以往方法的一个评述，总结了已有递归神经网络在面对时间序列学习、尤其是长时依赖
Flutter-完整开发实战详解(一、Dart-语言和-Flutter-基础) 2401_85122662 flutter
《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》完整开源地址：https://docs.qq.com/doc/DSkNLaERkbnFoS0ZF基本类型var可以定义变量，如vartag=“666”，这和JS、Kotlin等语言类似，同时Dart属于动态类型语言，支持闭包。Dart中number类型分为int和double，其中java中的long对应的也是Da
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用
原文链接：https://tecdat.cn/?p=42891原文出处：拓端数据部落公众号分析师：ZiqiYe视频讲解：多层感知机MLP与卷积神经网络CNN在服装图像识别中的应用作为数据科学领域的从业者，我们常面临这样的挑战：如何让机器真正“看懂”图像中的信息？在为客户完成服装零售行业的图像识别时，这一问题尤为突出。追溯图像识别技术的发展，早期依赖人工设计特征，如边缘检测、纹理分析等，效率低下且适
2025 年机器学习工作流程的 7 个 AI 代理框架盖瑞理 AI Agent 人工智能
介绍机器学习从业者花费大量时间在重复性任务上：监控模型性能、重新训练流程、检查数据质量以及跟踪实验。虽然这些操作任务至关重要，但它们通常会占用团队60%到80%的时间，几乎没有留下任何创新和模型改进的空间。传统的自动化工具可以处理简单的、基于规则的工作流程，但它们难以应对机器学习操作所需的动态决策。何时应该根据性能漂移重新训练模型？当数据分布发生变化时，如何自动调整超参数？这些场景需要能够推理复杂
学习笔记：oracle online系列：oracle：Per-Process PGA memory limit 认真就输DBA Oracle 学习随笔学习笔记 oracle
我们的文章会在微信公众号IT民工的龙马人生和博客网站(www.htz.pw)同步更新，欢迎关注收藏，也欢迎大家转载，但是请在文章开始地方标注文章出处，谢谢！由于博客中有大量代码，通过页面浏览效果更佳。本文转自朋友的真实案例分享。oracleonline系列：oracle：Per-ProcessPGAmemorylimit前几日，东区某客户的19crac出现了ORA-04030，从报错的trace来
Manus AI与多语言手写识别 tonngw 人工智能
技术文章大纲：ManusAI与多语言手写识别引言手写识别技术的发展背景与市场需求ManusAI的定位与核心技术优势多语言场景下的挑战与机遇ManusAI的核心技术架构基于深度学习的端到端手写识别模型多模态数据融合（笔迹压力、书写轨迹等）自适应语言模型与字符集扩展机制多语言手写识别的关键技术非拉丁语系（中文、阿拉伯语等）的笔迹特征提取小样本语言数据的迁移学习策略上下文感知与语法纠错在低资源语言中的应
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
【AI大模型】神经网络反向传播：核心原理与完整实现我爱一条柴ya 学习AI记录人工智能神经网络深度学习 ai AI编程
一、反向传播的本质与意义反向传播（Backpropagation）是神经网络训练的核心算法，通过链式法则高效计算损失函数对网络参数的梯度，实现神经网络的优化学习。它的出现解决了神经网络训练中的关键瓶颈，使深度学习成为可能。为什么需要反向传播？参数规模爆炸：现代神经网络有数百万至数十亿参数手动计算不可行：复杂网络梯度计算量指数级增长高效优化需求：梯度下降算法需要精确的梯度计算二、前向传播与反向传播对
DPDK探测设备并初始化分享放大价值 DPDK dpdk probe 设备初始化 mmap
本文整理下之前的学习笔记，基于DPDK17.11版本源码分析。主要看一下DPDK探测网卡设备，并进行初始化的流程，用到了类似kernel中的总线-设备-驱动模型。本文的重点之一是DPDK如何在用户态操作网卡寄存器，这里先给个答案:想要操作网卡寄存器，需要用到网卡的基地址BAR，intel网卡一般使用BAR0就行，通过mmap此文件/sys/bus/pci/devices/'pciaddress'/
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
Python实现基于POA-CNN-LSTM-Attention鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行多变量回归预测的详细项目实例 nantangyuxi Python 算法神经网络 python 人工智能深度学习目标检测机器学习
目录Python实她基她POA-CNN-LSTM-Attentikon鹈鹕优化算法（POA）优化卷积长短期记忆神经网络融合注意力机制进行她变量回归预测她详细项目实例...1项目背景介绍...1项目目标她意义...1提升她变量回归预测精度...2优化模型训练效率...2python复制ikmpoxtos#操作系统接口，用她环境管理和文件操作ikmpoxtqaxnikngs#警告管理模块，控制运行时警
一文读懂 Sigmoid 与 Hard Sigmoid 激活函数：从原理到量化部署算法自动驾驶
在神经网络训练与部署中，激活函数扮演着关键角色，不仅影响模型训练过程，也直接决定了模型部署到实际设备后的性能表现。本文将介绍两种常用激活函数：Sigmoid和HardSigmoid，全面对比它们的原理、优缺点、应用场景，并提供实际代码示例，帮助你更好地理解与使用它们，尤其是在量化和嵌入式设备部署场景中。一、Sigmoid与HardSigmoid简介1.1Sigmoid激活函数介绍Sigmoid激活
Python打卡DAY36
DAY36：复习日恩师@浙大疏锦行在PyTorch中，nn.Model是所有神经网络模块的基类，为构建和训练神经网络提供了丰富的方法，如下：1.模型构建与参数管理__init__方法功能：用于初始化神经网络模块的参数和子模块。在自定义网络时，通常会重写此方法来定义网络的结构。细节解释：在__init__方法中，可以定义各种层，如卷积层、全连接层等。这些层会被自动注册为子模块，方便后续管理。impo
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
生成式人工智能实战 | 条件生成对抗网络（conditional Generative Adversarial Network, cGAN）盼小辉丶生成对抗网络神经网络深度学习生成式人工智能 pytorch
生成式人工智能实战|条件生成对抗网络0.前言1.条件生成对抗网络1.1GAN基础回顾1.2cGAN核心思想2.cGAN网络架构2.1数学原理2.2网络架构3.实现cGAN3.1环境准备与数据加载3.2模型构建3.3模型训练0.前言生成对抗网络(GenerativeAdversarialNetwork,GAN)是近年来深度学习领域最具突破性的技术之一，能够生成逼真的图像、音频甚至文本。然而，传统的G
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- 实例化 OCR 对象的 predict() 方法介绍
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
NumPy：科学计算的超能引擎[特殊字符]（深入剖析+实战技巧）码海漫游者8 numpy 其他
文章目录为什么NumPy是Python科学计算的绝对核心？三维痛点直击ndarray：NumPy的核武器剖析内存布局揭秘（超级重要‼️）维度操作黑科技广播机制（Broadcasting）性能屠杀现场️高级技巧武装包️内存映射大文件爱因斯坦求和约定结构化数组真实世界应用场景图像处理机器学习数据预处理踩坑预警⚠️视图vs副本整数溢出性能压榨终极指南避免复制四法则终极加速方案你知道吗？就在你刷短视频的几
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发