Miss Wu

LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

前言：这篇paper提出的BigGAN可谓是截至2018年在生成图片质量和多样性方面性能最好的GAN了，作者是赫瑞瓦特大学的Andrew Brock，目前在谷歌实习，这位实习生得到Goodfellow等多位前辈的关注，另外两名是来自谷歌DeepMind团队的Jeff Donahue和Karen Simonyan。BigGAN到底多强大？与BigGAN出现之前最好GAN模型SA-GAN相比，性能（IS指标）提高两倍，SA-GAN的IS得分52.52，FID得分18.65，BigGAN的IS得分166.5，FID得分7.4，而真实的图片的IS得分也不过才233。该paper的实验在512块TPU上进行，一块TPU的性能相当于十几块甚至更多GPU的性能，而一块TPU在实验中的用电量相当于美国一户家庭半年的用电量。该一作称：“这些模型所需的不是算法的改进，而是计算力的进步。当你增加模型容量并增大每步所显示的图像数量时，你就会得到双重组合带来的效果。”

原文链接

译文

1、背景知识

2、两个衡量GAN性能的指标——IS&FID

3、paper正文

3.1 文章动机

3.2 文章贡献

3.3 背景介绍

3.4 扩大GAN规模

3.5 分析BigGAN不稳定原因

3.5.1 从G的角度思考

3.5.2 从D的角度思考

3.6 实验分析

3.7 结论

4、personal idea

1、背景知识

关于最简单的GAN，下面这张图很好的解释了GAN：

提到GAN，最小最大化，博弈是听到比较多的词了，那么minmax到底是怎么做的？下图截图自李宏毅老师的视频：

2、两个衡量GAN性能的指标——IS&FID

首先，我们需要知道，GAN的生成效果好坏到底与什么有关，经过前人归纳，得到Quality（生成图片的质量）和Variety（生成多样性）可以用来粗略衡量GAN的性能，因此，便出现了两种指标IS和FID来衡量质量和多样性，推导可见。

IS可衡量生成图像的质量和多样性，感觉还是侧重质量，因为衡量多样性，有更好的指标FID，因此在paper中我们看到它二者就知道是衡量什么啦。

IS得分越高，说明生成的图像质量越高，FID得分越低，说明生成的图像多样性越高。

补充一下：其实后来有论文对这个指标进行改进，IS指标和FID指标还是有一定缺陷的，但是鉴于多数论文都采用这两个指标，所以本文也用了这两个指标来衡量模型性能。

3、paper正文

3.1 文章动机

“Despite recent progress in generative image modeling, successfully generating high-resolution, diverse samples from complex datasets such as ImageNet remains an elusive goal. To this end, we train Generative Adversarial Networks at the largest scale yet attempted, and study the instabilities specific to such scale.”虽然SA-GAN已经可以生成质量还不错的图像，但是其还有很大的提升空间，尤其是从复杂数据集，比如ImageNet中生成高分辨率、多样化样本仍然是一个难题。尤其是多样性，之前的paper可能都不是太令人满意。

其实，我个人觉得，BigGAN的性能提高了，就是说生成器训练的更逼真了，那么Goodfellow最开始提出GAN时的动机就都可以作为该paper的动机，至于Goodfellow说GAN有什么用，还请参考Generative Adversarial Networks（2016）为什么要提出GANs部分。

3.2 文章贡献

原文在Introduction部分，表明此项工作的意义，之前的SA-GAN的IS得分52.5距离真实图片的IS得分233还有一定差距，而本文将IS提高到166.5。本文主要从GAN生成的图像与ImageNet数据集图像之间的保真度和多样性方面做了一些贡献。

按照原文，总结一下 BigGAN 的贡献：

通过大规模 GAN 的应用，BigGAN 实现了生成上的巨大突破，参数量扩大两到四倍，batchsize扩大八倍；
采用先验分布 z 的“截断技巧”，允许对样本多样性和保真度进行精细控制；
在大规模 GAN 的实现上不断克服模型训练问题，采用技巧减小训练的不稳定，但完全的稳定性只能以极高的性能成本实现。

We make the following three contributions towards this goal:
• We demonstrate that GANs benefit dramatically from scaling, and train models with two to four times as many parameters and eight times the batch size compared to prior art. We introduce two simple, general architectural changes that improve calability, and modify a regularization scheme to improve conditioning, demonstrably boosting performance.

• As a side effect of our modifications, our models become amenable to the “truncation trick,” a simple sampling technique that allows explicit, fine-grained control of the tradeoff between sample variety and fidelity.

• We discover instabilities specific to large scale GANs, and characterize them empirically. Leveraging insights from this analysis, we demonstrate that a combination of novel and existing techniques can reduce these instabilities, but complete training stability can only be achieved at a dramatic cost to performance.

3.3 背景介绍

当GAN应用于图像时，G和D通常是卷积神经网络，没有稳定技术，训练十分脆弱，因此对于稳定性研究成为一个重要方向，目前，有两条研究方向来增强其稳定性：一个是改变目标函数以鼓励收敛；一个是通过梯度惩罚（？相当于加个正则项）来限制D或者归一化（这两种都是为抵消损失函数的无界性，确保D能够为G的每一个点处提供梯度）。

Much recent research has accordingly focused on modifications to the vanilla GAN procedure to impart stability, drawing on a growing body of empirical and theoretical insights (Nowozin et al., 2016; Sønderby et al., 2017; Fedus et al., 2018). One line of work is focused on changing the objective function (Arjovsky et al., 2017; Mao et al., 2016; Lim & Ye, 2017; Bellemare et al.,
2017; Salimans et al., 2018) to encourage convergence. Another line is focused on constraining D through gradient penalties (Gulrajani et al., 2017; Kodali et al., 2017; Mescheder et al., 2018) or normalization (Miyato et al., 2018), both to counteract the use of unbounded loss functions and ensure D provides gradients everywhere to G.

在这所有的工作中与我们最相关的就是SA-GAN中用的Spectral Normalization（谱归一化），或许你会问SA-GAN是什么？它就是一种利用了Attention机制的GAN，那Attention又是什么？Attention就是能够加强自己想要注意的地方的权重，加了Attention机制后，可以将边界描述的更好。SA-GAN可参见。下图摘自SA-GAN论文中加了Attention机制后的图像示例：

虽然整篇paper一直在提SA-GAN，但其实用到SA-GAN中的谱归一化来提高D的稳定性才是本文的重点，那么谱归一化又是什么呢？简单来说是为了提高GAN的稳定性而用到的一种方法，这其实是一种数学技巧，主要用于D的训练过程中。经过一系列推导，判别器的损失函数改为Wassertein距离（取代原来的KL散度或JS散度），以使D满足Lipschitz continuity（一种使得函数表现比较稳定的条件），必须要求D的损失函数f满足1-Lipschitz，于是，又有一些式子推导（具体推导可见）来证明满足什么条件就满足1-Lipschitz了，最终得到的结论是：只要使各卷积层的参数矩阵除以自身的最大奇异值（又称谱范数）即可满足1-Lipschitz约束。但是实际上在求取最大奇异值时，为了计算快，用了power iteration算法（“幂迭代法”）来求近似解。

另外，在Background部分作者还提到了其他paper中几种用于增强稳定性的方法，鉴于本文后面与这些相关性不大，不予展述。

3.4 扩大GAN规模

本文的基准模型采用的是SA-GAN模型，训练两次D、训练一次G如此循环训练，此外，本文用了正交初始化代替标准初始化。既然叫BigGAN，那么模型一定是扩大了规模，如何扩大的呢？1、batch size增大（增加8倍，IS提高46%） 2、通道数加倍（IS提高21%） 3、单纯增加深度并没有改进，后来采用残差块结构改进深度网络。这其中，还用了几个小trick：作者注意到G中的conditional BatchNorm层嵌入大量参数，所以使用shared embedding（we opt to use a shared embedding, which is linearly projected to each layer’s gains and biases）（训练速度提高37%）；另外，采用skip-k方式将噪声z加入到G的多个层而不仅仅是初始输入层（The intuition behind this design is to allow G to use the latent space to directly influence features at different resolutions and levels of hierarchy.）（IS提高4%，训练速度提高18%）。性能提升可见下表：

前面的这些工作其实多数是前人研究好了，作者拿来用的，中间用了很多参考文献，那作者自己提出的新的idea呢？就是下面要说的truncation trick（截断技巧），文中对截断技巧是如下解释的：We call this the Truncation Trick: truncating a z vector by resampling the values with magnitude above a chosen threshold leads to improvement in individual sample quality at the cost of reduction in overall sample variety.具体操作就是在对先验分布z采样的过程中，通过设置阈值的方法来截断z的采样，其中超出范围的值被重新采样以落入该范围内，这个阈值可以根据IS指标和FID指标决定。为什么会想到用这个截断技巧呢？其实我们在输入z时，往往用N(0,1)或U[-1,1]分布，但实际上我们可以自由选择任何潜在分布，本文附录E中也做了许多对比实验，发现Beinoulli{0，1}分布和Censored Normal Max(N(0,1),0)分布似乎好一些，但是效果并不是非常明显，相比之下，截断技巧的效果就明显一些。随着阈值下降，生成的图片质量越来越好，但由于阈值下降，采样范围会变窄，造成生成取向单一化，生成多样性不足的问题，即IS（衡量质量）一直变大，而FID（衡量多样性）先变小后变大。如下图所示：

看上图中的（b）我们可以看出出现“饱和伪影”现象，这种现象是由于一些大模型不适合截断引起的，为抵消这种情况，作者采用Orthogonal Regularization（正交正则化），这其实就是令W尽可能是一个正交矩阵，这样使得权重系数彼此之间的干扰非常小，受截断之后消失的部分对结果影响不会太大。作者寻找了一种较好的正则化方法，式子如下：

3.5 分析BigGAN不稳定原因

3.5.1 从G的角度思考

对G来说，通过前人研究发现W的前三个奇异值对训练崩溃最相关，采用权重更新公式：，

虽然G的改进可能会提高稳定性，但是不足以保证稳定性，所以还需要研究判别器D。

3.5.2 从D的角度思考

作者观察到D的奇异值在整个训练的过程中都会增长，但是只会在崩溃时跳跃而不是爆炸，作者尝试了R1 zero-centered penalty：，在默认r=10下，IS降低45%，即便是r=1，IS依然降低20%。Repeating this experiment with various strengths of Orthogonal Regularization, DropOut , and L2 , reveals similar behaviors for these regularization strategies: with high enough penalties on D, training stability can be achieved, but at a substantial cost to performance.D可能只是记住了训练集而非记住了训练集的一些特征。

综上，GAN的思想就是训练好D之后再去训练G，D最佳是必要条件，但不足以用于训练稳定性，使用小规模D或在D中使用Dropout会通过降低记忆范围来改善训练，但这会降低训练速度。通过一些列实验作者得出结论：稳定性不仅仅是来自G或者D，而是来自他们对抗的相互作用中。It is possible to enforce stability by strongly constraining D, but doing so incurs a dramatic cost in performance. With current techniques, better final performance can be achieved by relaxing this conditioning and allowing collapse to occur at the later stages of training, by which time a model is sufficiently trained to achieve good results.

3.6 实验分析

实验还引入了BigGAN-deep模型，并指出BigGAN-deep效果优于BigGAN效果。

通过在不同样本间插值，发现样本的最近邻在视觉上是不同的，这表明BigGAN模型并非单纯记住了训练数据。

通过实验发现，ImageNet数据集上样本数目少的类在生成时比样本数目多的类困难。

另外，作者还在JFT-300M数据集上进行实验，该实验数据集比ImageNet数据集大两个数量级，实验表明作者的模型也要表现的好一些。与在ImageNet GAN上训练的模型不同，在没有大量正规化的情况下训练倾向于崩溃，在JFT-300上训练的模型在10万次迭代中保持稳定，表明超越ImageNet到更大的数据集上可能会缓解GAN训练稳定性的问题。

3.7 结论

作者已经证明，对于多个类别的自然图像进行训练的GAN在保真度和多样性方面都非常利于扩大规模。另外，还对大规模GAN的训练行为进行分析，并根据权重的奇异值表征其稳定性，并讨论了稳定性和性能之间的相互作用。

4、personal idea

正如作者自己所说，这不是算法的改进，而是计算力的提升，BigGAN的提出是否会像ResNet的提出一样，拼的是机器性能，所谓的AI大计算是否将来不会是问题？

通过阅读本paper，对GAN也算是捋了一下，一些式子看不懂还要多感谢一些博主的解释。特征值、特征向量、奇异值、奇异向量原来这么有用。W奇异分解（SVD）成 $U\Sigma V$ ，左右两边的U和V是对W做旋转变换，只有中间的 $\Sigma$ 才是做伸缩变换。

35页的paper，附录部分看的不是特别仔细，作者做了大量实验，个人感觉实验设计这一块还需要锻炼作者为什么这么设计这个实验的思维。

stm32毕设基于单片机的太阳追光系统(源码+硬件+论文) m0_984093 单片机
文章目录0前言1课题介绍光线追踪的原理系统架构2硬件设计3核心软件设计4实现效果5最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是毕业设计基于单片机的太阳追光系统(源码+硬件+论文)学长这里
电子信息毕设基于单片机的太阳追光系统(源码+硬件+论文) 爱你单片机单片机 stm32 毕业设计
文章目录0前言1课题介绍光线追踪的原理系统架构2硬件设计3核心软件设计4实现效果5最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是毕业设计基于单片机的太阳追光系统(源码+硬件+论文)学长这里
毕设开源基于单片机的太阳追光系统(源码+硬件+论文) Mdc_stdio 单片机 stm32 毕业设计
文章目录0前言1课题介绍光线追踪的原理系统架构2硬件设计3核心软件设计4实现效果5最后0前言这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是毕业设计基于单片机的太阳追光系统(源码+硬件+论文)学长这里
C8051F单片机在三轴伺服转台动力学模型与伺服算法仿真中的应用【附设计】
自动化设计|控制系统|毕业设计指导|工业自动化解决方案✨专业领域：程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列编程三菱/欧姆龙应用PIC单片机触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以私信或查
基于PLC的自动化立体仓储系统设计【附数据】拉勾科研工作室自动化运维
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
构建医学文献智能助手：基于 LangChain 的专业领域 RAG 系统实践
前言在当今医疗科技快速发展的时代，每天都有数以千计的医学研究成果在全球范围内发表。从临床试验报告到基础研究论文，从流行病学调查到药物研发数据，这些专业文献承载着推动医学进步的重要知识。然而，面对如此海量且专业性极强的文献资料，医疗从业者往往感到力不从心。如何在有限的时间内，准确把握文献核心价值，并将其转化为临床实践的指导？这个问题一直困扰着整个医疗行业。1.项目背景与业务价值1.1医学文献阅读的困
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
26、A* Algorithm: An In-depth Guide to Optimal Pathfinding tree C#搜索设计模式精解 A*Algorithm Pathfinding Heuristic Function
A*Algorithm:AnIn-depthGuidetoOptimalPathfinding1.IntroductiontoA*AlgorithmA(pronounced“Astar”)isapowerfulalgorithmwidelyusedforpathfindingandgraphtraversal.Itcombinestheadvantagesofbothuniform-costsea
GPT-4o重磅升级！只需一条指令，教你秒出SCI级专业科研图！智写AI AI学术写作指南信息可视化人工智能
经过数月爆肝，七哥终于完成专业的学术AI使用教程，估计也有个80万字的详细操作指南。分为多个细分的专业写作场景，跟着一步一步操作，借助ChatGPT做学术、干科研、写论文、课题申报都变得超简单。欢迎加我交流（yida985），祝你一臂之力。七哥之前写过关于用AI生成流程图的教程，不过需要借助其他软件才能搞定完美的流程图。近期GPT-4o全新推出了“生图功能”，这个生图的过程就更加方便轻松了，全能G
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
【软考高级系统架构论文】论企业集成平台的理解与应用 _Richard_ 2025年软考系统架构师系统架构
论文真题请围绕“企业集成平台的理解与应用”论题，依次从以下三个方面进行论述。概要叙述你参与管理和开发的、采用企业集成平台进行企业信息集成的软件项目以及你在其中所承担的主要工作。请给出至少4种企业集成平台应具有的基本功能，并对这4种功能的内涵进行简要阐述。具体阐述你参与管理和开发的项目是如何使用企业集成平台进行企业信息集成的，并围绕上述4种功能，详细论述在集成过程中遇到了哪些实际问题，是如何解决的。
根包含文件——Luaconf.h (src)收藏 skyremember lua integer 编译器 alignment 数据结构 c
根包含文件——Luaconf.h(src)收藏新一篇:C1902|旧一篇:Lock-free论文集functionStorePage(){d=document;t=d.selection?(d.selection.type!='None'?d.selection.createRange().text:''):(d.getSelection?d.getSelection():'');void(key
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
软件架构师论文_论基于架构(ABSD)的软件设计方法及应用 June_Xiao 软件架构师架构
2022年的论文题目是基于CBSD的软件设计方法及应用，本人写了基于ABSD的软件设计方法及应用，论文离题拿了3x分，悲催，这是我的第一次考架构师，是最后一次手写版考试，是最有可能通过的一次。下面是我的论文。论基于架构的软件设计方法及应用摘要2020年5月，我司中标了某省联网收费的省站直传项目，该项目将建设一套全省收费站与省中心相互通信传输数据的平台，主要分为上传、下发、监控三个子系统。，包括收费
python 实战 grpc Avaricious_Bear python 开发语言
title:grpc|python实战grpcdescription:只要代码可以跑起来,很多难题都会迎刃而解.so,keepcodingandstayhungry.grpc的基础:protobufgrpchelloworld:python实战grpc环境配置grpcbasic:grpc4种通信方式grpc的基础:protobufgrpc使用protobuf进行数据传输.protobuf是一种数据
嘉为蓝鲸可观测系列产品入选Gartner《中国智能IT监控与日志分析工具市场指南》嘉为蓝鲸可观测嘉为蓝鲸智能运维 Gartner 可观测
直达原文：嘉为蓝鲸可观测系列产品入选Gartner《中国智能IT监控与日志分析工具市场指南》2025年5月，国际研究机构Gartner发布了《中国智能IT监控与日志分析工具市场指南》（MarketGuideforIntelligentITMonitoringandLogAnalysisToolsinChina），嘉为蓝鲸全栈智能可观测中心·鲸眼凭借嘉为蓝鲸日志中心与嘉为蓝鲸应用性能观测中心（APM
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

1、背景知识

2、两个衡量GAN性能的指标——IS&FID

3、paper正文

3.1 文章动机

3.2 文章贡献

3.3 背景介绍

3.4 扩大GAN规模

3.5 分析BigGAN不稳定原因

3.5.1 从G的角度思考

3.5.2 从D的角度思考

3.6 实验分析

3.7 结论

4、personal idea

你可能感兴趣的:(论文,GAN,深度学习)