如松茂矣

深入理解生成对抗网络（GAN 基本原理，训练崩溃，训练技巧，DCGAN，CGAN，pix2pix，CycleGAN）

文章目录

GAN 基本模型
- 模型
- GAN 的训练
- - 模式崩溃
  - 训练崩溃
图像生成中的应用
- DCGAN：CNN 与 GAN 的结合
- - 转置卷积
  - DCGAN
- CGAN：生成指定类型的图像
图像翻译中的应用
- pix2pix：有监督图像翻译
- CycleGAN：无监督图像翻译
References

生成对抗网络（generative adversarial networks，GAN）是一种基于博弈的生成模型，在图像生成等领域被广泛使用。GAN 由生成网络和判别网络组成，生成网络自动生成数据，判别网络判断数据是真还是假（由生成网络生成）。学习的目标是构建生成网络，能自动生成同已给训练数据同分布的数据。学习的过程就是博弈的过程，生成网络和判别网络不断通过优化自己网络的参数进行博弈。当达到均衡状态（纳什均衡）时，学习结束，生成网络可以生成以假乱真的数据，判别网络难以判断数据的真假。

GAN 基本模型

模型

如果想从已给训练数据中学习生成数据的模型，用模型自动生成新的数据，包括图像、语音数据，那么一个直接的方法是假设已给数据是由一个概率分布产生的数据，通过极大似然估计学习这个概率分布。但当数据分布非常复杂时，很难给出适当的概率密度函数的定义，以及有效地学习概率密度函数。GAN 不直接定义和学习数据生成的概率分布，而是通过导入评价生成数据“真假”的机制来解决这个问题。

GAN 的训练数据并没有直接用于生成网络的学习，而是用于判别网络的学习。判别网络能力提高之后用于生成网络能力的提高，生成网络能力提高之后再用于判别网络能力的提高，不断循环。

下图显示 GAN 的框架。假设已给训练数据 $\mathcal{D}$ 遵循分布 $P_{\text{data}}(\bm{x})$ ，其中 $\bm{x}$ 是样本。生成网络用 $\bm{x}=G(\bm{z};\bm{\theta})$ 表示，其中 $\bm{z}$ 是输入向量， $\bm{x}$ 是输出向量（生成数据）， $\bm{\theta}$ 是网络参数。判别网络是一个二分类器，用 $P(1|\bm{x})=D(\bm{x};\bm{\varphi})$ 表示，其中 $P(1|\bm{x})$ 和 $1-P(1|\bm{x})$ 是输出概率，分布表示输入 $\bm{x}$ 来自训练数据和生成数据的概率， $\bm{\varphi}$ 是网络参数。输入向量（种子）遵循分布 $P_{\text{seed}}(\bm{z})$ ，如标准正态分布或均匀分布。生成网络生成的数据分布表示为 $P_{\text{gen}}(\bm{x})$ ，由 $P_{\text{seed}}(\bm{z})$ 和 $\bm{x}=G(\bm{z};\bm{\theta})$ 决定。

如果生成网络参数 $\bm{\theta}$ 固定，可以通过最大化以下目标函数学习判别网络参数 $\bm{\varphi}$ ，使其具有判别真假数据的能力。
$\max _{\bm{\varphi}} \{E_{\bm{x}\sim P_{\text{data}}(\bm{x})}[\log D(\bm{x};\bm{\varphi})] + E_{\bm{z}\sim P_{\text{seed}}(\bm{z})} [\log(1-D(G(\bm{z};\bm{\theta});\bar{\bm{\varphi}}))]\}$ $E_{\bm{x}\sim P_{\text{data}}(\bm{x})}[\log D(\bm{x};\bm{\varphi})]$ 表示，对于从真实数据分布中采样的样本，其被判别器判定为真实样本概率的对数的数学期望。预测为正样本的概率越接近 1 越好，即这一项越大越好；

$E_{\bm{z}\sim P_{\text{seed}}(\bm{z})} [\log(1-D(G(\bm{z};\bm{\theta});\bar{\bm{\varphi}}))]$ 则表示将生成网络生成的图片输入判别网络，这一项越大，说明其被判别器判定为负样本的概率越接近 1，即这一项越大越好。

判别器目标函数的最大值代表的是真实数据分布与生成数据分布的 JS 散度，JS 散度可以衡量分布的相似性（当两个分布没有重叠部分时，JS 散度变为常数，这会使得梯度变为 0，造成梯度消失的问题）。

如果判别网络参数 $\bm{\varphi}$ 固定，那么可以通过最小化以下目标函数学习生成网络参数 $\bm{\theta}$ ，使其具有以假乱真地生成数据的能力。
$\min_{\bm{\theta}} \{E_{\bm{z}\sim P_{\text{seed}}(\bm{z})} [\log(1-D(G(\bm{z};\bm{\theta});\bar{\bm{\varphi}}))]\}$ 该项越小，即表示生成数据被判别器判定为负样本的概率越接近 0，判别器将生成样本当作了真实数据。

判别网络和生成网络形成博弈关系，可以定义以下的极小极大问题，也就是 GAN 的学习目标函数：
$\min_{\bm{\theta}} \max _{\bm{\varphi}} \{E_{\bm{x}\sim P_{\text{data}}(\bm{x})}[\log D(\bm{x};\bm{\varphi})] + E_{\bm{z}\sim P_{\text{seed}}(\bm{z})} [\log(1-D(G(\bm{z};\bm{\theta});\bm{\varphi}))]\}$

GAN 的训练

在实际训练时，不进行 $\log(1-D(G(\bm{z};\bm{\theta});\bm{\varphi}))$ 的最小化，而是进行 $\log D(G(\bm{z};\bm{\theta});\bm{\varphi})$ 的最大化。这是因为在学习的初始阶段，生成网络较弱，判别网络很容易区分训练数据和生成数据，最小化 $\log(1-D(G(\bm{z};\bm{\theta});\bm{\varphi}))$ 会使学习很难进行下去。因此，判别网络和生成网络的学习都使用梯度上升法。

判别网络训练时从训练数据和生成数据中同采样 $M$ 个样本，判别网络学习迭代 $S$ 次后，生成网络学习迭代 1 次，这样可以保证训练判别网络有足够能力时再训练生成网络。 $M$ 和 $S$ 是超参数，要在具体应用中调节。

下图是原论文（Generative Adversarial Networks）中作者给出的 GAN 的学习过程。下面的横线代表生成网络输入 $\bm{z}$ 的分布，这里假设是均匀分布。中间横线表示生成网络输出 $\bm{x}$ 的分布。两条横线之间的有向实线表示生成网络的映射。上面黑色点线表示真实数据分布，绿色实线表示生成数据分布，蓝色点线表示判别网络的判别分布。训练初始，生成数据分布和真实数据分布相差较远，判别网络的判别概率也不准确（a）；生成网络固定，判别网络训练后，其判别概率有所提升（b）；判别网络固定，生成网络训练后，其生成数据分布和真实数据分布趋于接近（c）；训练收敛后，生成网络达到最优，判别网络也达到最优，对任意样本的判别概率都为 0.5.

模式崩溃

GAN 在训练时还会出现所谓的模式崩溃，即某个模式出现大量样本，缺乏多样性（生成器变懒，宁愿只生成一些简单重复的样本，这样很安全，惩罚较小）。

针对模式崩溃的解决方案：

针对目标函数的改进方法

UnrolledGAN：在更新生成器时会更新 $k$ 次生成器，参考的损失值不是某一次的损失值，而是判别器 $k$ 次迭代后的损失值。判别器后面的 $k$ 次迭代不更新自己的参数，只计算损失值用于更新生成器。这种方式使得生成器考虑到了后面 $k$ 次判别器的变化情况，即给予生成器一些预见性来做出最优解。

针对网络架构的改进方法

多智能自主体对抗生成网络（multi agent diverse GAN，MAD-GAN）采用多个生成器、一个判别器以保障样本生成的多样性，且在设计损失函数的时候，加入一个正则项，正则项中使用余弦距离来惩罚不同生成器生成样本的一致性。

小批量判别

小批量判别在判别器的中间层建立一个小批量层用于计算基于 $L_1$ 距离的样本统计量，通过建立该统计量去计算一个批次内某个样本与其他样本的接近程度。这个信息可以被判别器利用，从而甄别出那些缺乏多样性的样本。

训练崩溃

GAN 训练崩溃，指的是在训练过程中，生成器和判别器存在一方压倒另一方的情况。比如判别器太强，对于生成器生成的图片可以轻易区分，此时判别器、生成器损失值为 0，参数将不再更新。

WGAN 的作者提出使用 Wasserstein 距离，也常常叫做推土机距离，以解决 GAN 网络训练过程难以判断收敛性的问题。上面我们提到过，对于 JS 散度来说，如果两个分布没有任何重叠，那么会造成梯度消失；而对于推土机距离来说，即使两个分布没有任何重叠，也可以反映两者之间的距离，即都会有梯度。

从代码实现来说，WGAN 的改动其实就以下几点：

判别器最后一层去掉 sigmoid；
生成器和判别器的损失函数不取 log；
每次更新判别器的参数之后把它们的绝对值截断到不超过一个固定常数 c

下面总结了一些如何尽量避免 GAN 训练崩溃问题的解决方法：

归一化图像到（-1，1）之间，生成器最后一层使用 tanh 激活函数；
在训练生成器的时候，考虑反转标签；
应在高斯分布上采样；
一个 Mini-batch 里必须只有正样本或者负样本，不要混在一起；
避免稀疏梯度，即少用 ReLU、最大池化方法；
对于生成器，在训练和测试的时候使用 Dropout

图像生成中的应用

可以使用 GAN 技术从图像数据中学习生成网络，用于图像数据的自动生成。我们先介绍 DCGAN 及其使用的转置卷积。

DCGAN：CNN 与 GAN 的结合

转置卷积

转置卷积（transposed convolution）也称为微步卷积（fractionally strided convolution）或反卷积（deconvolution），在图像生成网络、图像自动编码器等模型中广泛使用。卷积可以用于图像数据尺寸的减小，而转置卷积可以用于图像数据尺寸的放大，又分别称为下采样和上采样。

卷积运算可以表示为线性变换。假设有核矩阵为以下矩阵 $\bm{W}$ 、填充为 0、步幅为 1 的卷积运算
$\begin{bmatrix} w_{11} & w_{12} & w_{13} \\ w_{21} & w_{22} & w_{23} \\ w_{31} & w_{32} & w_{33} \end{bmatrix}$ 下图显示输出矩阵前两个元素的计算过程。

假设输入矩阵的大小是 $4\times 4$ ，输出矩阵的大小是 $2\times 2$ ，这个卷积进行的是下采样。

构建矩阵 $\bm{C}$ ：
$\begin{bmatrix} w_{11} & w_{12} & w_{13} & 0 & w_{21} & w_{22} & w_{23} & 0 & w_{31} & w_{32} & w_{33} & 0 & 0 & 0 & 0 & 0\\ 0 & w_{11} & w_{12} & w_{13} & 0 & w_{21} & w_{22} & w_{23} & 0 & w_{31} & w_{32} & w_{33} & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & w_{11} & w_{12} & w_{13} & 0 & w_{21} & w_{22} & w_{23} & 0 & w_{31} & w_{32} & w_{33} & 0 \\ 0 & 0 & 0 & 0 & 0 & w_{11} & w_{12} & w_{13} & 0 & w_{21} & w_{22} & w_{23} & 0 & w_{31} & w_{32} & w_{33} \end{bmatrix}$ 每一行表示在每一个位置的卷积操作。

考虑基于矩阵 $\bm{C}$ 的线性变换，其输入是输入矩阵展开的向量，输出是输出矩阵展开的向量。这个线性变换对应神经网络前一层到后一层的信号传递。

另一方面，考虑基于转置矩阵 $\bm{C}^\top$ 的线性变换，这个线性变换对应神经网络后一层到前一层的信号传递。事实上，存在另一个卷积运算，表示在基于转置矩阵 $\bm{C}^\top$ 的线性变换中，其核矩阵为以下矩阵：
$\text{rot180}(\bm{W})=\begin{bmatrix} w_{33} & w_{32} & w_{31} \\ w_{23} & w_{22} & w_{21} \\ w_{13} & w_{12} & w_{11} \end{bmatrix}$ 称这个卷积为转置卷积。这个转置卷积是核矩阵为 $\text{rot180}(\bm{W})$ 、填充为 2、步幅为 1 的卷积运算。下图显示以上转置卷积计算的过程，输入矩阵大小是 $2\times 2$ ，输出矩阵的大小是 $4\times 4$ ，转置卷积进行的是上采样。

DCGAN

如果使用原始的基于 DNN 的 GAN，在视觉任务上会出现很多问题。如果输入 GAN 的随机噪声为 100 维的随机噪声，输出图像大小为 $256\times 256$ ，也就是说，要将 100 维的信息映射为 65536 维，如果单纯用 DNN 来实现，整个模型参数会非常巨大。

深度卷积生成对抗网络（deep convolutional generative adversarial networks，DCGAN）和其他 GAN 模型一样由生成网络和判别网络组成。下图给出 DCGAN 的架构，用特征图表示各层的卷积运算。DCGAN 的学习算法和 GAN 的算法完全一样，但包含一些实现上的技巧。

DCGAN 的生成网络和判别网络有以下特点：

生成网络使用转置卷积进行上采样，判别网络使用卷积进行下采样；
生成网络和判别网络都没有汇聚层；
生成网络和判别网络都没有全连接的隐层；
生成网络的激活函数除输出层使用 tanh，其他层均使用 ReLU；
判别网络的激活函数除输出层使用 S 型函数以外，其他层均使用 Leaky ReLU；
生成网络和判别网络的学习都采用批量归一化；
生成网络和判别网络的所有卷积层的卷积核尺寸都是 5，步幅都是 2

CGAN：生成指定类型的图像

条件生成对抗网络（CGAN）在一定程度上解决了 GAN 生成结果的不确定性，给出了生成器在生成过程中的限制条件。CGAN 的网络结构如下图所示：

对于生成器，其输入不仅仅是随机噪声的采样 $\bm{z}$ ，还有预生成图像的标签信息。同样的，判别器的输入也包括样本的标签，这就使得判别器和生成器可以学习到样本和标签之间的联系。

损失函数设计和原始 GAN 基本一致，只不过生成器、判别器的输入数据是一个条件分布。具体编程实现时只需要对随机噪声采样 $\bm{z}$ 和输入条件 $\bm{y}$ 做一个级联即可。

图像翻译中的应用

图像翻译是指从一幅图像到另一幅图像的转换，就像机器翻译中一种语言转换为另一种语言。常见的图像翻译任务有图像去噪、图像超分辨、图像补全、风格迁移等。

图像翻译可以分为以下两种：

有监督图像翻译：原始域与目标域存在一一对应数据；
无监督图像翻译：原始域与目标域不存在一一对应数据

pix2pix：有监督图像翻译

上图展示了一些有趣的结果，比如分割图→街景图，边缘图→真实图。对于这类图像翻译问题，最简单的做法就是设计一个 CNN 网络，直接建立输入→输出的映射，可对于上面的问题，这样做会带来生成图像质量不清晰的问题。

如何解决生成图像的模糊问题？作者想了一个办法，即加入 GAN 的损失函数去惩罚模型。在上述想法的基础上加入一个判别器，判断输入图片是否是真实样本。pix2pix 模型训练示意图如下所示：

pix2pix 的本质为一个 CGAN， $x$ 作为此 CGAN 的条件，需要输入到 $G$ 和 $D$ 中。 $G$ 的输入是 $x, z$ （其中 $x$ 是需要转换的图片， $z$ 是随机噪声），输出是生成的图片 $G (x, z)$ 。 $D$ 则需要判别真假。最终的损失函数由两部分组成：

输出和标签信息的 $L_1$ 损失函数；
GAN 的损失函数

如原论文所述，我们需要应用随机抖动和镜像来预处理训练集：

将每个 256 x 256 图像调整为更大的高度和宽度，286 x 286；
将其随机裁剪回 256 x 256；
随机水平翻转图像，即从左到右（随机镜像）；
将图像归一化到 [-1, 1] 范围

生成器是经过修改的 U-Net。U-Net 由编码器（下采样器）和解码器（上采样器）构成：

编码器中的每个块为：Convolution -> Batch normalization -> Leaky ReLU；
解码器中的每个块为：Transposed convolution -> Batch normalization -> Dropout（应用于前三个块）-> ReLU；
编码器和解码器之间存在跳跃连接（如在 U-Net 中）

判别器是一个卷积 PatchGAN 分类器，它会尝试对每个图像分块的真实与否进行分类：

判别器中的每个块为：Convolution -> Batch normalization -> Leaky ReLU；
最后一层之后的输出形状为 (batch_size, 30, 30, 1)；
输出的每个 30 x 30 图像分块会对输入图像的 70 x 70 部分进行分类，即相当于我们把输入图像分成大小为 70 x 70 的图像块，然后将这些图像块提供给判别器；
判别器接收 2 个输入：
- 输入图像和目标图像，应分类为真实图像；
- 输入图像和生成图像（生成器的输出），应分类为伪图像

CycleGAN：无监督图像翻译

CycleGAN 和 pix2pix 的区别在于，pix2pix 模型必须要求成对数据，而 CycleGAN 利用非成对数据也能进行训练，它相当于把一类图片转换成另一类。也就是说，现在有两个样本空间， $A$ 和 $B$ ，我们希望把 $A$ 空间的样本转换为 $B$ 空间的样本，实际的学习过程就是学习从 $A$ 到 $B$ 的映射 $F$ 。但映射 $F$ 完全可以将所有 $A$ 中的图片都映射为 $B$ 中的同一张图片，使损失无效化。

对此，作者又提出了循环一致性损失（Cycle Consistency Loss）。此时，我们再假设一个映射 $G$ ，它可以将 $B$ 空间中的图片转换为 $A$ 中的图片。CycleGAN 同时学习这两个映射，这就杜绝了模型把所有 $A$ 的图片都转换为 $B$ 中的同一张图片。

在循环一致损失中，

图片 $\bm{X}$ 通过生成器 $G$ 传递，该生成器生成图片 $\hat{\bm{Y}}$ ；
生成的图片 $\hat{\bm{Y}}$ 通过生成器 $F$ 传递，循环生成图片 $\hat{\bm{X}}$ ；
在 $\bm{X}$ 和 $\hat{\bm{X}}$ 之间计算平均绝对误差

References

[1] 《机器学习方法》，李航，清华大学出版社。
[2] 《深度学习500问》，谈继勇，电子工业出版社。
[3] “pix2pix: Image-to-image translation with a conditional GAN”，TensorFlow 官网。

Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
【机器学习】必会降维算法之：独立成分分析（ICA） Carl_奕然机器学习算法人工智能
独立成分分析（ICA）1、引言2、独立成分分析（ICA）2.0引言2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小屌丝：鱼哥，最近胡塞武装很哇塞啊。小鱼：你什么时候开始关注军事了？小屌丝：这…还用关注吗？都上新闻了。小鱼：嗯，那你知道胡塞武装为什么这么厉害吗？小屌丝：额…当然是光脚不怕穿鞋的。小鱼：…你可真是…小屌丝：真是啥？小鱼：一个字，自己体会
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
书读一半，课上几节，蓄力明天再战！ Joey琳爱读书
先打预防针，我今天又要水文了。先说上课，相比现在的学习状态和精气神，我知道，之前的几节课是水过去了。网课上到23点。之前要是晚上听课，脑子容易稀里糊涂的，而且不就就想睡觉。今天倒是清醒得很，一个手机，一本原题；一个人的房间，一节课的时间。明明白白地过来了，果真有学习方法就是不一样，效率提升不少。（不过知识付费贵，特别羡慕自学就能行的人）。今天晚上是休战了，写到这里已经23：31了。明天继续努力，学
【机器学习【9】】评估算法：数据集划分与算法泛化能力评估 roman_日积跬步-终至千里 #机器学习机器学习
文章目录一、数据集划分：训练集与评估集二、K折交叉验证：提升评估可靠性1.基本原理1.1.K折交叉验证基本原理1.2.逻辑回归算法与L22.基于K折交叉验证L2算法三、弃一交叉验证（Leave-One-Out）1、基本原理2、代码实现四、ShuffleSplit交叉验证1、基本原理2、为什么能降低方差3、代码测试五、选择建议在机器学习中，评估算法的核心目标是衡量模型在“未知数据”上的表现，而不是仅
录像与录像装置的区别 3_a228
录像是用光学、电磁等方法把图像记录下来,也指记录下来的图像录像设备。录像装置是指供记录电视图像及伴音，能存储电视节目视频信号，并且过后可把它们重新送到电视发射机或直接送到电视机中的磁带记录器。分磁性录像机、电视屏幕录像机和电子束录像机等类型。《大卫》1.录像装置（videoinstallation）是20世纪晚期艺术的一个多元界面。它糅合了艺术与科技、私人空间与公共场所、主观视觉与机器的非透明表面
Python day15
@浙大疏锦行Pythonday15.内容：复习日本周主要的内容是一些常见的机器学习流程以及其中的部分内容标签编码以及连续特征的处理：归一化和正态化等。图像的绘制：热力图、Shap图等的绘制超参数优化算法：网格搜索、贝叶斯以及启发式算法模拟退火、遗传算法等不平衡数据集的处理：过采样以及欠采样。
电商新风口：实时视频直播模型MirageLSD震撼发布！| AI日报未来世界2099 AI日报人工智能大模型 MirageLSD
应用1、OpenAI重磅推出ChatGPTAgent！智能体时代正式开启，浏览器将被AI接管2、00后天才团队震撼发布！全球首个A股金融博弈智能体应用横空出世3、KimiPlayground震撼上线：AI助手进化成"全能工具王"，开发者狂欢开启4、MistralAI聊天机器人LeChat大升级：语音交互+深度研究+图像编辑三连击5、Slack掀起AI办公革命：聊天自动总结、术语秒懂、工作流一键自动
基于cnn和resnet和mobilenet对比实现驾驶员分心检测深度学习乐园 cnn 人工智能神经网络
演示效果及获取项目源码点击文末名片本项目旨在通过深度学习技术，结合卷积神经网络（CNN）模型、ResNet模型和MobileNet模型，实现对驾驶员分心行为的自动检测。我们通过训练这些模型来识别不同的驾驶员分心行为，包括如发短信、通话、喝水等行为。使用的数据集包含驾驶员行为的图片，并且针对每个行为标注了相应的标签（例如"正常驾驶"、"右手发短信"等）。MobileNetV2是Google于2018
【华为OD机试真题 2025C卷】161、机器人可活动的最大网格点数目 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od 机器人 c++华为OD机试真题 java 机器人可活动的最大网格点数目 c语言
文章目录一、题目题目描述输入输出样例1二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代码问题
通过 Ollama 获取并运行本地大型语言模型（LLM）
Ollama是一个开源工具，专为在本地机器上便捷部署和运行大型语言模型（LLM）而设计。它支持多种操作系统（Windows、macOS、Linux），并提供简单的命令行接口和API，适合开发者、研究人员以及对数据隐私有较高要求的用户。本文档将详细指导您如何通过Ollama在本地获取和运行LLM。1.准备工作在开始之前，请确保您的系统满足以下要求：操作系统：Windows、macOS或Linux（支
3D打印遥控投喂船：用ESP32C3打造低成本水上机器人 iotzgq 机器人
项目缘起：从脚踏船到智能投喂的创新转身在创客圈，灵感往往源于意外的"灵光一闪"。这个3D打印遥控投喂船的项目最初只是想做一艘普通的遥控脚踏船，直到开发者突发奇想：为什么不增加一个自动投喂装置？这个改动让项目瞬间具备了实用价值——不仅能在湖面操控小船畅玩，还能精准投放鱼食或鱼药到人工难以到达的水域。最令人称道的是其无线通信方案：放弃了传统遥控模块，采用ESP-NOW协议实现船与遥控器的通信。这种方案
关于NUC+雷达+倍福组网交换机是否完全足够的问题(是否需要一个路由器) Tipriest_ 机器人实际系统网络机器人交换机路由器 IO 网段
你好！这是一个非常经典和常见的工业自动化/机器人系统组网问题。你的想法完全正确。核心答案：只用一个交换机是完全可以的，而且是标准的做法。你不需要路由器来提供网关(Gateway)。下面我为你详细解释一下，并提供具体的操作步骤和注意事项。1.为什么一个交换机就够了？(交换机vs.路由器)为了理解这一点，我们需要明白交换机和路由器的根本区别：交换机(Switch):作用：连接同一个局域网（LAN）内的
Lecture 5：Training versus Testing 薛家掌柜的
回顾一下前四个Lecture，Lecture1讲的是找一个使得（也就是），Lecture2讲的是使得，Lecture3讲的是机器学习的分类，Lecture4讲的是让。那么，我们就有两个核心问题需要解决了。我们如何保证尽可能地靠近？我们如何使得足够小？而在这两个问题里面，假设集大小又扮演着什么样的角色？应该多大呢？如果是一个很小的，能够满足，但是可选的假设又太少了。如果是一个很大的，可选的假设很多，
网络爬虫——python爬取豆瓣评论 SSeaflower 爬虫 python 开发语言
网络爬虫——python爬取豆瓣评论一、网络爬虫概述1.1网络爬虫定义网络爬虫，又被称为网络蜘蛛（WebSpider）、网络机器人等。它根据网页地址（URL）爬取网页内容，网页地址（URL）就是我们在浏览器中输入的网站链接。例如：https://www.baidu.com；https://movie.douban.com/。网络爬虫不仅能够复制网页信息和下载音视频，还可以做到网站的模拟登录和行为链
金属表面划痕检测实践指南 - 使用OpenCV IYA1738
本文还有配套的精品资源，点击获取简介：在机器视觉领域，表面划痕检测是一项关键技术，特别是在金属表面。本文深入探索了如何使用OpenCV库在VisualStudio2019环境下进行表面划痕检测。主要技术包括图像作差、动态阈值处理、边缘检测以及形态学操作。通过这些方法，我们可以有效地从金属表面图像中提取划痕特征。本文详细描述了实施表面划痕检测的步骤，包括图像读取、差分图像计算、阈值处理、边缘检测优化
opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
AI人工智能中Actor - Critic算法的深入解析与应用场景 AI智能探索者 AI Agent 智能体开发实战人工智能算法 ai
AI人工智能中Actor-Critic算法的深入解析与应用场景关键词：Actor-Critic、强化学习、策略梯度、价值函数、深度强化学习、马尔可夫决策过程、A2C/A3C摘要：本文将深入解析Actor-Critic算法的核心原理，从基础概念到数学推导，再到实际应用场景。我们将通过生动的比喻解释这一强化学习中的重要算法，展示其Python实现代码，并探讨它在游戏AI、机器人控制等领域的应用。最后，
机器视觉中相机内参与外参分别是什么，有什么作用 hwa仓琳 Halcon 笔记 VisionPro学习笔记 python opencv 机器学习计算机视觉知识图谱
在机器视觉中，相机标定的核心目标是确定相机的**内参（IntrinsicParameters）**和**外参（ExtrinsicParameters）**。它们是描述相机成像模型和空间位置的关键参数，以下是详细解释：---###**1.内参（IntrinsicParameters）****定义**：内参描述相机的**固有属性**，与相机的物理结构和成像特性相关。这些参数在相机生产后即固定（除非更换
如何用深度学习实现图像风格迁移
最近研学过程中发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击链接跳转到网站人工智能及编程语言学习教程。读者们可以通过里面的文章详细了解一下人工智能及其编程等教程和学习方法。下面开始对正文内容的介绍。前言图像风格迁移是人工智能领域中一个非常有趣且富有创意的应用。它能够让一张普通的照片瞬间变成梵高笔下的《星月夜》风格，或者像莫奈的《睡莲》一样充满艺术感。这种技术不仅在
海量文件快速复制（断点续传+验证+快速）古承风运维 linux
#本地rsync-az--partial--append-verify--info=progress2--exclude="*.ext"/源目录//目标目录/#跨机器rsync-az-e"[email protected]"--info=progress2--exclude="*.ext"user@remote:/源目录//本地目录/
机器视觉基础（直播回放）
机器视觉基础总结：本次讲解主要围绕工业相机的基础配置、图像处理及与机器人联动通信的应用展开，重点在于相机网络设置、软件操作流程、模板匹配方法以及标定调试等内容。**相机基础配置**-需确保相机与电脑连接正常，并正确设置IP地址以避免冲突。-使用官方软件检测相机状态，若出现黄色叹号提示，则需手动修改IP地址。-网络配置完成后可在软件中看到设备并进行后续操作。**相机参数设置**-曝光时间用于调节图像
PE系统机器视觉实战（直播回放）遨博学院机器人竞赛机器人人工智能
PE系统机器视觉实战本次培训主要围绕视觉与机器人的综合实践展开，重点讲解了视觉标定和机器人通过视觉实现随机抓取的操作流程。以下是详细要点总结：网络配置需配置三个设备：机器人、电脑和相机的IP地址，确保网络互通。机器人IP设为192.168.1.50，电脑为60，相机为70。电脑建议使用有线网卡，关闭防火墙及杀毒软件，避免网络冲突。可通过ping命令测试网络连通性。视觉标定操作使用MVS软件配置相机
AI人工智能领域TensorFlow的模型训练策略 AIGC应用创新大全人工智能 tensorflow python ai
AI人工智能领域TensorFlow的模型训练策略关键词：TensorFlow、模型训练、深度学习、神经网络、优化策略、分布式训练、迁移学习摘要：本文将深入探讨TensorFlow框架下的模型训练策略，从基础概念到高级技巧，全面解析如何高效训练深度学习模型。我们将从数据准备、模型构建、训练优化到部署应用，一步步揭示TensorFlow模型训练的核心技术，并通过实际代码示例展示最佳实践。背景介绍目的
ROS2 通过相机确定物品坐标位置
要实现通过相机确定物品坐标位置，通常需要相机标定、物体检测和坐标转换几个步骤。下面我将提供一个完整的解决方案，包括相机标定、物体检测和3D坐标估计。1.系统架构相机标定-获取相机内参和畸变系数物体检测-使用OpenCV或深度学习模型检测物品坐标转换-将2D图像坐标转换为3D世界坐标ROS2集成-将上述功能集成到ROS2节点中2.实现步骤2.1创建功能包bashros2pkgcreateobject
【C# + HALCON 机器视觉】构建通用视觉软件平台：跨行业应用实战 AI_DL_CODE 机器视觉：C#+HALCON c#HALCON 机器视觉通用软件平台二维码识别模板匹配 OCR
摘要：本文深入探讨基于C#与HALCON开发通用视觉软件平台的技术路径与实践方法，围绕二维码识别、OCR、模板匹配等核心功能，结合模块化设计理念，详细阐述相机参数设置、图像处理、通信模块等技术实现。通过与爱普生机器人配合的定位标定案例，以及印刷品缺陷检测、包装日期识别等应用场景，展示该平台在跨行业领域的应用价值，同时提供完整实操流程与代码示例，助力开发者快速搭建高效、低成本的机器视觉解决方案。文章
工业机器视觉之AOI外观检测软件（WinForm+Halcon+海康相机） *Major*-莙工科技有限公司 c#Halcon 机器视觉 winform
工业机器视觉之AOI外观检测软件（WinForm+Halcon+海康相机）前置基础委托多线程单例模式队列一优美Model-UI控件库WinForm之安装UI库-ReaLTaiizor和基本使用通过iconfont获取图像ReaLTaiizor之MaterialTabControl二通讯模块WinForm之Http网口通讯-客户端WinForm之Http网口通讯-服务端三相机模块海康MVS安装Win
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu