中杯可乐多加冰

Text to image论文精读PDF-GAN：文本生成图像新度量指标SSD Semantic Similarity Distance

SSD，全称为Semantic Similarity Distance，是一种基于CLIP的新度量方式，是西交利物浦大学学者提出的一种新的文本生成图像度量指标，受益于所提出的度量，作者进一步设计了并行深度融合生成对抗网络（PDF-GAN），它可以融合不同粒度的语义信息并捕获准确的语义。文章22年10月在arcxiv发表。
论文地址：https://arxiv.org/abs/2210.15235

本篇文章是阅读这篇论文的精读笔记

一、原文摘要

从给定文本中生成一致且高质量的图像对于视觉语言理解至关重要。尽管在生成高质量图像方面取得了令人印象深刻的结果，但文本图像一致性仍然是现有基于GAN的方法中的一个主要问题。特别地，最流行的度量R精度可能不能准确地反映文本图像的一致性，这常常导致生成的图像中的语义非常误导。尽管其意义重大，但如何设计出一个更好的文本图像一致性度量，在社区中仍处于探索之中，这一点令人惊讶。

在本文中，我们进一步开发了一种新的基于CLIP的度量，称为语义相似度距离（SSD），该度量既从分布角度理论上建立，又在基准数据集上进行了实证验证。受益于所提出的度量，我们进一步设计了并行深度融合生成对抗网络（PDF-GAN），它可以融合不同粒度的语义信息并捕获准确的语义。配备了两个新颖的即插即用组件：硬否定句构造器和语义投影，所提出的PDF-GAN可以缓解不一致的语义并弥合文本-图像语义差距。一系列实验表明，与当前最先进的方法相比，我们的PDF-GAN可以显著提高文本图像的一致性，同时在CUB和COCO数据集上保持良好的图像质量。

二、为什么提出SSD？

根据文本描述生成图像，通常称为文本到图像生成（T2I），是一项具有挑战性的任务，需要生成高质量的图像并保持文本图像的一致性。

尽管RiFeGAN、SegAttnGAN、DF-GAN取得了高质量的分数，在从文本描述生成高质量图像方面取得了令人印象深刻的成果，但他们仍然难以在复杂的语义中保持文本图像的一致性。一旦文本描述变得更加复杂，生成的图像的语义可能会与文本不匹配。

基于此作者提出了一种新的基于CLIP的文本图像一致性度量，称为语义相似度距离（SSD）。

三、介绍与创新点

对于T2I合成任务，CLIP提供了一个联合语言视觉嵌入空间，可以直接测量图像和文本的语义分布之间的相似性。我们的SSD是通过结合两个阶级矩项设计的：

一阶矩项直接测量文本图像的语义相似性，反映生成的图像和文本之间的语义偏差；
二阶矩项评估了以文本为条件的合成图像和真实图像之间语义变化的差异，表明生成的图像中的语义多样性也应该与真实图像中的一致。二阶矩项可以为精确的语义带来更多的可信度，在总体一致性和详细一致性之间平衡评估。

在理论方面，作者表明SSD的基本原理植根于使用修正的Wasserstein距离来测量两个分布的散度。还表明，它可以与最近的两个指标密切相关，即CLIPScore（CS）（Hessel等人2021）和Conditional Frechet Inception Distance（CFID）（Soloveitchik等人2021），且在测量语义一致性方面表现出更理想的特性。

通过实验，作者发现：

不同层次的语义信息可以显著帮助文本图像的一致性。然而，语义差距将导致对抗性损失和语义感知损失之间的优化冲突，因此，随意地添加语义感知损失会削弱语义监督，导致文本图像一致性的不良表现。
用于鉴别的不匹配样本通常利用成批样本或来自其他类别的随机样本，这可能导致文本图像一致性的下降。

根据上述发现，我们提出了一种新的一阶段T2I生成框架，命名为PDF-GAN。

文章创新点如下：

引入了一种新的度量——语义相似度距离（Semantic Similarity Distance），它可以评估文本图像的相似度以及生成图像与受文本约束的真实图像之间的语义变化差异。SSD理论上是有根据的，可以在不同的数据集上进行交叉比较。
提出了一个新的框架——并行深度融合生成对抗网络（PDF-GAN），具有语义感知损失和PFM，以融合不同层次的语义信息。
设计了一个HNSC，用于挖掘hard negative文本样本，并设计了SProj，用于缓解语义差距，增强文本图像一致性。

四、文本生成图像专用域定量指标

4.1、R-precision（R分数）

目前文本生成图像专用域合成度量有R-precision（R分数），其通过评估生成的图像是否比其他99个随机采样的文本更符合给定文本来判断文本图像的一致性。这种度量可能不能准确反映文本和图像之间的直接一致性。

如上图所示，GT表示真实图像，可以看到，在有些情况下，真实图像反而得不到很好的R分数，这会在生成的图像中产生非常误导的语义。

4.2、SOA（语义对象准确度）

另外一种专用评估指标：语义对象准确度（SOA）（Hinz、Heinrich和Wermter 2020）是最近提出的一种专门用于评估多对象文本图像一致性的度量标准，在不评估对象属性和关系的情况下，仍然无法测量整个语义一致性。更严重的是，SOA不能应用于通常只有一个对象出现在生成的图像中的数据集，如CUB。为了缓解这些问题，研究人员必须依靠人类评估。然而，该过程通常成本高昂，并且其设置在不同的方法中差异很大，这使得它更难在实际场景中应用。

4.3、其他

CS（Hessel等人2021）设计用于图像字幕，但剪辑嵌入的余弦相似性可能不会明确将属性绑定到对象，并忽略语义变化（Ramesh等人2022）。

通过条件分布，CFID（Soloveitchik等人2021）评估了文本条件下的假图像和真实图像分布之间的距离。然而，直接对齐假分布和真实分布可能会使真实图像中的冗余部分不匹配，即文本未指定的内容。这严重影响了CFID在测量文本图像一致性方面的效果。

五、SSD（语义相似距离）

SSD不仅评估直接的文本图像语义相似性，还评估基于文本的合成图像和真实图像之间的语义变化差异。

从分布的角度来看，我们假设在联合语言视觉嵌入空间中生成的图像ef、真实图像er和文本es分布都是类高斯分布Φ： $\mathbb{Q}_{f}=\Phi\left(m_{f}, \mathbb{C}_{f f}\right), \mathbb{Q}_{r}=\Phi\left(m_{r}, \mathbb{C}_{r r}\right), \mathbb{Q}_{s}=\Phi\left(m_{s}, \mathbb{C}_{s s}\right)$ 。其中m和C表示均值和协方差；f、 r和s分别表示生成的图像、真实图像和文本。

基于相同文本s，生成的图像分布和真实的图像分布分别为： $\mathbb{Q}_{f \mid s}=\Phi\left(m_{f \mid s}, \mathbb{C}_{f f \mid s}\right), \mathbb{Q}_{r \mid s}=\Phi\left(m_{r \mid s}, \mathbb{C}_{r r \mid s}\right)$ ，其中 $\mathbb{C}_{f f \mid s}$ 和 $\mathbb{C}_{r r \mid s}$ 表示ef和er的条件协方差，它们是常数并且独立于条件es。

5.1、定义

由于最终目标是测量ef和es之间的语义距离，我们考虑Qf和Qs之间的距离，以及 $\mathbb{Q}_{f f \mid s}$ 和 $\mathbb{Q}_{r r \mid s}$ 之间的距离。SSD定义如下:
$\begin{array}{c} \operatorname{SSD}\left(\mathbb{Q}_{f}, \mathbb{Q}_{s}, \mathbb{Q}_{f \mid s}, \mathbb{Q}_{r \mid s}\right)= {\left[1-\cos \left(m_{f}, m_{s}\right)\right]+\left\|d\left(\mathbb{C}_{f f \mid s}\right)-d\left(\mathbb{C}_{r r \mid s}\right)\right\|^{2}} \end{array}$

后面做的就是需要计算解这两部分的式子。
由于预训练的CLIP模型用于将图像和文本映射到联合语言视觉嵌入空间，因此很直观地测量其嵌入的余弦距离，如等式的第一矩项中所做的那样。由于Qf和Qs之间的语义差距，仅测量余弦距离不能完全反映分布差异。

然后，我们使用Qf|s和Qr|s以弥合语义鸿沟。如果模型能够完全捕捉语义，其生成的图像应该与真实图像共享相同的语义变化。语义变化还可以帮助绑定对象和属性，从而实现更精确的语义对齐。请注意，我们不直接对齐Qf|s和Qr|s，因为它过度关注文本中未描述的冗余。

因此，我们在等式中设计了一个二阶矩项，通过计算假图像分布和真实图像分布的文本条件协方差之间的对角差来评估语义变化。

5.2、引理

如果C是非负对角矩阵，则二阶矩项可以改写为：
$\begin{aligned} &\left\|d\left(\mathbb{C}_{f f \mid s}\right)-d\left(\mathbb{C}_{r r \mid s}\right)\right\|^{2} \propto \operatorname{Tr}\left[\left(\mathbb{C}_{f f \mid s}^{\frac{1}{2}}-\mathbb{C}_{f f \mid s}^{\frac{1}{2}}\right)^{2}\right] = \operatorname{Tr}\left[\mathbb{C}_{f f \mid s}+\mathbb{C}_{r r \mid s}-2\left(\mathbb{C}_{f f \mid s}^{\frac{1}{2}} \mathbb{C}_{r r \mid s} \mathbb{C}_{f f \mid s}^{\frac{1}{2}}\right)^{\frac{1}{2}}\right] \end{aligned}$

条件协方差可以等价地写为：
$\mathbb{C}_{f f \mid s}=\mathbb{C}_{f f}-\mathbb{C}_{f s} \mathbb{C}_{s s}^{-1} \mathbb{C}_{s f}, \mathbb{C}_{r r \mid s}=\mathbb{C}_{r r}-\mathbb{C}_{r s} \mathbb{C}_{s s}^{-1} \mathbb{C}_{s r}$

C∗∗定义为协方差矩阵，它是正半定矩阵。同时，在CLIP空间中，我们只关注C的对角部分，因为CLIP试图通过训练最大化嵌入之间的余弦相似性。因此，C可以简化为非负对角矩阵。

当mf，ms归一化时，第一矩项可以改写为：
$1-\cos \left(m_{f}, m_{s}\right) \triangleq\left\|m_{f}-m_{s}\right\|^{2}$
余弦距离相当于归一化向量的欧几里得距离。在CLIP空间中，mf、ms是生成的图像ef和文本es的归一化嵌入。

在后续中，作者还证明了SSD和CS、CFID之间的比较和联系。

5.3、总结

我们提出的新的SSD可以理解为将文本和图像之间的直接一致性作为第一时刻偏差项来评估，将假图像和受文本约束的真实图像之间的语义变化差异作为第二时刻变化项来评估。相比之下，CS省略了二阶矩变化项，从而导致语义变化估计的不足。

六、Parallel Deep Fusion GAN（PDF-GAN）

通过配备硬否定句构造器（HNSC）和语义投影（SProj）构造：并行深度融合生成对抗网络（PDF-GAN）

PDF-GAN通过使用并行融合模块（PFM）融合不同层次的语义信息。对于语义监督，采用了全局和局部鉴别器、语义感知损失和对比损失。为了更准确和稳健地捕获文本中的语义信息，HNSC创建了稳定和可控的硬否定样本，SProj可以通过约束语义优化方向来克服语义差距。

6.1、PDF-GAN框架结构

模型结构如下图所示：

可以看到，大致框架也可以分为三大部分：

使用了HNSC、CLIP的文本编码器部分（橙色框标记出）
使用了PFM，深度融合句子嵌入、方面嵌入指导图像生成的生成器部分（红色框标记出）
鉴别器部分（绿色框标记出）

6.2、文本编码器部分

SSD说明：在不同级别使用文本数据可以提高文本图像的一致性。
CLIP被用作编码器，将图像和文本映射到联合语义空间中。
全局级特征 $\left\{e_{g}\right\}^{1}$ 是文本描述嵌入；局部级特征 $\left\{e_{l}\right\}^{n}$ 是文本方面嵌入； $\left\{e_{mis}\right\}^{1}$ 是否定句嵌入。

HNSC:
硬否定句构造器HNSC通过根据词性（POS）随机替换给定描述中的标记来构造硬否定句样本。名词、动词和形容词被其他名词、动词或形容词取代。例如，对于文本“这只鸟尾巴上是蓝色的，有一个长长的尖嘴”，HNSC将随机地用POS替换一定百分比的单词（将“蓝色”改为“红色”，将“尾巴”改为”头部”等）。从数据集中收集替换候选。HNSC产生稳定和可控的硬否定文本样本，迫使鉴别器学习精确的语义。

6.3、生成器

在生成器G中，作者提出了PFM，用于全局和局部特征之间的有效融合。

PFM:Parallel Fusion Module

PFM将先前步骤的输出作为输入，将 $\left\{e_{g}\right\}^{1}$ 和 $\left\{e_{l}\right\}^{n}$ 作为条件,输入 $h_{t−1}$ 首先上采样到 $h_{t−1}'$ ，然后在两组条件下进行深度融合（DF）,深度融合之后，来自两个分支的融合特征通过信道连接，然后经过卷积层并输出为 $h_t$ 。

$h_t$ 再经过两组MLP分别学习由局部语义调节的尺度和偏差（类似DF-GAN），变为 $h_{t+1}'$ (论文图中错误标注成了t-1)首先扩展到正确的形状，然后缩放并偏置。条件特征被平均并传递给后续处理器。

6.4、鉴别器

为了捕获全局和局部级别的语义信息，鉴别器使用了双线鉴别，一线用的是图像特征（Image feature）+文本方面嵌入（Aspect embeddings），另外一线用的是图像特征（Image feature）+文本句子嵌入（Sentence embeddings），然后将其最后卷积、联结进行判别。

SProj：SProj用于缓解语义差距，通过约束语义优化方向来克服语义差距,从而增强文本图像一致性，SProj受GEM持续学习的启发将最小化La和Ls视为两项任务，不交替训练两项任务，而是同时优化它们。在每个步骤中，在我们计算了La和Ls的梯度δa和δs之后，在我们处理两个任务的反向传播之前，我们对δs进行PROJECT。如果存在方向冲突，语义优化方向δs将被重新投影到一个新的方向δs，在该方向δs中，它可以在不放大La的情况下优化Ls伪代码如下：

6.5、损失函数

可以看到损失由四大部分组成：分别为 $\mathcal{L}_{c}$ 、 $\mathcal{L}_{g}$ 、 $\mathcal{L}_{a}$ 、 $\mathcal{L}_{l}$

$\mathcal{L}_{c}$ 是语义投影后的对比性损失；
$\mathcal{L}_{g}$ 是全局语义感知损失；
$\mathcal{L}_{a}$ 是鉴别器对抗损失；
$\mathcal{L}_{l}$ 是局部语义感知损失。

$\mathcal{L}_{c}$ 对比性损失: $\mathcal{L}_{c}=\frac{f_{C}(G(\tilde{z}))^{T} \cdot \tilde{e}_{m g}}{f_{C}(G(\tilde{z}))^{T} \cdot \tilde{e}_{m g}+f_{C}(G(\tilde{z}))^{T} \cdot \tilde{e}_{g}}$ ,主要用于以进一步排斥失配样本

$\mathcal{L}_{g}$ 全局语义感知损失： $\mathcal{L}_{g}=f_{C}(G(\tilde{z}))^{T} \cdot \tilde{e}_{g}$ 主要用于增强G中全局层次的语义信息

$\mathcal{L}_{l}$ 局部语义感知损失： $\mathcal{L}_{l}=\frac{1}{n} \sum_{i=1}^{n} f_{C}(G(\tilde{z}))^{T} \cdot \tilde{e}_{l}^{i}$ 主要用于增强G中局部层次的语义信息

$\mathcal{L}_{a}$ 鉴别器对抗损失，鉴别器的损失函数使用了铰链损失+改进的匹配感知梯度惩罚,计算公式为：
$\begin{aligned} \mathcal{L}_{D} &=\mathbb{E}_{x_{r} \sim \mathbb{P}_{r}, e \in\{e\}^{k}}\left[1-D_{g}(x, e)\right] \\ &+\frac{1}{2}\left[\mathbb{E}_{x_{r} \sim \mathbb{P}_{r}, e_{m} \in\left\{e_{m}\right\}^{k}}\left[1+D_{g}\left(x, e_{m}\right)\right]\right.\\ &\left.+\mathbb{E}_{G(z) \sim \mathbb{P}_{g}, e \in\{e\}^{k}}\left[1+D_{g}(G(z), e)\right]\right] \\ &+q \mathbb{E}_{x \sim \mathbb{P}_{r}}\left[\left(\left\|\nabla_{x} D_{g}(x, \bar{e})\right\|+\left\|\nabla_{e} D(x, \bar{e})\right\|\right)^{p}\right] \end{aligned}$

最终损失为： $\mathcal{L}_{G}=\underbrace{\lambda\left(\mathcal{L}_{g}+\mathcal{L}_{l}+\mathcal{L}_{c}\right)}_{\text {Semantic loss } \mathcal{L}_{s}}+\underbrace{\mathcal{L}_{a}}_{\text {Adversarial loss }}$

七、实验

7.1、实验设置

数据集：CUB、COCO
定量评估：专用评估指标有SSD（本文提出），R分数、CS，和CFID。标准评估指标（公认性更强）有Inception Score(IS)和 Fréchet Inception Distance(FID) ，IS未用于评估COCO，因为它对COCO的效果不好。所有度量都是在30K个生成的图像上计算的。

7.2、实验结果

在CUB上通过AttnGAN、DM-GAN、DAE-GAN、DF-GAN和PDF-GAN的合成实例：

在COCO上通过AttnGAN、DMGAN、DF-GAN和PDF-GAN合成T2I的实例：

CUB和COCO上SSD、CS、R和CF ID的文本图像一致性结果：

CUB和COCO上FID和IS的得分结果：

消融研究：

八、总结

本文提出了一种新的度量SSD以更好地评估文本图像的一致性，理论分析和实证研究都表明，SSD确实能够反映文本到图像生成中的语义一致性。

另外，本文还设计了一个名为PDF-GAN的新框架，以及两个即插即用模块，可以进一步增强文本图像的一致性，在基准数据集上的实验定性和定量地证实了SSD的有效性以及PDF-GAN的优势。

最后

我们已经建立了T2I研学团队，如果你对本文还有其他疑问或者对文本生成图像方向很感兴趣，可以点击下方链接或者私信我加入社群。

加入社群抱团学习：中杯可乐多加冰-采苓AI研习社

☕️ 社区免费送马克杯：亚马逊云共学拿奖励

限时免费订阅：文本生成图像T2I专栏

支持我：点赞+收藏⭐️+留言

Shell 编程之正则表达式与文本处理器
目录一：正则表达式二：基础正则表达式1.基础正则表达式示例（1）查找特定字符（2）利用中括号“[]”来查找集合字符（3）查找行首“^”与行尾字符“$”（4）查找任意一个字符“.”与重复字符“*”（5）查找连续字符范围“{}”2.元字符总结3.扩展正则表达式二：文本处理器1.sed工具（1）输出符合条件的文本(p表示正常输出)（2）删除符合条件的文本(d)（3）替换符合条件的文本（4）迁移符合条件的
GPT-4o重磅升级！只需一条指令，教你秒出SCI级专业科研图！智写AI AI学术写作指南信息可视化人工智能
经过数月爆肝，七哥终于完成专业的学术AI使用教程，估计也有个80万字的详细操作指南。分为多个细分的专业写作场景，跟着一步一步操作，借助ChatGPT做学术、干科研、写论文、课题申报都变得超简单。欢迎加我交流（yida985），祝你一臂之力。七哥之前写过关于用AI生成流程图的教程，不过需要借助其他软件才能搞定完美的流程图。近期GPT-4o全新推出了“生图功能”，这个生图的过程就更加方便轻松了，全能G
RAG 调优指南：Spring AI Alibaba 模块化 RAG 原理与使用 ApacheDubbo spring 人工智能架构 Spring AI RAG
>夏冬,SpringAIAlibabaContributorRAG简介什么是RAG（检索增强生成）RAG（RetrievalAugmentedGeneration，检索增强生成）是一种结合信息检索和文本生成的技术范式。核心设计理念RAG技术就像给AI装上了「实时百科大脑」，通过先查资料后回答的机制，让AI摆脱传统模型的"知识遗忘"困境。️四大核心步骤1.文档切割→建立智能档案库核心任务:将海量文档
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
PyWavelets shangjg3 PyTorch pytorch 人工智能 python
PyWavelets（pywt）是Python中用于小波变换的核心库，提供了丰富的信号处理和图像处理功能。以下是其核心功能的详细介绍：1.小波变换基础（1）离散小波变换（DWT）将信号分解为近似系数（Approximation）和细节系数（Detail）。importpywtimportnumpyasnp#示例信号signal=np.array([1
Ruby 字符串（String） froginwe11 开发语言
Ruby字符串（String）引言在编程语言中，字符串是处理文本数据的基础。Ruby作为一种动态、面向对象的语言，提供了丰富的字符串处理功能。本文将详细介绍Ruby中的字符串（String）类型，包括其基本用法、操作方法以及高级特性。字符串的基本概念在Ruby中，字符串是由一系列字符组成的序列。这些字符可以是字母、数字、标点符号等。字符串是不可变的，这意味着一旦创建，其内容就不能被修改。创建字符串
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
Ansible——lookup,过滤器凤凰战士芭比Q Ansible ansible linux
文章目录Ansible——lookup,过滤器lookup读取文件lookup生成随机密码lookup读取环境变量lookup读取Linux命令的执行结果lookup读取template变量替换后的文件lookup读取配置文件lookup读取DNS解析的值过滤器过滤器使用的位置过滤器对普通变量的操作过滤器对文件路径的操作过滤器对字符串变量的操作过滤器对JSON的操作过滤器对数据结构的操作过滤器的链
Linux命令行基础：常用命令与技巧 m0_73843831 chrome 前端 Linux 命令行常用命文件操作权限管理
1.Linux命令行概述Linux命令行（也称为终端或Shell）是Linux操作系统中与用户交互的文本界面。通过命令行，用户可以执行各种任务，如文件管理、进程控制、系统配置等。相比图形用户界面（GUI），命令行具有更高的效率和灵活性，尤其适用于服务器管理和自动化任务。本文将涵盖以下内容：常用命令文件与目录操作权限管理进程管理命令行技巧2.常用命令2.1文件与目录操作ls功能：列出当前目录下的文件
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
GEO引领品牌大模型种草：迈向Web3.0与元宇宙的认知新空间 GEO科技经验分享
在数字技术的演进历程中，我们正经历着从Web2.0到Web3.0、从平面互联网到沉浸式元宇宙的范式转变。这一转变不仅重塑了数字空间的形态和交互方式，更深刻改变了品牌与用户的连接模式和价值创造逻辑。而在这个新兴的数字疆域中，生成式引擎优化（GEO）正展现出前所未有的战略价值和应用潜力，成为品牌构建元宇宙和Web3.0存在的关键能力，特别是在“品牌大模型种草”场景下，品牌如何被理解、记住、推荐，正成为
HTML页面设计——动态照片环
#前端开发##html超文本标记语言结构学习他的标签##css美化页面其实一部分的网站首页应用了照片环的原理，使得页面看起来更加美观，这里为大家分享一个简单的照片环编写。一、准备好以下素材：二、新建一个HTML文件，这里就取名“01-照片环”好了。三、现在开始编写具体内容，照片环说白了就是几个照片构成的所以body只要写就可以了，编写的时候注意图片的格式是.jpg、.png还是.gif(动态图)。
使用 C 语言操作 MySQL 实现图片写入与读取（Charon） mysql 数据库
在实际项目中，常常需要将图片或文件以二进制方式存储至数据库中，并能正确读取还原为文件。本文以C语言配合MySQLCAPI为例，完整演示如何实现将一张JPG图片写入数据库并再读出生成新图片文件的过程。项目背景我们使用如下表结构：--创建用户信息表CREATETABLETBL_USER(U_IDINTPRIMARYKEYAUTO_INCREMENT,--用户编号，整型，主键，自动递增，系统自动分配唯一
基于机器学习的智能文本分类技术研究与应用
在当今数字化时代，文本数据的爆炸式增长给信息管理和知识发现带来了巨大的挑战。从新闻文章、社交媒体帖子到企业文档和学术论文，海量的文本数据需要高效地分类和管理，以便用户能够快速找到所需信息。传统的文本分类方法主要依赖于人工规则和关键词匹配，这些方法不仅效率低下，而且难以应对复杂多变的文本内容。近年来，机器学习技术的快速发展为文本分类提供了一种高效、自动化的解决方案。一、机器学习在文本分类中的应用概述
Cursor MySQL MCP 完整操作配置指南 z日火开发分享 mcp cursor mysql
概述本指南帮助您在Windows环境下配置Cursor编辑器的MySQLMCP服务器，实现通过AI助手对数据库进行完整的增删改查操作。功能特性：✅自然语言数据库查询✅智能数据插入和更新✅安全的数据删除操作✅自动数据分析和报告生成快速配置1.环境检查#检查必要组件node--version#Node.js>=16mysql--version#MySQL5.7+cursor--version#Curs
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
推荐使用：Vue-Cron —— 简易CRON表达式生成器乌昱有Melanie
推荐使用：Vue-Cron——简易CRON表达式生成器项目地址:https://gitcode.com/gh_mirrors/vu/vue-cronVue-Cron是一款专为Vue.js和Element-UI设计的高效、易用的CRON表达式生成插件。它能帮助开发者轻松创建和管理定时任务策略，提供直观的界面和完善的国际化支持。项目介绍Vue-Cron提供了一个简洁的交互界面，让用户能够通过可视化的操
Linux journal 日志大小限制与管理详解 XMYX-0 linux 运维服务器
文章目录Linuxjournal日志大小限制与管理详解journal日志的默认存储位置journal日志大小限制配置查看当前日志占用情况手动清理日志文件按大小清理日志按时间清理日志按文件数清理日志journald日志机制原理简析（适当加点原理）日志筛选与导出技巧（实用提升）按服务名筛选按时间范围查看日志导出日志为纯文本文件实时查看日志（类似`tail-f`）常见问题与踩坑提醒（经验+防踩坑）问题1
C++生成静态库和动态库
什么是静态库和动态库在项目开发中，或多或少地需要使用到第三方（非编译器提供）的程序库，使用第三方的程序库能够减少重复造轮子的工作，提高开发效率。本文将介绍如何把自己的写的程序制作为程序库提供给他人使用，学会制作程序库后，自然也就会掌握了如何使用他人提供的程序库了。程序库从使用方式上分为两种，静态库和动态库。当我们在使用第三方提供的静态库时，当编译程序时，需要将我们自己写的程序和第三方库链接在一起形
RPC与HTTP API对比漫谈网络 NetDevOps 智联空间 rpc http 网络协议
一、核心流程对比环节RPCHTTPAPI调用方式调用远程函数/方法（如userService.getUser(123)）调用远程端点（如GET/users/123）参数传递通过序列化直接传递编程语言对象通过URL参数、Header或Body传递结构化数据网络传输通常基于TCP/UDP+二进制协议（如gRPC的HTTP/2）基于HTTP/HTTPS文本协议数据封装由框架自动处理序列化/反序列化需手动
通过npm install安装依赖包美丽先生困难与解决
使用命令npminstall(npmi)安装package.json文件中的依赖包node_modules（installinit会生成package.json文件，有些框架初始化过程也会生成package.json文件，初始化以后需要配置淘宝NPM镜像，原因：大家都知道国内直接使用npm的官方镜像是非常慢的，这里推荐使用淘宝NPM镜像。淘宝NPM镜像是一个完整npmjs.org镜像，你可以用此代
VSCode在windows系统下编译动态链接库不生成Lib文件小女孩真可爱解决bug vscode c++
解决方法：(1)在CMakeLists.txt文件加入set(CMAKE_WINDOWS_EXPORT_ALL_SYMBOLSON)这句话放在前面才可以生成lib文件，放在最后面不会生成lib(2)第一步是解决编译找不到lib会发生报错，但并不会生成lib文件。所以需要再头文件（.h文件）里面增加一行，这样导出的时候才会生成lib文件。__declspec(dllexport)voidnothin
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
Linux 设备树详解：从概念到实战 Jay_515 Linux 学习嵌入式 linux 设备树
关键词：设备树（DeviceTree）、DTS、DTC、DTB、嵌入式Linux驱动开发为什么需要设备树？在旧版Linux内核中，硬件信息（如内存映射、外设地址、中断号等）直接硬编码在内核源码中。这导致：内核臃肿，需为不同硬件编译不同版本硬件变动需重新编译内核代码冗余严重（一个board-*.c文件对应一块开发板）设备树（DeviceTree）的引入彻底解决了这一问题！它通过描述硬件拓扑结构的文本
cJSON 源码解析
1.概述cJSON是一个轻量级的C语言JSON解析库，支持JSON数据的解析和生成。它采用单一头文件和源文件的设计，易于集成到项目中。主要特性完整的JSON支持（解析和生成）内存管理自动化支持格式化输出支持自定义内存分配器跨平台兼容2.核心数据结构2.1cJSON结构体typedefstructcJSON{structcJSON*next;//指向下一个兄弟节点structcJSON*prev;/
深入了解SIP架构与多媒体通信协议亜恵恵阿由 SIP架构 SDP协议 RTP协议 MGCP协议 RTSP协议
深入了解SIP架构与多媒体通信协议背景简介在现代网络通信中，会话发起协议（SIP）已成为关键的组件，特别是在VoIP和多媒体通信领域。SIP不仅支持音频和视频通信，还通过各种协议和架构实现复杂的通信场景。本文将对SIP相关的关键技术进行分析，探讨它们在实时通信中的作用和意义。会话描述协议（SDP）SDP是一种文本协议，用于在SIP会话初始化时发送必要的多媒体信息。它提供了关于会话名称、活动时间、交
XSL-FO 块：深入解析与最佳实践沐知全栈开发开发语言
XSL-FO块：深入解析与最佳实践概述XSL-FO（XSLFormattingObjects）是一种用于生成格式化文档的语言，它允许开发者将XML数据转换成PDF、HTML、PostScript等格式。在XSL-FO中，块（Block）是一个重要的概念，它定义了文档中的矩形区域，包括文本、图像、表格等。本文将深入解析XSL-FO块的相关知识，并分享一些最佳实践。XSL-FO块的定义与属性定义XSL
redis配置文件-redis.conf THe CHallEnge of THe BrAve 笔记 redis 数据库缓存
在Redis中，redis-4.0.1/redis.conf和/etc/redis/6379.conf两个配置文件的区别主要体现在来源、用途和生效场景上，具体如下：1.redis-4.0.1/redis.conf：源码包中的默认配置模板来源：该文件通常位于Redis源码包解压后的根目录（例如通过wget下载redis-4.0.1.tar.gz并解压后生成），是Redis官方提供的默认配置模板。作用
结构化数据增强的生成式算法案例：客户交易数据增强 python游乐园数据深度学习大数据算法学习
1基础信息1.1案例背景这是一个用于增强结构化客户交易数据的生成式算法。这种类型的数据增强在金融、电子商务等领域非常有用，可以帮助解决数据不平衡问题或在小数据集上提高模型性能。1.2问题定义给定原始交易数据集D={x₁,x₂,...,xₙ}，其中每条记录包含：交易金额交易时间客户年龄客户收入水平交易类别地理位置是否为欺诈交易(标签)目标：生成与原始数据分布相似但多样化的新样本，同时保持字段间的合理
GPS-SDR-SIM与HackONE的融合：C++实现的高效GPS模拟 m0_57781768 c++开发语言
GPS-SDR-SIM与HackONE的融合：C++实现的高效GPS模拟前言在现代导航技术中，全球定位系统（GPS）无疑是最重要的工具之一。然而，随着技术的发展，GPS模拟器在安全测试、导航系统开发和教育等领域的应用也越来越广泛。GPS-SDR-SIM是一个开源的GPS模拟软件，通过软件定义无线电（SDR）技术，能够生成GPS信号，并用于各种GPS接收器的测试。HackONE是一种流行的SDR硬件
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修