中杯可乐多加冰

Text to image论文精读：VLMGAN 基于生成对抗网络的文本生成图像视觉语言匹配Vision-Language Matching for T2I via GAN

VLMGAN，提出一种新的文本到图像合成的视觉语言匹配策略，模型引入了双视觉语言匹配机制，以增强图像质量和语义一致性，另外其提出了一种新的度量指标：VLMS（视觉语言匹配分数）来评估文本到图像合成的性能。文章于22年8月发表于arxiv。

论文地址：https://arxiv.org/abs/2208.09596

一、原文摘要

文本到图像合成是一项有吸引力但具有挑战性的任务，其目的是从特定的文本描述生成照片真实和语义一致的图像。与相应的图像和文本描述相比，由现成模型合成的图像通常包含有限的成分，这降低了图像质量和文本视觉一致性。为了解决这个问题，我们提出了一种新的文本到图像合成的视觉语言匹配策略，名为VLMGAN*，该策略引入了双视觉语言匹配机制，以增强图像质量和语义一致性。双视觉语言匹配机制考虑生成的图像和对应的文本描述之间的文本视觉匹配，以及合成图像和真实图像之间的视觉一致性约束。给定特定的文本描述，VLMGAN*首先将其编码为文本特征，然后将其馈送到基于双视觉语言匹配的生成模型，以合成照片逼真和文本语义一致的图像。此外，流行的文本到图像合成的评估指标借鉴了简单的图像生成，主要评估合成图像的真实性和多样性。因此，我们引入了一个名为视觉语言匹配分数（VLMS）的度量来评估文本到图像合成的性能，该度量可以同时考虑图像质量和合成图像与描述之间的语义一致性。所提出的双层次视觉语言匹配策略可以应用于其他文本到图像的合成方法。我们在标记为VLMGAN+AttnGAN和VLMGAN+DFGAN的两个流行基线上实现了该策略。在两个广泛使用的数据集上的实验结果表明，该模型比其他最先进的方法实现了显著的改进。

二、为什么提出VLMGAN ？

文本到图像合成旨在基于特定的文本描述生成真实感和文本一致的图像。

文本到图像的合成与简单的图像合成有着显著的不同，它包含两个挑战，即视觉真实性和文本-视觉语义一致性。目前视觉真实性的方向已经得到了充分研究，一些方法可以生成高度逼真的图像，但是视觉文本语义一致性依然是文本图像合成的关键挑战。

尽管许多方法能够合成相对细粒度和真实的图像，但它们很少关注生成的图像和相应文本之间的多级语义一致性。他们可以合成相对真实的图像，但可能无法生成与文本语义一致的图像特别是对于CUB数据集等简单数据集，例如，对于描述：small bird, with white breast,red head and black wings and back，其他模型（AttnGAN、DMGAN）可以生成逼真的图像，但是细节与文本描述不一致。

在保证图像的逼真性条件下，文本到图像合成应同时关注：

文本视觉匹配：文本视觉匹配可以保持图像内容与文本描述一致。
视觉视觉匹配：视觉视觉匹配考虑图像质量和图像内容的语义。

此外，如何公平地评估文本到图像合成的性能是一个需要处理的重要问题。文本生成图像是一项配对翻译任务，它应该考虑合成图像的质量以及与文本描述的语义一致性。然而，FID和IS都只考虑合成图像，而忽略文本描述。因此，文本到图像的合成需要一种新的评估度量，该度量考虑了描述和合成图像之间的一致性，以弥补FID和IS的不足

基于以上启发，作者首先提出了一种新的视觉语言匹配模型（VLM），该模型可以基于度量学习有效地探索图像和文本之间的相似性。然后，作者将所提出的VLM视为一个额外的约束块，并将其插入基于多级GAN的文本到图像合成框架中，并考虑了合成图像与真实图像之间的多级匹配。

根据这一基本思想，作者还提出了一种新的度量方法VLMS，用于从另一个角度评估文本到图像的合成性能，称为视觉语言匹配分数。

三、图像-文本匹配

跨模态理解是一项有吸引力但具有挑战性的任务，包括跨模态检索、图像字幕生成和语义基础，图像-文本匹配模型是跨模态理解其中的一项子任务，其旨在使用对比学习将视觉图像和文本描述投影到语义共享空间，具体而言，视觉和文本特征被分别编码到同一子空间中，在该子空间中计算相似度值，方法可分为三种：全局匹配方法、区域匹配方法和多级匹配方法。

全局匹配方法：全局匹配就是把图像和文本的特征同时嵌入到一个潜在空间当中计算匹配度，图像和文本使用CNN或LSTM以全局方式编码。然后将视觉特征和文本特征嵌入子空间，在子空间中可以计算它们的全局相似性并通过三元组排序损失进行优化（比如CLIP）然而，这些方法无法匹配原始图像中的具体对象和句子中的单词，这可以通过区域匹配方法来解决。
区域匹配方法：区域匹配计算图像子区域和文本单词的关系，SCAN使用预训练的Faster RCNN来检测具体对象，并设计堆叠的交叉注意力机制来对齐对象和单词，VSRN采用图卷积来学习对应于文本关系的区域关系。
多级匹配方法：多级匹配方法同时学习图像子区域-单词对齐和全局语义对齐。GSLS设计了一种多路径结构，以获得全局和局部相似性。CRAN设计了一种多路径结构，用于同时学习全局、局部和关系对齐。Wen等人利用GAT学习图像对象和背景与句子中短语对齐的双重关系。

为了更全面地计算生成的图像与原始句子之间的相似度，作者也设计了多级匹配模型VLM。

四、视觉语言匹配VLM模型

4.1、VLM模型

视觉语言匹配（VLM）模型学习文本和图像模态的多级相似性，包括局部级匹配、全局级匹配和通用级匹配。

VLM模型包含三个子模型：视觉编码器、文本编码器和匹配评分块（MSB）。

视觉编码器和文本编码器旨在将图像和文本嵌入到语义对齐的向量中，连接视觉和语言领域。而所提出的匹配评分块MSB通过Transformer编码器为图像和文本生成匹配分数。

文本编码器：主网络使用的是LSTM。对于句子的第i个单词，嵌入层将其嵌入到语义向量wi中，然后输入LSTM。具体而言，单词特征由隐藏状态表示，而句子特征由最后一个隐藏状态表示： $\varphi, \bar{\varphi}=F_{\text {Text-Encoder }}\left(w_{1}, w_{2}, \ldots, w_{n}\right)$ ， φ表示的是单词特征， $φ^-$ 表示的是句子特征。
视觉编码器：主网络使用的是Inception-v3。视觉特征由卷积神经网络提取，命名为Inception-v3。根据之前的工作，CNN的中间特征可以呈现图像的局部区域特征，而最后一层的特征是图像的全局特征，Inception-v3模型在ImageNet上进行了预训练。局部区域特征f（768×17×17）由混合6e层的输出表示，全局特征 $f^-$ （2048×1）由混合7b层表示。 $\phi=F_{1 \times 1 \operatorname{conv}}(f), \bar{\phi}=W \bar{f}$ ，ϕ表示的是局部区域特征， $ϕ^-$ 表示的是全局特征。
匹配评分块VLMS：视觉语言匹配评分块旨在产生通用匹配评分，以评估图像和文本之间的匹配程度。作者使用采用Transformer机制来学习图像和文本之间的匹配分数。计算一般级别匹配时考虑图像的全局特征和局部特征以及文本的句子特征和单词特征。具体而言，首先联合特征为 $\psi=F_{c a t}(\varphi, \bar{\varphi}, \phi, \bar{\phi})$ ,然后输入到基于Transformer的视觉语言编码器中 $\hat{\psi}=F_{\text {Transformer }}(\psi)$ ,在获得视觉文本潜在特征之后，选择完全连接的层将特征投影到隐藏空间中 $\hat{\psi}=W_{0} \hat{\psi}+b_{0}$ ,最后输入池化层和sigmoid层，最终生成Score分数。匹配评分块主要用于计算General-level matching（可以见后文）

而可以看到，视觉语言匹配VLM模型同时考虑了文本-视觉匹配和视觉-视觉匹配,其中有三处匹配度的计算，第一处是局部级的匹配Local-level matching，第二处是全局级别的匹配Global-level matching，第三处是通用级的匹配General-level matching：

4.2、匹配度的计算

4.2.1、Local-level matching

Local-level matching表示局部匹配度，局部匹配考虑了单词特征和图像局部区域特征之间的语义一致性。

首先计算具有289个局部区域特征的特定图像和具有T0个单词特征的文本描述的相似度矩阵： $s\left(\phi_{i}, \varphi_{j}\right)=\frac{\phi_{i}^{\mathrm{T}} \varphi_{j}}{\left\|\phi_{i}\right\|\left\|\varphi_{j}\right\|}, i \in[1,2, \ldots, 289], j \in\left[1,2, \ldots, T_{0}\right]$ ，我们采用S作为单词特征和图像局部特征之间的相似度矩阵。 $c_{i}=\sum_{j=0}^{288} \alpha_{i j} \phi_{j}$ ,其中 $\alpha_{i j}=\frac{\exp \left(\gamma_{1} s_{i, j}\right)}{\sum_{k=0}^{288} \exp \left(\gamma_{1} s_{i, k}\right)}$ 。

根据最小分类误差公式，通过LogSumExp池计算图像和文本描述之间的局部水平匹配分数，如下所示： $S_{\text {local }}(I, T)=\log \left(\sum_{i=1}^{T-1} \exp \left(\gamma_{2} S\left(c_{i}, \varphi_{i}\right)\right)\right)^{\frac{1}{\gamma_{2}}}$ ,其中 $S\left(c_{i}, \varphi_{i}\right)=\frac{c_{i}^{\mathrm{T}} \varphi_{i}}{\left\|c_{i}\right\|\left\|\varphi_{i}\right\|}$

4.2.2、Global-level matching

Global-level matching表示全局级匹配度，全局级匹配度考虑视觉全局特征和全局文本特征。类似地，对于全局视觉特征φ和句子特征φ，匹配分数直接通过余弦相似度计算： $S_{\text {global }}(I, T)=\frac{\bar{\varphi}^{\mathrm{T}} \bar{\phi}}{\|\bar{\varphi}\|\|\bar{\phi}\|}$

4.2.3、General-level matching

General-level matching表示常规级匹配度，常规级匹配度由预先训练的视觉语言匹配评分块产生。计算如下： $S_{\text {general }}(I, T)=F_{\mathrm{MSB}}(\phi, \bar{\phi}, \varphi, \bar{\varphi})$ （见四）。

五、VLMGAN

5.1、框架结构

作者以AttnGAN为基准模型，设计了VLMGAN，是一个多阶段模型，框架如下图所示，也可以大致分为文本编码器、生成器、鉴别器三大部分：

文本经过文本编码器进行编码，形成句子特征和单词特征，句子特征经过CA变换输入到生成器部分当中，单词特征使用到单词级别注意力机制将单词特征与视觉特征做融合（这一步就是AttnGAN当中的方法），然后经过多个生成器（一般为3个）堆叠形成图像。

图像之后通过视觉编码器编码形成图像特征和区域特征，之后分别计算 Global-level matching和 Local-level matching，真实图像也同时计算Global-level matching和 Local-level matching，然后两者比较General-level matching。

5.2、损失函数

总的损失函数为： $\mathcal{L}_{G}=\sum_{i=0}^{2} \mathcal{L}_{G_{i}}+\lambda_{1} \mathcal{L}_{V V M}+\lambda_{2} \mathcal{L}_{V L M}$ ,其中 $L_G$ 表示生成对抗损失， $L_{VVM}$ 表示文本-视觉匹配损失， $L_{VLM}$ 表示的是视觉-视觉损失。

5.2.1、对抗损失

多级阶段的 $L_G$ 损失有三层，因为有三层生成器，第i层的生成器的损失为： $\mathcal{L}_{G_{i}}=-\frac{1}{2} E_{\hat{x}_{i} \sim P_{G_{i}}}\left[\log \left(D_{i}\left(\hat{x}_{i}\right)\right)\right]-\frac{1}{2} E_{\hat{x}_{i} \sim P_{G_{i}}}\left[\log \left(D_{i}\left(\hat{x}_{i}, \bar{\varphi}\right)\right)\right]$ 。目标函数中，前半部分是无条件损失，它决定了合成图像是真实的还是假的。后半部分是条件损失，它确定图像内容是否与文本描述匹配。生成损失函数迫使模型合成照片逼真和文本语义一致的图像。

5.2.2、文本-视觉匹配损失VLM

$\mathcal{L}_{VLM}= \mathcal{L}_{local} +\mathcal{L}_{global} +\mathcal{L}_{general}$ ，其中 $\mathcal{L}_{local}$ 表示局部级匹配损失， $\mathcal{L}_{global}$ 表示全局级匹配损失， $\mathcal{L}_{general}$ 表示常规级损失。在四种已经详细介绍，不再赘述。其中局部级匹配损失类似5.2.1方法计算，全局级匹配损失类似5.2.2方法计算，常规级损失类似5.2.3方法计算。

具体计算方法比较复杂，请看原文。

5.2.3、视觉-视觉匹配损失VVM

视觉-视觉全局级匹配损失旨在最大化真实图像和合成假图像之间的全局匹配分数。损失函数为： $\mathcal{L}_{V V M}=\mathcal{L}_{V G}+\mathcal{L}_{V L}+\mathcal{L}_{V G E N} .$ ，相同原理， $\mathcal{L}_{V G}$ 表示全局级视觉匹配损失， $\mathcal{L}_{V L}$ 表示局部级视觉匹配损失， $\mathcal{L}_{V G E N}$ 表示常规级视觉匹配损失。

具体计算方法比较复杂，请看原文。

六、实验

6.1、实验设置

数据集：CUB、MSCOCO；

评估指标：FID、IS、R-precision和本文提出的VLM Score；

实验设置：8个NVIDIA GeForce GTX2080ti GPU，对于视觉编码器、文本编码器和视觉语言匹配评分模型，batchsize设置为64。对于VLMGAN+AttnGAN模型，batchsize设置为24，生成器的学习率为0.0001，鉴别器为0.0004。生成网络和鉴别网络的参数交替优化。

伪代码：

6.2、定量评估

所提出的双视觉语言匹配模块VLM可以应用于其他各种文本到图像合成架构，作者在实验中首先是以AttnGAN作为基准模型进行了改进，后续也将其扩展用到了DF-GAN框架上，实验效果如下：

6.3、实验效果

七、总结与创新

文章设计了一个双重语义一致的文本到图像合成框架，该框架可以增强视觉内容和文本描述之间的文本-视觉一致性，以及合成图像和真实图像之间的视觉-视觉一致性。文章设计的这个模块即插即用，可以应用于任何其他文本到图像任务。

另外，作者提出了一种新的多层次视觉语言匹配模型来学习图像和文本之间的相似性，该模型可以考虑全局级匹配、细粒度局部级匹配和通用级匹配，引出一种新的评估度量（视觉语言匹配分数，VLMS）用于来评估文本生图像的性能，VLMS可以同时考虑生成图像的视觉真实性和生成图像与文本描述之间的语义一致性。

本文通过增强合成图像与真实数据之间的语义和视觉匹配，解决了文本到图像的合成问题，提出的双层次视觉语言匹配同时考虑了文本-视觉匹配和视觉-视觉匹配，其同时考虑了图像质量和图像语义来测量图像和文本之间的匹配分数，更符合人类感知。

最后

我们已经建立了T2I研学社群，如果你对Dreamfields和DreamFusion还有其他疑问或者对文本生成图像很感兴趣，可以私信我加入社群。

加入社群抱团学习：中杯可乐多加冰-采苓AI研习社

限时免费订阅：文本生成图像T2I专栏

支持我：点赞+收藏⭐️+留言

2016年2月小记录 weixin_30485799 开发工具
2.2发现自己bzoj第一版屯了不少题，就先A几道吧。bzoj1016:[JSOI2008]最小生成树计数，就是kruskal求出最小生成树后暴力一下就行了，其实不知道为什么可以过，反正就是可以过。bzoj1007:[HNOI2008]水平可见直线这题的结论太强了，按斜率排序，维护一个栈，判断交点就行啦，然后被卡精度了，不过这题idea特别好bzoj1011:[HNOI2008]遥远的行星这题就是
AI工具——将文字转变为流程图 j_inglin 人工智能流程图
文章参考：《NapkinAI：轻松将文字变成视觉，一键生成信息图、流程图和图表》《如何使用AI辅助快速生成概念示意图》《最强配图生成工具NapkinAI现已支持中文》文章来源：csdn
PostgreSQL：更新字段慢喝醉酒的小白 PG postgresql 数据库
目录标题PostgreSQL慢查询优化与`pg_stat_statements`使用1.启用慢查询日志2.使用`pg_stat_statements`扩展收集查询统计信息3.查找执行时间较长的查询4.分析慢查询的执行计划5.优化查询6.检查并发连接和系统资源7.进一步优化8.查看某条SQL1.**如何生成`query_id`**2.**`query_id`是否会变化？**3.**是否会变动？**4
Java高级之动态代理 java
Java高级之动态代理动态代理的实现1.创建接口2.创建被代理类，需要重写接口类3.创建代理类和代理类对象测试Java动态代理是Java反射机制的一种应用，它可以在运行时动态生成代理类，实现对原对象的代理。Java动态代理主要利用java.lang.reflect包中的Proxy类和InvocationHandler接口来实现。通过这种方式，我们可以为对象添加额外的行为，而无需修改其源代码。动态代
如何创建自定义Retriever来增强LLM应用程序 llzwxh888 服务器运维 python
引言在许多大语言模型（LLM）应用中，我们需要从外部数据源中检索信息，以便生成更准确和相关的响应。这些信息往往通过Retriever模块检索，然后用于生成提示，供LLM进行处理和响应。在这篇文章中，我们将深入探讨如何创建一个自定义Retriever，并提供代码示例来帮助你在自己的项目中实现这一功能。主要内容Retriever接口要创建一个自定义Retriever，你需要扩展BaseRetrieve
使用 pgvector 实现 PostgreSQL 语义搜索和 RAG：完整指南 llzwxh888 postgresql 数据库 python
使用pgvector实现PostgreSQL语义搜索和RAG：完整指南1.引言在当今的数据驱动世界中，能够高效地搜索和检索相关信息变得越来越重要。传统的关系型数据库虽然在结构化数据管理方面表现出色，但在处理非结构化数据和语义搜索时往往力不从心。本文将介绍如何使用pgvector扩展来增强PostgreSQL数据库，实现语义搜索和检索增强生成（RAG）功能，从而大大提升数据检索的效率和准确性。2.p
深入探索Mozilla的DeepSpeech：语音识别的新里程碑温宝沫Morgan
深入探索Mozilla的DeepSpeech：语音识别的新里程碑项目地址:https://gitcode.com/gh_mirrors/de/DeepSpeech项目简介是一个开源的语音识别引擎，基于深度学习技术，致力于提供准确、可扩展且易于集成的解决方案。该项目的目标是打破现有的语音识别壁垒，使开发者能够轻松构建支持语音的应用，推动人机交互进入新的时代。技术分析基于Baidu的DeepSpeec
DeepSeek 到底是什么类型的应用，其核心功能是什么？ AndrewHZ python 生活算法深度学习人工智能语言模型 deepseek
DeepSeek是一款多用途的人工智能工具，其核心功能基于大模型技术，覆盖内容生成、数据分析、个性化服务及复杂任务处理等多个领域。以下从应用类型和核心功能两方面展开分析：一、DeepSeek的应用类型通用型人工智能助手DeepSeek被设计为跨行业的通用型AI，适用于生活、学习、工作等场景。例如：生活场景：提供旅游推荐（如黔南的景点、美食）、诗歌创作、儿童故事生成等。专业场景：在金融、保险等领域，
探索火山引擎 DeepSeek-R1：高速低延迟AI解决方案引领未来熬夜磕代码丶经验之谈火山引擎人工智能
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言火山引擎DeepSeek-R1满血版推荐火山引擎DeepSeek-R1特性总结前言方舟大模型体验中心全新上线，免登录体验满血+联网版DeepSeekR1模型及豆包最新版模型点击登录登录后免费赠送每个模型50万tokens推理额度。火山引擎DeepSeek-R1满血版推荐✨亲爱的朋友们，快来听我发现的好消息！火山引擎推出的D
【深度学习】Adam优化器九筠机器学习深度学习人工智能
目录1什么是Adam1.1基本概念1.2Adam的数学理解1.2.1计算一阶矩估计（mean）1.2.2计算二阶矩估计（uncenteredvariance）1.2.3矫正一阶矩估计（mean）和二阶矩估计（uncenteredvariance）的偏差1.2.4更新模型参数1.3Adam的简单理解2Adam优化算法怎么用2.1导入所需的库和模块2.2定义模型和损失函数2.3定义优化器2.4在训练循
word2vec（一） CBOW与Skip-Gram模型基础浮汐自然语言处理
1.词向量词向量就是用来将语言中的词进行数学化的一种方式，顾名思义，词向量就是把一个词表示成一个向量。这样做的初衷就是机器只认识01符号。所以，词向量是自然语言到机器语言的转换。Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词
一个完全免费、私有且本地运行的搜索聚合器-FreeAskInternet 星霜笔记开源关注简介免费源码笔记
什么是FreeAskInternetFreeAskInternet是一个完全免费、私有且本地运行的搜索聚合器，使用LLM生成答案，无需GPU。用户可以提出一个问题，系统将使用searxng进行多引擎搜索，并将搜索结果组合到ChatGPT3.5LLM中，并根据搜索结果生成答案。所有进程都在本地运行，不需要GPU或OpenAI或GoogleAPI密钥。特征️完全免费（不需要任何API密钥）完全本地化（
【一看就会】Autoware.universe的路径点生成逻辑不断学习加努力自动驾驶算法
文章目录前言一、on_set_lanelet_route：根据道路生成路线二、on_set_waypoint_route：根据路径点生成路线三、调用on_set_waypoint_route的流程四、设置路径点总结前言在【一看就会】Autoware.universe的车道规划逻辑文章中，我们介绍了车道规划逻辑。车道规划是指在两个路径点之间规划一条连续可行的车道。也就是说，在我们给了起点和终点之后，
C语言实现一个简单的哈希算法 Long韵韵算法训练营 C语言与C++c语言哈希算法开发语言
C语言实现一个简单的哈希算法#include#include#include//函数creat_w用于将输入字符串转换为一个80元素的无符号长整型数组w//先将输入字符串的前16个元素以每4个字节为一组，转换为无符号长整型存储在w的前16个位置//然后使用特定规则生成w的16到79的元素voidcreat_w(charinput[64],unsignedlongw[80]){inti,j;unsi
python自然语言处理—Word2vec模型之Skip-gram 诗雨时 python
Word2vec模型之Skip-gram（跳字）模型一、skip-gram模型图二、skip-gram模型图示例说明举个例子来说明这个图在干嘛：1、假设我们的文本序列有五个词，["the","man","loves","his","son"]。2、假设我们的窗口大小为skip-window=2，中心词为"loves"，那么上下文的词即为："the"、"man"、"his"、"son"。这里的上下文
什么是“脚本”？ moqiyong666 Linux
脚本（Script），是使用一种特定的描述性语言，依据一定的格式编写的可执行文件。SQL脚本，是包含一到多个sql命令的sql语句，我们可以将这些sql脚本放在一个文本文件中（我们称之为“sql脚本文件”），然后通过相关的命令执行这个sql脚本文件。Shell、Linux命令的区别：shell翻译成壳的意思，它是包裹在linux内核外层的、一个可通过一系列的linux命令对操作系统发出相关指令的人
朴素贝叶斯原理及sklearn中代码实战 Lewis@ sklearn 概率论机器学习
朴素贝叶斯（NaiveBayes）是一类基于贝叶斯定理的简单而有效的分类算法。它假设特征之间是相互独立的，即在给定目标变量的情况下，每个特征都不依赖于其他特征。尽管这个假设在实际中很难成立，朴素贝叶斯在许多场景下仍表现得非常好，特别是对于文本分类等高维数据的应用。1.贝叶斯定理贝叶斯定理表明给定一个事件发生的条件下另一个事件发生的概率：P(A∣B)=P(B∣A)⋅P(A)P(B){P(A|B)=\
c程序无法正常运行：无法启动程序“......” 系统找不到指定文件软件黑马王子 C#c语言
来源于程序运行时报错原因：（1）程序错误（情况比较少）（2）代码格式有误（情况比较多）可能从QQ或者微信或者wps等文本编译器copy过来的代码直接粘贴到vs等编译软件中所以出现这种情况。解决方案：可以把代码在编译软件中重新敲一遍
Java中JDK、JRE，JVM之间的关系六七_Shmily java java
Java中的JDK、JRE和JVM是三个核心概念，其关系可概括为JDK>JRE>JVM，具体如下：一、定义与作用JDK（JavaDevelopmentKit）定义：Java开发工具包，用于开发和编译Java程序。包含内容：JRE+开发工具（如javac编译器、jar打包工具、javadoc文档生成工具等）+基础类库。适用场景：开发者使用，需安装JDK以编写和调试代码。示例：开发Java应用时，需通
Rust编程语言入门教程（七）函数与控制流 yoona1020 Rust rust 开发语言区块链学习方法
Rust系列Rust编程语言入门教程（一）安装RustRust编程语言入门教程（二）hello_worldRust编程语言入门教程（三）HelloCargoRust编程语言入门教程（四）猜数游戏：一次猜测Rust编程语言入门教程（五）猜数游戏：生成、比较神秘数字并进行多次猜测Rust编程语言入门教程（六）变量与可变性Rust编程语言入门教程（七）函数与控制流目录Rust系列引言一、函数二、函数的参
【C】用c写贪吃蛇钰爱& C语言开发语言 1024程序员节 c语言学习笔记嵌入式硬件
1.输入正确的账号密码及其用户名，登录成功进入贪吃蛇游戏界面，2.随机生成蛇头★、食物▲的位置(x,y)，并使用□打印地图3.使用wsad按键，完成蛇头的上下左右移动4.蛇头碰撞到食物后，吃下食物变成蛇身的一部分●，重新生成食物位置，显示在地图上5.蛇撞墙后或蛇咬到自己的身体，程序结束，统计吃到的食物数量#include#include//gotoxy()函数头文件#include//getch（
第十节：通过Debug解析ChatGLMModel的数据流，理解视觉与语言模型结合架构 tangjunjun-owen 语言模型人工智能自然语言处理 GLM-4v-9B 多模态大模型教程 ChatGLMModel
文章目录前言一、forward的参数解读二、图像编码token数量值方法解读三、input_ids的embedding方法解读1、embedding编码方法2、Embedding源码四、视觉编码方法解读五、inputs_embeds与position_ids编码加工方法解读1、inputs_embeds与position_ids编码方法2、图示解读编码方法3、inputs_embeds与posit
CRC校验码（C#实现）山歌寥哉 C#
CRC校验（循环冗余校验）小知识CRC即循环冗余校验码（CyclicRedundancyCheck）：是数据通信领域中最常用的一种查错校验码，其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查（CRC）是一种数据传输检错功能，对数据进行多项式计算，并将得到的结果附在帧的后面，接收设备也执行类似的算法，以保证数据传输的正确性和完整性。适用规则：CRC-CCITT是一个17位生成多项式G＝[1
Canva迁移策略深度解析：应对每日5000万素材增长，从MySQL到DynamoDB的蜕变微服务技术分享 mysql 数据库
随着数字化设计的蓬勃发展，Canva作为一款备受欢迎的在线设计平台，面临着日益增长的用户生成内容挑战。每天，平台上新增的素材数量高达5000万，这对数据库系统提出了前所未有的要求。为了应对这一挑战，Canva决定对其数据库系统进行一次重大迁移，从传统的MySQL转向高性能、可扩展的AmazonDynamoDBNoSQL数据库服务。MySQL的挑战MySQL作为一款关系型数据库，在许多应用场景中表现
人工智能时代，程序员如何保持核心竞争力？大道归简人工智能 AIGC
一、AI辅助编程对程序员工作的影响AI辅助编程工具正在迅速改变程序员的日常工作实践。这些工具提供了强大的功能，如智能代码补全、自动代码生成和代码重构等，极大地提高了编程效率。例如，GitHubCopilot可以根据上下文自动生成代码片段，而Tabnine则能提供智能代码补全建议。这些工具不仅加快了编码速度，还能帮助程序员减少常见错误，提高代码质量。然而，过度依赖AI工具也可能带来一些潜在风险：编程
V4L2框架 | MIPI Camera指令调试笔记一歲抬頭 DVP MIPI CAMERA
前言：在本文中，我将介绍如何使用Rockchip平台和OV2640摄像头进行视频设备的调试和分析。我将使用一些常用的命令和工具来展示如何查看和设置视频设备的格式、分辨率、控制参数等，以及如何抓取和转换图像数据。还将介绍如何使用媒体控制器来查看设备的拓扑结构和连接情况。这些内容对于理解和优化视频设备的性能和质量。推荐：《Android系统开发中高级定制专栏导读》关于v4l2_subdevv4l2_s
用 Python + LLM 实现一个智能对话 AGI大模型学习 python 开发语言 langchain prompt 大模型 AI大模型
大型语言模型LLM最近比较火，所以我也来用LLM写个智能对话玩玩。简介大语言模型LLM全称是LargeLanguageModels。LLM是指具有巨大参数量和极高语言理解能力的神经网络模型。这些模型被训练来理解和生成自然语言文本，能够执行多种自然语言处理（NLP）任务，如文本生成、翻译、摘要、问答等。所以LLM可以做以下事情：文本生成：LLM可以生成各种类型的文本，如新闻、文章、小说等。智能对话系
聊聊AI幻觉这件事，清华团队出品---DeepSeek与AI幻觉（文末有链接）知白读书人工智能深度学习 ai 大数据虚幻计算机视觉
咱们聊聊“AI幻觉”这事儿吧。相信你可能已经听说过这个词，但要是你还不知道，简单来说，就是AI（特别是像DeepSeek这种大数据生成模型）很“有逻辑”地胡说八道。它们的输出看似条理清晰，语言流畅得让人信服，甚至不乏引经据典——这种效果让我有时怀疑，它们是不是在偷偷做“伪学术”呢？最关键的就是，你一不小心就会被它们唬住，觉得它说的都对，其实全是空话。今天分享的是清华研究团队出品的新作：《DeepS
图论之最小生成树计数（最小生成树的应用） Romanticroom 图论算法
题目2401:信息学奥赛一本通T1492-最小生成树计数时间限制:2s内存限制:192MB提交:18解决:8题目描述原题来自：JSOI2008现在给出了一个简单无向加权图。你不满足于求出这个图的最小生成树，而希望知道这个图中有多少个不同的最小生成树。（如果两颗最小生成树中至少有一条边不同，则这两个最小生成树就是不同的）。输入格式第一行包含两个数，n和m，表示该无向图的节点数和边数，每个节点用1∼n
图论之最小生成树 JNU freshman 蓝桥杯算法图论算法蓝桥杯
文章目录题目1584.连接所有点的最小费用最小生成树MST，有两种算法进行求解，分别是Kruskal算法和Prim算法Kruskal算法从边出发，适合用于稀疏图Prim算法从顶点出发，适合用于稠密图：基本思想是从一个起始顶点开始，逐步扩展生成树，每次选择一条连接已选顶点和未选顶点的最小权重边，直到所有顶点都被包含在生成树中。Prim算法的基本步骤：初始化：选择一个起始顶点，将其加入生成树中。选择最
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。