中杯可乐多加冰

Text to image论文精读ALR-GAN:文本到图像合成的自适应布局优化

ALR-GAN是北京工业大学学者提出的一种自适应布局优化生成对抗网络，其可以在没有任何辅助信息的情况下自适应地优化合成图像的布局。
文章发表于2023年，IEEE Transactions on Multimedia（TMM）期刊（CCF B，JCR1区），是一篇值得一读的文章。

文章链接：https://ieeexplore.ieee.org/document/10023990

一、原文摘要

文章提出了一种新的文本到图像生成网络——自适应布局优化生成对抗网络(ALR-GAN)，其能够在没有任何辅助信息的情况下自适应地优化合成图像的布局。ALR-GAN包括一个自适应布局优化(ALR)模块和一个布局视觉优化(LVR)丢失。ALR模块将合成图像的布局结构(指物体和背景的位置)与相应的真实图像对齐。在ALR模块中，我们提出了一种自适应布局优化(Adaptive Layout refine, ALR)损失来平衡难特征和易特征的匹配，以实现更高效的布局结构匹配。LVR损失在细化布局结构的基础上，进一步细化布局区域内的视觉表示。在两个广泛使用的数据集上的实验结果表明，ALR-GAN在文本到图像生成任务中具有竞争力。

二、为什么提出ALR-GAN？

文本到图像生成(T2I)旨在从文本描述中合成逼真的图像。为了实现这一具有挑战性的跨模态生成任务，研究者们主要通过：①促进高分辨率图像合成；②细化图像细节；③增强图像语义这些方面来进行改进。
但它们往往专注于单一物体的合成，如鸟、花或狗。对于复杂的图像合成任务，合成的对象很容易被放置在图像的各种不合理的位置上，即布局结构很容易混乱。

在之前的一些工作中，一些方法使用辅助信息如：对象边框object bounding box, 对象形状object shape, 和场景图scene graph来辅助生成，但是①这种辅助信息的获取一般价格昂贵，不利于任务的推广应用;②这些方法通常忽略了布局区域内的视觉质量。

ALR-GAN的目标就是在没有辅助信息的情况下改进合成图像的布局。

ALR-GAN提出了一种自适应布局优化生成对抗网络来改善合成图像的布局，包括一个自适应布局优化(ALR)模块和布局视觉优化(LVR)损失。ALR模块和提出的自适应布局细化(ALR)损失的作用是自适应地将合成图像的布局结构与其对应的真实图像的视觉表示对齐。

三、ALR-GAN模型

3.1、模型框架

上图显示了所提出的ALR- GAN的架构，可以看到其是一种类似StackGAN++、AttnGAN、MirrorGAN、DM-GAN的多阶段模型，由文本编码器、三个生成器和三个鉴别器组成，另外框架还包含几个新组件:初始特征转换模块(IFTM)、自适应布局优化(ALR)模块、布局视觉优化(LVR)损耗。

ALR模块配备了所提出的自适应布局细化(LVR)损失以自适应地细化合成图像的布局结构，辅助其对应的真实图像。
LVR损失旨在增强布局区域内的纹理感知和风格信息。

主要流程：文本编码器将输入的文本描述(单个句子)转换为句子特征s0和单词特征W，IFTM将文本嵌入s和噪声z∼N(0,1)转换为图像特征H0，ALR模块在训练过程中对生成器合成图像的布局结构进行自适应细化（后两层次），三个鉴别器对三个阶段的生成器分别鉴别优化，帮助生成器更好的训练。

3.2、自适应布局优化（ALR）模块

可以看到ALR模块包括一个语义相似矩阵(semantic Similarity Matrix, SSM)和一个文本视觉矩阵(Text-vision Matrix ,TVM)

1️⃣、布局结构构建

SSM语义相似矩阵 $\theta$ (semantic Similarity Matrix) SSM矩阵用于计算单词W和图像子区域 $H_{i−1}$ 之间的语义匹配,计算方法与AttnGAN大致相同： $\theta_{k, j}=\frac{\exp \left(S_{k, j}^{\prime}\right)}{\sum_{k=1}^{T} \exp \left(S_{k, j}^{\prime}\right)}, \quad S_{k,j}^{\prime}=\left(h_{i-1}^{k}\right)^{T} w_{j}$ ，其中 $θ_{k,j}$ 为第j个单词 $w_i$ 与第k个图像子区域 $h^k_{i−1}$ 之间的语义相似度权值。

由于生成器对文本语义的理解不正确或不充分，合成图像的布局结构往往是混乱的。因此，我们希望合成图像的 $\theta$ 与真实图像的 $\theta*$ 对齐。

通俗来讲，要保证合成图像的 $\theta$ 与真实图像的 $\theta$ 对齐，即要使合成图像SSM语义相似矩阵与真实图像的SSM语义相似矩阵一致，作者引入了真实图像的重建，如图所示： $I_i^*$ 为真实图像，首先设计一个Encoder(包含一系列卷积块)提取图像特征 $H_i^*$ ，为了保证这个提取过程能够保证质量，作者将生成器设置为Decoder，并引入重构损失： $\mathcal{L}_{i}^{R E C}=\left\|I_{i}^{*}-I_{i}^{**}\right\|_{1}$

2️⃣、自适应布局优化(ALR)损失

$\theta$ 和 $\theta^*$ 中的一些元素很容易匹配，而有些则很难匹配。硬区域是导致布局优化过程中的主要问题。因此，在训练过程中，模型应该更加注意硬区域的匹配。作者提出了自适应布局优化(ALR)损失来解决这个问题。它的构造有四个步骤：

计算绝对残差张量：R =Abs.(Θ∗ − Θ)

将R中的元素分为硬元素和软元素。我们设定一个阈值γ，ri,j < γ易于匹配则为软元素，元素ri,j≥γ难以匹配则为硬元素。

设计了一种自适应的特征级权重自适应机制，以调整Θ和Θ *中软和硬匹配元素的损失权重。自适应权重自适应机制的构建分为4个步骤（如3a~3d所示）
3a.保持小于γ的软元素，其余的设为0，记为 $R^`easy$
3b. $R^`easy$ 通过填充零，映射到与H *相同的潜空间，称为 $R_{easy}$ ，以便后续与H *进行运算
3c.将 $R_{easy}$ 与H∗ 做矩阵元素相乘（哈达玛乘积）得到： $R_{\text {easy }} \odot H^{*}$
3d.然后将其做一系列卷积和激活操作φα(·)，得到 $\alpha=\phi_{\alpha}\left(R_{\text {easy }} \odot H^{*}\right)$ ，硬元素采用类似的的方法得到 $\beta=\phi_{\beta}\left(R_{\text {hard }} \odot H^{*}\right)$

在培训过程中，更应该把重点放在最难的部分,因此，权重β应大于α。为此，我们在LALR中设计了softplus(max(α)−min(β))的正则化项来满足它。这里，y = softplus(x) = ln(1 + ex)是一个单调递增函数，通过避免负损失值来帮助数值优化。

根据步骤1-4,ALR损失定义为: $\begin{array}{l} L_{i}^{A L R}=\frac{1}{N \cdot D}\left(\left\|\alpha_{i} \odot R_{\text {easy }_{i}}\right\|_{F}+\left\|\beta_{i} \odot R_{\text {hard }_{i}}\right\|_{F}\right. \left.+\left\|\operatorname{softplus}\left(\max \left(\alpha_{i}\right)-\min \left(\beta_{i}\right)\right)\right\|_{F}\right) \end{array}$

其中，下标F代表矩阵的F-范数

3️⃣、构建文本视觉矩阵(TVM)

基于修正后的SSM语义相似矩阵，对于第K个图像子区域，词动态表示为： $h_{i-1}^{k} \text ,q_{i-1}^{k}=\sum_{j=1}^{T} \theta_{j, k} w_{j}$ ，因此，用于词嵌入W和图像特征Hi−1的文本-视觉矩阵(TVM)表示为 $Q_{i−1}$

最后将文本视觉矩阵TVM的矩阵 $Q_{i−1}$ 与图像特征 $H_{i−1}$ 进行拼接，送入ResBlocks和Upsampling模块输出图像特征 $H_i$

3.3、布局视觉细化(LVR)损失

在精细化布局结构的基础上，进一步增强布局区域内的视觉表现力。为此，我们提出了布局视觉细化(LVR)损失来增强布局中的纹理感知和风格信息。

LVR损失包括感知细化(PR)损失和风格细化(SR)损失。

感知细化(PR)损失: $L_{i}^{P R}=\frac{1}{N \cdot D}\left\|M a s k_{\Theta_{i}} \odot H_{i}-\operatorname{Mask}_{\Theta_{i}^{*}} \odot H_{i}^{*}\right\|_{F}$
风格细化(SR)损失: $L_{i}^{S R}=\frac{1}{N \cdot D} \| \mathcal{G}\left(\text { Mask }_{\Theta_{i}} \odot H_{i}\right)-\mathcal{G}\left(\operatorname{Mask}_{\Theta_{i}^{*}} \odot H_{i}^{*}\right) \|_{F}$

四、ALR-GAN的总体损失

结合上述模块，在ALR-GAN的第i阶段，生成损失 $L_{G_i}$ 定义为 $L_{G_{i}}=\underbrace{-\frac{1}{2} \mathbb{E}_{\hat{I}_{i} \sim P_{G_{i}}}\left[\log D_{i}\left(\hat{I}_{i}\right)\right]}_{\text {unconditional loss }}-\underbrace{\frac{1}{2} \mathbb{E}_{\hat{I}_{i} \sim P_{G_{i}}}\left[\log D_{i}\left(\hat{I}_{i}, s\right)\right]}_{\text {conditional loss }},$
其中，无条件损失推动合成图像更真实，以欺骗鉴别器，而条件损失驱动合成图像更好地匹配相应的文本描述。判别损失定义为:
$\begin{aligned} L_{D_{i}}= & \underbrace{-\frac{1}{2} \mathbb{E}_{I_{i}^{*} \sim P_{\text {data }_{i}}}\left[\log D_{i}\left(I_{i}^{*}\right)\right]-\frac{1}{2} \mathbb{E}_{\hat{I}_{i} \sim P_{G_{i}}}\left[\log \left(1-D_{i}\left(\hat{I}_{i}\right)\right]\right.}_{\text {unconditional loss }}+ \\ & \underbrace{-\frac{1}{2} \mathbb{E}_{I_{i}^{*} \sim P_{d a t a_{i}}}\left[\log D_{i}\left(I_{i}^{*}, s\right)\right]-\frac{1}{2} \mathbb{E}_{\hat{I}_{i} \sim P_{G_{i}}}\left[\log \left(1-D_{i}\left(\hat{I}_{i}, s\right)\right]\right.}_{\text {conditional loss }}, \end{aligned}$
其中 $I^*_I$ 和 $\hat{I}_{i}$ 是第i个尺度图像，判别损失 $L_{Di}$ 从真实图像分布或合成图像分布中对输入图像采样进行分类。

生成网络最终目标函数定义为: $L_{G}=\sum_{i=0}^{m-1} L_{G_{i}}+\sum_{i=1}^{m-1}\left[L_{i}^{A L R}+\lambda_{1} L_{i}^{R E C}+L_{i}^{L V R}\right]+\lambda_{2} L_{D A M S M}$ ，
判别网络的最终目标函数定义为: $L_{D}=\sum_{i=0}^{m-1} L_{D_{i}}$

五、实验

5.1、实验设置

数据集：CUB-Bird、MS-COCO
Baseline： AttnGAN
评价指标：作者一共选用了四个度量指标即：Inception Score (IS↑)、Fréchet Inception Distance (FID↓)、Semantic Object Accuracy (SOA↑)、R-precision↑

5.2、实验结果

1️⃣、定量实验：

训练时间、训练周期、模型大小和测试时间：

2️⃣、视觉效果

3️⃣、细微改变后的布局变化

ALR-GAN在MS-COCO测试集上捕捉文本描述细微变化(红色短语或单词)的能力，并以合理的布局合成不同的图像。

4️⃣、消融实验

六、总结

说实话这篇文章我暂时也没看很懂，原理部分还有待仔细研习，但值得一提的是，本文的实验做的非常充分，特别是消融实验，做的很严谨，建议看原文学习一下。而且在单阶段GAN大流行的情况下，这篇多阶段GAN仍然有很大的学习和借鉴价值。

这篇论文提出了一个文本到图像的生成模型：ALR-GAN，以改进合成图像的布局。ALR- GAN包括ALR模块和LVR损耗。

ALR模块结合所提出的ALR损失自适应地细化了合成图像的布局结构。LVR损失在细化布局的基础上，进一步细化布局区域内的视觉表现。实验结果和分析证明了这些方案的有效性，ALR模块和LVR损耗提高了其他基于gan的T2I方法的性能。

最后

我们已经建立了T2I研学社群，如果你还有其他疑问或者对文本生成图像很感兴趣，可以私信我加入社群。

加入社群抱团学习：中杯可乐多加冰-深度学习T2I研习群

限时免费订阅：文本生成图像T2I专栏

支持我：点赞+收藏⭐️+留言

你可能感兴趣的:(文本生成图像,text-to-image,生成对抗网络,深度学习,文本生成图像,T2I,计算机视觉)

分布式ID设计方案详解：从理论到实践
一、为什么需要分布式ID？在分布式系统中，唯一ID的生成面临两大核心挑战：全局唯一性：避免跨节点、跨数据中心的ID冲突。有序性：确保ID按时间或业务规则递增，提升数据库写入性能（如InnoDB的B+树索引）。传统单机自增ID（如MySQLAUTO_INCREMENT）无法满足分库分表、高并发等场景需求，因此需引入分布式ID方案。二、主流分布式ID方案对比方案优点缺点适用场景UUID简单、无中心化依
用 AI “一句话生成代码”，用创意兑换灵码潮品：技术人的夏日狂欢季来了人工智能
在AI技术迅猛发展的2025年，我们正式推出“通义灵码编程智能体挑战季”，以“码力觉醒”为主题，打造一场融合技术探索与潮流文化的开发者盛宴。活动以体验MCP服务、Qwen3大模型及记忆功能的智能编程助手为核心，通过“小游戏开发”和“MCP场景实践”两大趣味赛道，降低AI技术门槛，让开发者轻松体验“一句话生成代码”的魔力。活动亮点抢先看：零门槛参与：新老用户均可参与，完成任务即领限量定制棒球帽！趣味
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
摄像头各参数的意义_详解：摄像头参数介绍说明序雨摄像头各参数的意义
摄像头的核心是CCD，由于CCD在生产过程中分不同等级和和生产商获得的途径不同，造成CCD的采集效果也不同。一个简单的检测方法，就是将摄像头通电，不接镜头，用手遮住镜头接口，看图像有没有亮点，雪花大不大，然后接上镜头，将摄像头对准一个色彩鲜明的物体，查看器的颜色是否有偏色，图像有无扭曲现象，色彩和灰度是否平滑。由于摄像头的核心部件是CCD，所以其主要参数大多与CCD有关，下面就列出摄像头的主要参数
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
图片转字符串存储在SQLite中你就是乌鸦嘴 qt6.3 笔记 qt
将图片转化为字符串放入Sqlite数据库，以BLOB类型存储。一、主要函数1、图片转字符串使用内存读写器，指定格式存入字节数组，字节数组转Base64以Latin1编码输出到文本框。voidMainWindow::on_actPtB_triggered(){ui->plainTextEdit->clear();if(ui->labPhoto->pixmap().isNull()){labtext-
GitHub账号注册与Git关联：从零到一的完整指南 Android洋芋前行路黑科技经验历程 github git GitHub注册 Git关联 SSH密钥团队协作
简介GitHub是开发者协作与代码管理的核心平台，而Git则是实现版本控制与团队协作的必备工具。本文将从零开始，手把手教你完成GitHub账号注册、Git环境搭建、SSH密钥生成、本地仓库初始化及与GitHub仓库的绑定。通过代码示例、Mermaid图解及企业级应用场景，帮助你全面掌握GitHub与Git的关联技巧，为个人开发与团队协作打下坚实基础。一、GitHub账号注册与基础配置1.1注册Gi
20.XLD轮廓 Echo`` Halcon系统化学习计算机视觉人工智能算法
目录1.xld概念2.画轮廓3.区域转轮廓4.边缘提取算子5.xld特征提取6.提取任意线条7.提取最长的线条8.xld分割10.xld合并11.xld拟合12.xld几何变换13.xld变换14.xld集合运算15.区域和轮廓精度16.轮廓的保存读取17.halcon操作CAD文件18.轮廓测量算子19.同心度计算1.xld概念*图像处理*1.处理对象HObject*1.图像-image*2.区
PyQt5—QTextEdit 学习笔记寄思～ Python——PyQt5笔记 qt 学习笔记 python
第二章控件学习一、QTextEdit基础认知QTextEdit是PyQt/PySide框架中用于处理富文本内容的强大控件，它不仅支持纯文本编辑，还能处理HTML、图片等复杂内容，是开发文本编辑器、日志查看器等应用的核心组件。二、最简单的QTextEdit实现下面是一个创建QTextEdit并显示的基础案例，适合零基础入门：importsysfromPyQt5.QtWidgetsimportQApp
高级汇编语言编程技巧与优化代码世界探索者汇编语言详解汇编 linux
一、宏和宏指令1.宏的基本概念•定义：宏是一种文本替换机制。它允许程序员定义一个宏名，并将一组指令或代码片段与该宏名关联起来。在代码中使用宏名时，汇编器会将其替换为对应的指令或代码片段。2.宏的定义和使用（1）定义宏在汇编语言中，宏的定义通常使用MACRO指令开始，以ENDM指令结束。宏的定义包括宏名和一组指令或代码片段。语法：宏名MACRO参数1,参数2,...指令1指令2...ENDM示例：;
（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
算法分析与设计实验2：实现克鲁斯卡尔算法和prim算法表白墙上别挂我算法笔记经验分享
实验原理（一）克鲁斯卡尔算法：一种用于求解最小生成树问题的贪心算法，该算法的基本思想是按照边的权重从小到大排序，然后依次选择边，并加入生成树中，同时确保不会形成环路，直到生成树包含图中所有的顶点为止。具体步骤：边的排序：将所有边按照权重从小到大排序。初始化：创建一个空的生成树（可以是一个空的图结构），以及一个用于记录每个顶点所属集合（或称为连通分量）的数据结构（例如并查集）。边的选择：依次选择排序
HTTP 响应头信息详解 lsx202406 开发语言
HTTP响应头信息详解引言HTTP（超文本传输协议）是互联网上应用最为广泛的网络协议之一。在HTTP协议中，响应头信息是服务器向客户端发送的重要信息之一。响应头信息包含了关于响应的元数据，如状态码、内容类型、缓存策略等。本文将详细介绍HTTP响应头信息的概念、类型、作用以及常见响应头信息的解析。HTTP响应头信息概述HTTP响应头信息是服务器在发送HTTP响应时，除了响应体之外，附加在响应体前面的
MavenHelper插件：解决IntelliJ IDEA中Maven依赖冲突的利器
本文还有配套的精品资源，点击获取简介：MavenHelper是一款专门针对IntelliJIDEA设计的Maven插件，旨在帮助开发者快速识别和解决Maven项目中的依赖冲突问题。该插件能生成项目的依赖树，标记版本冲突的依赖项，并提供建议解决方案和可视化界面来管理依赖。此外，它还包括一键升级或降级依赖、清理Maven缓存和自定义配置功能，以确保与团队规范的一致性。通过使用MavenHelper，开
ViP-LLaVA: 使大型多模态模型理解任意视觉提示 AI专题精讲 Paper阅读多模态人工智能 AI
摘要现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题，我们提出了一种新颖的多模态模型，能够解码任意（自由形式）视觉提示。这使得用户可以通过自然提示（如“红色边框”或“指向箭头”）直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上，避免了复杂的
Aider：27.6K Star！这个终端AI编程神器能用语音改代码，自动生成Git记录并提交，接入DeepSeek斩获编程基准最高分蚝油菜花每日 AI 项目与应用实例 AI编程 git 人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->尽在微信公众号->搜一搜：蚝油菜花⌨️“每个CLI爱好者都该试试的AI编程革命：对着终端说话自动生成Gitcommit是怎样的体验？”大家好，我是蚝油菜花。如果你也经历过——在vim里卡了半小时，只为给函
使用AutoKeras2.0的AutoModel进行结构化数据回归预测
1、FirstofAll:ReadTheFuckingSourceCodeimportautokerasasakimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportmean_squared_error#生成数据集np.random.seed(42)x=np.random.r
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
1.线性神经网络--线性回归温柔济沧海深度学习神经网络线性回归 python
1.1从零实现线性回归importrandomimporttorch#fromd2limporttorchasd2limportmatplotlib.pyplotaspltdeftrain_data_make(batch_size,X,y):num_examples=len(X)idx=list(range(num_examples))#生成0-999random.shuffle(idx)#样本需
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【HarmonyOS】鸿蒙应用开发Text控件常见错误
【HarmonyOS】鸿蒙应用开发Text控件常见错误一、前言Text文本控件，是我们应用开发中最为基本和常见使用的控件之一。很多人觉得对于控件的使用已经非常熟悉，一个文本控件，能有什么使用错误呢？其实不然，今天本文，就对于Text常用会导致问题的点进行阐述。二、Text设置字体大小是否可用于百分号？对于初学者最常见的问题之一，就是使用Text的fontSize属性设置字体大小时，传入百分比字符串
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
学Simulink——整流器场景：基于Simulink的单相全桥可控硅整流器仿真建模 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏 simulink matlab
目录手把手教你学Simulink——整流器场景：基于Simulink的单相全桥可控硅整流器仿真建模一、背景介绍二、系统结构设计三、建模过程第一步：创建新Simulink项目第二步：添加主要模块1.交流电源2.单相全桥可控硅整流器3.LC滤波器4.负载模拟5.触发脉冲生成模块6.测量模块第三步：搭建主电路拓扑第四步：搭建触发脉冲生成逻辑1.设计触发脉冲逻辑2.集成至Simulink模型四、参数设置五
vllm推理实践 try2find java 前端服务器
1.vllm推理demo实验fromvllmimportLLM,SamplingParams#定义生成参数sampling_params=SamplingParams(temperature=0.7,top_p=0.9,max_tokens=100,)#加载DeepSeek模型（以deepseek-llm-7b为例）#model_name="deepseek-ai/deepseek-llm-7b"
typescript 错误码大全
转载于https://www.easemob.com/question/6196/1002错误Unterminatedstringliteral.未终止的字符串文本。1003错误Identifierexpected.应为标识符。1005错误'{0}'expected.应为“{0}”。1006错误Afilecannothaveareferencetoitself.文件不能引用自身。1009错误Tra
移动conda虚拟环境的安装目录
方法1：重新创建环境（推荐）(1)导出环境配置（生成environment.yml）：condaactivateold_env#激活原环境condaenvexport>environment.yml#导出配置(llmtuner):~$condaenvexport>environment.yml(llmtuner):~$tail-fenvironment.yml-websockets==15.0.1
嵌入式Linux内核镜像生成过程飘逸轻舞 linux arm开发运维嵌入式
嵌入式Linux内核镜像生成过程嵌入式Linux系统的核心组件是内核，它是操作系统的核心部分，负责管理硬件资源、提供系统调用接口以及驱动设备等功能。在嵌入式系统中，将内核编译成镜像文件是部署系统的关键步骤之一。本文将介绍嵌入式Linux的内核镜像生成过程，并提供相应的源代码示例。获取Linux内核源代码首先，我们需要获取Linux内核的源代码。可以从Linux官方网站（www.kernel.org
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他