ScienceLi1125

Prompt-to-Prompt：基于 cross-attention 控制的图像编辑技术

Hertz A, Mokady R, Tenenbaum J, et al. Prompt-to-prompt image editing with cross attention control[J]. arXiv preprint arXiv:2208.01626, 2022.

Prompt-to-Prompt 是 Google 提出的一种全新的图像编辑方法，不同于任何传统方法需要用户指定编辑区域，Prompt-to-Prompt 只需要用户对 prompt 文本进行编辑，就能获得图像编辑的直观体验。并且 Prompt-to-Prompt 基于预训练的 Latent Diffusion 或 Stable Diffusion，不需要任何训练或微调，可以直接拿来做编辑任务。

Prompt-to-Prompt 所做的任务是根据编辑指令进行图像编辑，保证了编辑不对图像产生大的变动。具体方法是通过在 diffusion 模型的扩散过程中注入 cross-attention maps，来控制 pixels 在扩散过程中关注 prompt 文本的 tokens，从而编辑图像。Cross-attention 层是联系图像空间布局、几何形状和 prompt 文本中 tokens 的关键，这也是本文的一个重要创新。

目录

一. 研究思路
二. Cross-Attention 控制
- 1. Replacement
- 2. Refinement
- 3. Re-weight
三. 编辑图像生成
- 1. Replacement
- 2. Refinement
- 3. Re-weight
四. 应用
五. 总结
六. 复现

一. 研究思路

在图像编辑方法出来之前，想要修改图像都是通过 $\lceil$ 遮盖 + 修改 $\rfloor$ 的方法进行的，这种局部修改方法比较慢，而且遮盖还会丢失关键信息。但要想直接对图像进行编辑，又有一个相当棘手的问题，就是任何输入文本的微小变动都可能使模型生成的图像发生巨大的改变，而图像编辑需要尽可能保持原有图像。

于是文中提出了一种 Prompt-to-Prompt 方法，使用基于文本的预训练 diffusion 模型，通过调整模型生成图像过程中的 cross-attention maps，从而保证在尽可能保持原有图像的空间布局和几何外观的情况下实现图像编辑。

Prompt-to-Prompt 主要适用于以下三种任务：

Word Swap：替换文本中的某个单词，也称为 Replacement；
Adding a New Phrase：增加一段新的描述以改变图像风格或增加图像细节，也称为 Refinement；
Attention Re–weighting：增强或减弱某个单词（一般是形容词）在图像中的作用效果，也称为 Re-weight；

Our approach constitutes an intuitive image editing interface through editing only the textual prompt, therefore called Prompt-to-Prompt. This method enables various editing tasks, which are challenging otherwise, and does not requires model training, fine-tuning, extra data, or optimization. Throughout our analysis, we discover even more control over the generation process, recognizing a trade-off between the fidelity to the edited prompt and the source image. We even demonstrate that our method can be applied to real images
by using an existing inversion process. Our experiments and numerous results show that our method enables seamless editing in an intuitive text-based manner over extremely diverse images.

二. Cross-Attention 控制

cross-attention 层是控制图像空间布局 (spatial layout) 和 prompt 中分词 (token) 关系的关键，高维张量 cross-attention maps 可以在 pixels 和 tokens 间建立连接。以 text-conditioned diffusion 的一次图像生成过程为例，pixels 和 tokens 间的联系如下：

所以 Prompt-to-Prompt 通过在扩散过程向预训练模型中注入特定的 cross-attention maps，能够使得一些 pixels 去匹配对应的 tokens。为了维持原始图像的空间布局与几何形状，可以在生成编辑图像的过程中向 cross-attention maps 中注入原始图像的特定 cross-attention maps。

1. Replacement

当想要替换文本中的某个单词时，用原始图像的 cross-attention maps $M_t$ 替换目标图像的 cross-attention maps $M_t^*$ ，这样就可以在维持原始图像空间布局的情况下表示新的语义。

2. Refinement

当想要增加描述时，就将原始文本中没有改变的 token 对应的 $M_t$ 部分注入 $M_t^*$ ，这样就可以在维持原始图像空间布局的情况下编辑图像细节或风格。

3. Re-weight

当想要增强或减弱某个单词在图像中的作用效果时，只需要调整 cross-attention maps 中 token 对应部分的权重即可。

三. 编辑图像生成

Prompt-to-Prompt 使用基于文本的预训练 diffusion 模型，通过调整模型生成图像过程中的 cross-attention maps，以实现图像编辑。所以 Prompt-to-Prompt 不需要对模型进行训练或微调，也不需要任何训练数据，用户只需要编辑 prompt 文本，就可以直观得体验图像编辑。

记原始图像为 $\mathcal I$ ，原始 prompt 文本为 $\mathcal P$ ，编辑后图像为 $\mathcal I^*$ ，编辑后 prompt 文本为 $\mathcal P^*$ ，随机种子为 $s$ 。 $DM(z_t, \mathcal P, t,s)$ 表示 $t$ 时刻的逆扩散过程，输出隐空间的噪声图像 $z_{t-1}$ 和 cross-attention map $M_t$ 。 $DM(z_t, \mathcal P, t,s)\{M \leftarrow \widehat M\}$ 表示替换该步骤中的 $M$ 为 $\widehat M$ ， $Edit(M_t, M_t^*, t)$ 表示 $t$ 时刻的 cross-attention map 是 $M_t$ 或 $M_t^*$ 。

生成编辑图像时，同时使用 diffusion 模型分别对 $\mathcal P$ 和 $\mathcal P^*$ 进行图像生成，然后将 $\mathcal P$ 生成图像过程中的 $M_t$ 注入 $M_t^*$ 得到新的 cross-attention map $\widehat M$ ，最后再用 $\widehat M$ 生成新的 $z_{t-1}^*$ 用于下一轮迭代：

1. Replacement

之前忽略了一个问题就是用原始图像的 $M_t$ 替换目标图像的 $M_t^*$ 必须有所节制，不然会导致 prompt 中新加的 token 语义无法显现。因此在扩散过程中设置时间节点 $\tau$ ， $\tau$ 之前按 $M_t^*$ 生成编辑图像，之后再注入 $M_t$ ，因此有：
$Edit(M_t, M_t^*, t)= \begin{cases} M_t^* & t<\tau \\ M_t & otherwise \\ \end{cases}$

个人认为这里应该倒过来写，因为逆扩散时 $t$ 的取值是从大到小的。

因此图像的生成过程应该是一开始只表示编辑后的语义但没能维持原有图像的空间布局和几何状态，后来逐渐收敛到原有图像的形状：

2. Refinement

增加一段新的描述时只需要对 $\mathcal P$ 和 $\mathcal P^*$ 中共有的 token 进行 cross-attention map 注入。使用对齐函数 $A$ 输入 $\mathcal P^*$ 中 token 的索引，输出对应 $\mathcal P$ 中 token 的索引；如果没有对应则输出 None。因此有：
$(Edit(M_t, M_t^*, t))_{i,j}= \begin{cases} (M_t^*)_{i,j} & A(j)=None \\ (M_t)_{i,A(j)} & otherwise \\ \end{cases}$

Adding a New Phrase 可以增加图像细节或是改变风格：

3. Re-weight

要想增强或减弱某个单词在图像中的作用效果，只需要给该 token 对应的 cross-attention map 乘上参数 $\in [-2,2]$ ，其余 token 的 cross-attention map 保持不变。因此有：
$(Edit(M_t, M_t^*, t))_{i,j}= \begin{cases} c \cdot (M_t)_{i,j} & j=j^* \\ (M_t)_{i,j} & otherwise \\ \end{cases}$

Attention Re–weighting 可以控制 prompt 中某些形容词的作用效果：

四. 应用

见【AIGC第六篇】Prompt-to-Prompt：基于cross-attention控制的图像编辑技术。

五. 总结

Prompt-to-Prompt 最主要的贡献就是发现了 text-conditioned diffusion 模型中 cross-attention 的强大功能，能够控制图像的空间布局和 prompt 文本中每个 token 之间的交互。通过 cross-attention maps 注入，Prompt-to-Prompt 提出了三种编辑方法：Replacement、Refinement、Re-weight，在实际应用中都实现了令人满意的效果。

六. 复现

Prompt-to-Prompt 基于 Latent Diffusion 或 Stable Diffusion，使用时需要提供 HuggingFace 访问私有模型的身份验证令牌，demo 如下：

prompt-to-prompt_stable.ipynb；
prompt-to-prompt_ldm.ipynb；

你可能感兴趣的:(3D视觉,prompt,图像编辑,stable,diffusion)

OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
5万人流挤地铁如何追踪？陌讯算法实战FPS飙升300%
开篇痛点在智慧城市安防场景中，传统视觉算法常面临“三难困境”：低光照漏检率飙升（夜间误报率超30%）、人群遮挡ID切换混乱（MOTA指标＜50%）、硬件资源吃紧（1080P视频流处理＞200ms）。某省会交警平台曾反馈：“雨雾天车牌识别准确率骤降至65%，追踪目标平均5分钟丢失1次”。技术解析：动态多目标蒸馏网络陌讯视觉算法创新性融合多任务蒸馏架构与时空注意力机制，攻克复杂场景泛化难题。核心公式创
离岗误报率 20%？陌讯时序算法实测降 90% 2501_92474711 算法计算机视觉目标跟踪机器学习人工智能边缘计算
开篇：工业安防中的"隐形漏洞"在制造业车间、变电站等关键场景，离岗检测是保障生产安全的核心环节。传统监控系统依赖人工巡检，存在85%的漏检率；而普通视觉算法在光照变化、人员遮挡场景下，误报率常高达20%以上[实测数据显示]。某汽车零部件厂曾因离岗检测失效导致设备空转2小时，直接损失超12万元。这种"看得见的监控，防不住的风险"困境，凸显了传统视觉方案在复杂工业场景中的局限性。技术解析：从单帧检测到
雨天障碍物漏检？陌讯多模态算法实测 98% 准确率 2501_92474711 算法目标跟踪人工智能计算机视觉
开篇痛点：自动驾驶视觉系统的“暗礁”在自动驾驶感知层，路面障碍物识别堪称“生命线工程”。传统视觉算法在复杂场景下常面临三重困境：雨天水雾导致特征模糊时漏检率高达25%，逆光环境下小目标（如碎石、井盖）检出率不足60%，而追求高精度又会导致帧率跌破20FPS，难以满足实时性要求[1]。某车企实测数据显示，传统YOLOv8在城郊混合路况中，因障碍物识别延迟引发的决策偏差占测试事故的37%，这些问题成为
2025国内AI绘图与PPT工具推荐曼波编程开发语言 python 人工智能深度学习自然语言处理图像处理 nlp
以下是2025年值得关注的国内主流AI绘图与PPT工具整理，结合功能特性、使用体验及场景适配性，聚焦国产工具的本土化优势与实用价值，供内容创作参考。接下来按照优缺点一句话说完，不展开技术参数，只谈“能不能立刻干活”。国内AI绘图工具对比工具链接优点缺点文心一格（百度）文心一格-AI艺术和创意辅助平台中文prompt理解精准，国风/写实风格突出；与百度生态（如文库、网盘）联动；素材合规性强高阶风格化
2018-12-01 11bbc2c5d0c6
练习题1小明varscore=prompt('请输入小明的期末成绩(0-100):');if(score==100){alert('BMW');}elseif(score>=80&&score=60&&score练习题2嫁女儿varH=180,M=10000000,F=500;if(H>=180&&M>=10000000&&F>=500){alert('我一定要嫁给他');}elseif(H>=1
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
Unity中常用的数据结构总结 anbd0604 游戏数据结构与算法
本篇博文对U3D经常用到的数据结构和各种数据结构的应用场景总结下。1.几种常见的数据结构这里主要总结下在工作中常碰到的几种数据结构：Array，ArrayList，List，LinkedList，Queue，Stack，Dictionary数组Array：数组是最简单的数据结构。其具有如下特点：数组存储在连续的内存上。数组的内容都是相同类型。数组可以直接通过下标访问。数组Array的创建：1int
Unity3D中常用的数据结构总结与分析七大黍 Unity技术文章 Unity3D培训 Unity3D游戏 Unity培训 Unity教程
今天来给大家介绍U3D时经常用到的数据结构和各种数据结构的应用场景吧。1.几种常见的数据结构这里主要总结下小匹夫在工作中常碰到的几种数据结构：Array，ArrayList，List，LinkedList，Queue，Stack，Dictionary数组Array：数组是最简单的数据结构。其具有如下特点：数组存储在连续的内存上。数组的内容都是相同类型。数组可以直接通过下标访问。数组Array的创建
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
河道污染难溯源？3步搭建陌讯实时目标检测系统 2501_92472966 目标检测人工智能计算机视觉算法视觉检测
开篇痛点「凌晨3点水泵房渗漏报警，运维人员冒雨排查却是一场误判」——这是某水务企业技术总监向我吐槽的真实案例。在智慧水务场景中，传统视觉算法面临三大死穴：水体反光干扰、微小目标漏检、边缘设备算力受限。尤其当暴雨导致水体浑浊时，OpenCV边缘检测的误报率可达35%以上。技术解析：陌讯多模态融合架构为解决复杂环境泛化问题，陌讯视觉算法提出FMT-Net（FusionMultimodalTransfo
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction zzfive 生成模型论文阅读 kotlin 开发语言 android
论文链接：VisualAutoregressiveModeling:ScalableImageGenerationviaNext-ScalePrediction文章目录简介预测下一个token自回归模型范式分析VAR详解分词实现细节幂律缩放定律零样本泛化能力结论简介本文提出的视觉自回归建模/VAR这种新范式，其将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与常规的
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
在ComfyUI中CLIP Text Encode (Prompt)和CLIPTextEncodeFlux的区别虎冯河 AIGC ComfyUI
CLIPTextEncode(Prompt)CLIPTextEncodeFlux在ComfyUI中对token支持长度是否相同的详细技术对比：1、CLIPTextEncode(Prompt)通常来自：ComfyUI官方自带CLIPTextEncode节点。特点：✅使用OpenAICLIP模型（ViT-L/14等）✅默认最大支持77tokens(固定超参数)✅超过77tokens时：部分实现直接截断
从代码到终端部署：Prompt如何颠覆传统DevOps流程 LCG元工具运维 prompt devops 运维
文章目录基于Prompt工程的DevOps架构重构实践一、架构演进与技术对比1.1架构演进路径1.2核心流程对比二、核心实现方案2.1Prompt解析引擎实现（Python）2.2Kubernetes集成部署（YAML模板）三、生产部署实践3.1安全增强方案3.2性能优化数据四、技术前瞻与演进4.1未来三年技术路线图五、完整技术图谱六、核心代码实现（TypeScript前端）七、部署验证测试基于P
解锁Prompt+DevOps新姿势：终端系统重塑的三大核心策略
文章目录引言：Prompt驱动的DevOps范式迁移核心策略一：智能决策流水线构建横向架构对比纵向实现流程Python实现示例核心策略二：自适应终端部署体系TypeScript客户端实现YAML部署配置模板核心策略三：智能运维闭环构建安全审计实现方案性能对比分析技术前瞻性分析附录：完整技术图谱技术架构部署验证引言：Prompt驱动的DevOps范式迁移在云原生与AI工程化交汇的今天，Prompt技
CSS实现前端响应式布局
一、响应式布局概述响应式布局的定义与重要性响应式布局是一种能够使网页在不同设备上（如桌面电脑、平板电脑、手机等）都能呈现出良好视觉效果和用户体验的设计方法。它通过使用灵活的布局、可适应的图像和媒体查询等技术，确保网页能够根据设备的屏幕尺寸、分辨率和方向进行自动调整和优化。在当今数字化时代，响应式布局至关重要。随着移动设备的广泛使用，用户越来越多地通过各种设备访问网页。如果网页不能在不同设备上良好地
【AI大模型应用开发】Prompt提示词工程 bay_Tong桐小白 AI大模型人工智能 prompt ai 大模型应用开发 LLM 聊天机器人
halo~我是bay_Tong桐小白本文内容是桐小白个人对所学知识进行的总结和分享，知识点会不定期进行编辑更新和完善，了解最近更新内容可参看更新日志，欢迎各位大神留言、指点感谢新老朋友给予过的关心，过去经历了很多，身心状态慢慢调整，因此更新文章较慢，给关注我的新老朋友道声抱歉，也再次给对桐小白给予关心的新老朋友表示感谢~Prompt提示词工程（初步）【更新日志】大模型分类prompt基本概念pro
上位机知识篇---Prompt&PowerShell Prompt Atticus-Orion 上位机知识篇 prompt powershell
在Anaconda环境中，AnacondaPrompt和AnacondaPowerShellPrompt是两个常用的命令行工具，它们的核心功能都是为了方便管理Python环境和执行相关命令，但底层依赖的命令行解释器不同，因此在使用场景和语法上存在一些区别。下面详细介绍两者的差异：1.底层依赖的命令行解释器不同这是两者最根本的区别，决定了它们的语法规则和功能范围：AnacondaPrompt基于Wi
读《认知天性》（1）云城梦天
认知是对天性是挑战认知可以用数学统计与实践客观来评价，而我感觉是一种自我感知。当未知时，感知痛苦然而这是个时习之中乐的过程。也可以通过rain和轻疗的方法安抚情绪编码，可以以好奇心与视觉画面联动来做记忆编码的过程，因人是视觉性爬行动物，且好奇心也是人的天性好奇时会主动探索算是翻转式学习的一种，编码是记忆过程。另外你可能对记忆中某一刻的感觉记得很清楚，然而忘记了内容，人或许也是感觉爬行动物。巩固，可
【操作系统-Day 7】程序的“分身”：一文彻底搞懂什么是进程 (Process)？吴师兄大模型操作系统操作系统计算机组成原理进程（Process）python 深度学习大模型人工智能
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
AI产品经理成长记《零号列车》第四集·知识点延伸：一句话指挥 AI 的秘诀，藏在这些 “咒语” 里黑客思维者 AI产品经理养成人工智能提示词工程模型温度安全边界
1.提示词工程（PromptEngineering）：给AI的“精准咒语”，说对了才听话文章里的场景：林一第一次让AI写诗，只说“写一首关于列车的诗”，结果得到“口水诗”；后来加上“藏头词、格式、风格、创造力”四要素，AI立刻写出蒸汽朋克风的五言绝句——这就是提示词工程：把模糊的需求变成AI能理解的“精准指令”。到底是啥？你可以把AI当成“听话但有点笨的助手”。如果你说“帮我带点吃的”（模糊指令）
AI产品经理成长记《零号列车》第四集·Prompt 魔法塔 —— 一句话让 AI 写诗、画图、做表格黑客思维者 AI产品经理养成人工智能大模型LLM 提示词工程
【人物表】林一：胸前别着“零代码初行者”与“数据甜品师”双徽章，徽章边缘的0和1流光偶尔撞在一起，像他此刻既膨胀又发慌的心跳。小北：裹着深紫色斗篷，斗篷边缘绣着二进制星图，腰间悬着“Prompt权杖”——杖头是颗会旋转的水晶球，球内浮动着“精准描述”四个字。莫西：列车长的声音依旧裹着丝绸般的优雅，却在某个尾音处泄出齿轮转动的“咔嗒”声，像藏着未说破的冰冷规则。阿图：猫头鹰升级为“塔灵”，羽毛染上黑
MATC：通过数学推理和图表还原增强视觉语言预训练 AI专题精讲模型加速人工智能 AI技术应用多模态视觉语言
温馨提示：本篇文章已同步至"AI专题精讲"MATC：通过数学推理和图表还原增强视觉语言预训练摘要视觉语言数据，如图表、图形和信息图，在人类世界中无处不在。然而，现有的最先进的视觉语言模型在这些数据上的表现并不理想。我们提出了MATCHA（数学推理与图表去渲染预训练），旨在增强视觉语言模型在联合建模图表/图形与语言数据方面的能力。具体而言，我们提出了几个预训练任务，涵盖了图形解构和数值推理，这些是视
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
3D TOF 安全防护传感器 Laurel Vision 3D TOF 3d 安全计算机视觉
背景3DTOF安全防护传感器是一种先进的传感器技术，主要用于工业自动化、物流仓储、机器人应用等领域。基于3DToF原理，即飞行时间法的传感器，通过测量光脉冲从发射到接收的时间来计算物体与传感器之间的距离，从而获取三维空间信息，实现立体成像。立体安全传感器功能特性：空间安全防护：相比传统二维区域防护，三维立体具有更高安全性和灵活性。高精度：相比激光雷达精度更高，重复精度可达毫米级。简便软件设置
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他