nappingman

CVPR2022：Blended Diffusion for Text-driven Editing of Natural Images

CVPR2022：Blended Diffusion for Text-driven Editing of Natural Images

Paper:https://openaccess.thecvf.com/content/CVPR2022/html/Avrahami_Blended_Diffusion_for_Text-Driven_Editing_of_Natural_Images_CVPR_2022_paper.html

Github:https://github.com/omriav/blended-diffusion

0. Conclusion

首先这篇文章我最开始看的时候有点误解了，当时没了解Guided Diffusion，以为每一步得到的损失是用来优化扩散模型UNet参数的；组会讨论后觉得这篇工作的结果在生成的区域始终有噪声，看代码之后才发现这篇工作其实是不需要训练的，基于OpenAI的Guided Diffusion预训练模型，所有的损失都作为扩散模型调整均值的一种指导；当时与这篇工作同期有GLIDE，效果明显更好，能发出来只能说是点子新吧。
后来调代码，越发觉得这篇文章没工作量，结果的瑕疵也没做优化；之后偶然发现这仨作者在六月左右已经发了Latent Blended Diffusion，有兴趣可以看看。

1. Motivation

真实图像的编辑工作主流是基于GAN模型，通过GAN Inversion实现；

首先本身基于GAN的方法，通常在训练的时候就将图像限制在了某个特定的domain中；

其次GAN　Inversion的实验中表明，此方法是在重建准确性和编辑性之间需要做出取舍。

2. Goal

将编辑操作限制在某个固定区域，实现对图片的编辑，而且未编辑的部分应该与原图尽可能保持一致。

3. Contribution

１）提出了第一个使用文本驱动的，基于区域编辑真实的、多样的图像的方法：

２）保证了未改变的区域被完美保存；

4. Method

输入：给定图像ｘ，引导的文本提示ｄ，二进制掩码ｍ

输出：修改的图像 $\hat{x}$

DDPM

从 $X_{0} \rightarrow X_{T}$ ，每一步可通过加噪获得，通过递推可得下式：
$q(x_t|x_{0})=\mathcal{N}(\sqrt{\bar{\alpha}_t}x_{0},(1-\bar{\alpha}_t)\mathbf{I})$
即：
$x_t = \sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon$

Extending augmentations

在扩散过程中，由 $D_{CLIP}$ 损失指导的在图像像素上进行的所谓优化，可能会使得评分降低，但并不会在图像上产生高级的语义变化。

作者发现使用简单的数据增强技术便能减缓这个问题，在扩散过程的每个步骤，并不直接对于从 $x_t$ 估计得到的 $\hat{x}_0$ 计算CLIP损失；而是先对 $\hat{x}_0$ 进行增强操作：

class ImageAugmentations(nn.Module):
		...

        self.augmentations = nn.Sequential(
            K.RandomAffine(degrees=15, translate=0.1, p=p, padding_mode="border"),  # type: ignore
            K.RandomPerspective(0.7, p=p),
        )
		...
        augmented_batch = self.augmentations(resized_images[batch_size:])
        updated_batch = torch.cat([non_augmented_batch, augmented_batch], dim=0)
		...
        return updated_batch

最终所得到的增强结果：

updated_batch.shape = [augmentations_number, 3, ouput_size, output_size]

在这些增强结果上计算平均梯度用于更新参数。

下图对比了有无增强操作的编辑结果：

Background preserving blending

背景损失：
$\mathcal{D}_{bg}(x_1,x_2,m)=d(x_1\odot(1-m),x_2\odot(1-m))$
其中：
$d(x_1,x_2) = \frac{1}{2}(MSE(x_1,x_2)+LPIPS(x_1,x_2))$
$\mathcal{D}_{bg}$ 这是用来保护掩码之外区域的一致性。这是因为局部的 $\mathcal{D}_{CLIP}$ 仍会作用到全局；简单的做法是将最终结果使用掩码与输入图片结合一下，作者并没有采取这种粗暴的做法。

而是受前人工作：Burt and Adelson [7] show that two images can be blended smoothly by separately blending each level of their Laplacian pyramids. 启发，作者提出在扩散过程的每一阶段都执行blending操作，详细见Text-driven blended diffusion。简要概括，作者通过在每个扩散阶段都进行融合操作，使得最终结果中mask内外两区域的内容更为贴切（当然最终还是使用原图中的mask之外的部分）。

Local CLIP-guided diffusion

作者希望使用预训练CLIP模型作为扩散模型中的约束，从而使得编辑区域的图像能够与文本提示一致；

首先，CLIP模型训练使用的数据集为真实的图像文本对（其中图像记为 $x_0$ ）；但是在扩散模型逆过程中，逐步产生的图片（记作noisy latent $x_t$ ）并不能够称之为真实图像。

所以，如果想用CLIP作为约束，就需要实现从 $x_t$ 到 $x_0$ ，也就是估计位于扩散逆过程的任何一阶段所产生的中间产物 $x_t$ ，所对应的真实图像 $x_0$ 到底长啥样。

在DDPM中，已知 $x_0$ ，可以推导得到任意阶段的 $x_t$ ；那借助这个式子同样可以得到 $x_0$ 关于 $x_t$ 的表达式：
$\hat{x}_0=\frac{x_t}{\sqrt{\bar{\alpha}_t}}-\frac{\sqrt{1-\bar{\alpha}_t}\varepsilon_{\theta}(x_t,t)}{\sqrt{\bar{\alpha}_t}}$
既然如此，便可引入CLIP作为损失函数：
$\mathcal{D}_{CLIP}(x,d,m)=D_c(CLIP_{img}(x\odot m),CLIP_{txt}(d))$
其中 $CLIP_{img}$ ， $CLIP_{txt}$ 分别表示CLIP的两个编码器，其输出均为512维度向量； $D_c$ 为余弦距离；m为掩码；

整个过程伪代码如下：

for all t from k to 1 do

使用扩散模型预测噪声分布 $\mathcal{N}(\mu,\sum)$
得到估计的 $\hat{x}_0$
进行数据增强得到 $\hat{x}_{0,aug}$
计算 $D_{CLIP}$ 和 $D_{bg}$
使用梯度作为指导修改噪声分布的均值，得到 $x_{t-1}$

其中 $\lambda$ 为背景保护的权重：

可以看到就算设到10,000，右边的狗子还是和原图有差异的。

Text-driven blended diffusion

为了解决背景与编辑区域不贴的问题，作者提出了在每一个扩散阶段都加入blending操作的方法。

作者的想法是，在 $x_0\rightarrow x_T$ 的过程中，每一次扩散所产生的图片 $x_t$ (0<=t<=T)，都与一个mainfold相对应，而且随着t增大，所对应的mainfold里面的图片的噪声就越多。

可以想象一下，每次扩散产生的图像 $x_t$ ，都是属于 $mainfold_t$ 的，这个t不一样，就说明图片的noise程度不一样， $x_0$ 最有序、 $x_T$ 最混乱。所以每一次的去噪扩散过程，都是将一个noisy image投影到一个噪音更少的mainfold上。

作者提出，把去噪扩散过程每一阶段产生的前景（mask内容），和一个与其属于同一mainfold的背景（mask外内容），通过掩码混合起来。

如何获得对应 $mainfold_t$ 的背景图片呢？
$x_{t,bg} = \sqrt{\bar{\alpha}_t}x_0+\sqrt{1-\bar{\alpha}_t}\varepsilon$

看起来就像扩散模型的两个阶段在同时进行。

整个过程伪代码如下：

for all t from k to 1 do

使用扩散模型预测噪声分布 $\mathcal{N}(\mu,\sum)$
得到估计的 $\hat{x}_0$
进行数据增强得到一组 $\hat{x}_{0,aug}$
在增强图片组上计算平均梯度 $_{text}$
使用梯度作为指导修改噪声分布的均值，得到 $x_{fg}$
估计 $x_{bg}$
混合得到 $x_{t-1}$

注意返回的是 $x_{-1}$ ，因为最后需要用到 $x_0$ 得到原始的背景。

对于相同输入的不同结果，作者使用 $\mathcal{D}_{CLIP}$ 作为衡量标准（不做数据增强）。

5. Experiment

Background Preserve

效果好的咱不说，生成的区域很自然，但是总感觉还没完全扩散开，掩码区域还有很多像素点比较明显。

用户测试也都觉得好——真实、背景保护、文本匹配：

由于PaintByWord这项工作没有开源，刚刚只是用PaintByWord里面的例子进行了一下对照，下面进行了更多对照：

Multiple outcomes

输出多样性

Scribble-guided editing

根据用户提供的粗糙图像进行编辑

Text-guided image extrapolation

Limitations

推理时间慢，半分钟推理一张图片；
对于输出结果的排序方法，并没有考虑整张图片，而是只对编辑区域内进行评分，导致像下面这种失败案例（1）：

继承了CLIP的缺点：typographic attacks，应该就像DALLE-2无法分清”红色的书在黄色的桌子上“这一类问题；

你可能感兴趣的:(计算机视觉)

使用BLIP模型生成图像描述的可查询索引 dgay_hua python 计算机视觉开发语言
在本篇文章中，我们将介绍如何使用预训练的SalesforceBLIP图像描述模型，生成一个可查询的图像描述索引。我们将使用ImageCaptionLoader来加载图像，并通过一系列步骤生成查询索引。使用示例代码进行演示，帮助读者理解和实践。技术背景介绍随着计算机视觉技术的发展，图像描述生成成为了重要的研究领域。通过对图像内容自动生成文字描述，可以大大提高对图像信息的检索和管理效率。Salesfo
深度学习模型中的知识蒸馏是如何工作的? c++服务器开发深度学习人工智能
深度学习模型在多个领域，特别是计算机视觉和自然语言处理中，已经取得了革命性的进展。然而，随着模型复杂性和资源需求的不断攀升，如何将这些庞大模型的知识浓缩为更紧凑、更高效的形式，成为了当前研究的热点。知识蒸馏，作为一种将知识从复杂模型转移到更简单模型的策略，已经成为实现这一目标的有效工具。在本文中，我们将深入探究深度学习模型中知识蒸馏的概念、原理及其在各领域的应用，以期为读者提供一个全面而严谨的视角
Python从0到100（四）：Python中的运算符介绍(补充) 是Dream呀 python java 数据库
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python从0到100（三十五）：beautifulsoup的学习是Dream呀 Dream的茶话会 python beautifulsoup 学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
《深入浅出AI》前言知识：深度学习基础总结 GoAI 深入浅出AI 人工智能深度学习机器学习 cnn rnn 生成对抗网络神经网络
个人主页:GoAI|公众号:GoAI的学习小屋|交流群:704932595|个人简介：掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与人工智能知识分享。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成
OpenCV的卡尔曼滤波器：实现和应用雪域Code opencv 人工智能计算机视觉 C/C++
OpenCV的卡尔曼滤波器：实现和应用卡尔曼滤波器（Kalmanfilter）是一种最优估计的算法，在众多领域有着广泛的应用，如控制系统、通信系统、机器人等。OpenCV作为一个计算机视觉库，也提供了对卡尔曼滤波器的支持。本文将介绍OpenCV中卡尔曼滤波器的基本原理、实现方法以及在图像处理中的应用。一、卡尔曼滤波器简介卡尔曼滤波器是一种用于状态估计和信号滤波的算法，主要针对线性、高斯分布的系统。
生成式AI如何重塑计算机视觉：自监督学习与稀疏计算的革命 ProgramHan 人工智能计算机视觉学习
生成式AI如何重塑计算机视觉：自监督学习与稀疏计算的革命引言：从“数据饥渴”到“智能涌现”传统计算机视觉高度依赖海量标注数据，但现实场景中标注成本高昂且覆盖范围有限。例如，医疗影像标注需专业医生耗时数月，工业缺陷检测需针对特定产线定制数据集。生成式AI（如Diffusion模型、自监督学习）的崛起，正在打破这一瓶颈——通过更高效的训练范式与计算架构，让机器学会“从无标注数据中看见世界”。（示意图：
【深度学习】计算机视觉（CV）-目标检测-DETR（DEtection TRansformer）—— 基于 Transformer 的端到端目标检测 IT古董深度学习人工智能深度学习计算机视觉目标检测
1.什么是DETR？DETR（DEtectionTRansformer）是FacebookAI（FAIR）于2020年提出的端到端目标检测算法，它基于Transformer架构，消除了FasterR-CNN、YOLO等方法中的候选框（AnchorBoxes）和非极大值抑制（NMS）机制，使目标检测变得更简单、高效。论文：End-to-EndObjectDetectionwithTransforme
机器学习:支持向量机小源学AI 人工智能支持向量机机器学习算法
基本概念1.什么是支持向量机支持向量机是一种二分类模型,在机器学习、计算机视觉、数据挖掘中广泛应用,主要用于解决数据分类问题,它的目的是寻找一个超平面对样本进行分割,分割的原则是间隔最大化(也就是数据集的边缘点到分界点的距离d最大)最终转化成一个凸二次规划问题来求解。通常的SVM用于二元分类问题,对于多元分类问题可将其分解为多个二元分类问题,在进行分类。2.最优分类边界什么才是最优分类边界?什么条
基于图像处理的裂缝检测与特征提取机器懒得学习图像处理计算机视觉人工智能
一、引言裂缝检测是基础设施监测中至关重要的一项任务，尤其是在土木工程和建筑工程领域。随着自动化技术的发展，传统的人工巡检方法逐渐被基于图像分析的自动化检测系统所取代。通过计算机视觉和图像处理技术，能够高效、精确地提取裂缝的几何特征，如长度、宽度、方向、面积等，从而为工程质量评估提供数据支持。本文将详细介绍一段用于裂缝检测与特征提取的Python代码，重点讲解其实现的核心算法与关键步骤，分析其应用场
利用 OpenCV 进行棋盘检测与透视变换萧鼎 python基础到进阶教程 opencv 人工智能计算机视觉
利用OpenCV进行棋盘检测与透视变换1.引言在计算机视觉领域，棋盘检测与透视变换是一个常见的任务，广泛应用于摄像机标定、文档扫描、增强现实（AR）等场景。本篇文章将详细介绍如何使用OpenCV进行棋盘检测，并通过透视变换将棋盘区域转换为一个标准的矩形图像。我们将基于一段Python代码进行分析，代码的主要任务包括：读取图像并进行预处理（灰度转换、自适应直方图均衡化、去噪）检测边缘并提取棋盘区域计
CVPR2023 Highlight | ECON：最新单图穿衣人三维重建SOTA算法 3Ｄ视觉工坊 3D视觉从入门到精通算法 SLAM 自动驾驶 3D视觉
作者：宁了个宁|来源：计算机视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf。添加微信：dddvisiona，备注：三维重建，拉你入群。文末附行业细分群。图1所示。从彩色图像进行人体数字化。ECON结合了自由形式隐式表示的最佳方面，以及明确的拟人化正则化，以推断高保真度的3D人类，即使是宽松的衣服或具有挑战性的姿势。0.笔者个人体会这篇文章讨论了单图像的穿着人类重建问题。隐式方
商汤绝影端到端自动驾驶的迭代优化 AGI大模型与大数据研究院计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
自动驾驶,端到端,迭代优化,深度学习,感知,规划,控制,模型训练,数据增强,模型微调1.背景介绍随着人工智能和计算机视觉技术的飞速发展，自动驾驶汽车从科幻走进了现实。商汤科技推出的绝影端到端自动驾驶系统，就是其中的佼佼者。本文将深入剖析商汤绝影端到端自动驾驶系统的迭代优化过程，帮助读者理解其背后的技术原理和架构设计。2.核心概念与联系商汤绝影端到端自动驾驶系统的核心架构如下：graphLRA[感知
使用OpenCV在Visual Studio上编译x86或x64平台的应用程序程序世界航海 opencv visual studio 人工智能编程
OpenCV是一个广泛使用的计算机视觉库，它提供了丰富的图像处理和计算机视觉算法。如果你想在VisualStudio上编译一个使用OpenCV的应用程序，并且需要针对特定的x86或x64平台进行优化，那么本文将为你提供一些指导。以下是在VisualStudio中编译x86或x64平台上的OpenCV应用程序的步骤：步骤1：安装VisualStudio和OpenCV首先，确保你已经安装了最新版本的V
探秘 DeepSeek R1 模型：跨越多领域的科技奇迹，引领智能应用新浪潮羑悻的小杀马特. AI学习科技 deepseek AI大模型
DeepSeekR1模型功能强大，应用广泛。在自然语言处理、计算机视觉、推荐系统和医疗等领域都能发挥作用。本文介绍了其在各领域的应用场景和代码示例，助你深入了解它。目录编辑一、本篇背景：二、DeepSeekR1模型概述：2.1模型特点：2.2技术原理：三、自然语言处理领域的应用：3.1文本分类：3.1.1应用场景：3.1.2代码演示：3.2情感分析：3.2.1应用场景：3.2.2代码演示：3.3机
OpenCV 简介奇点创客 OpenCV
OpenCV（OpenSourceComputerVisionLibrary，开源计算机视觉库：http://opencv.org）是一个开放源代码库，其中包含数百种计算机视觉算法。本文档介绍所谓的OpenCV2.xAPI，与基于C的OpenCV1.xAPI相比，该API本质上是一套C++API（自OpenCV2.4发行以来，不推荐再使用CAPI，并且不使用“C”编译器进行测试）。OpenCV具有
本地部署DeepSeek模型技术指南 Evaporator Core apache Doris 人工智能 deepseek
DeepSeek模型是一种先进的深度学习模型，广泛应用于自然语言处理、计算机视觉等领域。为了充分利用DeepSeek模型的强大功能，许多开发者和研究人员选择在本地环境中部署该模型。本文将详细介绍如何在本地环境中部署DeepSeek模型，包括环境准备、模型下载、配置、优化以及代码实现等内容。通过本文的指导，您将能够在本地成功部署并运行DeepSeek模型。1.环境准备在部署DeepSeek模型之前，
计算机视觉如何快速入门? Frunze软件开发日常问题回答开发语言计算机视觉工业异常检测论文
目录1.明确研究方向2.学习基础知识3.掌握核心算法4.实践项目5.阅读文献6.复现经典论文7.改进与创新总结计算机视觉（ComputerVision）是一个复杂且广泛的领域，尤其是工业异常检测这种特定方向，需要结合理论知识和实践技能。以下是一些具体的、可操作的建议，也是个人实际路径的一个总结，希望可以帮助到你快速入门并完成一篇论文。1.明确研究方向-工业异常检测的核心是识别图像或视频中的异常区域
YOLO系列版本迭代：从YOLOv1到YOLOv11的技术演进金外飞176 技术前沿目标跟踪人工智能计算机视觉
YOLO系列版本迭代：从YOLOv1到YOLOv11的技术演进YOLO（YouOnlyLookOnce）系列目标检测算法自2016年首次发布以来，凭借其高效的实时检测能力，迅速成为计算机视觉领域的热门研究方向之一。本文将详细回顾YOLO系列从v1到v11的版本迭代过程，分析每个版本的技术改进、性能提升以及应用场景。1.YOLOv1：开创性的单阶段检测算法YOLOv1是目标检测领域的一个重要里程碑，
推荐学习图像处理的入门书：《Python图像处理实战》天飓学习感悟学习图像处理 python
《Python图像处理实战》是一本全面介绍Python图像处理技术的实用指南，是由人民邮电出版社于2020年12月出版。这本书的作者桑迪潘·戴伊是一位兴趣广泛的数据科学家，主要研究机器学习、深度学习、图像处理和计算机视觉。在《Python图像处理实战》一书中，作者主要介绍了如何用Python图像处理库（如PIL、python-opencv、Scipy等），机器学习库（scikit-learn）和深
RK3588+昇腾AI｜40TOPS算力AI盒子设计方案 ARM+FPGA+AI工业主板定制专家 AI盒子瑞芯微人工智能
综合视频智能AI分析系统介绍以计算机视觉技术为基础，AI赋能千行百业，依托人工智能视觉分析技术以及强大的“端+边”算力支撑，实时分析烟火，入侵等事件，同时结合云上预警业务平台，实现事件发现、预警、处置全流程闭环。设计架构系统架构视频智能识别系统自下而上分为“感知层、网络层、支撑层、应用层”四层，系统逻辑架构如下图所示：感知层对接前端感知设备，如视频监控、NVR、和其他物联感知设备，对重要通道和场所
计算机视觉中图像的基础认知全栈你个大西瓜人工智能计算机视觉人工智能图像基本属性 RGB 三通道彩色单通道灰度图像 OpenCV Matplotlib
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络一、图像/视频的基本属性在计算机视觉中，图像和视频的本质是多维数值矩阵。图像或视频数据的一些基本属性。宽度（W）和高度（H）定义了图像的像素分辨率，单位通常是像素。例如，一张1920x1080的图像有1920列（
【深度学习】计算机视觉（CV）-图像分类-ResNet（Residual Network，残差网络） IT古董深度学习人工智能深度学习计算机视觉分类
ResNet（ResidualNetwork，残差网络）是一种深度卷积神经网络（CNN）架构，由何恺明（KaimingHe）等人在2015年提出，最初用于ImageNet竞赛，并在分类任务上取得了冠军。ResNet的核心思想是残差学习（ResidualLearning），它通过跳跃连接（SkipConnections）解决了深度神经网络训练中的梯度消失和梯度爆炸问题，使得非常深的网络（如50层、1
基于深度学习YOLOv10的PCB板缺陷检测系统（附完整资源+PySide6界面+训练代码）人工智能_SYBH 深度学习 YOLO 人工智能目标检测 python
引言：在现代制造业中，电子元件和PCB（印刷电路板）是非常重要的基础设施。PCB缺陷检测是生产过程中至关重要的一步。传统的缺陷检测方法主要依靠人工检查，这不仅效率低，而且容易受到人眼疲劳的影响。随着深度学习技术的不断发展，基于深度学习的自动化缺陷检测已成为研究的热点，尤其是在计算机视觉领域。YOLO（YouOnlyLookOnce）系列算法凭借其高速和高精度的优势，成为了目标检测领域的佼佼者。本文
景联文科技数据处理平台：支持高质量图像标注服务景联文科技人工智能科技计算机视觉
图像标注是计算机视觉领域中不可或缺的一环，它通过为图像添加标签来帮助机器学习算法理解图像内容。这一过程对于创建高质量的训练数据集至关重要，使得AI模型能够准确地识别和分类现实世界中的物体。常见的图像标注类型：边界框标注：这是最常用的标注方式之一，通常用于物体检测任务。通过绘制矩形框来确定图像中目标物体的位置，可以是二维或三维形式。分割标注：包括语义分割（同一类别的所有实例被视为整体）和实例分割（每
从养殖场到科技前沿：YOLOv11+OpenCV精准计数鸡蛋与鸡星际编程喵 Python探索之旅 YOLO opencv 人工智能 python 目标检测计算机视觉
前言谁能想到，鸡蛋和鸡的计数居然能变成一项高科技活儿？想象一下，早上去市场，卖家把鸡蛋摔得稀巴烂，结果鸡蛋滚得到处都是——难道你就得一个个捡回来数？还得小心别弄错？可是，你又不是超人！别担心，科技来帮忙！今天的主角是YOLOv11和OpenCV，它们是计算机视觉领域的两位大佬，专门为你解决这一难题。无论是鸡蛋还是鸡，它们都能精准识别，数得清清楚楚。不信？那我们就一起去看看怎么用这对“黄金搭档”解决
OpenCV及基本用法 m0_74823683 opencv 人工智能计算机视觉
一.OpenCV介绍1.OpenCV的全称是OpenSourceComputerVisionLibrary，是一个开放源代码的计算机视觉库。OpenCV是最初由英特尔公司发起并开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用，现在美国WillowGarage为OpenCV提供主要的支持。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序，目前在工业界以及科研领域广泛采用。
计算机视觉：COCO数据集 00&00 计算机视觉深度学习人工智能计算机视觉人工智能
COCO（CommonObjectsinContext）是一个广泛使用的计算机视觉数据集，主要用于图像识别、物体检测、分割和关键点检测等任务。以下是对COCO数据集的详细介绍，包括其特点、组成部分以及在计算机视觉中的应用。一、COCO数据集的特点1.规模庞大COCO数据集包含超过30万张图像，其中超过20万张图像有注释。这些图像来自不同的场景和对象，使得数据集具有广泛的代表性。2.丰富的标注信息物
2025年大模型与Transformer架构：技术前沿与未来趋势报告和老莫一起学AI transformer 架构深度学习人工智能产品经理学习大模型
_“欧米伽未来研究所”关注科技未来发展趋势，研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。在人工智能的宏大版图中，Transformer架构无疑是一颗璀璨的明星。它的出现，彻底改变了自然语言处理、计算机视觉等诸多领域的发展轨迹。《2025年大模型与Transformer架构：技术前沿与未来趋势报告》深入剖析了Transformer架构的
AI 大模型创业：如何利用市场优势？ SuperAGI2025 计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI大模型创业：如何利用市场优势？1.背景介绍随着人工智能技术的不断发展，大模型（LargeModels）在商业化应用中日益受到关注。大模型是指在特定领域中应用广泛、参数量巨大的神经网络模型，如BERT、GPT-3、DALL-E等。这些大模型通过在大规模数据集上进行预训练，具备强大的泛化能力和适应性，能够广泛应用于自然语言处理（NLP）、计算机视觉（CV）、生成对抗网络（GAN）等多个领域。然而，
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他