GillianZhu

【论文阅读】从pix2pix到pix2pixHD

pix2pix：Image-to-Image Translation with Conditional Adversarial Networks (CVPR 2017)论文 github
pix2pixHD：High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs (CVPR 2018) 论文 github

前言

许多与图像有关的问题都可以理解为图像翻译问题，即输入图像到输出图像的变换。这些问题的实质都是一样的：从像素映射到像素，非常适合利用GAN来解决问题。

GAN包含generator（生成器，以下简称G）和discriminator（判别器，以下简称D）两个部分，训练有两个步骤：

首先固定G的参数，将生成的图像和真实图像一起交给D，D尽可能地学会区分真假图像并打分

根据D打分的反馈，G进行参数调整，再重新生成图像交给D

在这个循环往复的过程中，D相当于一个损失函数，给G提供梯度更新的方向。

图源： CVPR_2018 pix2pix幻灯片

如上所述，GAN不仅学习到图像与图像之间的映射，还能学习到用于训练这个映射的损失函数，可以惩罚任何输入和目标之前有差异的结构，无需对不同的问题手动制定不同的损失函数，从而能将通用方法应用于各种损失函数原本不同的问题，而且初始设置比专注于特定应用的模型更简单。

但是，对于图像翻译问题，传统GAN存在两个方面的问题：

缺少用户控制
低分辨率和低质量问题

为了改善这两个问题，相应的目标就是：

提高GAN的用户控制能力
提高GAN生成图片的分辨率和质量

pix2pix和pix2pixHD就分别对应这两个目标的实现。

参考：一文读懂GAN, pix2pix, CycleGAN和pix2pixHD(CycleGAN作者朱俊彦博士的线上报告总结)

pix2pix

pix2pix基于cGAN(conditioanl GAN)，为图像翻译问题开发一个通用的框架。
pix2pix需要使用成对的数据进行训练。

cGAN

cGAN与原始GAN的不同之处在于，GAN是学习随机噪声z到输出图像y的映射的生成式模型，而cGAN是学习随机噪声z和条件变量x到输出图像y的映射。

不过，在pix2pix中，作者没有将随机噪声z作为输入的一部分。对于cGAN，在输入足够复杂的情况下，输入可以扮演噪声的角色，因此不需要再引入噪声，而且作者在实验中发现，随着z的改变，模型的输出结果并没有太大的变化。

具体来说，因为原始GAN过于自由，没有用户控制能力，在某种极端情况下，G可能不管输入是什么，都生成相同的能让D打高分的图像。

这与我们想要的结果不符。因此，在作者使用的cGAN中，将G的输入和输出一起给D作为输入，增加指导性的额外条件（ $x$ ），帮助D进行判断。

$x$ 可以是任何信息，比如上图中的边线图，还可以是类别标签等，给GAN增加条件，让D明白好的图像不仅要求看起来“真”，也要与提出的条件相匹配，从而控制G生成与条件相匹配的图像。

参考：台大李宏毅老师课程

Method

本文中，作者使用DCGAN的结构作为G和D的基本结构。

其中G的第i层和第n-i层之间添加残差连接，使其形成类似于U-Net的结构；对于D，仅对一个patch大小范围内的图像部分进行惩罚，形成“PatchGAN”分类器。

DCGAN

DCGAN与传统GAN的不同之处在于

DCGAN的网络是全卷积的，而不是原始GAN中的多层感知机
生成器除最后一层外都加batchnorm，鉴别器则是第一层没加bacthnorm
鉴别器中的激活函数使用的是leaky_relu，负斜率是0.2
生成器中的激活函数使用relu，输出层采用tanh
采用Adam优化算法，学习率是0.0002，beta1=0.5

损失函数

虽然L1或L2损失函数会造成生成图像的模糊，但是已经足够能够捕捉低分辨率的正确特征，因此只需要让GAN的判别器D对高分辨率的结构进行建模，靠L1损失项去实现低分辨率的正确性即可。模型的损失函数如下图所示：
$\lambda$ 是比例系数

Generator

G使用的是DCGAN的结构，加上镜面对称位置的网络层之间的残差连接，形成类似U-Net的结构

增加了残差连接之后，图像的模糊问题大大减轻，更好地保留了原图中的细节。

Discriminator

作者将D的结构命名为PatchGAN，将图像划分成很多个Patch，并对每一个Patch使用D进行判别，最后以整张图上所有patch的loss的平均值为最终结果。实验证明，即使N比图像实际大小小很多，也能取得很好的效果。

pix2pixHD

如果用图形学的方法渲染真实场景的图像，需要对每个部分建模，非常昂贵、耗时。若能从数据中学习一个模型，即可将此过程转化为模型学习和推断，渲染新的场景只需要重新在数据集上训练；用户也可通过语义自定义，无需重新对几何形状、材质、光线建模。

pix2pix baseline

pix2pix存在两个问题：

用GAN很难生成高分辨率的图
高分辨率图中会损失细节

为支持交互语义操作，作者试图在两个方向上扩展模型：

使用实例级别的目标分割信息，将相同类别的不同物体分为不同实例
为同一输入生成多种输出，方便改变物体的外观

此外，作者提出了新的损失函数和新的多尺度G和D，不仅可以使用条件GAN训练高分辨率的图像的过程稳定下来，也可以得到更好的结果。

提高真实性和分辨率

具体来说，作者对结构做出了以下三个部分的改动：

不断进行提纯的G(Coarse-to-fine generator)
多尺度D(Multi-scale discriminators)
对抗学习目标函数

图源：一文读懂GAN, pix2pix, CycleGAN和pix2pixHD(CycleGAN作者朱俊彦博士的线上报告总结)

Generator

将G分为两个子模块：全局 $G_{1}$ 和局部增强 $G_{2}$ 。

全局 $G_{1}$ 操作1024x512大小的图像，局部增强 $G_{2}$ 输出与其接受的输入相比，在宽和高上各扩大两倍的图像。要合成更高分辨率的图像，再往上加局部增强G模块即可

全局 $G_{1}$ 包含三个部分：

卷积前置网络 $G_{1}^{(f)}$
一系列残差块 $G_{1}^{(R)}$
转置卷积后端网络 $G_{1}^{(B)}$

输入的条件信息图大小为1024x512，按顺序穿过三个部分，输出相同大小的图。

局部 $G_{2}$ 包含的三个部分同上。略微不同的是， $G_{2}^{(f)}$ 接受的输入为2048x1024，且为了将 $G_{1}$ 获得的全局信息融合到 $G_{2}$ ， $G_{2}^{(R)}$ 接受的输入为 $G_{2}^{(f)}$ 与 $G_{1}^{(B)}$ 的和。

训练时，先在低分辨率图像上训练残差网络 $G_{1}$ ，再和另一个残差网络 $G_{2}$ 在高分辨率图像上一起fine-tune。

Discriminator

为生成高分辨率的真假图像，D必须有大的感知野。因此须有更深的网络或更大的感知野。但这两个选项都可能会造成过拟合，且需要大量内存。

作者就此提出多尺度D，使用三个有相同网络结构但对不同大小图像进行操作的D，对真假高分辨率图像进行2或4的下采样。对最粗糙的图像（分辨率最小的）进行操作的D有最大的感知野，对图像有更全局的认识，指导G产生全局上一致的图像对最细致的图像（分辨率最大的）进行操作的D专门指导G生成细节。

这让训练提纯G更容易，因为将低分辨率的模型扩大到高分辨率只需要在增加一个额外的D，而无需从头开始训练。若没有多尺度D，生成图中会出现很多重复的图案。

损失函数

D是多尺度的，因此修改GAN的loss部分为一个多任务问题：

在上述loss基础上，因为模型结构中存在多尺度，所以增加一个特征匹配loss，用于稳定GAN的训练。从D的多个层中提取特征，学习匹配真实图像和合成图像的中间表示：

$D_{k}^{(i)}$ ：第k个D的第i层的特征
$N_{i}$ ：每层中总的元素个数
$T$ ：总层数

最后的总loss如上式所示。

下面是对于从语义标签图生成逼真图像的两个优化。

改进输入

现有的图像合成方法只利用语义标签图（semantic label map）：每个像素值代表其归属的目标的类别的图，但无法区分同一类别的不同物体。而实例级的语义标签图通过赋予每个目标唯一的ID弥补这个不足。

如何实现呢？一般来说有三种方法：

直接传入网络
使用one-hot向量
为每个类预先分配固定数量的特征映射

但以上方法都有较明显的缺点，实施起来较为困难。

作者分析，实例图提供的最重要的信息是物体的边界。为了提取该信息，首先计算出实例边界图（Instance boundary map，若某个像素的ID与周围四个像素中的任意一个不同则为1，否则为0）。

将实例边界图与用one-hot向量表示的语义标签图拼接作为G的输入。D的输入是实例边界图，语义标签图，真/假图像在通道上的拼接。

学习实例级别的特征编码

图像合成是一个一对多映射问题(one-to-many)。现有的一对多模型关注图像的颜色、纹理的整体变化，无法解决对图像在物体级别上的控制。作者提出加入额外的低维特征通道作为G的输入。由于特征通道是连续量，理论上可以生成无限个图像。

为了得到低维特征，需要训练一个编码器E，为每个实例生成与ground truth中的目标相对应的低维特征。为了保证在每个实例范围内的特征是一致的，在编码器的输出处加入一个实例级的平均池化层，计算实例的平均特征，然后将平均特征向该实例的所有像素位置传播。

训练好编码器后，在训练图像上的每个实例上跑一遍，记录下得到的特征，接着为每个语义类别的特征进行K均值集簇，每个簇为每个特征编码一个特定的风格，如一条路的材质是沥青还是卵石，这样就给自定义风格提供了方案。在inference阶段，随机选择一个簇作为编码的特征，与标签图拼接，作为G的输入。

与其他模型生成的高分辨率图像比较，该模型生成的图像细节更真实，更清晰。

你可能感兴趣的:(图像处理)

遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
图像处理的作用（6幅图诗）静月园
静月园著2020年1月️4日1自然力出现的图形画面，即无序，又有形。奇妙令人联想无限。好象理石花纹，又类似草木树植。2为何要如此色彩？好奇怪哦！自然的物态鬼斧神工。3孩童们信手涂鸦，但是脑控制了手的动作，所绘画的物体形状代表了孩子们对环境人物的所看，所听，所理解的形状。脑的心理活动影像，被转换成手的动作输出到笔尖的移动动作上，于是我们看到了简单的结构形状图。而对于我们的写作者来说，我们的作家脑内有
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
opencv 之实战项目识别银行卡上的数字 SEVEN-YEARS opencv 计算机视觉人工智能
OpenCV之实战项目：识别银行卡上的数字引言在日常生活中，银行卡的识别是一个常见的需求，特别是在金融领域。本实战项目旨在使用OpenCV库来识别银行卡上的数字。我们将通过模板匹配的方法，结合图像处理技术，来准确识别银行卡上的数字序列。项目准备本项目需要安装Python和OpenCV库。确保已经安装了必要的库，并准备好银行卡图像和数字模板图像。实验素材定义函数importcv2defsort_co
【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
MATLAB车牌定位和识别系统清风明月来几时图像算法处理 matlab 开发语言
有很多方法可以实现MATLAB车牌的定位和识别系统。以下是一种可能的实现步骤：车牌定位：使用图像处理技术（如边缘检测、区域生长或颜色分割）来检测图像中的车牌区域。使用形态学操作来排除不符合车牌形状的区域。对车牌区域进行裁剪或调整大小，以便后续的识别。车牌识别：将车牌图像转换为灰度图像。使用图像处理技术（如二值化、滤波或增强）来减少噪音并突出字符。使用字符分割算法将车牌中的字符分开。使用特征提取方法
MATLAB车牌识别系统清风明月来几时图像算法处理 matlab 开发语言
MATLAB车牌识别系统是一个基于MATLAB开发的用于识别和提取车牌信息的系统。该系统使用图像处理和机器学习算法来实现车牌的定位和字符识别。以下是一个基本的MATLAB车牌识别系统的工作流程：图像预处理：首先，将输入的图像进行预处理，包括灰度化、高斯平滑、边缘检测等操作，以提高后续的车牌定位和字符识别的准确性。车牌定位：在预处理后的图像中，使用形态学运算和边缘检测算法来寻找车牌的位置。这可以通过
直方图匹配（Histogram Matching）姜太公钓鲸233 计算机视觉人工智能机器学习
直方图匹配（HistogramMatching），也被称为直方图规定化（HistogramSpecification）或直方图修正（HistogramEqualization），是一种图像处理技术，用于调整图像的直方图，以使其与某个目标直方图相匹配。目标直方图通常是用户定义的或者是希望获得的期望分布。直方图匹配的目标是改变图像的像素值分布，从而使其在视觉上更接近目标直方图。这对于图像增强、风格迁移
uint8 姜太公钓鲸233 python numpy
无符号8位整数（uint8）是一种数据类型，通常用于表示整数，但它不包括负数，只能表示非负的整数值。它的范围是从0到255，共有256个不同的可能取值。在计算机中，整数数据类型可以分为有符号和无符号。有符号整数可以表示正数、负数和零，而无符号整数只能表示非负的整数。在图像处理中，无符号8位整数通常用于表示灰度图像的像素值。一个像素的灰度值代表了图像中对应点的亮度强度，通常从0（黑色）到255（白色
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
动手学深度学习（pytorch土堆）-03常见的Transforms #include<菜鸡> 深度学习深度学习 pytorch 人工智能
Composetransforms.Compose是PyTorch中的一个函数，用于将多个图像变换操作组合在一起，形成一个变换流水线。这样可以将一系列的图像处理操作整合为一个步骤，便于对图像进行批量预处理或增强。基本用法transforms.Compose接受一个列表，列表中的每个元素是一个变换操作。这些操作会按照给定的顺序依次作用在输入的图像上。Example:>>>transforms.Com
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
数字图像处理（一系列对图像进行处理、分析和改进的技术）编程日记✧ 智能医疗计算机视觉图像处理人工智能
数字图像处理是指对图像进行一系列的数学和算法处理，以增强、分析或理解图像的内容。这些处理包括从基础的像素操作到复杂的高维变换和机器学习模型。1.图像降噪在图像获取和传输过程中，往往会引入噪声。降噪技术用于减少这些噪声，同时尽量保持图像的细节。常见方法有：均值滤波：将像素邻域内的像素值取平均值，从而平滑图像。这种方法简单但可能会模糊边缘。高斯滤波：使用高斯函数为权重对像素进行加权平均，可以更好地平滑
python图像处理的图像几何变换 yava_free 图像处理 python 计算机视觉
一.图像几何变换图像几何变换不改变图像的像素值，在图像平面上进行像素变换。适当的几何变换可以最大程度地消除由于成像角度、透视关系乃至镜头自身原因所造成的几何失真所产生的负面影响。几何变换常常作为图像处理应用的预处理步骤，是图像归一化的核心工作之一[1]。一个几何变换需要两部分运算：空间变换：包括平移、缩放、旋转和正平行投影等，需要用它来表示输出图像与输入图像之间的像素映射关系。灰度插值算法：按照这
OpenCV3最常用的基本操作 HeoLis
OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发，以BSD许可证授权发行，可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及模式识别程序。该程序库也可以使用英特尔公司的IPP进行加速处理。以上是维基百科关于OpenCV的介绍，简单来说它就是处理图
yolov5 +gui界面+单目测距实现对图片视频摄像头的测距毕设宇航 QQ767172261 yolov5 单目测距
可实现对图片，视频，摄像头的检测项目概述本项目旨在实现一个集成了YOLOv5目标检测算法、图形用户界面（GUI）以及单目测距功能的系统。该系统能够对图片、视频或实时摄像头输入进行目标检测，并估算目标的距离。通过结合YOLOv5的强大检测能力和单目测距技术，系统能够在多种应用场景中提供高效、准确的目标检测和测距功能。技术栈YOLOv5：用于目标检测的深度学习模型。OpenCV：用于图像处理和单目测距
Python中cv2 (OpenCV, opencv-python)库的安装、使用方法demo最新详细教程猫头虎 AI人工智能技术专栏 python opencv 开发语言计算机视觉语音识别目标检测神经网络
Python中cv2(OpenCV,opencv-python)库的安装、使用方法demo最新详细教程文章目录Python中cv2(OpenCV,opencv-python)库的安装、使用方法demo最新详细教程摘要引言正文OpenCV库概述安装OpenCV环境要求安装命令验证安装基础使用方法读取和显示图像图像处理示例❓常见问题解答小结参考资料表格总结总结和未来展望温馨提示摘要本文全面介绍了Pyt
c#视觉应用开发中如何使用Emgu CV在C#中进行图像处理？ openwin_top C#视觉应用开发问题系列 c#图像处理开发语言
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位EmguCV是OpenCV的.NET包装器，可以让开发者在.NET语言（如C#）中使用OpenCV的功能进行图像处理。在进行图像处理时，EmguCV提供了丰富的API可以使用。以下是使用EmguCV
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他