阿里巴巴淘系技术团队官网博客

CVPR论文解读 | 弱监督的高保真服饰模特生成

本文在学术界率先提出，使用深度对抗生成网络拟合真实世界穿衣结果分布，设计投影算子来将服饰与人体粗略对齐结果投影至真实世界穿衣结果分布中，将此投影的结果作为虚拟试衣的预测结果。

虚拟试衣技术，是指由人物图片与服饰图片生成人物穿着该服饰图片的技术。随着互联网电商行业的发展，用户在线体验自身试衣效果的需求越来越旺盛，工业界对先进虚拟试衣技术也越发急需。然而，目前已有的传统虚拟试衣技术无论在效果上，还是实现方法的成本上都不尽令人满意。传统虚拟试衣技术大多深度依赖计算机图形学，通过物理建模仿真服饰形变过程，来渲染服饰穿着到人体的结果。服饰的建模通常通过上千乃至上万个精细的三角剖分来形成，然后使用弹簧质点系统计算这些三角剖分的形变以渲染服饰的形变。这样的过程在物理建模上极其复杂，因为服饰穿在人体上产生的形变并不由某一种明确的力场所引导，并且服饰的材质、款型对形变结果的影响极其难以统一建模。同时，这一过程所需的计算量也是相当庞大的。多数现有方法使用成对数据，即人物未穿着目标衣服与人物穿着目标的衣服的图片对，来训练一个神经网络预测引导三角剖分的力场。由于真实世界物理规则的复杂性，这样的方法往往存在严重的过拟合与极低的鲁棒性，当测试集与训练集稍有差异，结果便会大相径庭，严重限制了虚拟试衣算法在工业场景中的应用。同时，成对训练数据的收集是极其昂贵的，也几乎不可能大规模的在百万、亿万的量级收集，这使得这类方法难以在大规模场景中应用。在实践中，广大的中小型服饰经销商既无力提供3D服饰数据，又不可能构造大量成对训练数据针对自己售卖的商品类型进行训练，这导致已有方法暂时很难适应他们的现实需求。

图1：服饰模特图片自动生成示例

然而，在真实世界中，人类的大脑也能预测试穿衣服的结果，这种预测并不基于复杂的物理规则建模，而是更多的基于生活经验。通常，有经验的消费者将衣服粗略的对齐到自己的四肢，然后通过镜子中的影像就可以估计出穿着的效果。在这一过程中，人脑依据自己的大量生活中试穿的经验，根据衣服与四肢粗略的对齐关系，就可以“想象”出实际穿着的结果。这一过程并不依赖于复杂的物理公式演绎，而更接近一种在概率分布上的近似---人脑自动寻找在真实世界穿衣结果的分布中，与当前在镜子中看到的衣服与四肢粗略对齐结果最为接近的样本点。

受此启发，本文在学术界率先提出，使用深度对抗生成网络拟合真实世界穿衣结果分布，设计投影算子来将服饰与人体粗略对齐结果投影至真实世界穿衣结果分布中，将此投影的结果作为虚拟试衣的预测结果。首先，我们使用大量廉价的人物图片来训练一个生成对抗网络，这一网络能学习到真实世界中人们穿衣的结果分布。使用廉价的人物图片大大降低了训练成本，因为相比传统算法所需的成对训练数据，单独的人物图片是非常容易收集的。而后，我们设计了一个三层投影算子，将人物与衣服粗略对齐的结果投影到之前训练的对抗生成网络的生成样本空间中与此粗对齐结果最近的样本点。由于此样本点属于与训练的对抗生成网络的生成空间，因此它必然具备高清晰度、高逼真度，并符合真实世界的穿衣风格；又由于此样本点是距离粗对齐结果最近的点，其必然包含了最大量的原始人物和服饰的信息，包括人物的姿势、身材、肤色，服饰的款型、颜色、纹理和图案。显然，这一结果是一个合理的虚拟试衣预测结果。这一方法仅需要少数对服饰属性，如袖型、领型、服饰种类、衣长等的标注，这些标注在现实场景中都是易于获取的。因此，本文所提出的算法具有较大的潜在应用前景和商业价值。

同时，这一技术路线最大限度的规避了对复杂物理形变规则的依赖，从而达到1）摆脱了传统方法对昂贵的成对训练数据（同一模特未穿给定服饰与穿上给定服饰）的依赖，只需要收集成本极低的无监督数据，从而使得大规模的训练试衣算法成为可能；2）显著的提高了试衣结果的清晰度与逼真度，以及服饰图案花纹的保真度，远远超越同期SOTA算法；3）显著提高了对复杂衣服类型的鲁棒性，比如大衣、外套、连衣裙等，而传统方法大多只在简单衣物如T恤，衬衫等上有较好的效果。同时，这一技术路线也率先探索了，回避形变规则，完全基于深度对抗生成网络来进行虚拟试衣的技术路线，证明了虚拟试衣技术的发展不必依赖于代价昂贵的形变算法，具有重要的学术意义。

背景

已有的虚拟试衣方法可以分为两类：基于3D建模的试衣方法与基于2D图像的试衣方法。由于基于3D建模的试衣方法需要搜集复杂的3D数据进行渲染，基于2D图像的方法目前更为流行。多数已有的基于2D图像的试衣方法将虚拟试衣分成两步：一个服饰形变步与一个图像融合步。在服饰形变步，算法通过TPS等参数化形变算法预测服饰传到人体上的形变过程，而后形变后的服饰在图像融合步融合进原始模特图像中形成试衣结果。这一过程涉及到学习服饰形变中的复杂物理规律，因此往往需要大量的成对训练数据（服饰，模特穿着此服饰）来进行监督训练。同时，由于物理规则的复杂性，这样的监督训练在数据不足时容易产生过拟合，因而泛化性能较差。往往数据集发生变化时，原有的网络就不再有效，产生非常扭曲失真的结果。另一类基于2D图像的试衣方法依据StyleGAN的属性解耦，将服饰视为一种属性，从模特身上恢复出这种属性。然而，对于特定的服饰图案，比如文字、符号、图画，StyleGAN所存储的属性中显然无法包含这些复杂的高频信息，因此这类方法在处理服饰图案时往往无法精确重建。

本文所提出的算法通过三层不同粒度的投影算子，由粗略到精细的重构出服饰的类型、款式，局部语义（纹理、褶皱等），以及精确图案。即回避了直接建模复杂形变规则所带来的成对训练数据需求，又能高清晰度的重构图案的细节纹理。从而首次达成了商业化落地的两个基础条件：控制成本与高保真。

方法

图2：方法框架

我们首先将服饰从服饰白底图中裁剪出，并通过人体的四个关键点与模特身躯对齐得到粗对其图（a）（如果服饰涉及长袖，则会额外增加四个袖子关键点，并通过双调和形变对齐袖子与人的胳膊）。这一步作为算法的预处理输入。输入的粗对其图首先通过一个预训练的投影网络投射到StyleGAN的隐空间中，得到第一次投影点（b）。这次投影将重构出服饰的高阶语义，如颜色，基本款式，以及模特的身材、姿势等。而后，从第一次投影点（b）开始，我们通过投影梯度下降法求解其邻域内一个能更好重构服饰局部意义的隐变量，作为语义搜寻的结果（b）。最后，我们通过优化生成器的部分参数，获得一个能精确重构服饰图案的参数点，以此来生成最终穿衣结果，这一步称为图案搜寻（c）。图案搜寻结果即为算法输出结果。

图2简述了我们的算法基本框架。算法由四步骤构成，一个粗对其的预处理输入，以及后续的三层次语义搜寻。如前文所述，此过程是对人“想象试衣结果过程”的一个模仿。人在试穿衣物时，会将衣服的关键点与自身的关键点对齐，然后想象实际试穿的结果。粗对其模仿的就是人将衣服与自身关键点对齐的步骤，而后的三层次语义搜寻，则是模仿人依据自身经验想象穿衣结果的过程。

（a）：粗对齐

我们首先通过预训练的服饰parsing网络将服饰从服饰白底图中裁剪出来。然后通过预训练的服饰关键点与人体关键点模型，简历四个服饰关键点与人体关键点的对应关系。通过这一对应关系，我们可以求解一个仿射变换，将服饰的四个关键点与人体的四个关键点对齐。由此得到了粗对齐结果。特别的，当服饰为长袖衣服时，单纯的仿射变换无法对齐袖子与人的手臂，必须要使用弹性形变。因此我们在此时额外采集袖子上的四个关键点与人手臂的四个关键点，进行双调和形变（BBW形变）。以使得服饰袖子与人手臂也保持大致对齐。

（b）：投影步

我们在大量搜集到的无监督服饰模特数据上训练了一个StyleGAN与一个对应的投影子（Projector）。投影子的作用是将给定图片投影到StyleGAN的隐空间，并获得一个大致能重构出给定图片的隐变量。与一般的GAN inversion算法不同，投隐子会对输出进行截断，从而保证所求得得隐变量一定出于StyleGAN隐空间得高密度区域，以此获得一个对后续搜索性质友好得点。

（c）：语义搜寻

获得了投影点后，我们需要精确重构服饰得语义，包括服饰得袖子款式，行政，纹理，领口款式等。这里我们通过求解如下限制最优化问题来获得语义搜寻结果：

这里W是一个预定义图像mask，他通过简单得逻辑运算（图3）获得我们需要在语义搜寻中重点关注得区域，是预处理得到得粗对齐输入，G和D分别是StyleGAN得生成与鉴别器，R是预训练得服饰属性分类器得最后一层特征输出，而V是在ImageNet上预训练得VGG网络得最后一层卷积输出。C是上一步得到得投影点附近得一个球行邻域，用以约束搜索过程位于StyleGAN得高密度隐空间区域。求解时，我们将w得初始值设置为上一步求得的投影点，并使用投影梯度下降法（Projected Gradient Descent）。

图3：mask W的计算方式

（d）图案搜索：

语义搜素是在StyleGAN的隐空间完成的，因此语义搜索的结果时StyleGAN中已经存在的信息。而服饰的具体图案，如文字，符号，图画等，不可能预先存在于StyleGAN之中，因为这些极其特别的高频信息大概率也没有出现过在StyleGAN的训练数据之中。因此，必须使用更为广阔的空间才能搜索出这些信息。这里我们使用了StyleGAN生成器的参数空间。如果给与数据集，StyleGAN生成器理论上可以生成任何东西。因此，生成器的参数空间必然包含了能生成具体图案的参数点。依据此，我们在参数空间中对服饰具体图案进行重构，即求解如下问题

定性比较

我们与三个监督训练的SOTA算法进行比较，分别是ACGPN，VITON-HD，与PF-AFN。值得注意的是，这三个算法都是使用成对数据进行强监督训练的，而我们的DGP算法使用的是非成对无监督数据。测试数据集为我们主动搜集的CMI数据集，以及先前已经存在的MPV数据集。值得强调的是，MPV数据集与ACGPN，PF-AN，VITON-HD的训练数据集是近似同分布的，采样于同一个特定数据库。而DGP在训练阶段从未接触过CMI与MPV数据集，并且其训练集与这两个数据集也有很大不同。即便如此，我们依然可以发现DGP的结果要显著优于此前的三个SOTA算法。

图4：定性比较

定量比较

我们同时比较了DGP与三个SOTA算法的定量指标，如FID，SWD，以及用户满意度。我们发现DGP基本上在所有指标上都保持领先。这里依然需要强调的是，在计算FID与SWD指标时，我们使用的groundtruth是MPV数据集，即与ACGPN、PF-AFN、VITON-HD训练集分布极其相近的数据集，而DGP在训练中使用的数据集与之差异极大。因此这样的结果更加说明了DGP算法的优越。

图5：数值指标与用户调查指标

鲁棒性

DGP算法对于预处理阶段的一些误差和扰动具有很强的鲁棒性，许多的瑕疵都可以在被算法自动纠正过来，这得益于投影子的强大能力，如图6所示。我们将这一能力与现有的SOTA GAN inversion算法pSp做对比，可以发现这一能力是投影子所独有的，如图7所示。

图6：投影子面对错误输入做出的自动纠正

图7：投影子与pSp算法的鲁棒性对比

结论

本文提出了一种只使用若监督数据的服饰模特生成算法。相较于传统算法，本文提出的方法避免了使用代价高昂的成对训练数据，因而可以有效的扩展在大规模场景中。同时，本文提出的算法具有高鲁棒性、高清晰度、高准确度的特点，弥补了以往算法在面对域偏差时的性能严重下降，以及对服饰精细图案重构不精确的问题。

地址

Github地址：

https://github.com/RuiLiFeng/Deep-Generative-Projection

Project Page：

https://ruilifeng.github.io/Deep-Generative-Projection/

Pape地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Feng_Weakly_Supervised_High-Fidelity_Clothing_Model_Generation_CVPR_2022_paper.pdf

✿ 拓展阅读

作者|艾尔

编辑|橙子君

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

CVPR论文解读 | 弱监督的高保真服饰模特生成

你可能感兴趣的:(算法,机器学习,人工智能,深度学习,计算机视觉)