_Summer tree

【Journal of Computer-Aided Design & Computer Graphics】基于生成对抗网络的行人重识别方法研究综述

文章目录

引言
数据集介绍
基于GAN的行人重识别方法分类
- 2.1基于风格转换的方法
- 2.2基于数据增强的方法
- 2.3基于不变性特征学习的方法
3 基于GAN的方法性能对比分析
总结

引言

对于行人检测, 已有多种精度较高的算法, 如**YOLO[5], SSD[6]和Fast R-CNN[7]**等, 均可获得高质量的检测结果.

行人重识别在真实场景中仍然面临诸多挑战：

深度学习的方法依赖大量的训练数据, 目前公开的数据集标注的行人数据规模有限, 并且不同的行人重识别数据集之间存在域差, 即在不同数据集上分别训练和测试时会导致性能的严重下降, 使模型很难泛化到其他应用场景[53]
同一数据集内不同摄像头拍摄背景、分辨率和光照的变化会导致图像风格差异, 相同的行人在不同摄像头中的姿态和外观变化大, 并且不同行人可能具有相同的外观和姿态。

利用生成对抗网络(generative adversarial networks, GAN)进行图像风格转换或统一不同图像风格, 缓解不同数据集之间或同一数据集内的图像风格差异[53,55-62]

本文更**聚焦GAN这一特定技术在行人重识别任务中的发展和应用.**这类方法属于目前研究热点, 并且可以反映基于GAN的行人重识别方法的研究趋势。

基于GAN的方法分类：

基于风格转换的方法
1. 跨域风格转换的方法[53,55-59]
2. 域内风格转换的方法[60-62]
数据增强的方法
1. 无辅助信息引导的图像合成方法[63-66]
2. 辅助信息引导的图像合成方法[67-71]
不变性特征学习的方法
1. 姿态不变性特征学习的方法[72]
2. 降级不变性特征学习的方法[54,73-74]

数据集介绍

VIPeR数据集[78]是最早提出的小型行人重识别数据集. 由2个摄像头在校园采集得到, 且每个视角的摄像头只拍摄行人的一幅图像, 总共包含632个不同行人的1264幅图像, 每幅图像都被裁剪并缩放为128 48的大小, 采用手工标注行人检测框
CUHK03数据集[15]属于大规模行人重识别数据集. CUHK03数据集在CUHK01数据集[79]和CUHK02数据集[80]的基础上进行改进, 增加了摄像头和采集图像的数量, 可以采集更多视角下的行人图像. 该数据集采用**手工标记和自动检测器(deformable part model,DPM)[81]**这2种方式标注行人检测框, 相比单一的手工标注, DPM标注的行人更符合真实场景
Market-1501数据集[82]是在2015年公布的大规模行人重识别数据集. 包含1501个不同行人的总共32668幅图像, 每幅图像的大小为128 64, 采用手工标记和自动检测器DPM这2种方式标注行人检测框. 相比CUHK03数据集, Market-1501数据集包含502793个干扰因素和更多的标注图像.
DukeMTMC-reID数据集[63]是多摄像头多目标行人跟踪数据集DukeMTMC[83]的子集同样属于大规模行人重识别数据集. 每幅图像的大小不定, 采用手工标注行人检测框.
MSMT17数据集[9]是在2018年公布的一个大规模行人重识别数据集.其中的行人图像是由校园内的15个摄像头采集得到的, 包含4101个不同行人的总共126441幅图像, 每幅图像的大小不定, 采用行人自动检测器Faster R-CNN[84]标注行人检测框.该数据集覆盖了更多的场景, 并且能够捕获多个时间段光照变化的行人图像.

另外, 大多主流数据集均采用累计匹配特征(cumulative matchingcharac-teristics,CMC)曲线和平均均值精度(mean average precision, mAP)进行性能评估

基于GAN的行人重识别方法分类

GAN的工作原理：利用GAN

的生成器将真实图像特定的像素迁移到生成图像上, 并使用判别器判断生成图像的真伪, 然后反馈给生成器以生成更相似的图像.

2.1基于风格转换的方法

在训练阶段, 生成器ABG将图像1从风格A转换成风格B, 生成器BAG将图像从风格B转换成风格A;判别器BD判断生成的图像是否逼近原始图片2的风格B. 通过最小化判别损失和2L损失, 使生成器和判别器不断对抗直至收敛[75], 最终实现AB的风格转换. 本文根据风格转换数据域的不同, 将风格转换方法归纳为2类: 基于跨域风格转换的方法和基于域内风格转换的方法.

基于跨域风格转换的方法：
为了解决域差, 传统有监督图像到图像的转换方法使用对齐的图像对训练模型, 以学习输入图像到输出图像之间的映射, 但大规模的标注图像对在现实任务中很难实现. 因此, 当目标域未进行行人标注时, 有监督的单域行人重识别方法会受限[55]

解决此类问题的常用策略是利用GAN进行跨数据域的风格转换.：

**CycleGAN[90]**可以实现任意2幅图像风格的转换, 研究者考虑在其基础上改进, 以实现不同数据集之间的自适应行人样式转换, 从而缩小或消除域差.
PTGAN：
1. Wei等[53]提出人员转移GAN(persontransferGAN, PTGAN), 在保留源域中行人身份的前提下, 将源域中的行人转移到目标数据集, 使源域中的行人具有目标域的背景和光照样式.
2. PTGAN是随机生成行人图像, 生成样本中可能存在未知的噪声.
Deng等[55]利用孪生网络和CycleGAN组成相似性保留GAN(similarity preserving GAN, SPGAN), 以无监督的方式将有标签的行人从源域迁移到目标域.

上述方法都是基于单一因素的风格转换. 实际上, 域差可能由多个因素(如光照、分辨率和摄像头视角)的变化引起[98], 并且不同图像受到这些因素影响的程度不同, 使单一因素样式转换的方法识别性能不佳.

下面考虑多因素：
Liu等[56]提出一种自适应转移网络(adaptive transfer network, ATNet), 其网络结构如图3所示.

ATNet使用3个CycleGAN实现摄像头视角、光照和分辨率的风格转换, 并根据不同因素影响的程度自适应地为每个CycleGAN分配权重, 从而进行精确的风格转换.

Zhong等[58]不仅考虑不同数据集之间的域差, 同时考虑目标域内摄像头的风格差异对跨域自适应行人重识别性能的影响, 提出一种异构同质学习(hetero-homogeneous learning, HHL)方法.

基于域内风格转换的方法

Zhong等[60]引入相机样式(camerastyle, CamStyle)
1. CamStyle首先使用CycleGAN将标注的训练数据迁移到不同的摄像头, 使合成的样本在保留行人标签的同时具有不同摄像头的风格, 以此平滑同一数据集内不同摄像头之间的风格差异;
2. 将生成图像加入训练集增加多样性, 以防止过拟合, 并引入**标签平滑正则化(label smooth regularization, LSR)**减少噪声的影响.

CamStyle 存在的问题：
(1) 当同一数据集内不同摄像头拍摄的图像之间存在较大的风格差异时, CycleGAN生成的转移样本会产生更多的失真图像, 使模型引入噪声, 并需要额外的LSR调整网络的性能。
(2)生成的不同风格的图像只能作为扩展训练集, 当出现无效的生成样本时会严重影响训练模型的鲁棒性.
(3) CamStyle为每个摄像头生成不同风格的行人图像, 随着摄像头的数量增加, 需要训练的模型数量越来越多, 将消耗大量的计算资源, 在实际场景中并不适用。

针对上述存在的问题, Liu等[61]提出统一风格自适应的方法, 称为UnityStyle, 其工作流程如图5所示.

该方法可以平滑同一摄像头以及同一数据集内不同摄像头之间的样式差异. 通过为每个摄像头生成形状稳定的风格图像, 消除不同图像之间的风格差异, 并将真实图像和合成图像共同训练以增强训练集, 以提高行人匹配的准确率。
优点：

UnityStyle合成的样本近乎原始图像, 无需引入LSR消除噪声的影响,
并且UnityStyle为所有的摄像头统一样式, 无需额外训练大量的模型.

GAN的摄像头风格的转换也应用于红外和可见光之间的相互转换. Wang等[62]提出一种双级差异减少学习(dual-level discrepancy reduction learning, D2RL)方案, 通过分解形态和外观差异, 可以实现红外图像和可见光图像的相互转换

基于风格转换的方法总结

表4的第1部分为以DukeMTMC-reID作为源域数据集, Market-1501作为目标域数据集**(Duke→Market)的跨域风格转换的方法. 从实验结果来看, 增加三元组损失约束可以提高跨域风格转换行人重识别的准确度.
表4的第2部分为域内图像风格转换的方法**, 转换的策略主要是以合成同一数据集内不同摄像头风格的样本或统一不同摄像头风格为主. 从Market-1501数据集上的实验结果可以得到, 统一摄像头风格的方法能够得到更好的识别性能.

在未来的研究中, 设计GAN生成更高质量的多样化行人样本、更优的损失函数约束模型对判别性特征和不变性特征的学习以及更高效的训练策略, 是解决上述问题的研究重点

2.2基于数据增强的方法

基于数据增强的方法从模型的训练出发, 通过增加多样性的训练数据提高模型的泛化能力.
基于无辅助信息引导的图像合成方法

深度卷积GAN(deep convolutional AGN, DCGAN)[94]:
1. 首先, 通过无监督学习的方式, 使用原始训练数据生成未标注的行人样本;
2. 然后, 通过半监督学习的方式, 利用离散标签正则化(label smoothingregularization for outliers, LSRO) 为未标注图像均匀分配标签.
Huang等[64]提出一种多伪正则化标签(multi-pseudo regularized label, MpRL), 为每个生成的样本分配一个适当的虚拟标签, 以建立真实图像和生成图像的对应关系,

无辅助信息引导的GAN存在以下问题：

(1)这类方法只关注生成图像的视觉效果, 生成样本的质量得不到保证, 容易生成一些严重扭曲的噪声图像, 从而影响训练模型的性能;
传统无辅助信息引导的方法没有充分利用行人的结构和外观信息, 生成的图像不能很好地指导模型对判别性特征的学习, 极大地限制了生成样本的有效使用[67]

基于辅助信息引导的图像合成方法

Liu等[67]引入行人姿态信息辅助GAN生成样本.
1. 首先, 利用MARS[87]数据集的丰富行人信息引入大量行人骨架结构特征, 以构建姿态引导模型;
2. 然后, 将得到的姿态信息和现有数据集行人的外观信息进行配准
3. 最后, 利用GAN生成同时具有MARS数据行人的姿态结构和现有数据集行人外观的样本图像. 将骨架姿态和外观特征进行重构。
Qian等[68]利用姿态归一化： GAN(pose-normalization GAN, PN-GAN)生成具有统一体态的行人图像

首先, 利用PN-GAN合成具有不同姿势的辅助图像
然后, 通过2个基础网络分别学习原始图像和合成图像的互补特征
最后, 将2种类型的特征进行融合用作最终行人重识别任务的特征匹配

为了生成更丰富多样的行人图像, Ma等[70]利用GAN将输入图像的3种变化因素(前景、背景和姿态)解构并编码为嵌入特征, 采用对抗性方式学习特征映射, 生成具有新的前景、背景和姿势的真实人物图像.

大多数方法生成器和判别器相互分离, 仅采用独立的生成模型生成图像, 可能使生成模块的优化无法与行人重识别任务匹配, 限制了生成数据的可扩展性

Zheng等[71]提出将判别器和生成器结合的学习框架, 其结构如图8所示.

生成模块利用现有数据集内部的行人外观和结构编码生成新的图像, 判别模块与生成模块共享外观编码器, 并作为行人重识别的主干网络. 通过切换外观和结构编码, 可以生成高质量的交叉外观和结构的行人图像. 该框架仅利用现有数据集的行人姿态和外观就能够合成多样性的行人样本。

基于数据增强的方法总结：

2.3基于不变性特征学习的方法

现实场景下的行人重识别任务包含：

高级视觉变化：主要包括行人的遮挡、姿态和摄像头视角的变化等;
低级视觉变化[54] 主要包括分辨率、光照和天气变化等

基于姿态不变性特征学习的方法

Ge等[72]提出特征提取GAN(feature distilling GAN, FD-GAN), 学习与行人身份相关而与姿态无关的特征, 用以进行具有姿势变化的行人重识别, 其网络结构如图9所示.

FD-GAN采用孪生网络结构进行特征学习, 每个分支由一个图像编码器和图像生成器组成.
1. 前者根据输入图像学习行人鲁棒性的与身份相关而与姿势无关的嵌入视觉特征,
2. 后者根据编码器的姿态信息和输入行人特征合成新的行人样本
3. 身份判别器、姿态判别器、验证分类器和相同姿势损失共同作用确保学习更多姿态不变性特征
4. 该方法无需额外的计算成本或辅助姿态信息, 并且在Market-1501, CUHK03和DukeMTMC-reID数据集上具有先进性的实验结果.

Chen等[73]提出一种端到端的自适应分辨率行人重识别网络(resolution adaptation and re-identification network, RAIN), 通过在低分辨率图像和高分辨率图像特征上增加对抗损失, 学习和对齐不同分辨率行人图像的不变特征.
Li等[74]提出的模型除了可以学习不同分辨率行人图像的不变性特征, 还能够利用SR恢复低分辨率图像丢失的细粒度细节信息, 有助于判别性特征的学习.
Huang等[54]提出一种降级不变性学习框架, 借助自我监督和对抗性训练策略, 可以保留与身份相关的鲁棒性特征并删除与降级相关的特征.

基于不变性特征学习的方法总结：

不变性特征学习的方法通过学习与行人身份相关, 而与姿态、分辨率和光照无关的特征, 能够缓解行人特征未对齐的问题, 提高行人身份匹配的准确度。

这类方法依然存在不足：

(1)姿态不变性特征学习的方法采用随机姿态或简单姿态生成图像, 因此不可避免地引入噪声伪像, 需要额外的判别器和损失函数对生成的图像进行筛选, 增加了网络的复杂程度;
(2)低分辨率图像容易丢失细粒度的区分信息, 使学习高分辨率图像和低分辨率图像的不变性特征变得困难.
在未来的研究中, 设计更加简单、高效的模型, 挖掘姿态、分辨率和光照不变性特征, 依然是值得关注的研究内容

3 基于GAN的方法性能对比分析

总结

存在问题的一些方面。

高质量数据集的获取。
模型的跨域自适应
特征的对齐.
端到端生成模型与行人重识别模型的设计

Python训练营打卡 Day53 yunvwugua__ python自学打卡 python 开发语言
对抗生成网络知识点回顾：对抗生成网络的思想：关注损失从何而来生成器、判别器nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法leakyReLU介绍：避免relu的神经元失活现象对抗生成网络（GAN）知识点回顾对抗生成网络的思想思想：就像在餐厅中，有一个厨师（生成器）负责制作假菜，一个评论家（判别器）负责区分真菜和假菜。厨师的目标是制作出评论家无法区分的假菜，而评论家的目标是找
详解DICOM中Tag (0018,1164) Imager Pixel Spacing 的含义与作用猿享天开 DICOM医学影像专业知识精讲 DICOM DICOM医学影像
详解DICOM中Tag(0018,1164)ImagerPixelSpacing的含义与作用DICOM（DigitalImagingandCommunicationsinMedicine）标准中的Tag(0018,1164)，即ImagerPixelSpacing，是描述医学影像像素在成像设备探测器平面上的物理间距的重要属性。它与(0028,0030)PixelSpacing不同，主要用于特定模态
本地搭建区块链服务的详细指南
以下是一个在本地搭建区块链服务的详细指南，使用Ethereum作为示例（因其工具链完善且适合开发），包含从环境准备到实际操作的完整流程：一、本地区块链搭建方案（基于Ethereum）核心组件组件推荐工具作用区块链节点Ganache(测试链)模拟以太坊网络，零配置启动开发框架Hardhat或Truffle智能合约编译/部署/测试钱包交互MetaMask账户管理&交易签名前端界面React+ether
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
ROS 从入门到放弃 - 入门 SuperFeHanHan ROS python
ROS从入门到放弃-入门1.InstallingandConfiguringYourROSEnvironment2.NavigatingtheROSFilesystemPackages&Manifests:文件管理操作：3.CreatingaROSPackage3.1Package的组成:3.2一个Worksapce的组成3.3创建一个Packagepackage.xml中各tag的介绍：4.Bu
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
深度学习实验：GPU加速，突破性能瓶颈 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
深度学习实验：GPU加速，突破性能瓶颈1.背景介绍随着深度学习模型变得越来越复杂和庞大，传统的CPU已经无法满足训练和推理的计算需求。GPU凭借其强大的并行计算能力和专门为矩阵运算优化的架构，成为了深度学习领域的核心加速器。本文将探讨如何利用GPU加速深度学习实验,突破性能瓶颈,提高模型训练和推理的效率。2.核心概念与联系2.1GPU架构GPU(图形处理器)最初是为了加速图形渲染而设计的,但由于其
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
【深度学习新浪潮】基于扩散模型的图像编辑加速方法小米玄戒Andrew 深度学习新浪潮深度学习人工智能扩散模型 Transformer DiT 图像编辑模型加速
在基于扩散模型的图像编辑任务中，实现高质量与高效加速的平衡需要综合运用模型架构优化、采样策略创新、条件控制增强及硬件加速等多维度技术。一、一步反演与掩码引导的编辑框架通过一步反演框架将输入图像映射到可编辑的潜在空间，结合掩码引导的注意力重缩放机制，实现文本引导的局部编辑。例如，SwiftEdit通过一步反演和注意力重缩放，将编辑时间压缩至0.23秒，比传统多步方法快50倍。具体步骤包括：一步反演：
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。