zwplus

[论文笔记]pose guided person image generation

Pose Guided Person Image Generation

code1:chuanqichen/deepcoaching: Sports Coaching from Pose Estimation (github.com)
code2:sgoldyaev/DeepFashion.ADGAN (github.com)

本文提出了一种名为PG2的人体图像生成网络，其能够将输入图像中人体姿态转换成任意指定的目标姿态。

创新点

提出在根据参考图像和目标姿势的条件下的图像生成任务，核心目的是将图像中的人体操作成任意姿势。（本文应该算是姿态伪造这边一篇开山之作了）
本文探索了多种方式类结合原始图像和姿态信息，并提出了一种掩码损失mask loss来鼓励模型专注于对人体外观的生成而不是背景部分。（这里的结合方式和mask loss在后续也启发了一些工作）
作者使用了一个两阶段的生成方式来将渐进式的生成目标图像，第一个阶段专注于人体结构（姿态）的迁移（生成），第二阶段则在第一阶段的基础上使用对抗的训练方式来补充人体的细节，更加强调外观上的生成。（后续几年的工作都借鉴了这样的思想，将问题进行分解，只不过角度和实现方式上有区别，但是核心想法就是外观和姿态生成尽量独立开做）。

网络结构

第一阶段:姿态整合

网络的第一阶段主要负责将输入图 $I_A$ 和给定的姿态 $P_B$ 结合起来产生一个粗糙的图像 $I_{B}^{'}$ ,其捕获目标图像 $I_B$ 中的人体的全局结构（姿态）,换句话说就是图像 $I_{B}^{'}$ 的姿态和图像 $I_B$ 一致。

姿态的嵌入pose embedding

姿态的嵌入实际上可以理解成对姿态的编码或者对姿态进行适当的表示，根据其表示的不同，其和图像 $I_A$ 的结合也存在差别。

作者使用但是最先进的姿态估测方法来获取近似的人体姿态，这样就不需要进行昂贵的姿态标注，该方法使用18个关键点来刻画人体的姿态。
考虑到如果直接使用这个18个关键点信息作为输入，则模型还需要去学习将关键点映射到人体对位置上。因此，这里以这18个关键点分别生成对应的18张热力图（热力图的大小与原图像一致），每张热力图上对应的关键点位置及其半径4个像素以内区域的像素值为1，其余位置像素值为0。这样生成的18张热力图称为 $P_B$
这里直接将 $P_B$ 和 $I_A$ 连接起来作为输入，这样可以直接使用卷积层来实现外观和姿势这两种信息的整合。

生成器G1

生成器1的整体架构是一个类似U-NET的网络结构（U-NET是一种带有跳跃连接的基于卷积层的自编码器结构）。

首先编码部分使用连续的堆叠的卷积层从局部邻域到更大的范围来不断整合 $P_B$ 和 $I_A$ 信息（这样只能实现外观信息在局部位置上的传递），因此作者又使用一个全连接层来实现相距较远的身体部分也能交换信息。（这样如果姿势的变化幅度较大也能够实现比较好的变化。）
解码器部分使用了和编码器部分对称的卷积层，来生成图像 $I^{'}_{B}$ ,编码器和解码器之间的跳跃连接能够将图片信息之间从输入传递给输出。
G1中的卷积层主要由简化的残差块renet_block组成，作者认为这样有助于提高生成图片的效果。

Pose mask loss

在阶段一里，作者使用L1LOSS来比较生成的 $I^{'}_{B}$ 和 $I_{B}$ 之间差异，即以L1_LOSS作为损失函数，但是在生成图像过程中由于只使用源图像 $I_A$ 和目标姿势 $P_{B}$ ，因此对生气器G1而言，很难生成与目标图像 $I_{B}$ 一致的背景（生成的图片背景会目标图像背景存在很大差异），这样的情况下直接使用L1_LOSS来作为损失函数，会很大程度上受到背景差异的影响，然后在第一阶段中背景的生成并不是我们关注的重点，我们关注的重点是人体全局结构与目标图像是否一致（即姿态是否是目标姿态）。因此作者对L1_LOSS增加了一个mask机制来增加全局结构差异在损失中的比重，进而使得模型更加专注于对全局姿态的生成。

pose mask的生成：如下如所示，首先根据姿态估测时获得18个关键点，然后使用这些点结合图像的形态学操作来生成人体图像的掩膜 $M_B$ ，人体部分的值为1，背景部分的值为0,在后续loss计算过程中，掩膜部分的差异会被放大。

pose mask loss： $G1(I_A,P_B)$ 表示生成图像 $I^{'}_B$ ，将其与目标图像相减得到矩阵就是二者的差，再和 $1+M_B)$ 逐元素相乘，这样人体部分的差异会被放大，使得生成器G1更加专注于对人体全局结构信息的生成。

虽然作者对其进行了改进，但是由于本质上还是L1_LOSS,因此还是遇到图像模糊的问题，因此L1_loss会鼓励结果趋向于所有可能情况的一个平均，因此为了生成细节上更加清晰的结果，作者引入了第二阶段来生成一个细节更加丰富的结果。

第二阶段：图像细节的生成

    第二阶段主要使用基于条件的对抗式图像生成网络（condition GAN）来对第一阶段上生成的图像进行细节上的补充。

生成器G2

生成器G1使用了一个全卷积层构成的U-NET网络，使用第一阶段生成结果 $I_B$ 和原图像 $I_A$ 作为输入。特别值得注意的是：作者并没有直接使用生成器G2来生成一个接近于目标图像的图像，而是生成目标图像 $I_B$ 和第一阶段生成图像 $I^{'}_B$ 之间的差异图。 这样做能够使得模型更加容易训练，因为模型只需要专注于学习二者之间差异即可。

在生成器G2部分使用U-NET网络结构中并未使用到G1中使用到全连接层，因为这里是在全局结构已经生成情况下补充细节，因此并不太需要全连接层来实现远距离信息的交换，同时全连接层的存在也会增大网络的训练难度。

鉴别器

在第二阶段中图像细节的生成使用对抗的方式，因此需要一个鉴别器来对生成图像进行分类，但是与一般将目标图像 $I_B$ 和 $I^{'}_B$ 作为输入进行真伪分类不同的是，这里使用(I_A,I^{'}_{B2})和(I_A,I_B) 来作为输入，目的是鼓励网络去学习 $I^{'}_{B2}$ 和 $I_B$ 之间的区别来区分出图片的真伪，而不是单纯地去学习自然图片和生成图片之间的的不同。（如果只是学习真实图片和生成图片的差异的，一个简单的会存在的问题的就是如果只使用 $I^{'}_{B2}$ 和 $I_B$ 作为输入来判别真假，则生成G2可以直接输出原始图片 $I_A$ ,就可以骗过鉴别器。），这一点也在后续的方法中被使用。

对抗损失

在对抗损失部分，其与一般对抗性损失的基本一致，使用二分类来作为的损失来作为对抗性的损失。

但是前面也提到了阶段二是一个condition GAN，因此在生成器部分损失除了对抗性损失而言，还应当包括一个条件损失（即与目标图像的差异（距离））来约束生成器的生成过程。这里我们的条件损失为前面提到 pose mask loss，因此最终对生成器G2，其所使用的损失函数如下：

训练过程

整体的训练过程中就先训练第一阶段，在第一阶段训练完成后，使用对抗的训练的方式来训练第二阶段生成器和判别器。

实验

数据集

DeepFashion dataset ：一个时尚穿搭的数据集，背景多为白色，图片分辨率较高。
Market-1501:其由6个独立的摄像头拍摄的1501人的32668张图像，由于图像皆来自于监控摄像头，所以分辨率较低，场景比较复杂，难度较高。

相关实验

定性分析

由于作者是该领域的一个开山之作，所以没有特别合适能用来进行比较的方法，因此作者主要进行一些消融实验来说明自己提出方法的有效性。

不同的姿势嵌入，前面我们提到作者是将姿势以18张热力图的形式嵌入到模型输入中去，然后使用一个编码器进行结合的方式。作者将这种方式与名为CE和HME方式进比较。
- CE的嵌入：是将18点信息组成的向量通过两层全连接层连接到G1中全连接层生成的特征向量上。
- HME：同样使用18张热力图来表示姿势信息，与本文方法不同的是，其使用一个独立编码器和一个全连接层来提取信息，在将连接到其G1中全连接层生成的原始图片的特征向量上。
在比较三者不同时，作者只用G1和L1Loss条件下生成的结果，并未使用第二阶段的结果。因此这里用G1_CE_L1,G1_HME_L1,G1_L1来表示。
pose mask loss VS L1_LOSS:作者同样在G1上比较L1_LOSS和pose mask loss对第一阶段生成的图像的影响。
两阶段和一阶段的生成方式：作者比较了直接使用G1+D（即以对抗方式来对G1来进行训练以直接生成目标图像）和本文提出两阶段方法G1+G2+D。

定量分析

作者除了定性分析外还使用了定量分析，主要使用以下指标：

SSIM：结构相似度，即通过比较生成图片和目标图片之间相似程度。
IS：inception score，即使用inception v3来对生成的图片进行分类，得到图片分类的概率分布，对一张图片而言，其属于某个类别的概率越高，其IS分数越高，这保证图片能够尽可能像某个物体，而不是一个四不像，同时对大量生成图片而言，其最终属于不同类别的图像数目应尽可一致，这保证了生成图片的多样性。
mask-SSIM：考虑背景信息的干扰，因此提出使用mask的方法来指标人体部分的结构相似度，以获得对生成图片更加准确的评估。在对deep fashion的评估中，则并未使用这一指标，因为该数据集中图像背景比较简单。
mask-IS：同上。

额外的实验

由于没有特别合适的方法来进行比较，作者只能选取一个多视角人体图像生成方法来作为比较方式，结果当然比较明显，作者的方法在解决该问题时具有明显优势。

作者也给出了几个失败的例子说明模型的不足：

模型在面对复杂姿势变化时的效果不佳。
由于数据偏科，导致生成人脸更偏向于女性人脸
在人体外观比较复杂时，如第二行，源人物的外套和寸衫的颜色比较类似，导致模型在生成衣物发生了失败。

总结

作者的本篇论文作为该领域的开山之作吧，其将复杂问题进行分解（姿势生成和外观生成相分离），姿态的嵌入以及mask_loss的想法在后续新的工作中都有所体现，算是启发后续工作的展开。
杂时，如第二行，源人物的外套和寸衫的颜色比较类似，导致模型在生成衣物发生了失败。

总结

作者的本篇论文作为该领域的开山之作吧，其将复杂问题进行分解（姿势生成和外观生成相分离），姿态的嵌入以及mask_loss的想法在后续新的工作中都有所体现，算是启发后续工作的展开。

你可能感兴趣的:(论文笔记,论文阅读,计算机视觉,深度学习)

PyTorch 深度学习实战（8）：Transformer 与机器翻译（基于本地中英文文本文件）进取星辰 PyTorch 深度学习实战深度学习 pytorch transformer
在上一篇文章中，我们探讨了循环神经网络（RNN）及其在文本分类中的应用。本文将介绍Transformer模型的基本原理，并使用PyTorch和HuggingFace的transformers库实现一个简单的机器翻译模型。我们将基于本地的中英文文本文件进行实战演练。一、Transformer基础Transformer是一种基于自注意力机制（Self-Attention）的神经网络架构，由Vaswan
使用LangChain和中文羊驼2.0搭建离线版的ChatPDF 大模型常客 langchain 人工智能 ai agi 经验分享笔记
本文的目标是搭建一个离线版本的ChatPDF（支持中英文），让你随心地与你想要阅读的PDF对话，借助大语言模型提升获取知识的效率。除此之外，你还可以：了解使用LangChain完整的流程。学习基于向量搜索和Prompt实现一个文档问答机器人的方法原理。了解如何使用llama.cpp量化大模型的方法。了解如何使用深度学习中常用的向量数据库。为了让更多的同学看懂，我会尽量写的小白一点。如果你是有经验的
Linux系统增加用户用于深度学习不要绝望总会慢慢变强视觉大作战 linux 运维服务器深度学习人工智能
首先是为自己创建一个新用户名sudouseradd-mnewuser#增加一个newuser用户sudopasswdnewuser#为newuser用户设置密码sunewuser#切换到newuser用户如何切换用户界面的Bashsudochsh-s/bin/zshluoshiyong#配置zshsudochsh-s/bin/bashluoshiyong#配置bash如何使用Anaconda环境创
大模型算法岗面试题(含答案) X.Cristiano LLM 大模型人工智能
一、基础篇目前主流的开源模型体系有哪些？Transformer体系：由Google提出的Transformer模型及其变体，如BERT、GPT等。PyTorchLightning：一个基于PyTorch的轻量级深度学习框架，用于快速原型设计和实验。TensorFlowModelGarden：TensorFlow官方提供的一系列预训练模型和模型架构。HuggingFaceTransformers：一
《深入浅出LLM基础篇》（四）：主流大模型介绍 GoAI 深入浅出AI 深入浅出LLM 自然语言处理NLP 大模型 LLM 人工智能 llama chatglm
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
AI在个性化广告创意生成中的应用杭州大厂Java程序媛 DeepSeek R1 &AI人工智能与大数据人工智能 ai
AI在个性化广告创意生成中的应用关键词：AI、个性化广告创意生成、用户画像、深度学习、自然语言处理、计算机视觉摘要：本文深入探讨了AI在个性化广告创意生成中的应用。首先介绍了相关背景，包括目的范围、预期读者等内容。接着阐述了核心概念及联系，详细讲解了核心算法原理与操作步骤，并通过数学模型和公式进行理论支持。通过项目实战展示了代码实现与分析，探讨了实际应用场景。还推荐了学习工具和资源，最后总结了未来
写给孩子和极客的趣味数学 --“自动驾驶背后的数学” 专栏导读赛卡自动驾驶背后的数学自动驾驶人工智能机器学习 python 学习 pytorch numpy
专栏链接：自动驾驶背后的数学一、专栏逻辑图谱深度学习进阶视觉感知与多传感器融合基础工具与决策流程10.激活函数解析6.视觉坐标变换体系7.视觉优化与融合8.全流程解析2.传感器数据到控制指令的函数嵌套1.10岁孩子就能读懂自动驾驶背后的数学密码3.特征提取中的线性变换与非线性激活4.多模态传感器融合建模5.坐标映射与数据融合概述9.坐标映射轻快版PiDay趣味开篇基础工具与决策流程视觉感知与多传感
ai-by-hand-excel: 用 Excel 手搓各种 AI 算法和模型小众AI AI开源人工智能 excel 算法
GitHub：https://github.com/ImagineAILab/ai-by-hand-excel更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI通过Excel的形式实现并演示人工智能与深度学习的核心算法和概念，让初学者可以动手操作并理解AI的运行原理，包括矩阵乘法、MLP、RNN、Transformer、ResNet等，以独特且浅显易懂的形式，降低
YOLO编程：开启计算机视觉的神奇之门大雨淅淅编程语言目标跟踪人工智能计算机视觉
目录一、从神奇的AI应用说起二、YOLO是什么三、YOLO的独特优势（一）速度为王（二）精度可靠（三）部署便捷四、YOLO的工作流程揭秘（一）图像分割与网格划分（二）目标预测与数据输出（三）结果筛选与最终确定五、YOLO编程实践（一）准备工作（二）模型训练（三）模型推理六、YOLO的应用领域大放异彩（一）安防监控（二）自动驾驶（三）工业检测（四）无人机领域七、总结与展望一、从神奇的AI应用说起在科
MediaPipe：实时多媒体处理框架 KsClang 机器学习-深度学习
MediaPipe是一个开源的实时多媒体处理框架，用于构建基于机器学习的应用程序。它提供了一套工具和库，使开发者能够轻松地处理和分析视频、音频和图像数据。MediaPipe具有高度可扩展性和灵活性，适用于各种应用领域，包括计算机视觉、增强现实、虚拟现实和音频处理等。MediaPipe的特点实时性能：MediaPipe专注于实时应用程序，它能够以低延迟的方式处理多媒体数据。通过充分利用硬件加速和并行
MediaPipe实时机器学习框架 EngineerSuTao 机器学习人工智能
MediaPipeMediaPipe是Google推出的一个实时机器学习框架，主要用于手势识别、人体姿态追踪、人脸检测等计算机视觉任务。✅跨平台支持（可在PC、Android、iOS上运行）✅轻量级（可在移动设备上实时运行）✅无需深度学习背景（简单调用API就能实现复杂的AI视觉任务）MediaPipe能做什么？模块作用应用场景Hands手部关键点检测（21关键点）手势识别、手语翻译、虚拟鼠标Po
OneFlow深度学习框架介绍技术探秘者人工智能 oneflow
目录第一章：OneFlow深度学习框架引言1.1深度学习框架的重要性1.2OneFlow框架的诞生背景1.3本章内容概要第二章：OneFlow框架基础2.1OneFlow框架的安装与配置2.1.1环境准备2.1.2安装OneFlow框架Linux系统安装Windows系统安装MacOS系统安装2.1.3配置OneFlow框架2.2OneFlow框架的核心概念2.2.1张量（Tensor）2.2.2
Momentum优化器的超参数调优方法 AI天才研究院计算 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Momentum优化器的超参数调优方法1.背景介绍在深度学习领域，优化器是训练神经网络的关键组件之一。优化器的选择和调优直接影响模型的收敛速度和最终性能。Momentum优化器是一种常用的优化算法，它通过引入动量的概念来加速梯度下降过程，特别是在处理高维数据和复杂模型时表现尤为出色。然而，Momentum优化器的性能高度依赖于其超参数的设置。本文将深入探讨Momentum优化器的超参数调优方法，帮
保姆级大模型学习路线！清华博士耗时半年整理的14个核心阶段，文科生也能跟着冲！（附论文笔记+项目源码+训练技巧）大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程大模型入门
摘要：从被嘲“调参侠”到GitHub万星大佬，我花了487天吃透大模型技术栈。用14张思维导图+32个实战项目，拆解出普通人可复制的进阶路径，文末送《大模型学习大礼包》（含2TB预训练数据+行业白皮书）。一、为什么你的大模型学习总是卡壳？2023行业调查报告显示：92%学习者停滞在微调阶段，核心痛点集中在：论文看不懂：Transformer源码像天书环境配不好：CUDA版本冲突天天报错算力不够用：
大模型微调方法之Delta-tuning 空白II 大语言模型论文解读微调方法介绍微调方法 delta-tuning 论文解读大语言模型
大模型微调方法之Delta-tuning大模型微调方法自从23年之后可谓是百花齐放，浙大有团队在8月将关于大模型微调方法的综述上传了ArXiv。论文将微调方法总结为等几个类别。本次讨论的1大模型业务分类当前的大模型行业可谓百花齐放，自然语言处理（naturallanguageprocessing,NLP）、计算机视觉（computervision,CV）、音频处理（audioprocessing,
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b <br>c: %c <br>d: %d <bf>f: %f', 80,80, 80, 80); echo '<br />'; printf('%0.2f <br>%+d <br>%0.2f <br>', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他