jjw_zyfx

A Latent Transformer for Disentangled Face Editing in Images and Videos翻译

点击下载论文

代码地址

图1 我们将真实图像投影到StyleGAN生成器的潜空间，并在编码的潜码上实现连续的解纠缠属性编辑。从原始图像和投影图像中，我们可以连续编辑一系列属性，例如：“微笑”、“刘海”、“拱形眉毛”、“年龄”、“胡须”和“眼镜”。所有结果均以1024×1024的分辨率获得。

摘要

高质量的面部图像编辑是电影后期制作行业的一个挑战性问题，需要高度的控制和身份保护。以前试图解决这个问题的工作可能会遇到面部属性的纠缠和个人身份特征丢失的问题。此外，许多算法仅限于特定的任务。为了解决这些限制，我们提出通过训练专用的潜变换网络，并在损失函数中加入明确的解纠缠和身份保留项，通过StyleGAN生成器的潜空间编辑面部属性。我们进一步引入了一种将我们的面部编辑推广到视频的想法。即使在真实（即非合成）图像和视频这等具有挑战性的情况下，我们的模型也实现了一种解纠结、可控和保持身份的面部属性编辑。我们在图像和视频数据集上进行了大量的实验，实验结果表明我们的模型在视觉质量和定量评估方面优于目前最好的方法。

1、引言

      面部属性编辑是照片修饰或电影后期制作行业的一项至关重要的任务。例如，许多演员为了美化或其他特殊化妆效果而被修饰。对于这样的任务，艺术家非常希望能够在不影响其他信息的情况下控制面部属性。因此，人脸编辑方法应该依赖于解纠缠的属性，并允许进行身份保护操作。
      早期基于深度学习的工作侧重于基于编码器-解码器的架构[8，17]。尽管最近的结果的质量有所提高，但这些方法在分辨率上受到限制，并在高分辨率图像上产生明显的伪影。此外，这些方法很难控制，因为修改一个面部属性往往会修改其他属性。
      最近，生成网络在高质量图像合成方面取得了令人印象深刻的进展[5，19，20，21]。研究表明，沿着生成模型的潜空间中的某些方向移动潜码会导致相应生成图像中视觉属性的变化[2，9，35，3，42]。这些假设对于二分属性，在潜空间中存在一个超平面，将数据分成两组。然而，这一假设有几个局限性。首先，成功的操纵只能在良好的解纠缠和线性化的潜空间中实现。虽然与图像空间相比，潜空间是解耦的，但我们在本文中表明，通过线性变换实现面部属性操作是一个非常强大且有限的假设。此外，由于这些方法是在合成图像（从潜空间中的随机点生成）上训练的，因此它们在真实图像（自然界的，“野外”照片）上的表现不太令人满意。这是一个经常被忽视但至关重要的问题。
      在这项工作中，我们解决了在真实图像上编辑面部属性的问题。为了解决上述限制，我们提出了一个转换网络来导航生成模型的潜空间。我们将真实图像投影到最先进的图像生成器StyleGAN的潜空间上，并根据投影的潜码训练我们的模型。转换网络在真实图像上生成解纠缠、身份保留和可控的属性编辑结果。这些关键优势使我们能够将我们的方法扩展到视频的情况，其中稳定性和质量至关重要的。为此，我们介绍了一种在高分辨率视频上实现稳定和真实的面部属性编辑的思路。
      我们的贡献总结如下：我们提出了一种用于面部属性编辑的潜变换网络，在具有良好身份保留的真实图像上实现了解纠缠和可控的操作。我们的方法可以对真实图像进行高效连续的属性编辑。我们引入了一种将人脸编辑推广到视频的思想，并在高分辨率视频上实现生成真实和稳定的操作。
      本文的其余部分组织如下：在第2节中，我们总结了面部属性编辑、解纠缠表示和视频编辑方面的相关工作。第3节介绍了我们的潜变换网络和训练细节。在第4节中，我们介绍了在真实图像上解纠缠属性编辑的实验结果，并与目前最好的技术方法进行定性和定量比较。我们进一步介绍了在真实图像上进行一系列属性编辑的结果，并对损失成分的选择进行了消融研究。在第5节中，我们介绍了将面部属性编辑应用于视频的思想，并展示了在视频序列上的实验结果。我们在第6节中总结了本文。

2、相关工作

面部属性编辑

以前关于面部属性的工作非常广泛，主要集中在分辨率有限的图像上。Up church等人的一种基于优化的方法[38]表明，通过在预训练的特征空间中插入深度特征，可以实现语义转换，如老化或添加面部刘海。另一种方法为属性编辑任务训练前馈模型。Attribute2image[43]提出训练条件变化自编码器以生成条件属性的图像。随着生成网络在图像合成中的成功，许多研究[8，15，24，25，41]探索了使用对抗学习训练自动编码器的可能性。FaderNet[24]和StarGAN[8]提出将自编码器潜空间中的不同属性解纠缠，以目标属性为条件生成输出图像。AttGAN[15]和STGAN[25]通过放松对目标属性的严格约束，增强了属性的灵活转换，以提高图像质量。一些研究调查了处理高分辨率图像的不同可能性。CooGAN[7]提出了一种基于图像块的局部-全局框架来处理图像块中的HR图像。观察到生成网络在高质量图像合成中的巨大进步，Viazovetskyi等人[39]使用StyleGAN2[21]生成的合成图像训练了pix2pixHD模型[40]用于单属性编辑。

解纠缠表征。

在StyleGAN[20]的论文中，作者研究了混合生成图像上的两个潜码的影响（称为风格混合），并发现每个子集控制图像上有意义的高级属性。受此启发，一些研究试图探索在潜空间中的生成网络（特别是StyleGAN）的解纠缠表征。Image2StyleGAN++[2]一种基于优化的方法通过在StyleGAN的激活特征上应用掩码插值，对图像执行局部编辑和全局语义编辑。Collins等人[9]对StyleGAN的激活层进行了k均值聚类，并检测到语义对象的分离，这使得能够对生成的图像进行进一步的局部语义编辑。对于高级语义编辑，Ganalyze[13]在BigGAN[5]的潜空间中学习了一个流形，以生成不同记忆的图像。InterFaceGAN[35]提出在潜空间中学习二分类的超平面，可以使用该超平面通过简单的插值来操纵目标面部属性。在他们的工作之后，StyleSpace[42]对StyleGAN[21]的潜空间进行了定量研究，并实现了对视觉属性的高度局部化和解纠缠控制。StyleFlow[3]通过训练条件归一化流实现了对潜空间的条件探索。StyleRig[36]介绍了一种方法，通过3D可变形面部模型，对预训练和固定的StyleGAN提供类似面部操作的控制。Yao等人[44]提出以非线性方式导航StyleGAN的潜空间，以实现面部属性的分离操作。为了找到解纠缠的方向，一些研究试图使用主成分分析（PCA）来分析生成网络的潜空间。PCAAE[31]提出了一种PCA自编码器，其潜空间在训练期间逐渐增加，并导致将固有数据属性分离为不同的组件。GANSpace[18]在生成网络的潜空间中执行PCA，探索主要方向并发现可解释的控制。上述方法通常侧重于合成图像的处理，因为将真实图像投影到StyleGAN的潜空间仍然是一个挑战。Image2StyleGAN使用优化方法将真实图像投影到StyleGAN的扩展潜空间，但其特征与原始潜空间不同，因此不适合操作。最近的一些工作[27，32，34，46]试图将编码器与StyleGAN模型一起训练。尽管图像无法完美重建，但我们看到了使用StyleGAN潜空间的解纠缠特性对真实图像进行属性编辑的可能性。

基于视频的面部编辑

最近关于面部视频合成的工作主要解决两个问题：1）从草图视频或参考图像（通常称为面部再现）生成面部视频序列，2）视频上的面部属性编辑。Garrido等人[12]提出了一种基于图像的再现系统，以实现视频中的人脸替换。Face2Face[37]提出了一种使用非刚性基于模型的绑定来实时再现目标视频的方法。Averbuch Elor等人[4]提出了一种通过驾驶视频制作静态肖像动画的技术，但仅限于轻微的运动。Kim等人[22]提出将生成神经网络用于肖像视频的再动画化，这不仅可以转换面部表情，还可以转换整个上身和背景。这些方法中的大多数只处理低质量的视频拍摄。一个流行的开源deepfake系统DeepFaceLab[30]引起了广泛关注。结合了人工人脸检测和标志提取工具等生产力工具，他们的想法是在视频上生成高保真的人脸交换结果。为了直接在视频上实现面部属性编辑，Rav Acha等人[33]建议将视频帧转换为“展开马赛克”，将马赛克绘制并重新渲染为视频。尽管结果令人满意，但计算每个视频镜头的马赛克是一个漫长的过程，需要平滑的变化才能成功构建。Duong等人[10]提出了一种使用深度强化学习在视频序列中生成年龄渐进的面部图像方法。最近的许多工作使用深度学习技术在静止图像上进行面部属性编辑。然而，到目前为止，只有少数作品解决了基于视频的属性编辑问题[45]。

3、方法

在本节中，我们提出了一个框架，通过StyleGAN的潜空间编辑真实图像中的人脸和视频中的人脸。

3.1、概述

对于给定的真实图像I，我们假设可以计算与生成器G相关的潜在表征 $w∈\mathcal W$ 。我们训练了一种反演方法，使I≈G(w)。我们的目的是在空间中训练一个潜转换器T以编辑投射图像G（w）的单个属性。由T(w)合成的图像用G(T(w))表示。它与G（w）共享除了要操纵的目标属性之外的所有属性。
为了训练潜变换器，我们提出了一个训练框架，该框架仅计算潜空间 $\mathcal W$ 中的所有损失。设 ${a_1，a_2，…，a_N}$ 是一组图像属性，其中N是所考虑的属性的总数。对于每个属性 $a_k$ ，训练不同的 $T_k$ 。为了预测潜码的属性，我们使用潜分类器 $C:\mathcal W→ \{0，1\}^N$ 。C是预先训练的，在训练 $T_k$ 的过程中冻结其权重。我们训练 $T_k$ 有以下三个目标：

为了确保 $T_k$ 有效地操纵属性 $a_k$ ，我们最小化了二分类损失： $\mathcal L_{cls} = -y_k log (p_k) ) -(1-y_k) log (1- p_k), \quad\quad\quad\quad\quad(1)$ 其中 $p_k = C(T_k(w))[k]$ 是目标属性的概率 $y_k ∈ {0, 1}$ 是期望标签。
为了确保其他属性 $a_i，i\not=k$ 保持不变，我们应用了属性正则化项： $\mathcal L_{attr} =\sum_{i\not=k}(1- γ_{ik}) \Bbb E_{w,i}[||p_i - C(w)[i]||_2],\quad\quad\quad\quad\quad(2)$ 其中 $γ_{ik}$ 是 $a_i$ 和目标属性 $a_k$ 之间在训练数据集上测量的绝对相关值。该正则化项基于相关性进行加权，以防止与目标自然相关的属性受到过度约束，即“胖”和“双下巴”。
为了确保人的身份被保留，我们进一步应用潜码正则化： $\mathcal L_{rec} = \Bbb E_w[||T(w) - w||_2]. \quad\quad\quad\quad\quad(3)$ 目标总损失为： $\mathcal L = \mathcal L_{cls} + λ_{attr}\mathcal L_{attr} + λ_{rec}\mathcal L_{rec}, \quad\quad\quad\quad\quad(4)$ 其中 $λ_{attr}$ 和 $λ_{rec}$ 是平衡每个损失的权重。

3.2、训练模型

为了在真实图像上实现属性编辑，我们首先需要计算StyleGAN的潜空间中对应的潜码。传统的生成网络将随机向量作为第一层的输入，StyleGAN与传统的生成网络不同，他具有不同的设计，生成器将常张量作为输入，而每个卷积层输出由样式代码通过自适应实例归一化层控制[16]。高斯随机潜码 $z∈\mathcal Z$ 首先通过映射网络得到中间潜码 $w∈\mathcal W$ ，该中间潜码通过学习仿射变换进一步专门化为风格码y。给定一个目标图像x，在 $\mathcal W$ 中找到相应的潜码仍然很困难，重建的质量也不是完全令人满意。Image2StyleGAN[1]进一步计算扩展潜空间 $\mathcal W^+$ 中的潜码，而原始设置要求它们相同。因此，从 $\mathcal W^+$ 中获得的潜码能更好地重建目标图像。
在我们的方法中，我们在潜空间 $\mathcal W^+$ 中训练潜变换器T，这是专门为投射真实图像的潜码而设计的。为了准备训练数据，我们使用Richardson等人提出的预训练StyleGAN编码器，计算CelebA HQ数据集[19]中每个图像的 $\mathcal W^+$ 潜码。[34]。结合每个图像的注解，我们获得“潜码标签”对作为我们的训练数据。

潜分类器

为了预测可操纵的潜码的属性，我们在“潜码-标签”对上训练属性分类器C。分类器由三个全连接层和ReLU激活层组成(ReLU激活层在三个全连接层中)。C在潜变换器的训练过程中是固定的。

潜变换器

给定潜码 $w∈\mathcal W$ ，潜变换器T生成单个属性修改的方向，其中变化量由缩放因子α控制。网络用单层线性变换f表示： $\quad\quad\quad\quad\quad(5)$ 在训练期间，缩放因子α根据输入潜码的目标属性的概率p进行设置（p＜0.5时为1 - p，p＞0.5时为-p）。在测试时，α可以从[1,1]中采样，或者根据所需的变化量将其设置在此范围之外。

图2 视频操作流程。每个输入帧都被单独裁剪并与面部图像对齐。预训练的编码器[34]通常将面部图像编码到StyleGAN[21]的潜空间 $\mathcal W^+$ 中。所获得的潜码由所提出的潜变换器T处理以实现属性编辑。StyleGAN进一步解码操纵的潜码以生成操纵的面部图像，这些图像与原始输入帧混合以获得输出帧。

3.3、视频操作

在本节中，我们提出了一种将图像编辑方法应用于视频的想法。编码过程确保两个连续帧的编码潜码彼此相似。因此，我们可以使用投影到StyleGAN的潜空间的帧来重建面部视频，这为下一个操作步骤提供了基础。由于我们提出的潜变换器的稳定性，操纵不会影响潜码之间的一致性，并在投影帧上生成稳定的编辑。图2显示了我们提出的流程的概况。该流程包括三个步骤：预处理、图像编辑和无缝克隆。

预处理

为了在StyleGAN的潜空间中编辑视频，我们首先根据StyleGAN设置从帧中提取面部图像。我们按照FFHQ数据集[20]的预处理步骤裁剪并对齐面部周围的每个帧，StyleGAN在该数据集上进行预处理。对于面部对齐，我们使用最先进的方法在每个帧上独立地检测标志[6]。为了避免抖动，我们进一步使用两个连续帧之间的光流和沿着整个序列的高斯滤波来处理标志。所有帧都被裁剪并对齐，以使眼睛位于中心，并将大小调整为1024×1024。

图片编辑

在这一步中，我们将我们的操纵方法应用于已处理的面部图像。使用预训练编码器[34]将每个帧编码到StyleGAN的潜空间。编码后的潜码由所提出的潜变换器处理以实现属性编辑。StyleGAN进一步解码操纵的潜码以生成操纵的面部图像。

无缝克隆

我们使用泊松图像编辑方法[29]将修改后的人脸与原始输入帧混合。为了仅混合面部区域，我们使用从检测到的面部标志获得的分割掩模。

3.4、实施细节

      我们探索了在FFHQ数据集[20]上预训练的StyleGAN2[21]的潜空间中解纠缠的操纵。在本文中，我们使用最新的StyleGAN2进行了所有实验。为了简单起见，当我们提到StyleGAN时，它指的是最新版本StyleGAN2。为了准备训练数据，我们使用预训练编码器[34]将CelebA HQ[19]的图像投影到StyleGAN的潜空间 $\mathcal W^+$ ，并获得相应的潜码。CelebA HQ包含30K张分辨率为 $1024^2$ 的人脸图像，每张图像标注40个面部属性。我们为每个面部属性训练单独的潜变换器。
      为了预测潜码上的属性，我们在“潜码-标签”对上训练一个潜分类器，这在潜变换器的训练过程中是固定的。该模型被设计为同时预测全部40个属性，并使用二进制交叉熵损失函数进行训练。
      对于潜转换器的训练，我们将90%的准备数据作为训练集，并将模型训练100K次迭代，批量大小为32。平衡每个损失的权重设置为 $λ_{attr}=1和λ_{rec}=10$ 。我们使用Adam优化器[23]，学习率为0.001， $β_1=0.9，β_2=0.999$ 。

4、实验(略)

5、结论和未来工作

在本文中，我们提出了一种通过StyleGAN的潜空间在真实图像和视频中执行面部属性编辑的潜转换网络。与其他方法相比，我们的方法产生了更具现实感的操纵，具有更好的解纠缠和身份保护。我们已经将我们的方法扩展到视频的情况，实现了稳定和一致的修改。据我们所知，这是第一个在高分辨率视频上呈现稳定面部属性编辑的工作。未来的一些工作可以致力于提高该方法的适用性和视频性能。特别是，由于StyleGAN在生成侧姿态中的面部方面存在困难，因此该方法难以处理侧姿态。这可以通过将StyleGAN编码器与生成器联合训练，或者使用姿势多样的更好的图像训练改进的StyleGAN生成器来解决。

大模型微调方法之Delta-tuning 空白II 大语言模型论文解读微调方法介绍微调方法 delta-tuning 论文解读大语言模型
大模型微调方法之Delta-tuning大模型微调方法自从23年之后可谓是百花齐放，浙大有团队在8月将关于大模型微调方法的综述上传了ArXiv。论文将微调方法总结为等几个类别。本次讨论的1大模型业务分类当前的大模型行业可谓百花齐放，自然语言处理（naturallanguageprocessing,NLP）、计算机视觉（computervision,CV）、音频处理（audioprocessing,
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74825656 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&