jjw_zyfx

Transforming the Latent Space of StyleGAN for Real Face Editing翻译

点击下载论文

摘要

尽管最近在使用StyleGAN进行语义处理方面取得了进展，但真实人脸的语义编辑仍然具有挑战性。W空间和W+空间之间的差距要求在重构质量和编辑质量之间进行权衡。为了解决这个问题，我们建议通过用基于注意力的transformers替换StyleGAN映射网络中的全连接层来扩展潜在空间。这种简单有效的技术将上述两个空间整合起来，并将它们转换为一个新的潜在空间，称为W++。我们改进后的StyleGAN保持了原始StyleGAN的到目前为止最好的生成质量，并具有适度更好的多样性。但更重要的是，所提出的W++空间在重构质量和编辑质量方面都取得了优异的性能。尽管有这些显著的优势，由于其与W/W+空间的结构相似性，我们的W++空间支持现有的反演算法和编辑方法，且只需进行了少量的修改。在FFHQ数据集上的大量实验证明，我们提出的W++空间显然比以前的W/W+空间更适合于真实面部编辑。代码公开在这里，点击查看代码

引言

      生成对抗网络（GAN）[1]的巨大成功彻底改变了数据驱动图像生成领域，并引发了重大的研究关注。特别是对于人脸合成，当前最先进的架构StyleGAN[2，3]通过首先将潜在代码映射到逐层样式代码，然后将其送到每个卷积层，生成高分辨率（即1024×1024像素）、照片逼真的图像。通过添加自适应实例归一化（AdaIN）或他的改进技术称为权重解调的，这种样式代码S直接控制各种尺度的图像特征。大量后续工作[4，5，6，7，8]进一步探索了中间潜在空间中表现出的不同属性（粗糙、中等和精细）的分离，以实现语义可控的人脸生成。然而，这种操纵能力并不直接应用到真实人脸上。
      为了缓解这一问题，[4、5、9、10、11、12、13]采用了“先反转后编辑”的方法。首先将真实图像投影到StyleGAN的潜在空间中。然后通过在反转的潜码上执行语义上有意义的编辑来获得新的潜码。然而，W空间中的投影潜码不足以准确的复现原始图像。扩展的潜在空间W+已被证明比反演[14]方法更有效。但在W+空间中编辑潜在代码是出了名的不行，因为它们脱离了语义上有意义的特征。相反，W空间中的潜码不受此问题的影响，因此有利于编辑质量。不幸的是，W空间和W+空间之间的这种差异要求在重构精度和操作自然度之间达成妥协。
      在本文中，我们对StyleGAN架构进行了简单但至关重要的增强，它扩展了潜在空间的维度，以实现更好的真实面部编辑。我们通过将映射网络M中的全连接层替换为基于注意力的transformer结构[15]来实现这一点。该修改过的映射网络M0将Z空间中的随机输入向量映射到名为W++的新的中间潜在空间。新的W++空间具有与W+空间相同的维度，但其比W空间大得多，因此实现了更精细的重构质量。与W+空间中的潜码不同，所提出的W++空间中的潜码在操作之后不会脱离语义上有意义的特征，因为它们在训练期间直接用于图像合成。因此，我们的W++空间具有更好的编辑质量。此外，我们的增强型StyleGAN保持了原始StyleGAN的最好的性能，并在生成多样性方面有适度的提高。最后，我们提出的W++空间很容易与现有的反演算法和编辑方法一起使用，且只需要进行少量调整。

图6 根据不同潜在空间中的年龄属性操作真实人脸。给定要编辑的真实图像，我们首先使用StyleGAN投射器[3]将其反转回潜在空间，然后使用InterFaceGAN[4，5]操作潜在代码。我们的结果（用红色框高亮显示）对于远距离操纵具有相当强的鲁棒性。
       为了证明我们W++空间的卓越兼容性，我们分别应用了几种常用的反演和编辑方法。对于反演任务，我们选择StyleGAN的投射器[3]来表示基于优化的方法，选择pixel2style2pixel（pSp）[16]来表示基于学习的方法。对于编辑任务，我们从单属性操作的InterfaceGAN[4,5]开始。受条件GAN（cGAN）[17]思想的启发，我们提出了一种基于cGAN的真实人脸属性编辑的想法(pipeline这里翻译成思路、思想较好)。与传统的cGAN不同，我们的思路（见图6）是使用预训练模型提取的属性作为条件信息。另一个区别是，我们的判别器在没有任何条件信息的情况下学会区分真和假图像，因此与naive GAN中的判别器一样。
       我们的贡献归结如下：

我们提出了增强StyleGAN模型即使用基于注意力机制的transformers替换在StyleGAN的映射网络中的全连接层。这种增强保持了最好的生成质量并适度提高了生成多样性。
我们提出的潜在空间W++在重构质量和编辑质量方面都取得了较好的性能。
我们的新W++空间与现有的反演和编辑算法都具有良好的兼容性。只需要做一些小改动。

2、相关工作

接下来，我们简要介绍一下有关以真实面部编辑为主题的现有文献。“先反转后编辑”方法已成为这一活跃研究领域的实际标准。在第一反转步骤中，将给定图像投影回StyleGAN的潜空间，并且反转的潜码可以通过生成器真实地重构输入图像。然后通过在潜在空间上沿着在语义上有意义的方向改变旧的潜在码来获得新的潜在码。

2.1、GAN反演算法

       Xia等人[18]最近的调查提供了对GAN反演算法的详尽概述。现有方法可分为三大类：基于优化的、基于学习的和混合方法。
       基于优化的算法迭代地改进潜码来缩小与给定图像之间的误差。原始StyleGANv2[3]使用附加的渐变噪声并提出在W空间中嵌入图像，从而以较差的重构为代价实现更好的编辑。相反，Image2StyleGAN和Image2StyleGAN+[14，9]将图像嵌入到扩展的W+空间中，这有效地优化了每个尺度的单独样式。这种方法为了编辑质量牺牲了重建质量。为了找到更好的平衡，PIE[12]和StyleGAN2Encoder[19]采用了两阶段编码过程，该过程首先将图像嵌入W空间，然后通过在W+空间中优化来细化其初始潜码。
       基于学习的方法[20，16，21]旨在训练一个将图像映射到潜在空间的编码器网络。与基于优化的算法相比，基于学习的方法具有计算复杂度低的优点，但重建质量较差。
       诸如[10]的混合类型结合了上述两种技术，其中首先使用编码器网络来获得近似潜码，然后通过优化来改进该潜码。

2.2、潜空间操作

由于其近似线性，StyleGAN的潜空间一直是语义操作的主要目标。监督方法在语义注解的监督下查找与给定二进制标记属性(例如年轻与年老)变化对应的线性方向。StyleRig[22]利用预训练的3DMM来找到操纵信息和面部操纵之间的映射关系。StyleFlow[11]通过学习W+空间中不同向量之间的变换来修改一组预定属性。InterfaceGAN[4，5]训练线性支持向量机（SVM）对基于语义标签的潜码进行分类，并使用每个超平面的法向量作为所选属性的潜在方向。
为了以无监督的方式操作属性，GANSpace[6]对采样数据执行PCA操作，以找到潜空间中的主方向。相反，Collins等人[7]使用k均值聚类发现了局部语义和潜码部件之间的联系。最后，SeFa[23]是一种封闭形式的因子分解方法，它计算可解释的方向，而无需任何类型的训练或优化。

2.3、其他空间

       最近，与此同时的其他论文[24, 25, 26]提出：通过探索其他空间来解决这个“重建编辑”的难题。
       尽管取得了令人满意的权衡，[24]未能消除在两个不同的潜在空间中执行重建和编辑所导致的根本冲突。他们提出的P空间是通过反转StyleGAN映射网络中的最后一个Leaky ReLU层从W空间转换而来的，而P+空间是通过与从W空间扩展到W+空间方式类似的级联操作从P空间扩展的。
       与潜在空间不同，[25，26]研究了所有可能的风格向量所跨越的风格空间。然而，正如[26]中所指出的，与W+空间相比，风格空间实现了更差的操纵自然度和更接近的重建。不幸的是，这甚至加剧了我们正在努力解决的问题。

3、方法

3.1、动机

       必须牺牲重建质量或编辑质量的根本原因是，这两种操作最适合在两个独立的潜在空间中进行。原始StyleGAN在图像生成期间对所有不同的尺度使用相同的样式向量，这基本上将中间潜在空间W的尺寸限制为1×512。通过遍历W空间，我们可以找到语义上有意义的编辑方向。另一方面，在反转期间，这种限制被解除，这将W+空间的尺寸扩大到k×512（k是样式代码的个数）。这种额外的灵活性允许更可靠的恢复，但也会打乱所有编辑方向。为了解决这一矛盾，我们需要将输入空间Z扩展到维数为k×512，进而扩展中间潜空间W。但我们如何实现这一点？(为了简化和一致性，我们将图像分辨率固定为256×256，因此将k值设置为14，用于以下分析）。
       一个简单的解决方案是将映射网络中全连接层的维度从512扩展到7168（等于14×512）。虽然以这种方式让中间潜空间的维度得以连续增加，但计算成本也呈平方增长。全连接层的FLOP估计为512×512。扩展的全连接层的FLOP估计为7168×7168，是原始FLOP的196倍。当k达到18时，它以1024×1024的分辨率增长到324倍。

图2 在训练期间，不同StyleGAN模型在256×256分辨率下的FID评分曲线。具有14个独立映射网络的StyleGAN在迭代250K时达到最佳分数5.97。我们增强的StyleGAN模型在迭代230K时获得了最佳FID分数4.67。
       另一种可能的解决方案是为每个层使用单独的映射网络，这避免了上面计算复杂度爆炸的发生。这意味着14个独立的映射网络各自创建了不同的样式向量。由于每个新的映射网络在结构上都与原始映射网络相同，因此这种方法将计算复杂度的增长限制为线性增长。然而，如图2所示，FID指标表明生成质量显著变差。这种退化的主要原因是样式向量之间没有任何相关性。在原始StyleGAN中，通过向合成网络中的所有层投送相同的样式向量，确保了跨尺度的全局特征的一致性。然而，使用完全独立的映射网络来计算样式向量完全禁止了这种相关性。

3.2、W++空间

       该问题的理想解决方案应满足以下两个条件：（i）计算成本的有限增长；（ii）风格向量之间的某种程度的相关性。基于注意力的transformer结构[15]自然的满足这两个条件。

图1 (a) 模型总览。虽然原始StyleGAN[3]向每个卷积层提供相同的样式代码，但我们使用Transformer重新设计了StyleGAN映射网络的架构，以便向不同的层提供不同的样式代码。我们说明了分辨率为256×256的结构。(b)我们提出的映射网络的示例。我们省略了一些标准层，这些标准层对我们的体系结构来说是不必要的，以避免混淆说明。
       图1（b）详细说明了我们的映射网络。我们遵循transformer的原始设计，具有多头自注意力和简单的位置全连接前馈网络。潜码z从输入潜空间Z中随机采样。除了其尺寸被放大到14×512之外，该Z空间几乎与原始StyleGAN中的对应空间相同。然后，添加一个固定1D位置嵌入以保留每个样式向量的层索引[27]。查询（q）、键（k）和值（v）都来自相同的潜码Z通过单独的线性变换与位置嵌入拼接在一起。根据Karras等人[2]对映射网络深度的消融研究，8是最佳选择。因此，我们通过堆叠8个transformers来实现映射网络。这个网络的输出形成了我们新的潜在空间W++。
       计算代价。在我们的例子中，transformer的整体计算复杂度由线性变换而不是相似性计算所控制。每个线性变换以 $O(kd^2)$ 为界。其中维数d为512，样式编码k是14。我们还添加了压缩比c作为减少总计算的技巧，这将复杂性降低到 $O(k(\frac{d}{c})^2)$ ；实际上，我们将c的值设置为4。总之，我们的W++空间为映射网络带来了大约五分之一的计算成本增加。然而，考虑到StyleGAN的大部分计算负担都落在合成网络和判别器上，这种扩展对整个模型的影响有限。
       样式相关性。相同输入(查询和键)的两个线性变换之间的余弦相似度由自注意模块计算。然后将该相似度矩阵与作为输入的另一线性变换的值相乘。因此，我们的W++空间中的潜码基本上是Z空间中沿k（=14）维度的输入潜码的加权和。所有系数都在训练阶段学习。因此，原始StyleGAN的映射网络是我们的一个特殊情况，其中k维中任意两个元素之间的相关性被严格限制到1之内。使用14个独立的映射网络是在频谱的另一端，因为相关性等于0。根据输入值，我们的相关系数在训练后落在[0，1]内，并且对于不同的对有所不同。
       如图1（a）所示，输出潜码沿k维被划分为14个不同的样式代码。每个带有512维的样式编码被投送到不同尺度的合成网络的不同层中。没有对原始styleGAN 架构进行任何更改，以适应所提出的W++空间。

4、实验(略)

5、结论

在这项工作中，我们提出升级StyleGAN架构，将其映射网络替换为8个基于注意力的transformers。此修改将其原始潜在空间转换为称为W++的新的潜在空间。我们的StyleGAN模型保持了目前最好的生成质量，并适度提高了生成多样性。然而，与先前的W或W+空间不同，我们提出的W++空间在重建质量和编辑质量方面都获得了优异的性能。此外，它支持现有的反演算法和编辑方法，只需进行少量调整。在FFHQ数据集上的实验清楚地证明了我们方法的优点。
我们的工作有一些局限性，我们留给未来的工作。尽管我们提出的W++空间通过扩展原始潜空间获得了出色的重建质量，但反转图像看起来仍然与输入的真实图像略有不同。这种差异会对真实图像的编辑质量产生不利影响。今后，我们希望缩小这一差距。

[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记迁移学习人工智能机器学习
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？文章目录【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？✅一、使用正则化进行模型压缩（ModelCompression）目标：方法：L1正则化促使权重稀疏化代码示例：后续压缩步骤
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
人类编程时代即将终结？OpenAI首席产品官预测AI将在今年底全面超越人类程序员前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读近日，OpenAI首席产品官KevinWeil在接受采访时表示，人工智能的发展速度远超预期，今年底就有可能在编程领域永久性地超越人类程序员。这一观点立即引发了行业热议，也让程序员们对未来产生了深刻的思考。人工智能的进展速度远超想象在与VarunMayya和TanmayBhat共同主持的YouTube节目《O
Python大数据分析&人工智能教程 - Django-Celery异步处理（深入解析与实战案例） AI_DL_CODE python 数据分析 Django Celery异步处理 Celery
文章目录1.概念介绍1.1Django框架概述1.2Celery异步任务队列1.3AMQP协议与消息路由2.环境搭建2.1安装Django和Celery2.2配置Redis作为消息代理3.Celery架构与工作原理3.1Celery组件介绍3.2任务生命周期3.3任务调度与执行3.3.1定时任务3.3.2异步任务调用3.3.3任务结果查询4.Django与Celery集成4.1创建Celery实例
智能之火，重塑创造：大模型如何点燃新一代开发引擎？黑巧克力可减脂 AIGC 人工智能 AIGC
导言：普罗米修斯之火再现在科技演进的长河中，每一次生产力的跃迁都伴随着工具的质变。从蒸汽机轰鸣到电力普及，再到信息高速公路的铺就，人类驾驭能量的能力不断突破。今天，我们站在一个崭新的临界点上：大语言模型（LLM）正将人工智能的“普罗米修斯之火”引入软件开发的核心腹地。这不再仅仅是效率的优化，更是对开发者角色、开发流程乃至软件本质的深度重塑。GitHubCEOThomasDohmke曾断言：“Cop
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
FastGPT与MCP：解锁AI新时代的技术密码挑战者666888 AI模型应用实战迁移学习集成学习文心一言
一、AI浪潮中的新星：FastGPT与MCP登场在当今科技飞速发展的时代，人工智能（AI）已成为推动各行业变革的核心力量。从智能语音助手到复杂的图像识别系统，AI的应用无处不在，而其中的关键技术——语言模型和集成平台，更是备受关注。FastGPT和MCP（Multi-ComponentPlatform）作为这一领域的新兴代表，正逐渐崭露头角，为AI的发展注入新的活力。FastGPT，以其高效的推理
前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
linux深度学习问题汇总不想改代码备忘录 linux python 深度学习 pytorch 人工智能 1024程序员节
目录一、异常问题1.segementationfault(coredump)2.Illegalinstruction(coredumped)3.死锁4.掉卡二、通用方法1.查看重启记录2.系统性能监控3.后台执行命令4.异常日志三、深度学习技术1.普通网络改DDP训练，单机多卡，pytorch四、专业内容方法1.微调diffusion类模型本文记录一些在使用linux服务器进行深度学习时遇到的问题
提升首屏加载的秘密武器：一文讲透 CDN 加速核心逻辑网罗开发实战源码前端 json javascript
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
量化AI价值的30个关键指标 mao_feng 人工智能 AI
摘要：量化AI的战略价值人工智能（AI）成功集成到业务运营中超越了单纯的技术部署;它需要一种严格、可量化的方法来展示其价值。本报告系统地分类并解释了评估AI优势的基本指标，从核心模型性能到总体战略和道德考虑因素。必须制定多方面的衡量策略，将技术AI指标与运营效率、客户体验、财务绩效、战略优势和负责任的AI实践等有形业务成果直接联系起来。稳健的关键绩效指标（KPI）不仅仅是问责制的工具;它们是持续改
【AI】AI大模型发展史：从理论探索到技术爆发不想当程序汪的第N天 AI 人工智能
一、早期探索阶段—理论与技术奠基1.1符号主义与连接主义的博弈20世纪50-70年代，符号主义AI主导研究方向，通过专家系统模拟人类逻辑推理，但受限于计算能力和数据规模。80年代连接主义AI兴起，以神经网络为核心，反向传播算法的提出为深度学习奠定基础。1.2神经网络初步实践1980年：卷积神经网络（CNN）雏形诞生1998年：LeNet-5模型成功应用于手写数字识别，成为首个商用深度学习模型关键局
【AI大模型】23、构建你的西部世界：AI小镇具身智能实战指南无心水 AI大模型人工智能 AI小镇搭建具身智能实战智能体系统架构提示语工程优化虚拟社会构建 AI大模型
引言：从代码到虚拟社会的奇妙旅程在人工智能领域，具身智能的发展正引领着一场新的革命。当我们谈论构建一个类似《西部世界》的虚拟社会时，我们不仅在创造一个数字游乐场，更是在探索智能体如何在模拟环境中展现出类似人类的认知、社交和决策能力。本文将带领你踏上一段激动人心的旅程，从底层架构到上层应用，全面解析如何利用提示语工程构建一个充满活力的AI小镇。想象一下，你将成为这个虚拟世界的造物主，通过精心设计的提
九章数学体系：定义域无界化——AI鲁棒性的“隐形杀手“ 九章数学体系数学建模拓扑学人工智能神经网络
九章数学体系：定义域无界化——AI鲁棒性的"隐形杀手"摘要传统人工智能模型在面对边缘场景时常常表现出鲁棒性不足的问题，本文深入分析发现，这种现象的本质根源在于模型缺乏显式的定义域约束，导致无界化假设成为影响AI鲁棒性的"隐形杀手"。文章系统阐述了无界假设如何引发对抗样本脆弱性和数值不稳定等核心问题，并引入九章数学体系的定义域约束理论，为解决这些问题提供了全新的数学视角和工程实现路径。研究表明，通过
从单一设备到万物互联：鸿蒙生态崛起的未来之路王子良. 经验分享 harmonyos 华为
目录一、引言：开启智能时代的钥匙二、鸿蒙生态概述：跨设备协同的核心价值三、开发者机遇与挑战：抓住鸿蒙崛起的机会四、鸿蒙生态崛起的前景：万物互联的未来五、开发者在鸿蒙生态中的实践机遇与挑战1.跨设备开发的机遇2.与人工智能和物联网结合的创新空间3.持续创新与生态完善的挑战六、鸿蒙生态未来的多维发展：智能硬件与大数据的深度结合1.智能硬件与大数据的结合2.在智能家居与城市管理中的应用3.行业领域的深度
OpenCV让Python实现人脸特征点检测 Python编程之道 Python编程之道 opencv python 人工智能 ai
OpenCV让Python实现人脸特征点检测关键词：OpenCV、Python、人脸检测、特征点定位、计算机视觉、Dlib、深度学习摘要：本文将深入探讨如何使用OpenCV和Python实现人脸特征点检测。我们将从基础概念开始，逐步介绍人脸检测和特征点定位的核心算法原理，包括传统的Haar级联检测器和基于深度学习的Dlib面部特征点检测器。文章将提供详细的代码实现和数学原理讲解，并通过实际项目案例
使用 C++ 和 OpenCV 构建驾驶员疲劳检测软件 whoarethenext c++opencv 开发语言
使用C++和OpenCV构建驾驶员疲劳检测软件重要声明：本文所描述的软件是一个概念验证的原型，绝对不能用作现实世界中的安全系统。真正的车载安全系统需要经过大量的测试、具备冗余设计并通过专业认证，以确保其绝对可靠。驾驶疲劳是全球范围内引发交通事故的主要原因之一。当驾驶员感到困倦时，他们的反应时间会变慢，决策能力会下降，而在方向盘后睡着的风险则会急剧增加。为了解决这一关键问题，计算机视觉技术提供了一个
考取华为HCIE-AI有什么用？博睿谷IT99_ 华为人工智能华为认证职业规划
在人工智能技术重塑各行各业的浪潮中，掌握核心AI能力成为专业人士的制胜关键。华为推出的HCIE-AISolutionArchitect（华为认证ICT专家-AI解决方案架构师），正是面向这一领域顶尖人才设立的最高级别认证。主要是为了培养和认证掌握人工智能解决方案架构、设计与应用知识，具备大模型业务场景分析、大模型训练与微调、模型推理部署能力的专家级人才。一、HCIE-AI：专家级能力的权威认证HC
多模态实操第一弹：多模态AI是什么？能做什么？江凯吴杰多模态的尝试人工智能
多模态AI专栏第一期：多模态人工智能概述与应用你是否想过，AI如何像人一样同时"看、听、说"？本期专栏将带你深入了解多模态AI的核心原理、发展脉络、关键技术、典型应用，并为后续实战打下坚实基础。最后，我们将详细介绍本系列所用的ERIT数据集及其任务背景。目录1.什么是多模态AI？2.多模态AI的发展历程3.多模态AI的核心技术4.多模态AI的应用场景5.多模态AI的挑战与机遇6.专栏预告与ERIT
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
十分钟了解人工智能的过去、现在与未来 ithadoop 人工智能人工智能
十分钟了解人工智能的过去、现在与未来人工智能(AI)作为重塑人类社会的技术革命，正以前所未有的速度改变着我们的工作方式、生活方式和思维方式。从1943年人工神经元模型的提出，到2025年AI应用场景的全面爆发，AI发展经历了多个关键阶段。在接下来的十分钟里，我们将通过图文解说，快速了解AI从萌芽到现在的历程，以及未来可能带来的机遇与挑战。一、人工智能的过去：从理论奠基到技术突破1.萌芽阶段(194
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
探索 AI 系统提示与模型资源库：`system-prompts-and-models-of-ai-tools` 几道之旅人工智能智能体及数字员工人工智能
在当今的人工智能领域，系统提示和工具模型的优化与应用对于提升AI助手的性能和响应质量至关重要。x1xhlol开源的system-prompts-and-models-of-ai-tools仓库为开发者们提供了一个丰富的资源集合，涵盖了多种AI工具的系统提示、工具和模型。仓库概述这个仓库包含了超过7500行的代码和文档，详细介绍了多个知名AI工具的系统提示和相关模型，其中包括FULLv0、Curso
2025年中总结 Just Jump 人生经历思考反思认知方法 2025年中总结
2025年中总结。一如往年惯例，总结近半年工作中的体悟和经验。一、把大而难的事拆解成小而具体的小目标。专注解决小目标，每周迭代交付，先完成再完善。1.1把大任务拆解成具体可执行的小目标2025年5月起我开始做大模型相关的技术调研、技术升级和开发工作。传统的机器学习、深度学习算法和大模型的算法在技术知识上还是有很大的差异的。想要快速转型使用大模型做开发、训练，是需要些时间和精力投入的，这并不是一个简
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l