jjw_zyfx

FENeRF: Face Editing in Neural Radiance Fields翻译

论文地址

代码地址

摘要:

以前的肖像生成方法大致分为两类：2D GAN和3D感知GAN。2D GAN可以生成高保真的肖像，但具有低的视觉一致性。3D感知GAN方法可以保持视觉一致性，但其生成的图像不具有局部可编辑性。为了克服这些限制，我们提出了FENeRF，这是一种3D感知生成器，可以生成视觉一致且局部可编辑的肖像。我们的方法使用两个解耦的潜在编码在具有共享几何体空间对齐的3D体中生成相应的面部语义和纹理。得益于这样的潜在的3D表征，FENeRF可以一起渲染边界对齐的图像和语义掩模，并使用语义掩模通过反GAN来编辑3D体积。我们进一步表明，这种3D表征可以从广泛可用的单眼图像和语义掩模对中学习。此外，我们揭示了一起学习语义和纹理有助于生成更精细的几何体。我们的实验表明，FENeRF在各种人脸编辑任务中优于目前最好的方法。

1、引言

      基于生成对抗网络的真实感照片合成是计算机视觉和图形学中的一个重要问题。特别是，合成高保真和可编辑的肖像近年来获得了相当大的关注。已经提出了两类主要的方法：2D GAN图像生成和3D感知图像合成技术。
      尽管2D GAN方法在合成高度逼真甚至局部可编辑的图像方面取得了巨大成功但它们都忽略了3D场景下的投影或渲染过程，这对于视觉一致性来说是至关重要。因此，当改变生成肖像的视角时，它们会产生不可避免的伪影。为了克服这一问题，神经辐射场（NeRF）[35]已经探索并开发3D感知图像合成技术。一些其他方法[3，44]采用普通的NeRF生成器来合成不可编辑的并且结果可能是模糊的视角自由的肖像。Niemeyer等人[37]使用体积渲染技术首先生成视觉一致的2D特征图，然后使用额外的2D解码器获得最终的高度逼真的图像。然而，这种方法会受到由2D卷积和镜像对称问题引入的额外的视觉相关伪影的影响。为此，CIPS-3D[53]用隐式神经表征（INR）网络代替2D卷积。不幸的是，所有现有的3D感知GAN在生成自由视角肖像上都不支持交互式局部编辑。
      在本文中，我们提出了一种生成器，它可以严格的生成视觉一致的肖像，同时支持交互式局部编辑。我们采用噪声体积方案。生成器将去耦的形状和纹理潜在编码作为输入，并生成3D体积，其中面部语义和纹理通过共享几何体在空间上对齐。由于在生成纹理体积时利用了可学习的3D位置特征嵌入，因此在合成的肖像中保留了更多细节。
      由于缺乏合适的、大规模的3D训练数据，直接学习这种3D体积表示非常困难。一种可能的解决方案是使用多视角图像[4]。然而，少量的训练数据不能表现出3D语义体的再现能力。为了克服这个问题，我们使用了具有成对语义掩码的单眼图像，这是非常有用的。具体而言，使用颜色和语义判别器来监督NeRF生成器的训练。颜色判别器聚焦于图像细节，因此提高了图像的保真度。语义判别器将一对图像和语义图作为输入，以增强3D体积中相应内容的对齐能力。得益于空间对齐的3D表征，我们可以使用语义图通过反GAN来局部和灵活地编辑3D体积。此外，这里的一个观点是，同时学习语义和纹理表征有助于以生成更精确的3D几何形状。
      为了说明所提出方法的有效性，我们在两个广泛使用的公开数据集：CelebMask HQ和FFHQ上进行了评估。如实验所示，FENeRF生成器在几个方面优于现有技术的方法。此外，它还支持各种下游任务。为了便于进一步研究，我们将在验收后发布代码和模型。综上所述，我们的主要贡献如下：
      1、我们提出了第一个局部可编辑和具有严格视觉一致的肖像图像生成器，此生成器得益于3D表征在语义、几何和纹理空间上的对齐的。
      2、我们使用成对的单眼图像和语义图来训练生成器，而不需要多视图或3D数据。这确保了数据的多样性并增强了生成器的表征能力。
      3、在实验中，我们发现一起学习语义和纹理体可以帮助生成更精细的3D几何体。

2、相关工作

神经隐式表征 最近，神经隐式场景表征以其空间连续性和存储效率促进了各种3D感知任务的爆发，如3D重建和新视角合成。[33，34，39]为代表的将场景、对象作为约束字段或带符号的距离函数，需要3D数据进行监控。[35]以mlp的权重作为建模场景的神经辐射场。通过体绘制的可微数值积分，NeRF可以只在具有姿势的图像上训练。各种后续工作者将NeRF扩展到训练和测试更快[8,13,17,43,49]、自由姿势[26,31]、动态场景[5,50]和虚拟动画[15,27,41]的模型上。[52]使用语义分割渲染器扩展了NeRF，并提高了语义解释的性能。在这项工作中，我们构建了与神经辐射场对齐的生成语义场。我们不关注场景语义理解，而是利用面部纹理和语义的空间对齐来实现语义引导的属性编辑。EditNeRF[29]通过将2D涂鸦传播到3D空间来编辑通用对象，然而，它只支持对形状和颜色的简单修改，而FENeRF则在神经辐射场中处理复杂的面部变形和外观纹理的细节，这对面部编辑任务至关重要。
使用2D GAN进行人脸图像编辑 生成对抗网络（GAN）广泛应用于逼真的照片的人脸编辑。受图像到图像翻译的启发，条件GAN将条件语义掩码[11，19，40，55]或手写草图[6，7，25]作为交互式编辑人脸图像的条件。SPADE[40]利用有效的空间自适应归一化来合成给定输入语义布局的逼真的人脸图像。SEAN[55]进一步实现了基于语义区域的样式和更灵活的面部编辑。为了在可解释的语义参数（例如姿势、表情、光照）中提供3D的显式控制，最近的几种方法基于3D引导将图像生成空间分解为多个特定属性[4，24，46]。SofGAN提出了一个语义约束字段来渲染视图一致的语义图，该语义图为图像合成提供了几何约束。然而，SofGAN仍然缺乏对3D几何的解释，需要大量的语义标记3D扫描来训练语义渲染。相反，我们的FENeRF以对抗的方式进行端到端训练，没有任何3D数据或多视角图像。此外，我们还表明我们的语义渲染具有更好的视觉一致性。
3D感知的图像合成 尽管深度对抗模型在图像生成方面取得了巨大突破[9，19，21，22，40，46，55]，但这些方法主要在2D空间中操作形状和纹理，而不了解对象和场景的3D性质，导致姿态控制能力有限。为此，3D图像合成方法通过显式相机控制将图像生成提升为3D。早期方法[12，36，54]利用显式体积元素或体积表示，因此分辨率有限。最近，神经隐式场景表征被集成到生成对抗模型中，并实现了更好的存储效率和多视角一致性[2，3，10，14，37，38，44，53]。特别是π-GAN[3]以纠缠几何和纹理的全局潜码为条件，呈现基于siren的神经辐射场。然而，GRAF[44]和Giraffe[37]在全局层面脱离了纹理和几何体的控制。同时期的工作[2，10，14，38，53]展示了令人印象深刻的图像生成质量，但仍然不支持交互式用户局部编辑功能。相比之下，我们的FENeRF拥有纹理和几何体上的全局独立样式以及局部面部属性编辑，同时保持视觉一致性。

3、方法

3.1、局部可编辑NeRF生成器

      我们的目标是在3D空间中实现语义引导的面部编辑。主要挑战是：1）我们需要在图像生成过程中分离形状和纹理。2）语义图必须与3D空间中的几何体和纹理严格对齐。为此，FENeRF利用了两个独立的潜在代码。形状潜码是控制几何和语义的。纹理代码控制纹理体积的外观。此外，我们利用所提出的生成器中的三头架构来单独编码语义和纹理，这些语义和纹理与密度体积中描述的底层几何体对齐。我们的生成器公式如下： $(\mathrm {x, d, z_s, z_t, e_{coord}) \mapsto (σ, c, s}), \quad\quad\quad\quad\quad(1)$

图二 FENeRF的整体流程。我们的生成器以解纠缠的潜在代码Zs和Zt为条件产生空间对齐的密度、语义和纹理场。位置特征嵌入 $e_{coord}$ 还与视图方向一起被注入到网络中进行颜色预测，以在生成的图像中保留高频细节。通过共享相同的密度，可以渲染对齐的rgb图像和语义图。最后，向两个鉴别器 $D_s$ 和 $D_c$ 是由语义图/图像对和真/假图像对作为输入，并分别使用对抗目标 $L_{D_s}$ 和 $L_{D_c}$ 进行训练。
如图2所示，所提出的生成器被参数化后作为多层感知器（MLP）。其将3D点坐标 $\mathrm x=（x，y，z)$ 、观察方向 $\mathrm d=（\theta，\phi）$ 和可学习的位置特征嵌入 $e_{coord}$ 作为输入。然后以形状潜编码 $\mathrm z_s$ 为条件生成视角不变的密度 $\sigma \in \Bbb R^+$ 和语义标签 $s_r \in \Bbb R^k$ 。同理视觉相关的颜色 $c_r \in \Bbb R^3$ 是以纹理编码 $\mathrm z_c$ 为条件的
      我们还利用映射网络将采样编码映射到中间潜在空间 $\mathcal W$ ，并输出频率γ和相移β，通过特征线性调制控制生成器，如[3，42]所示： $\mathrm W_n(\phi_{n-1} ◦ \phi_{n-2}◦ ... ◦ \phi_0)(\mathrm x) + b_n \quad\quad\quad\quad\quad(2)$
$\mathrm x_i \mapsto \phi_i(\mathrm x_i) = \mathrm{sin(γ_i · (W_ix_i + b_i) + β_i), }\quad\quad\quad\quad\quad(3)$ 其中 $\phi_i:\Bbb R^{M_i}\mapsto\Bbb R^{N_i}$ 是网络的第i层。输入 $\mathrm x_i \in \Bbb R^{M_i}$ 是由权重矩阵 $\mathrm W_i \in \Bbb R^{N_i \times M_i}$ 和偏置 $b_i\in\Bbb R^{M_i}$ 变换后在经过sin非线性变换得到的。

图11 在 $e_{coord}$ 上的消融实验。子图(a)到( c)是三种 $e_{coord}$ 变量的生成图像的细节。我们放大合成的嘴以获得更清晰的观察。(d)说明了(b)和(c )中 $e_{coord}$ 注入的位置
      然而，利用基于siren的网络只能生成缺乏细节的图像。因此，我们引入了可学习的3D特征网格来补偿高频图像细节。具体而言，为了预测具有2D视图方向d的3D点x的颜色，我们通过双三次插值从特征网格中采样局部特征向量 $e^x_{coord}$ ，然后将其作为附加输入填充到颜色分支中。如图11所示，它有助于保留更细粒度的图像细节。
      一旦生成了语义、密度和颜色场，我们就可以通过立体渲染将它们从任意相机姿态渲染成语义图和肖像图像。对于每个3D点，我们首先查询其颜色c、语义标签s和体积密度σ。为了获得像素颜色 $C_r$ 和语义标签概率 $S_r$ ，使用经典的立体绘制过程来累积射线中所有样本的值。渲染方程式如下： $C(\mathrm r) = \int^{t_f}_{t_n} T(t)σ(\mathrm r(t))\mathrm c(\mathrm r(t), \mathrm d)dt, \quad\quad\quad\quad\quad(4)$ $S(\mathrm r) = \int^{t_f}_{t_n} T(t)σ(\mathrm r(t))\mathrm s(\mathrm r(t), \mathrm d)dt, \quad\quad\quad\quad\quad(4)$ 其中： $exp(-\int^t_{t_n}\sigma(\mathrm r(s))ds)$ 。在实践中，我们根据NeRF[35]以离散形式近似方程4和方程5。注意，语义、密度和纹理这三个分支共享相同的中间特征，输出密度也在颜色和语义渲染过程中共享，以确保生成的语义、密度与纹理在3D空间中精确对齐。

3.2、判别器

为了学习无监督的3D表示，我们设计了两个判别器Dc和Ds，他们都被带有leaky ReLU激活函数的CNN参数化了。Dc辨别生成的肖像的真实度。除了人脸图像之外，语义掩码也被用作Ds的输入。这是为了鼓励人脸外观和语义的对齐。此外，我们追加两个Dc通道来预测相机姿态，然后使用采样的姿势来校正预测的相机姿态并计算校正损失。

3.3、训练

在训练期间，我们随机采样相机姿态 $ξ\sim p_ξ$ 和浅编码 $z_s, z_t\sim\mathcal N(0,I)$ 。我们将相机姿态设置为近似的高斯分布，并根据[3，37，44]先验设置姿态范围。摄影机位置在以对象为中心的球体表面上采样，并且摄影机始终面向原点。我们的培训损失由三部分组成： $\mathcal L_{D_c} =\Bbb E_{z_s,z_t}∼\mathcal N,ξ∼p_ξ [f(D_c(\mathrm x_c))]+\Bbb E_{\mathrm I∼p_i} [f((-D_c(\mathrm I))+λ_c||\nabla D_c(\mathrm I)||^2], \quad\quad\quad(6)$ $\mathcal L_{D_s} =\Bbb E_{z_s,z_t}∼\mathcal N,ξ∼p_ξ [f(D_s(\mathrm x_s,\mathrm x_c))]+\Bbb E_{\mathrm I∼p_i,\mathrm L∼p_l} [f(-D_s(\mathrm{L, I})+λ_s||\nabla D_s(\mathrm{L, I})||^2], \quad\quad\quad(7)$ $\mathcal L_G =\Bbb E_{z_s,z_t}∼\mathcal N,ξ∼p_ξ [f(D_c(\mathrm x_c))]+\Bbb E_{\mathrm z_s,z_t}∼\mathcal N,ξ∼p_ξ [f(-D_s(\mathrm{x_s x_c}))]+λ_p||\hat ξ-ξ||, \quad\quad\quad(8)$ 其中 $f(t) = =-log(1 + exp((-t)), λ_c, λ_s, λ_p = 10$ 并且 $p_i , p_l$ 表示真图I和语义图L在数据集中的分布。图像判别器Dc、语义判别器Ds和生成器G的目标分别是最小化 $\mathcal L_{D_c}、\mathcal L_{D_s}和\mathcal L_G$ 。等式7中所示的 $\mathcal L_D$ 用于区分成对的图像和语义图，并增强它们的空间对齐能力。当用 $\mathcal L_G$ 训练生成器G时，我们停止了从Ds到颜色分支的梯度反向传播，因为梯度增强纹理匹配语义，并导致精细的图像细节的丢失。我们采用非饱和GAN损失和R1梯度惩罚[32]。此外，我们应用相机姿态校正损失（等式8的最后一项）来惩罚相机姿势 $\hat ξ$ 之间的距离。ξ被分别投送到生成器和用于预测的判别器。这种损失迫使所有3D人脸处于相同的标准姿势，并鼓励可靠的3D人脸几何结构以避免姿势漂移。

图3 与π-GAN在几何解释上的比较。π-GAN无法学习精确的几何形状（例如面部边界、头发、背景）并有严重的伪影。相比之下，得益于语义指导，FENeRF生成准确、平滑的几何形状，而无需任何特定的正则化。更重要的是，FENeRF实现了生成的3D人脸与背景的清晰分离。
总之，我们的方法构建了一个生成隐式表征，该表征在空间对齐的3D体中联合编码面部几何、纹理和语义特征。我们为更精细的获取图像细节引入了可学习的特征网格。辅助鉴别器通过将成对合成的图像和语义图作为输入来进一步强制这种对齐能力。此外，我们注意到语义渲染显著提高了合成的面部几何体的质量，如图3所示。

4、实验（略）

5、局限

一个已知的限制是，因为计算成本高昂的光线投射和体积集成，我们的生成器无法生成高清人像图像。此外，反GAN是进行3D体局部编辑的有效方法，但是相反的迭代优化是低效的。因此，实时自由视角人像编辑仍然是一个公开的问题。

6、结论：

在本文中，我们提出了第一个基于隐式场景表征的本地可编辑3D感知人脸生成器FENeRF。为了使用语义图作为编辑界面，我们引入了一个语义辐射场，该场通过共享几何体在3D空间中隐式地对齐面部语义和纹理特征。我们展示了FENeRF实现了包括风格混合、风格迁移、面部属性编辑在内的花式应用，并进一步将其推到具有显式相机控制的3D自由视觉方式。我们希望我们的工作将为可编辑的3D感知生成网络提供一个有前景的研究方向。对于未来的工作，我们计划提高合成自由视角肖像的分辨率，并研究特定的3D感知反GAN方法。

Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
对于规范和实现，你会混淆吗？ yangshangchuan HotSpot
昨晚和朋友聊天，喝了点咖啡，由于我经常喝茶，很长时间没喝咖啡了，所以失眠了，于是起床读JVM规范，读完后在朋友圈发了一条信息： JVM Run-Time Data Areas：The Java Virtual Machine defines various run-time data areas that are used during execution of a program. So
android 网络百合不是茶网络
android的网络编程和java的一样没什么好分析的都是一些死的照着写就可以了,所以记录下来方便查找 , 服务器使用的是TomCat 服务器代码; servlet的使用需要在xml中注册 package servlet; import java.io.IOException; import java.util.Arr
[读书笔记]读法拉第传 comsci 读书笔记
1831年的时候,一年可以赚到1000英镑的人..应该很少的... 要成为一个科学家,没有足够的资金支持,很多实验都无法完成但是当钱赚够了以后....就不能够一直在商业和市场中徘徊......
随机数的产生沐刃青蛟随机数
c++中阐述随机数的方法有两种：一是产生假随机数（不管操作多少次，所产生的数都不会改变）这类随机数是使用了默认的种子值产生的，所以每次都是一样的。 //默认种子 for (int i = 0; i < 5; i++) { cout<<
PHP检测函数所在的文件名 IT独行者 PHP 函数
很简单的功能，用到PHP中的反射机制，具体使用的是ReflectionFunction类，可以获取指定函数所在PHP脚本中的具体位置。创建引用脚本。代码： [php] view plain copy // Filename: functions.php <?php&nbs
银行各系统功能简介文强chu 金融
银行各系统功能简介　业务系统核心业务系统业务功能包括：总账管理、卡系统管理、客户信息管理、额度控管、存款、贷款、资金业务、国际结算、支付结算、对外接口等清分清算系统以清算日期为准，将账务类交易、非账务类交易的手续费、代理费、网络服务费等相关费用，按费用类型计算应收、应付金额，经过清算人员确认后上送核心系统完成结算的过程国际结算系
Python学习1(pip django 安装以及第一个project) 小桔子 python django pip
最近开始学习python,要安装个pip的工具。听说这个工具很强大，安装了它，在安装第三方工具的话so easy!然后也下载了，按照别人给的教程开始安装，奶奶的怎么也安装不上！第一步：官方下载pip-1.5.6.tar.gz, https://pypi.python.org/pypi/pip easy! 第二部：解压这个压缩文件，会看到一个setup.p
php 数组 aichenglong PHP 排序数组循环多维数组
1 php中的创建数组 $product = array('tires','oil','spark');//array()实际上是语言结构而不是函数 2 如果需要创建一个升序的排列的数字保存在一个数组中，可以使用range()函数来自动创建数组 $numbers=range(1,10)//1 2 3 4 5 6 7 8 9 10 $numbers=range(1,10,
安装python2.7 AILIKES python
安装python2.7 1、下载可从 http://www.python.org/进行下载#wget https://www.python.org/ftp/python/2.7.10/Python-2.7.10.tgz 2、复制解压 #mkdir -p /opt/usr/python #cp /opt/soft/Python-2
java异常的处理探讨百合不是茶 JAVA异常
//java异常 /* 1，了解java 中的异常处理机制，有三种操作 a,声明异常 b,抛出异常 c,捕获异常 2，学会使用try-catch-finally来处理异常 3，学会如何声明异常和抛出异常 4，学会创建自己的异常 */ //2，学会使用try-catch-finally来处理异常
getElementsByName实例 bijian1013 element
实例1： <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/x
探索JUnit4扩展：Runner bijian1013 java 单元测试 JUnit
参加敏捷培训时，教练提到Junit4的Runner和Rule，于是特上网查一下，发现很多都讲的太理论，或者是举的例子实在是太牵强。多搜索了几下，搜索到两篇我觉得写的非常好的文章。文章地址：http://www.blogjava.net/jiangshachina/archive/20
[MongoDB学习笔记二]MongoDB副本集 bit1129 mongodb
1. 副本集的特性 1)一台主服务器(Primary),多台从服务器(Secondary) 2)Primary挂了之后，从服务器自动完成从它们之中选举一台服务器作为主服务器，继续工作，这就解决了单点故障，因此，在这种情况下，MongoDB集群能够继续工作 3)挂了的主服务器恢复到集群中只能以Secondary服务器的角色加入进来 2
【Spark八十一】Hive in the spark assembly bit1129 assembly
Spark SQL supports most commonly used features of HiveQL. However, different HiveQL statements are executed in different manners: 1. DDL statements (e.g. CREATE TABLE, DROP TABLE, etc.)
Nginx问题定位之监控进程异常退出 ronin47
nginx在运行过程中是否稳定，是否有异常退出过？这里总结几项平时会用到的小技巧。 1. 在error.log中查看是否有signal项，如果有，看看signal是多少。比如，这是一个异常退出的情况： $grep signal error.log 2012/12/24 16:39:56 [alert] 13661#0: worker process 13666 exited on s
No grammar constraints (DTD or XML schema).....两种解决方法 byalias xml
方法一：常用方法关闭XML验证工具栏：windows => preferences => xml => xml files => validation => Indicate when no grammar is specified:选择Ignore即可。方法二：（个人推荐）添加内容如下 <?xml version=
Netty源码学习-DefaultChannelPipeline bylijinnan netty
package com.ljn.channel; /** * ChannelPipeline采用的是Intercepting Filter 模式 * 但由于用到两个双向链表和内部类，这个模式看起来不是那么明显，需要仔细查看调用过程才发现 * * 下面对ChannelPipeline作一个模拟，只模拟关键代码： */ public class Pipeline {
MYSQL数据库常用备份及恢复语句 chicony mysql
备份MySQL数据库的命令，可以加选不同的参数选项来实现不同格式的要求。 mysqldump -h主机 -u用户名 -p密码数据库名 > 文件备份MySQL数据库为带删除表的格式，能够让该备份覆盖已有数据库而不需要手动删除原有数据库。 mysqldump -–add-drop-table -uusername -ppassword databasename > ba
小白谈谈云计算--基于Google三大论文 CrazyMizzz Google 云计算 GFS
之前在没有接触到云计算之前，只是对云计算有一点点模糊的概念，觉得这是一个很高大上的东西，似乎离我们大一的还很远。后来有机会上了一节云计算的普及课程吧，并且在之前的一周里拜读了谷歌三大论文。不敢说理解，至少囫囵吞枣啃下了一大堆看不明白的理论。现在就简单聊聊我对于云计算的了解。我先说说GFS &n
hadoop 平衡空间设置方法 daizj hadoop balancer
在hdfs-site.xml中增加设置balance的带宽，默认只有1M： <property> <name>dfs.balance.bandwidthPerSec</name> <value>10485760</value> <description&g
Eclipse程序员要掌握的常用快捷键 dcj3sjt126com 编程
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得
Android学习之路 dcj3sjt126com Android学习
转自：http://blog.csdn.net/ryantang03/article/details/6901459 以前有J2EE基础，接触JAVA也有两三年的时间了，上手Android并不困难，思维上稍微转变一下就可以很快适应。以前做的都是WEB项目，现今体验移动终端项目，让我越来越觉得移动互联网应用是未来的主宰。下面说说我学习Android的感受，我学Android首先是看MARS的视
java 遍历Map的四种方法 eksliang java HashMap java 遍历Map的四种方法
转载请出自出处： http://eksliang.iteye.com/blog/2059996 package com.ickes; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Map.Entry; /** * 遍历Map的四种方式
【精典】数据库相关相关 gengzg 数据库
package C3P0; import java.sql.Connection; import java.sql.SQLException; import java.beans.PropertyVetoException; import com.mchange.v2.c3p0.ComboPooledDataSource; public class DBPool{
自动补全 huyana_town 自动补全
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml&quo
jquery在线预览PDF文件，打开PDF文件天梯梦 jquery
最主要的是使用到了一个jquery的插件jquery.media.js，使用这个插件就很容易实现了。核心代码 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.
ViewPager刷新单个页面的方法 lovelease android viewpager tag 刷新
使用ViewPager做滑动切换图片的效果时，如果图片是从网络下载的，那么再子线程中下载完图片时我们会使用handler通知UI线程，然后UI线程就可以调用mViewPager.getAdapter().notifyDataSetChanged()进行页面的刷新，但是viewpager不同于listview，你会发现单纯的调用notifyDataSetChanged()并不能刷新页面
利用按位取反（~）从复合枚举值里清除枚举值草料场 enum
以 C# 中的 System.Drawing.FontStyle 为例。如果需要同时有多种效果，如：“粗体”和“下划线”的效果，可以用按位或（|） FontStyle style = FontStyle.Bold | FontStyle.Underline; 如果需要去除 style 里的某一种效果，
Linux系统新手学习的11点建议刘星宇编程工作 linux 脚本
　　随着Linux应用的扩展许多朋友开始接触Linux，根据学习Windwos的经验往往有一些茫然的感觉：不知从何处开始学起。这里介绍学习Linux的一些建议。　　一、从基础开始：常常有些朋友在Linux论坛问一些问题，不过，其中大多数的问题都是很基础的。例如：为什么我使用一个命令的时候，系统告诉我找不到该目录，我要如何限制使用者的权限等问题，这些问题其实都不是很难的，只要了解了 Linu
hibernate dao层应用之HibernateDaoSupport二次封装 wangzhezichuan DAO Hibernate
/** * 方法描述:sql语句查询返回List<Class> * 方法备注: Class 只能是自定义类 * @param calzz * @param sql * @return * 创建人：王川 * 创建时间：Jul