灬磕盐小学霸

Self-Supervised 3D Face Reconstruction via Conditional Estimation

Abstract

我们提出了一个条件估计(CEST)框架，通过视频中的自监督训练，从2D单视图图像中学习3D人脸参数。CEST是基于综合分析的过程，从人脸图像中估计出三维人脸参数(形状、反射率、视点、光照)，然后进行重组，重构出二维人脸图像。为了学习语义上有意义的3D人脸参数而不需要明确地访问它们的标签，CEST通过考虑不同的3D人脸参数的统计依赖相关性来耦合对各个参数的估计。具体来说，任何三维人脸参数的估计不仅取决于给定的图像，还取决于已经推导出的人脸参数。此外，采用视频帧与帧之间的反射对称性和一致性来提高人脸参数的解耦。结合一种融合反射对称性和一致性的新策略，CEST可以在野外视频剪辑中有效地训练。定性和定量实验均证明了CEST的有效性。

1. Introduction

从单视图二维图像重建三维人脸一直是计算机视觉的一个长期问题。通常的方法将三维人脸表示为其形状的组合，并由其表面上被称为顶点的一些点的三维坐标以及其纹理表示，其中纹理是由这些顶点[4]上的红、绿、蓝反射率所表示。随后则是学习二维图像、顶点及其反射率之间的参数回归模型。

通过训练数据集对可用的2D图像和相应的3D参数进行参数回归的学习。然而，这些数据一般是稀缺的，即使是一般可用的数据也只有形状信息。具有其他参数的图像通常是在受控环境中进行信息的捕获，或者是通过数据合成的方式，因此这些不能代表真实世界的图像信息。于是乎，人们对自监督学习方法产生了极大的兴趣，这种方法可以从自然的2D图像或视频中学习回归模型，而无需明确需要3D训练数据。

问题是复杂的,实际成像不仅取决于的形状和纹理的脸,而且照明(入射光的强度和方向),和其他因素,如视点(加入人脸的方向和相机的位置),等等。因此，所学的回归模型也必须考虑这些因素。为此，一般的方法是从二维图像中提取形状、反射率、光照和视角参数。提取这些人脸面部参数的回归模型是通过自监督的方式来学习的，主要是通过将提取的面部参数进行重组来渲染原始的2D图像并以最小化重构误差来学习模型的参数。

然而，由于二维图像可能是由形状、纹理、光照和视角的不同组合而获得，因此这样的解决方案仍然是模糊的。为了确保自监督提供有意义的解耦，利用人脸参数重组方式来重建二维图像的方式则是一种基于图像形成的物理过程形式的表达。为了进一步减少潜在的歧义，正则化是必要的。反射对称已经被提出作为一种正则化的方式，其中假设人脸图像的反射率和其镜面反射率相同。平滑度也被用来正则化形状和反射率。额外的正则化可以通过考虑同一人脸的多幅图像之间的对应关系来获得，特别是当它们是在相同的条件下获得的，例如视频中的图像序列。[37，Fml: Face model learning from videos]中的方法考虑了反射率一致性，假设视频剪辑中所有图像帧的反射率都相似。

在之前的所有工作中目标参数，即形状、反射率、光照和视角参数都是单独估计的，没有考虑它们之间的直接影响，虽然它们是联合优化的。实际上，在推理时，他们假设对反射系数的估计，相对原始的2D图像形状或视点的估计是条件独立的。这四种图像之间的耦合只在(自监督)训练中才会考虑，且在训练过程中各个参数必须全部组合起来，来完全的重建出输入的2D图像。这如图1(a)所示。

实际上，2D 图像是减少维度的投影，因此无法完美地表示人脸的完整三维结构，并且其中在反射率和照明方面的参数信息也并不依赖于潜在的形状或者被捕捉的视角。因此，捕获的 2D 图像代表了视角、形状、反射率和照明之间的联合交互。因此，在只给定 2D 图像的条件下，这四个因素中的任何一个因素的统计估计，实际上可能不会是真正的条件独立。因此，将所有这些变量建模为条件独立情况可能会失去有效的机会，因为只是单独的预测他们的参数而对彼此施加的约束被忽略了。基于优化的方法试图通过迭代估计彼此的形状和反射率来捕捉依赖关系。然而，这些方法需要视频中图像序列的对应信息，并且推断成本很高。

本文提出了一种基于条件估计的学习框架(CEST)。CEST明确地考虑了从单个二维图像中推出的各种三维人脸参数(形状、视角、反射率和光照)之间的统计相关性。本文所采用的依赖关系具体形式如图1(b)所示。我们注意到CEST框架非常通用，允许我们考虑任何其他依赖结构。我们的论文是许多在实践中工作良好的潜在选择之一。为此，我们在CEST中提出了一个具体的、直观的解决方案，该方案将视角、人脸形状、面部反射率和光照按顺序和条件进行预测。在这种情况下，人脸形状的预测依赖于输入的图像和推出的视角;人脸反射率的预测以输入的图像、推出的视角和人脸形状为条件;等等。

和前面一样，通过将重新渲染的2D图像与估计的3D人脸参数进行比较，这种学习仍然是自监督的。作为额外的正则化，我们还使用了反射对称约束和反射一致性约束(在一个短视频剪辑的帧间)[37]。这些以跨帧重构误差项的形式包括在其中，其数量随考虑进行自监督的视频帧数的增加而呈二次方增长。为了解决重构项数量急剧增加的问题，我们提出了一种随机优化策略来提高训练效率。

我们进行了消融研究，并与最先进的方法进行了比较来评估CEST。我们方法通过与其他测试方法相比，CEST产生了更好的反射率和结构照明，导致更真实的渲染人脸与精细的面部细节。该算法在AFLW2000- 3D和MICC数据集上的形状估计精度也优于目前最先进的自监督和完全监督方法。总的来说，我们的贡献可以总结如下：

（1）我们提出了一种用于三维人脸重建的条件估计框架CEST，该框架明确地考虑了三维人脸参数之间的统计相关性。

（2）我们提出了一个具体的条件估计分解设计，其中视角，形状，反射率和照明是依次推导求出。

（3）我们提出了一种随机优化策略，有效地将反射对称性和一致性约束纳入CEST。随着视频帧数的增加，CEST的计算复杂度呈线性增加，而不是二次增加。

2. Related Work

基于自监督学习的单目三维人脸重建。最近发表的许多研究旨在通过自监督的方式从单个图像中学习3D人脸参数。在[29]中，作者提出了一个由粗到细的框架来改进三维人脸重建中的细节。Ayush等人的[39]提出了一种基于模型的深度卷积人脸自动编码器(MoFA)，以适应3DMM的形状、反射率和照度。InverseFaceNet[20]在由自监督引导生成的合成训练语料库上训练直接回归模型。SfSNet[33]在学习中结合了带标签的合成图像和未带标签的真实图像，并生成精确的深度图、反射率和阴影解耦。为了更好地刻画面部细节，[41,42]将3DMM推广为非线性模型。[48]对3D人脸使用网格卷积，从而实现了性能具有竞争力的轻量级模型。[34]将几何图形、像素和深度的多视图一致性作为约束。

然而，这些方法通常不考虑视频中跨帧的联系。FML[37]是第一个融合视频线索进行训练的自监督框架。每个视频帧的形状和反射率通过平均视频剪辑中的形状和反射率来近似。然而，如果多帧图像的数量很大，基于平均表示的模型可能不适用于单个图像，因为平均图像和单幅图像之间的差距很大。相反，CEST使用来自单个图像的表示。更重要的是，它使用条件估计来预测面部参数，而不假设它们之间的条件独立性，这在前面所提到的方法中通常是不现实的一种假设。

基于优化的三维人脸重建。[18]提出一种通过迭代更新视角、几何、光照和纹理参数的方法，使模板模型适合于照片的收集。[35]将人脸模型用于检测三维人脸关键点，并对纹理和几何细节进行细化。[11]学习面部子空间的身份和表情变化与参数形状的预测。[10]认为三维人脸重建是一个全局变分能量最小化的问题，并通过对视频帧的训练来估计密集的低秩三维形状。虽然这些方法可以被认为是条件估计，但它们专注于从视频中获取3D人脸参数，且与从单帧图像中获取这些参数的问题无关，而这正是我们工作中要解决的问题。对于CEST，视频通过剪裁得到一个图像集合并用于更好地学习模型。

3. The CEST Framework

在这项工作中，我们采用了一个常见的做法，用3D变形模型(3DMM)[4]，表示三维人脸作为形状和反射率的组合。该形状由一组顶点组 $\boldsymbol{S}=[\boldsymbol{S}(1) ; \boldsymbol{S}(2) ; \ldots ; \boldsymbol{S}(K)] \in$ $\mathbb{R}^{K \times 3}$ ，K是顶点的个数， $\boldsymbol{S}(i)=$ $[\boldsymbol{S}(i, 1), \boldsymbol{S}(i, 2), \boldsymbol{S}(i, 3)]$ ，表示笛卡尔坐标系中的xyz坐标。对于不同的面孔，S的类型是一致的。反射率由像素值的集合组成： $\boldsymbol{R}=[\boldsymbol{R}(1) ; \boldsymbol{R}(2) ; \ldots ; \boldsymbol{R}(K)] \in \mathbb{R}^{K \times 3}$ ，

每行 $\boldsymbol{R}(i)=[\boldsymbol{R}(i, 1), \boldsymbol{R}(i, 2), \boldsymbol{R}(i, 3)]$ ，包括位置 $\boldsymbol{S}(i)$ 处的像素值(即RGB)。

3.1. Framework Overview

从二维图像进行三维人脸重建的问题是，在给定输入图像的情况下，获得形状、反射率、视角和光照 $\boldsymbol{\ell}$ 的估计。从统计学上讲，我们的目标是在给定输入图像的情况下，估计出这些变量最有可能的值：

$\hat{\boldsymbol{S}}, \hat{\boldsymbol{R}}, \hat{\boldsymbol{v}}, \hat{\ell}=\arg \max _{\boldsymbol{S}, \boldsymbol{R}, \boldsymbol{v}, \ell} P(\boldsymbol{S}, \boldsymbol{R}, \boldsymbol{v}, \boldsymbol{\ell} \mid \boldsymbol{I})$ （1）

这种估计的挑战有两方面:首先 $P(\boldsymbol{S}, \boldsymbol{R}, \boldsymbol{v}, \boldsymbol{\ell} \mid \boldsymbol{I})$ 一定是可以这样仿照去描述的，第二 $\arg \max _{\boldsymbol{S}, \boldsymbol{R}, \boldsymbol{v}, \boldsymbol{\ell}} P(\boldsymbol{S}, \boldsymbol{R}, \boldsymbol{v}, \boldsymbol{\ell} \mid \boldsymbol{I})$ 一定是可以计算的。模型 $P(\boldsymbol{S}, \boldsymbol{R}, \boldsymbol{v}, \boldsymbol{\ell} \mid \boldsymbol{I})$ 直接是一个具有挑战性的问题，这个问题必须是可以因式分解的。之前的方法[41,39,48]通过假设形状、反射率、视角和光照都是条件独立的来分解这个问题。 $P(\boldsymbol{S}, \boldsymbol{R}, \boldsymbol{v}, \boldsymbol{\ell} \mid \boldsymbol{I})=P(\boldsymbol{S} \mid \boldsymbol{I}) P(\boldsymbol{R} \mid \boldsymbol{I}) P(\boldsymbol{v} \mid \boldsymbol{I}) P(\ell \mid \boldsymbol{I})$ 。这导致了简化的估计，其中每个变量都可以独立估计，即： $\hat{\boldsymbol{S}}=\arg \max _{\boldsymbol{S}} P(\boldsymbol{S} \mid \boldsymbol{I})$ ， $\hat{\boldsymbol{R}}=\arg \max _{\boldsymbol{R}} P(\boldsymbol{R} \mid \boldsymbol{I})$ 。正如我们之前讨论过的，条件独立假设是有问题的，因为条件变量是一个三维人脸的低维投影，它使四个变量混合在一起。

在CEST中，我们明确地对条件依赖关系建模，如图1(b)所示。具体来说，我们将联合概率分解为：

$\begin{aligned} & P(\boldsymbol{S}, \boldsymbol{R}, \boldsymbol{v}, \boldsymbol{\ell} \mid I) \\ =& P(\boldsymbol{v} \mid \boldsymbol{I}) P(\boldsymbol{S} \mid \boldsymbol{I}, \boldsymbol{v}) P(\boldsymbol{R} \mid \boldsymbol{I}, \boldsymbol{v}, \boldsymbol{S}) P(\boldsymbol{\ell} \mid \boldsymbol{I}, \boldsymbol{v}, \boldsymbol{S}, \boldsymbol{R}) \end{aligned}$ （2）

以这种方式耦合变量会导致一种复杂性:即使考虑到上面的因素，最大化关于、、和 $\boldsymbol{\ell}$ 的联合概率且须联合执行，因为其变量是耦合的。我们根据上面的顺序分解，用下面的顺序估计来近似它：

$\begin{array}{lc} \hat{\boldsymbol{v}}=\underset{\boldsymbol{v}}{\arg \max } P(\boldsymbol{v} \mid \boldsymbol{I}) & \hat{\boldsymbol{S}}=\underset{\boldsymbol{S}}{\arg \max } P(\boldsymbol{S} \mid \boldsymbol{I}, \hat{\boldsymbol{v}}) \\ \hat{\boldsymbol{R}}=\underset{\boldsymbol{R}}{\arg \max } P(\boldsymbol{R} \mid \boldsymbol{I}, \hat{\boldsymbol{v}}, \hat{\boldsymbol{S}}) & \hat{\boldsymbol{\ell}}=\underset{\ell}{\arg \max } P(\boldsymbol{\ell} \mid \boldsymbol{I}, \hat{\boldsymbol{v}}, \hat{\boldsymbol{S}}, \hat{\boldsymbol{R}}) \end{array}$ （3）

第二个挑战是实际计算式子3中的操作。我们不打算显式地对概率分布建模并使其最大化。相反的，我们将把方程3中的估计量建模为参数函数：

$\begin{aligned} \hat{\boldsymbol{v}} &=f_{v}\left(\boldsymbol{I} ; \theta_{v}\right) & \hat{\boldsymbol{S}} &=f_{s}\left(\boldsymbol{I}, \hat{v} ; \theta_{s}\right) \\ \hat{\boldsymbol{R}} &=f_{r}\left(\boldsymbol{I}, \hat{v}, \hat{\boldsymbol{S}} ; \theta_{r}\right) & \hat{\boldsymbol{\ell}} &=f_{\ell}\left(\boldsymbol{I}, \hat{\boldsymbol{v}}, \hat{\boldsymbol{S}}, \hat{\boldsymbol{R}} ; \theta_{\ell}\right) \end{aligned}$ （4）

学习估计三维人脸参数的问题，从而有效地降低估计参数 $\theta_{v}$ 、 $\theta_{s}$ 、 $\theta_{r}$ 和 $\theta_{t}$ 的问题。

使用常用的方法，我们通过自动编码器制定这些参数的学习过程。、、和 $f_{\ell}()$ 一起被视为自动编码器中的可学习的编码器，并分别估计、、和 $\boldsymbol{\ell}$ 。该解码器是一个用不可学习参数的确定可微渲染器，从编码器推导出的值中来重建原始输入图像，即 $\hat{I}=R(S,R,v,\ell)$ 。通过对编码器参数的学习，使 $\hat{I}$ 和之间的误差最小。

3.2. Facial Parameters Inference

视角：我们首先从给定的图像中预测视角参数，使用函数 $f_{v}\left(\boldsymbol{I} ; \boldsymbol{\theta}_{v}\right): \boldsymbol{I} \rightarrow \boldsymbol{v} \in$ $\mathbb{R}^{7}$ 。这里用于参数化弱透视图变换[36]，包括3D空间旋转(SO(3))、平移(xyz坐标)和缩放因子。

形状：形状的预测取决于给定的图像和预测视角参数。由于用不同的视角捕捉到的同一张脸应该对应于是相同的人脸面部形状，所以在形状预测之前，尽可能多地从图像中排除视角信息是有益的。利用预测的视角，我们可以将图像在二维平面上与标准的视图进行对齐，如图2和附录A.1所示。裁剪后的图像表示为： $\boldsymbol{I} \circ \boldsymbol{v}$ ，一个函数： $f_{s}\left(\boldsymbol{I} \circ \boldsymbol{v} ; \boldsymbol{\theta}_{s}\right): \boldsymbol{I} \circ \boldsymbol{v} \rightarrow \boldsymbol{\alpha} \in \mathbb{R}^{228 \times 1}$ ，用可学参数 $\theta_{s}$ 来预测形状系数 $\alpha$ 。在三维人脸形状统计模型中定义了形状系数 $\alpha$ ：

$\overrightarrow{\boldsymbol{S}}=\overline{\boldsymbol{S}}+\boldsymbol{U} \boldsymbol{\alpha}$ （5）

$\overrightarrow{\boldsymbol{S}} \in \mathbb{R}^{3 K \times 1}$ 是一个向量, $\overline{\boldsymbol{S}} \in \mathbb{R}^{3 K \times 1}$ 是一个平均的人脸。 $\boldsymbol{U}\in \mathbb{R}^{3 K \times 228}$ 是分别来自巴塞尔人脸模型[27]和3DFFA[49]的PCA身份和表情基。 $\overline{S}$ 和在CEST的训练和测试中是固定的。在预测 $\alpha$ 的情况下，形状可由方程5得到。

反射率：可由公式5得到。以往的方法通常是在预先定义的模型中预测反射率系数[39,38]，或直接从图像中预测反射率的unwrapped UV map[41,42,22,13]或图形表示[44,48]。在CEST中，我们采用UV贴图表示反射率。然而，反射率的预测不仅取决于给定的图像，还取决于预测的视角和形状。

该过程如图2所示。我们首先利用弱透视变换将世界坐标人脸形状S投影到视角上，计算出图像坐标人脸面部形状 $\boldsymbol{Q}\in \mathbb{R}^{K \times 2}$ 。该转换的细节在附录a .2中给出，因为它是一个标准公式，而不是本文的贡献。接下来，我们构造一个中间表示，即光照纹理的UV 图，它是根据预测的脸型对给定的图像通过展开得到的。然后，反射率的UV图是由被照亮的纹理，通过反射率函数 $f_{s}(T;\theta _{r})$ 预测得到的。通过UV wrapping可以从中恢复反射率。

计算纹理的基本思想如图3所示。对于每个 $\boldsymbol{T}\left(x^{\prime}, y^{\prime}\right)$ (位置 $\left(x^{\prime}, y^{\prime}\right)$ 上的像素值)，我们跟踪它在中的对应位置。光照纹理可以简单地通过 $\boldsymbol{T}\left(x^{\prime}, y^{\prime}\right)=I(x,y)$ 得到，其中如果或不是整数，则使用双线性插值来推断图片在位置的像素值。的计算如下:首先，通过柱面展开将标准人脸形状S映射到UV空间。根据3DMM提供的顶点连通性，我们确定在网格上包围点 $\left(x^{\prime}, y^{\prime}\right)$ 的三角形。这个三角形由三个顶点 $Q^{\prime}(i)$ ， $Q^{\prime}(j)$ 和 $Q^{\prime}(k)$ 表示。由于人脸形状在图像空间和UV空间中的拓扑是相同的，所以这两个空间中的顶点是一一对应的。因此我们可以很容易地得到相应的顶点、和。现在位置可以通过用 $x=\kappa_{1} \boldsymbol{Q}(i, 1)+\kappa_{2} \boldsymbol{Q}(j, 1)+\kappa_{3} \boldsymbol{Q}(k, 1)$ 和 $y=\kappa_{1} \boldsymbol{Q}(i, 2)+\kappa_{2} \boldsymbol{Q}(j, 2)+\kappa_{3} \boldsymbol{Q}(k, 2)$ 来计算，其中， $\kappa_{s}$ 为质心坐标系[6]中由 $Q^{\prime}(i)$ ， $Q^{\prime}(j)$ 和 $Q^{\prime}(k)$ 和 $\left(x^{\prime}, y^{\prime}\right)$ 计算的系数。计算细节包括在附录A.3中。对于不可见的三角形(由自遮挡引起)，我们简单地忽略它们。

对于被照明的纹理，反射率的UV贴图可以由函数 $f_{r}(T;\theta _{r})$ ，其中 $\theta _{r}$ 为可学习的参数。值得注意的是，的输入和输出在UV空间中是空间对齐的，因此可以大大简化学习过程。然后，通过wrapping函数 $R = \Psi (A)$ 得到反射率，该函数没有可学习的参数，如a .4所示。

光照：根据之前的研究[14,42]，我们假设远处的光滑光照和纯朗伯表面性质[2]。利用球面谐波(SH)[28]来近似某一表面的入射光。我们使用3个SH波段，得到9个SH系数。照明函数定义为 $f_{\ell}\left(\boldsymbol{I}, \boldsymbol{T}, \boldsymbol{A} ; \theta_{\ell}\right):$ $(\boldsymbol{I}, \boldsymbol{T}, \boldsymbol{A}) \rightarrow \boldsymbol{\ell} \in \mathbb{R}^{9 \times 1}$ ，以给定的图像、被照亮的纹理图和反射率的UV图为输入，得到光照参数。到目前为止，我们已经预测了三维人脸模型参数、、和 $\boldsymbol{\ell}$ ，我们可以将它们重新组合，通过专家设计的渲染模块进行渲染，即 $\hat{I}=R(S,R,v,\ell)$ 。

3.3. Objectives for Self-Supervised Learning

函数、、和 $f_\ell$ 分别由具有可学习参数 $\theta _s$ 、 $\theta _r$ 、 $\theta_v$ 和 $\theta_\ell$ 的卷积神经网络(CNN)建模。由于所有的学习模型和专家设计的渲染器都是可区分的，所以该框架是端到端可训练的。学习的目标是最小化原始图像和渲染图像 $\hat{I}$ 之间的差异。按照以前的工作，学习的目标是不包括非人脸区域中的像素，如头发、太阳镜、围巾等。我们通过人脸分割网络 $f_{seg}$ 来识别像素是属于人脸区域还是非人脸区域， $f_{seg}$ 网络是由数据集中提供的分割标签的CelebAMASK-HQ数据集[23]上训练的。一旦训练， $f_{seg}$ 在CEST的训练和测试中是固定的。我们将有效人脸区域表示为掩模，因此如果，则将位置处的像素是包括在重建中，否则则不包括。光度学损耗可以写为：

$\begin{aligned} \mathcal{L}_{p h} &=\mathcal{E}(\boldsymbol{I}, S, \boldsymbol{R}, \boldsymbol{v}, \boldsymbol{\ell}, \boldsymbol{M}) \\ &=\|M \otimes I-M \otimes \hat{\boldsymbol{I}}\|_{1} \\ &=\|M \otimes I-M \otimes \mathcal{R}(S, R, \boldsymbol{v}, \ell)\|_{1} \end{aligned}$ （6）

其中 $\left \| . \right \|_1$ 测量 $\ell_1$ 的距离，⊗表示元素乘法。然而，如果我们简单地优化 $\mathcal{L}_{p h}$ ，CEST将学习一种退化的解决方案，其中反射系数只是复制纹理的像素值，而 $\ell$ 产生一个各个方向的反射，且所有方向产生一个同向的反射源。在这种情况下，CEST没有从语义上学习解耦的人脸参数，但导致了对 $\hat{I}$ 的非完美重建。

为了避免这种情况，我们对反射率采用了对称性和一致性约束。在视频剪辑中，面部反射率被认为是水平对称和一致的。假设和是同一视频片段中的两个人脸图像。一种可能的解决方案是将正则化术语 $\left\|\boldsymbol{R}_{i}-\boldsymbol{R}_{i}^{\bowtie}\right\|,\left\|\boldsymbol{R}_{j}-\boldsymbol{R}_{j}^{\bowtie}\right\|$ 和 $\left\|\boldsymbol{R}_{i}-\boldsymbol{R}_{j}\right\|$ 添加到学习目标中，其中 $\boldsymbol{R}_{i}^{\bowtie}$ 和 $\boldsymbol{R}_{j}^{\bowtie}$ 是和的水平翻转形式。然而，很难调整损失权重来平衡重建项和正则化项。相反的，我们采用另一种解决方案[45]，通过构造额外的重建项作为约束。重构和的学习目标可以写为：

随机最优化。可以看出，重建项目的数量急剧增加。从同一视频的个帧可以构造个重建项。这是不可扩展的。为了解决这个问题，我们提出了以随机的方式优化学习目标的方法。对于每一次训练迭代，只优化构造项的子集。具体地，从不同的视频中随机采样一组视频帧 $\left \{ I_1, I_2,......I_N\right \}$ 。这些帧按视频分组，标记为ξ={ξ1、ξ2、...、ξN}。对于任意的，我们不是列举所有可能的反射率和获得大量的重构项，而是从同一视频中随机选择另一帧，记为(在 $\xi _i=\xi _j$ 的条件下)，并使用和 $\boldsymbol{R}_{i}^{\bowtie}$ 来构造的两个重构项。该策略将重构项的个数从减少到。从形式上讲，学习目标可以写成:

$\begin{aligned} \mathcal{L}_{p h}=\frac{1}{N} \sum_{i=1, \xi_{j}=\xi_{i}}^{N}\left(\mathcal{E}\left(\boldsymbol{I}_{i}, \boldsymbol{S}_{i}, \boldsymbol{R}_{j}, \boldsymbol{v}_{i}, \boldsymbol{\ell}_{i}, \boldsymbol{M}_{i}\right)\right.\\ &\left.+\mathcal{E}\left(\boldsymbol{I}_{i}, \boldsymbol{S}_{i}, \boldsymbol{R}_{i}^{\infty}, \boldsymbol{v}_{i}, \boldsymbol{\ell}_{i}, \boldsymbol{M}_{i}\right)\right) \end{aligned}$ (8)

为了稳定CEST的训练，我们使用2D关键点 $\mathcal{L}_{k p}=\frac{1}{N N_{k p}} \sum_{i=1}^{N} \sum_{j=1}^{N_{k p}}\left\|\boldsymbol{Q}_{i}\left(k_{j}\right)-\boldsymbol{q}_{i}(j)\right\|_{1}$ 其中是图像上检测到的2D关键点的集合，是与2D关键点相关联的顶点的索引。我们还将形状系数的能量正则化为 $\mathcal{L}_{r g}=\frac{1}{N} \sum_{i=1}^{N}\left\|\boldsymbol{\alpha}_{i}\right\|_{2}^{2}$ 。一个现成的关键点检测器[7]被用来为被检测人脸的个关键点。全部损失包括以下：

$\mathcal{L}=\mathcal{L}_{p h}+\lambda_{1} \mathcal{L}_{k p}+\lambda_{2} \mathcal{L}_{r g}$ (9)

其中，λ1和λ2是超参数。

4. Experiments

我们通过消融实验和与最先进的方法[39，19，37，9]的比较，对CEST进行定性和定量的评估。在消融实验中，我们将CEST与独立版本的CEST(IEST)进行了比较，在CEST中，人脸参数是以非耦合的方式估计的，而其他的类型则使用不同的约束进行训练。定量的结果包括预测的形状、反射率、照明度、重建的人脸等。我们还给出了用不同的照度照射的反射率得到的光亮人脸。定量结果评估预测的形状和绘制的人脸质量。我们使用的度量标准分别是形状和渲染人脸的归一化平均误差(NME)[16]和光度学误差。NME定义为预测点云和目标点云之间的平均逐顶点欧几里得距离，该距离由外部3D眼间距离归一化；测光误差是原始图像和重建图像像素值之间的平均绝对误差。

4.1. Experimental Settings

为了进行公平的比较，我们分别用VoxCeleb1[26]和300W-LP[49]训练了两个独立的CEST模型。VOX-Celeb1是从互联网上收集的视频数据集。演讲者的视频是在不同的野外拍摄的。培训中使用了267人的4727个视频子集，产生了6279609个视频帧。基于检测到的人脸关键点，视频帧中的人脸被裁剪到256×256的大小[7]。300W-LP是一个合成图像数据集，包含122,450幅图像，具有密集的人脸关键点。由于我们关注的是自监督学习，我们只使用68个稀疏关键点的集合作为训练的正则化。

训练。AP-附录B.1给出了网络体系结构。对于VoxCeleb1的训练，小批量由来自32个剪辑的128个视频帧组成。对于每个视频片段，我们随机选择了4个视频帧。训练在50K次迭代中完成。对于300W-LP的训练，小批次由128个随机选择的图像组成，总迭代为20K。对于这两个模型，我们使用了Adam[21]优化器，学习率为0.001。除非另有说明，否则λ1和λ2为1和0.1。

4.2. Ablation Experiments

消融研究的结果如图4所示。我们首先展示原始图像和重建图像(覆盖)以供比较，然后是标准视图中的反射率、照明纹理、面部形状(几何)和亮度。更多的消融可以在附录B.2中找到。

CEST和LEST。IEST使用与CEST相同的设置进行训练，只是在训练和测试过程中面部参数是独立于图像进行估计的。结果分别如图4(A)和(B)所示。我们可以看到，CEST产生了逼真的叠加，清晰的反射和照明度，以及具有个性特征和表情的几何图形。与CEST相比，IEST获得了合理的结果，但反射率没有CEST那么详细，导致覆盖和照明的纹理较差。它验证了我们的假设，即耦合估计可以更好地描述问题并促进学习。

反射率对称性和一致性约束。我们训练了只有对称约束和只有一致性约束，没有这两个约束的CEST的多个变体，并分别在图4(C)、(D)和(E)中给出了它们的结果。比较(A)和(C)，我们观察到反射率对称性约束导致更好的反射和照明分离。这是因为水平计数翻转的视频帧可以为训练集提供更多的光照变化，使CEST能够学习正确地建模不同的光照。另一方面，如果不利用视频片段中的反射率一致性，则不能很好地实现反射率和光照的分解。一些照明残留在眼睛周围的反射率区域(参见图4(D)的右侧)。最后，如果我们不对反射比使用任何限制，CEST学习退化的解决方案(图4(E))，其中反射比只是从图像复制像素值，照明是一个各个同一方向的反射源，所有方向的反射相同。此外，我们注意到，退化的解决方法也影响学习的面部形状，这在图4(E)中具有较少的个人特征。

4.3. Qualitative Results

在这一部分中，我们将CEST与最相关的具有定性结果的最先进的方法进行比较。更多的定性结果载于附录B.3。

Comparison to MoFA [39]。MoFA是一个完全基于模型的框架。其表示能力受线性3DMM模型的限制。此外，MoFA的所有人脸参数都是根据原始图像独立预测的。相反，我们使用了一种无模型的反射率方法，整个推理过程是基于耦合估计的。我们在图5中可视化了覆盖图、反射率、几何图形、照明度以及输入图像和渲染图像(覆盖图)之间的误差。可以观察到，MOFA的结果受子空间外反射率变化的影响。与MoFA相比，我们获得了与MoFA相似的形状，但通过捕捉更多的细节，获得了更好的反射率、照明度和渲染的人脸。

Comparison to N3DMM [42]. N3DMM将3DMM模型推广到非线性空间，提高了绘制人脸的质量。然而，N3DMM也只从输入图像中推断反射率，并且使用了太多的启发式约束，例如反射率恒定、形状平滑、有监督的预训练等，因此他们的模型只能捕捉反射率的低频变化。例如，在图6(B)中，在反射率中没有唇膏，并且反射率中的肤色对于不同的人来说是相同的。这些限制导致了较高的重建误差。相反，我们的结果产生了真实的重建，具有更多的个性化反射率和结构化照明，以及更低的重建误差(图6)。

Comparison to FML [37].FML在训练中正确地结合了视频线索，并可以渲染逼真的人脸。然而，它重建的反射率往往是不同年龄的肤色。相比之下，CEST通过将学习的形状和视角纳入反射率估计中，产生更准确的肤色(参见图7(A)、(C)和(E))。定性结果清楚地表明，我们的结果在反射和照明之间有更合理的解耦。它们还有助于更好地渲染面部的视觉质量。值得注意的是，眼睛和鼻子区域与图7中的覆盖区域有很大的不同。

Relighting. 由于CEST预测了区域的反射率，因此可以很容易地用不同的光照条件重新照亮它们。图8显示了标准视图中重新照亮的人脸。特别是最后两个目标人脸处于强光下和移除光照条件下的，CEST的表现。重新光照的结果再次验证了CEST能够很好地估计解耦后的人脸参数，并捕捉到真实人脸图像中的反射率和光照变化。

4.4. Quantitative Results

我们首先在AFLW2000-3D数据集上进行了定量评估，其中包括2,000张姿势变化较大的无约束人脸图像。AFLW2000-3D的真实标签是由3DMM拟合的结果给出的，这可能有些噪声。第二项评估是在MICC Florenc 3D人脸数据集上进行的，该数据集包括53名受试者的高分辨率3D扫描。我们按照[16]中的做法，使用所提供的3D扫描来渲染2550个测试图像。每个受试者使用-15度、20度或25度的俯仰和-80度、-40度、0度、40度或80度的偏航角度来呈现20种不同的姿势。

为了与前人的工作相比较，NME是基于文献[16]在其评估中定义的一组19618个顶点来计算的。点对应关系由迭代最近点(ICP)算法确定[3]。计算了累积误差分布(CED)曲线，并与AFLW2000-3D上目前流行的3DDFA[49]、DEFA[24]、PRN[9]等方法进行了比较。对于MICC，我们将CEST与3DDFA[49]、VRN[16]和PRN[9]进行比较。结果如图9所示。CEST在AFLW2000-3D和MICC数据集上分别获得了3.37和3.14 NME。更有趣的是，我们的方法比完全监督的形状估计技术，例如3DDFA(在AFLW2000-3D上为5.37，在MICC上为6.38)和PRN(在AFLW2000-3D上为3.96，在MICC上为3.76)性能更好。此外，我们的方法还可以估计人脸的反射和光照，而3DDFA和PRN都不能。与MICC数据集上的N3DMM相比，CEST的NME略低(3.14比3.20)。值得注意的是，N3DMM使用密集地标进行监督预训练，而CEST只使用68个稀疏地标。更多的定量比较可以在附录B.5找到。

5. Conclusion and Future Work

我们提出了一个条件估计框架，称为CEST，用于单视图像的三维人脸重建。CEST用一个更一般的公式来解决重建问题，它不假定条件独立。我们还对不同三维人脸参数的条件概率提出了一种具体的分解方法。结合反射率对称性和一致性约束，CEST可以用视频数据集进行有效的训练。定性和定量结果都证明了条件估计的有效性。CEST能够为单视图像产生高质量和良好解耦的面部参数。

建议的CEST可以从多个方面进行改进。首先，通过研究视频中的时间信息，可以得到更准确、更明确的人脸参数。其次，形状估计的性能可以通过更先进的变形模型来提高，这也有利于后续的其他人脸表面参数的估计。此外，加入感知损失也是提高人脸参数视觉质量的有效途径。

你可能感兴趣的:(三维人脸重建,计算机视觉,深度学习)

Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
实现网页中CSS图片3D旋转效果 Kiki-2189
本文还有配套的精品资源，点击获取简介：CSS是一种用于定义文档呈现方式的技术，通过CSS3的3D转换功能，能够在二维平面上展示三维对象，让网页元素具有立体感。本文详细介绍了实现CSS图片3D旋转效果所需的CSS属性，如transform,perspective,transition,以及:hover选择器，并提供了一个简单的代码示例。同时，文章也提到了兼容性问题以及提供回退方案的重要性。1.CSS
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
智能矿山建设方案（第三章）珞圻-Health 信息化项目各类文档大全政务人工智能智慧城市
3总体设计3.1设计思路项目建设基于矿山现有的信息化基础，结合业务实际，智能矿山平台设计主要包括以下几方面内容：1.收集矿山的基础信息数据、物联网设备数据、业务系统数据、环境数据等，梳理数据的关联关系，再按照统一数据标准，进行加工处理，转换为符合要求的数据，并建立统一的数据库；2.建设三维地质孪生模型，依托三维建模渲染技术建立矿山虚拟映像，接入矿山的软硬件数据，做到1：1真实还原；3.建设智能矿山
基于OpenCV-python的人脸识别系统 transuperb 完整代码 opencv python 人工智能
importsysimportosimporttkinterastkfromtkinter.ttkimportStyleimportnumpyasnpimportcv2fromPILimportImageTk,ImageDraw,ImageFontfrompanel.models.tabulatorimportthemefromModelimport*fromtkinterimportttk,fi
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
CVPR 2024 3D方向总汇包含（3DGS、三维重建、深度补全、深度估计、全景定位、表面重建和特征匹配等）
1、3D方向Rapid3DModelGenerationwithIntuitive3DInputInstantaneousPerceptionofMovingObjectsin3DNEAT:Distilling3DWireframesfromNeuralAttractionFields⭐codeSculptingHolistic3DRepresentationinContrastiveLangua
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
使用YOLOv5-ONNX-PyQT-EXE: 全栈式对象检测应用的构建与部署
使用YOLOv5-ONNX-PyQT-EXE:全栈式对象检测应用的构建与部署去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，实时对象检测是一个至关重要的任务。是一个开源项目，它将流行的YOLOv5对象检测模型集成到ONNX(OpenNeuralNetworkExchange)中，并通过PyQT构建了一个可执行的应用程序，使得非开发人员也能轻松地进行对象检测。项目简
OpenCV实现相机标定的棋盘格制作与应用 BIG-HO
本文还有配套的精品资源，点击获取简介：在计算机视觉领域，棋盘格标定板用于获取相机参数，实现图像校正和三维重建。OpenCV库提供了绘制棋盘格和相机标定的功能。本文将详细介绍如何使用OpenCV制作棋盘格标定板，包括设计、绘制、保存、相机标定过程和应用。通过实际案例，如畸变矫正、三维重建、AR应用和机器人导航，展示棋盘格标定板在视觉技术中的关键作用。1.棋盘格设计与绘制1.1棋盘格的基本概念与应用棋
OpenCV双目视觉棋盘格标定、特征匹配及三维坐标计算
OpenCV双目视觉棋盘格标定、特征匹配及三维坐标计算【下载地址】OpenCV双目视觉棋盘格标定特征匹配及三维坐标计算OpenCV双目视觉棋盘格标定、特征匹配及三维坐标计算本资源库提供了基于OpenCV的双目视觉系统标定和三维重建基础教程，专注于利用棋盘格作为特征目标进行相机校准，特征点匹配以及随后的三维坐标计算项目地址:https://gitcode.com/open-source-toolki
使用VTK还是OpenGL集成到qt程序里哪个好？奇树谦 VTK qt 开发语言
在Qt程序中集成VTK与OpenGL：选择哪个更好？在Qt程序中实现三维可视化时，开发者常常面临一个选择：是使用VTK（VisualizationToolkit）还是OpenGL（OpenGraphicsLibrary）。这两种技术各有优缺点，适用于不同的应用场景。本文将详细探讨它们的特点、优缺点以及如何选择适合你的项目的技术。一、VTK与OpenGL简介（一）VTK（VisualizationT
Qt, OpenCV与OpenGL协同作战：图像处理与三维图形界面的完美结合奇树谦 QT qt opencv 图像处理
原文链接：https://developer.aliyun.com/article/1463740文章目录Qt,OpenCV与OpenGL协同作战：图像处理与三维图形界面的完美结合1.引言图像处理与三维图形界面的重要性Qt,OpenCV与OpenGL简介与应用场景QtOpenCVOpenGL结合Qt,OpenCV与OpenGL的优势与价值2.Qt基础知识与特性Qt库的组成与功能Qt库的安装与使用Q
三维扫描逆向建模-三维扫描仪助力汽车内饰改装设计中科米堆汽车人工智能自动化
汽车消费市场日益细分化，个性化定制需求正深刻影响着汽车后市场服务模式。作为连接设计创意与工程实现的桥梁，三维扫描逆向建模技术以数字化手段重塑了汽车内饰改装的设计流程，为座椅、仪表盘、门板等部件的定制化改造提供了全新解决方案。汽车内饰改装涉及复杂的三维曲面重构与空间适配问题。传统设计模式依赖手工测量与经验估算，设计师需通过卡尺、卷尺等工具获取原车部件尺寸，再基于二维图纸进行三维建模。这种作业方式在面
三维建模3D扫描汽车车灯抄数设计逆向工程-中科米堆中科米堆 3d 汽车
车灯作为兼具功能性与设计美学的核心部件，其研发流程对精度与效率的要求极高。传统车灯设计依赖手工测绘与模具开发，周期长、成本高，且难以捕捉复杂曲面细节。随着3D扫描与逆向工程技术的突破，中科米堆三维建模3D扫描解决方案正以数字化手段革新这一领域，实现从物理车灯到数字模型的精准转化，为汽车设计注入全新动能。中科米堆三维扫描系统采用蓝光激光扫描技术，可实现0.025mm测量精度，完美适配车灯曲面复杂、反
从0开始学习计算机视觉--Day04--线性分类 Chef_Chen 学习计算机视觉分类
从宏观来看，卷积网络可以看做是由一个个不同的神经网络组件组合而成，就像积木一样通过不同类型的组件搭建形成，其中线性分类器是一个很重要的组件，在很多卷积网络中都有用到，所以了解清楚它的工作原理对我们后续的学习会有很大的帮助。线性分类器是参数模型中最简单，最基础的例子，下面我们用输入图片输出图片分类的模型的例子来更进一步地了解它。首先，我们输入一张图片到模型中，输入后我们就会得到f(x,W)，x指的是
pytorch 要点之雅可比向量积 AI大模型教程 pytorch 人工智能 python facebook 深度学习机器学习 webpack
自动微分是PyTorch深度学习框架的核心。既然是核心，就需要敲黑板、划重点学习。同时，带来另外一个重要的数学概念：雅可比向量积。PyTorch中的自动微分与雅可比向量积自动微分（AutomaticDifferentiation，AD）是深度学习框架中的关键技术之一，它使得模型训练变得更加简单和高效。且已知：PyTorch是一个广泛使用的深度学习框架，它内置了强大的自动微分功能。在本文中，我们将深
中科米堆3D扫描逆向建模方案：汽车轮毂三维扫描抄数建模
某汽车制造商为了提升产品性能和满足客户需求，决定对轮毂盖进行设计和改装。传统的设计方法依赖于手工测量和绘制，效率低下且精度较差。为了解决这个问题，该制造商决定采用三维扫描技术来快速准确地获取轮毂盖的三维数据。三维扫描技术通过非接触式扫描快速获取物体表面三维数据，为产品逆向设计、模具修复、质量检测等环节提供高效解决方案。中科米堆手持式蓝光三维扫描仪采用蓝光激光扫描技术，通过激光发射器投射高精度蓝色激
MIAOYUN | 每周AI新鲜事儿（06.14-06.20）人工智能算法机器学习深度学习
紧跟技术浪潮，洞察行业未来，MIAOYUN《每周AI新鲜事儿》，为您精选全球AI领域的最新动态，涵盖AI技术突破、行业动态、趋势发展、前沿政策与学术研究，带您走在智能时代前沿，一起来回顾本周发生的AI新鲜事儿吧！AI开源大模型腾讯混元3D2.1大模型全链路开源6月14日，在CVPR2025（计算机视觉领域顶会之一）上，腾讯混元3D2.1大模型对外全链路开源，其模型权重及架构、训练代码、数据处理流程
【人工智能】微调的秘密武器：释放大模型的无限潜能蒙娜丽宁 Python杂谈人工智能人工智能
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在人工智能迅猛发展的今天，大规模语言模型（LLMs）以其强大的通用能力席卷各行各业。然而，如何让这些通用模型在特定领域或任务中发挥最大潜力？答案是微调（Fine-tuning）。本文深入探讨微调的理论基础、技术细节与实践方法，揭示其作为解锁大模型隐藏潜力
【运维】Python与Ansible协同作战：打造自动化服务器配置管理的终极解决方案蒙娜丽宁 Python杂谈人工智能运维 python ansible
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界在现代IT运维中，服务器配置管理是一项繁琐但至关重要的任务。手动配置多台服务器不仅耗时，还容易出错。本文深入探讨如何利用Python结合Ansible工具实现自动化服务器配置管理与环境部署。通过Python脚本调用AnsibleAPI，我们可以动态生成配
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri