c2a2o2

SadTalker：Stylized Audio-Driven Single Image Talking Face Animation（CVPR2023）

摘要

通过人脸图像和一段语音音频生成会说话的头部视频仍然存在许多挑战。例如，不自然的头部运动，扭曲的表情和身份修改。我们认为这些问题主要是因为从耦合的二维运动场中学习。另一方面，显式使用3D信息也存在表达生硬和视频不连贯的问题。我们提出了SadTalker，它从音频中生成3DMM的3D运动系数(头部姿势，表情)，并隐式调制了一种新颖的3D感知面部渲染，用于说话的头部生成。为了学习真实的运动系数，我们明确地分别模拟音频和不同类型的运动系数之间的联系。准确地说，我们提出ExpNet通过提取系数和3d渲染的面部来从音频中学习准确的面部表情。对于头部姿势，我们通过一个有条件的VAE来设计PoseVAE来合成不同风格的头部运动。最后，将生成的三维运动系数映射到所提出的人脸渲染的无监督三维关键点空间，并合成最终的视频。我们进行了大量的实验，以证明我们的方法在运动和视频质量方面的优越性。

图1。该系统通过输入音频和单一参考图像生成多样、逼真、同步的对话视频。

1. 介绍

用语音音频制作静态人像图像是一项具有挑战性的任务，在数字人类创造、视频会议等领域有许多重要的应用。以往的研究主要集中在唇动的生成[2,28,29,48]，因为唇动与言语有很强的联系。最近的工作还旨在生成一个包含其他相关动作的逼真的谈话面部视频，例如，头部姿势。他们的方法主要是通过地标[49]和潜在翘曲引入二维运动场[37,38]。但是生成的视频质量仍然不自然，受到偏好pose[16,48]、月模糊[28]、身份修改[37,38]、扭曲脸[37,38,46]的限制。

生成一个自然的说话头视频包含许多挑战，因为音频和不同动作之间的连接是不同的。也就是说，嘴唇运动与音频的联系最强，但音频可以通过不同的头部姿势和眨眼来传达。因此，以往基于面部标记的方法[2,49]和基于2D流的音频到表情网络[37,38]可能会产生扭曲的面部，因为头部运动和表情在其表示中没有完全解离。另一种流行的方法是基于潜能的人脸动画[16,28,48]。他们的方法主要针对说话人脸动画中的特定动作，难以合成高质量的视频。我们观察到，3D面部模型包含高度去耦的表示，可用于单独学习每种类型的运动。虽然在[46]中讨论了类似的观察结果，但他们的方法也会产生不准确的表情和不自然的动作序列。

基于上述观察，我们提出了一种通过隐式三维系数调制的程式化音频驱动的说话头视频生成系统SadTalker。为了实现这一目标，我们将3DMM的运动系数作为中间表示，并将我们的任务分为两个主要部分。一方面，我们的目标是从音频中生成逼真的运动系数(例如，头部姿势，嘴唇运动和眨眼)，并单独学习每个运动以减少不确定性。对于表情，我们设计了一个新的音频-表情系数网络，通过提取唇动系数[28]和重构的3d面部[4]上的感知损失(唇读损失[1]，面部标志损失)。对于程式化的头部姿态，采用条件VAE[5]算法，通过学习给定姿态的残差来模拟头部运动的多样性和逼真性。在生成逼真的3DMM系数后，我们通过新颖的3d感知面部渲染来驱动源图像。受face-vid2vid[40]的启发，我们学习了显式3DMM系数与无监督3D关键点域之间的映射。然后，通过源和驱动的无监督三维关键点生成弯曲场，对参考图像进行弯曲，生成最终视频。我们分别训练了表情生成、头部姿态生成和面部渲染的每个子网络，我们的系统可以以端到端方式进行推断。在实验中，几个指标显示了我们的方法在视频和运动方法方面的优势。

本文的主要贡献可以总结为:

我们提出了SadTalker，这是一个新颖的系统，使用生成的逼真3D运动系数进行程式化的音频驱动单图说话人脸动画。
从音频中学习3DMM模型的真实3D运动系数，分别给出ExpNet和PoseVAE。
提出了一种新的语义解缠和3d感知的面部渲染，以产生现实的说话头部视频。
实验表明，我们的方法在运动同步和视频质量方面达到了最先进的性能。

2. 相关工作

音频驱动的单图像说话脸生成。 早期的工作[28,29]主要是利用感知鉴别器产生准确的唇动。由于真实视频中包含许多不同的动作，ATVGnet[2]使用面部地标作为中间表示来生成视频帧。MakeItTalk[49]提出了一种类似的方法，不同的是，它从输入音频信号中分离出内容和扬声器信息。由于面部标志仍然是一个高度耦合的空间，在解纠缠的空间中生成说话的头部也是最近很流行的。PC-AVS[48]使用隐式潜码解出头部姿势和表情。然而，它只能产生低分辨率的图像，需要来自另一个视频的控制信号。Audio2Head[37]和Wang等[38]从视频驱动的方法[34]中得到灵感，制作了会说话的头脸。然而，这些头部运动仍然不生动，并产生扭曲的面部，无法准确识别。虽然已有文献[31,46]使用3dmm作为中间表示，但其方法仍面临表达式不准确[31]和明显伪影[46]的问题。

音频驱动的视频肖像。 我们的任务还涉及到视觉配音，目的是通过音频编辑人像视频。与音频驱动的单图像语音人脸生成不同，该任务通常需要在特定视频上进行训练和编辑。在深度视频人像[18]的基础上，这些方法利用3DMM信息进行人脸重建和动画。AudioDVP [43]， NVP [36]， AD-NeRF[10]学习重现表情编辑嘴型。除了嘴唇运动，即头部运动[22,45]，情绪性谈话的面部[17]也得到关注。基于3DMM的方法在这些任务中发挥了重要作用，因为它可以从视频剪辑中拟合3DMM参数。虽然这些方法在个性化视频中取得了令人满意的效果，但它们的方法不能应用于任意照片和野外音频。

视频驱动的单图像语音人脸生成。 这个任务也被称为面部再现或面部动画，其目的是将源图像的运动传递给目标人物。近年来已被广泛探讨[13,31,34,35,39,40,42,44,47]。以往的工作也从源图像和目标中学习了一种共享的中间运动表示，大致可以分为基于地标[39]和无监督地标的方法[13,34,40,47]，基于3DMM的方法[6,31,44]和潜在动画[24,42]。这个任务比我们的任务简单得多，因为它包含在同一域中的运动。我们的人脸渲染也受到了基于无监督地标的方法[40]和基于3DMM的方法[31]的启发，通过映射学习到的系数来生成真实的视频。然而，它们并不专注于生成真实的运动系数。

图2。主要管道。我们的方法使用3DMM的系数作为中间运动表示。为此，我们首先从音频中生成逼真的3D运动系数(面部表情β，头部姿势ρ)，然后使用这些系数隐式地调节3D感知的面部渲染，以生成最终的视频

3. 方法

如图2所示，我们的系统使用三维运动系数作为说话头生成的中间表示。我们首先从原始图像中提取系数。然后利用ExpNet和PoseV AE分别生成逼真的3DMM运动系数。最后，提出了一种3d感知的面部渲染来生成说话头部视频。下面，我们将在第3.1节中简要介绍3D人脸模型，分别在第3.2节和第3.3节中设计音频驱动的运动系数生成和系数驱动的图像动画器。

3.1 三维人脸模型的初步研究

由于真实视频是在3D环境中捕获的，因此3D信息对于提高生成视频的真实感至关重要。然而，以往的作品[28,48,49]很少考虑3D空间，因为很难从单幅图像中获得准确的3D系数，高质量的面部渲染也很难设计。受最近的单幅图像深度三维重建方法[4]的启发，我们将预测的三维变形模型(3DMMs)的空间作为我们的中间表示。在3DMM中，三维面形S可以解耦为:

S = S ‾ + α U i d + β U e x p , \mathbf{S}=\overline{\mathbf{S}}+\alpha \mathbf{U}_{i d}+\beta \mathbf{U}_{e x p},S=S+αUid+βUexp,
其中 S ‾ \overline{\mathbf{S}}S 为3D人脸的平均形状，U i d \mathbf{U}_{i d}Uid 和 U exp ⁡ \mathbf{U}_{\exp }Uexp为LSFM变形模型[1]的身份和表达的标准正交基。系数α ∈ R 80 \alpha \in \mathbb{R}^{80}α∈R80 和 β ∈ R 64 \beta \in \mathbb{R}^{64}β∈R64 分别描述了人的身份和表达。为了保持位姿方差， r ∈ S O ( 3 ) \mathbf{r} \in S O(3)r∈SO(3) 和 t ∈ R 3 \mathbf{t} \in \mathbb{R}^3t∈R3表示头部旋转和平移。为了实现同一性无关系数生成[31]，我们只对运动参数建模为 { β , r , t } \{\beta, \mathbf{r}, \mathbf{t}\}{β,r,t} 。我们从前面介绍的驾驶音频中分别学习了头部姿势 ρ = [ r , t ] \rho=[\mathbf{r}, \mathbf{t}]ρ=[r,t] 和表达系数 β \betaβ 。然后，这些运动系数用于隐式调节我们的面部渲染，以实现最终的视频合成。

3.2 通过音频生成运动系数

如上所述，3D运动系数包含头部姿态和表情，其中头部姿态是全局运动，而表情是相对局部的。为此，把所有的东西都学了会在网络中造成巨大的不确定性，因为头部的姿势与音频的关系相对较弱，而嘴唇的运动是高度相关的。我们使用提出的PoseVAE和ExpNet生成头部姿态和表情的运动，分别介绍如下。

ExpNet 学习从音频中产生精确表达式系数的通用模型非常困难，原因有两个:1)音频到表达式不是不同身份的一对一映射任务。2)表达式系数中存在一些与声音无关的运动，这将影响预测的准确性。我们的ExpNet旨在减少这些不确定性。对于身份问题，我们通过第一帧的表达系数β0将表情运动与特定的人联系起来。为了减少自然说话中其他面部成分的运动权重，我们通过Wav2Lip[28]预训练网络和深度三维重建[4]，只使用嘴唇运动系数作为系数目标。然后，其他微小的面部动作(例如眨眼)可以通过渲染图像上的额外地标损失来利用。

图3。我们的ExpNet结构。我们采用单目三维人脸重建模型[4] (R e R_eRe 和R d R_dRd)来学习真实表情系数。其中 R e R_eRe 是预训练的3DMM系数估计器，R d R_dRd 是没有可学习参数的可微分3D人脸渲染。我们使用参考表达式 β 0 \beta_0β0 来降低身份的不确定性，并使用预训练的Wav2Lip[28]生成的帧和第一帧作为目标表达系数，因为它只包含与嘴唇相关的运动。

如图3所示，我们从音频窗口 a { 1 , . . , t } a_{\{1, . ., t\}}a{1,..,t}，其中每帧的音频特征是一个0.2s的梅尔谱图。为了训练，我们首先设计了一个基于resnet的音频编码器Φ A [ 11 , 28 ] \Phi_A[11,28]ΦA[11,28] [11,28]，将音频特征嵌入到一个潜在空间中。然后加入线性层作为映射网络 Φ M \Phi_MΦM 对表达式系数进行解码。在这里，我们还从参考图像中添加了参考表达 β 0 \beta_0β0 ，以降低上述讨论的身份不确定性。由于我们在训练中使用lip-only系数作为ground truth，我们显式地添加一个眨眼控制信号 z b bink ∈ [ 0 , 1 ] z_{b \text { bink }} \in[0,1]zb bink ∈[0,1] 和相应的眼标损失来生成可控眨眼。
形式上，网络可以写成:
β { 1 , … , t } = Φ M ( Φ A ( a { 1 , … , t } ) , z b l i n k , β 0 ) \left.\beta_{\{1, \ldots, t\}}=\Phi_M\left(\Phi_A\left(a_{\{1, \ldots, t}\right\}\right), z_{b l i n k}, \beta_0\right)β{1,…,t}=ΦM(ΦA(a{1,…,t}),zblink,β0)

对于损失函数，我们首先使用 L distill \mathcal{L}_{\text {distill }}Ldistill 来评估lip - only表达式系数 R e R_eRe (Wav2Lip ( I 0 , a { 1 , … , t } ) \left(I_0, a_{\{1, \ldots, t\}}\right)(I0,a{1,…,t}) )与生成的 β { 1 , … , t } \beta_{\{1, \ldots, t\}}β{1,…,t} 之间的差异。注意，我们只使用wav2lip的第一帧 I 0 I_0I0 来生成口型同步视频，这减少了除了嘴唇运动之外的姿势变化和其他面部表情的影响。此外，我们还涉及到可微的三维人脸渲染 R d R_dRd ，以计算额外的感知损失在显式面部运动空间。如图3所示，我们通过计算关键点损失 L l k s \mathcal{L}_{l k s}Llks 来测量眨眼的范围和整体表达精度。预训练的唇读网络 Φ reader \Phi_{\text {reader }}Φreader 也被用作暂时性唇读损失 L read \mathcal{L}_{\text {read }}Lread ，以保持感知唇质量[8,28]。我们在补充资料中提供了更多的培训细节。

图4。PoseVAE管道。我们通过条件VAE结构学习输入头位 ρ 0 \rho_0ρ0 的残差。
给定条件:第一帧 ρ 0 \rho_0ρ0，样式标识 Z style Z_{\text {style }}Zstyle 和音频剪辑 a { 1 , … , t } a_{\{1, \ldots, t\}}a{1,…,t} 时，我们的方法学习了残差头位姿 Δ ρ { 1 , … , t } = ρ { 1 , … , t } − ρ 0 \Delta \rho_{\{1, \ldots, t\}}=\rho_{\{1, \ldots, t\}}-\rho_0Δρ{1,…,t}=ρ{1,…,t}−ρ0 。训练之后，我们可以只通过姿态解码器和条件(cond.)生成程式化的结果。

如图4所示，我们设计了一个基于VAE[20]的模型来学习真实说话视频中真实的、身份感知的程式化头部运动 ρ ∈ R 6 \rho \in \mathbb{R}^6ρ∈R6。在训练中，姿态VAE使用基于编码器的结构在固定n帧上进行训练。编码器和解码器都是两层MLP，其中输入包含一个连续的 t tt 帧头姿态，我们将其嵌入到高斯分布中。在解码器中，学习网络从采样分布中生成t帧姿态。我们的PoseVAE不是直接生成姿态，而是学习第一帧的条件姿态 ρ 0 \rho_0ρ0 的残差，这使得我们的方法能够在第一帧条件下生成更长的、稳定的、连续的头部运动。另外，根据CVAE[5]，我们添加相应的音频特征 a { 1 , … , t } a_{\{1, \ldots, t\}}a{1,…,t} 和风格认同 Z style Z_{\text {style }}Zstyle 作为节奏意识和风格认同的条件。采用kl -散度 L K L \mathcal{L}_{K L}LKL测量所产生运动的分布。采用均方损耗 L M S E \mathcal{L}_{M S E}LMSE 和对抗损耗 L G A N \mathcal{L}_{G A N}LGAN 来保证生成的质量。我们在补充材料中提供了更详细的损失函数。

3.3 3d感知面部渲染

图5。提出的FaceRender及与facevid2vid[40]的比较。给定源图像I s I_sIs和驱动图像 I d I_dId, facevid2vid在无监督的三维关键点空间 X c X_cXc、X s X_sXs和 X d X_dXd 中生成运动。然后通过外观 A 0 A_0A0 和关键点生成图像。由于我们没有驾驶图像，我们使用显式解纠缠的3DMM系数作为代理，并将其映射到无监督的3D关键点空间。

在生成逼真的3D运动系数后，我们通过一个设计良好的3D感知图像动画器渲染最终的视频。我们从最近的图像动画方法face-vid2vid[40]中得到灵感，因为它隐式地从单张图像中学习3D信息。然而，在他们的方法中，需要一个真实的视频作为运动驱动信号。我们的面部渲染使它可以通过3DMM系数驾驶。如图5所示，我们提出mappingNet来学习显式3DMM运动系数(头姿和表情)与隐式无监督3D关键点之间的关系。我们的mappingNet是通过几个一维卷积层构建的。我们使用时间窗口的时间系数作为PIRenderer[31]进行平滑。不同的是，我们发现PIRenderer中的人脸对齐运动系数将极大地影响音频驱动视频生成的运动自然度，并提供了第4.4节中的实验。我们只使用表达式和头的系数姿势。对于训练，我们的方法包含两个步骤。首先，我们像原论文一样，以自监督的方式训练face-vid2vid[40]。在第二步中，我们冻结外观编码器、标准关键点估计器和图像生成器的所有参数以进行调优。然后，以重建的方式对地面实况视频的3DMM系数进行训练。我们利用 L 1 L_1L1 损耗对无监督关键点进行监督，并在原始实现的基础上生成最终的视频。更多细节可以在补充资料中找到。

4 实验

4.1 实现细节和度量

数据集。我们使用V oxCeleb[25]数据集进行训练，其中包含1251个受试者的超过100k个视频。我们按照前面的图像动画方法[34]裁剪原始视频，并将视频大小调整为256×256。预处理后，数据用于训练我们的FaceRender。由于一些视频和音频在V oxCeleb中没有对齐，我们选择了46个科目的1890个对齐的视频和音频来训练我们的PoseV AE和ExpNet。输入音频被降采样到16kHz，并转换为与Wav2lip[28]设置相同的mel-频谱图。为了测试我们的方法，我们使用了来自HDTF数据集[46]的346个视频的前8秒视频(总共约70k帧)，因为它包含高分辨率和野外说话的头部视频。这些视频也按照[34]进行裁剪和处理，并将大小调整为256 ×256以供评估。我们使用每个视频的第一帧作为参考图像来生成视频

实现细节。 ExpNet, PoseV AE和FaceRender都是单独训练的，我们使用Adam优化器[19]进行所有实验。经过训练后，我们的方法可以在没有任何人工干预的情况下以端到端方式进行推断。通过预训练的深度三维人脸重建方法[4]提取所有的3DMM参数。所有实验均在8个A100图形处理器上进行。ExpNet、PoseV AE和FaceRender的学习速率分别为2e−5、1e−4和2e−4。从时间上考虑，ExpNet使用连续5帧进行学习。PoseVAE是通过连续32帧学习的。FaceRender中的帧是逐帧生成的，为了稳定，系数为5连续帧。

评价指标。我们证明了我们的方法在多个指标上的优越性，这些指标在以前的研究中被广泛使用。我们采用Frechet Inception Distance (FID)[12,33]和累积概率模糊检测(CPBD)[26]来评估图像质量，其中FID用于评估生成帧的真实感，CPBD用于评估生成帧的锐度。为了评估身份保留，我们计算源图像与生成帧之间的身份嵌入的余弦相似度(CSIM)，其中我们使用ArcFace[3]来提取图像的身份嵌入。为了评估嘴唇同步和嘴型，我们从Wav2Lip[28]中评估了嘴型的感知差异，包括距离评分(LSE-D)和置信度评分(LSE-C)。我们还进行了一些度量来评估生成帧的头部运动。对于生成的头部运动的多样性，使用Hopenet[27]计算从生成的帧中提取的头部运动特征嵌入的标准差。对于音频和生成的头部运动的对齐，我们计算节拍对齐分数，如Bailando [21]。

4.2 与其他最先进的方法进行比较

图6。我们将我们的方法与几种最先进的方法进行比较，用于生成单个图像音频驱动的说话头。我们的方法在嘴唇同步、身份保留、头部运动和图像质量方面产生了更高质量的结果。我们给出了上面的目标图像作为唇形和身份的参考。请参考我们补充的视频以便更好的比较。

我们比较了几种最先进的语音头视频生成(MakeItTalk [49]， Audio2Head[37]和Wang等[38]1)和音频到表情生成(Wav2Lip [28]， PC-AVS[48])的方法。评估直接在他们的公共检查点上执行。如表1所示，所提出的方法显示出更好的整体视频质量和头部姿态多样性，并且在嘴唇同步指标方面也显示出与其他完全说话头部生成方法相当的性能。我们认为，这些嘴唇同步指标对音频过于敏感，不自然的嘴唇运动可能会得到更好的分数。但是，我们的方法获得了与真实视频相似的分数，这说明了我们的优势。我们还在图6中说明了不同方法的可视化结果。在这里，我们给出了嘴唇参考，以可视化我们的方法的嘴唇同步。从图中可以看出，我们的方法具有与原始目标视频非常相似的视觉质量，并且与我们预期的头部姿势不同。与其他方法相比，Wav2Lip[28]产生了模糊的半面。“PC-AVS[48]”和“Audio2Head[37]”正在为身份保护而挣扎。Audio2Head只能生成前面的说话脸。此外，MakeItTalk[49]和Audio2Head[37]由于二维扭曲而产生失真的人脸视频。我们在后文中给出了视频对比，以显示更清晰的对比。

4.3 用户研究

我们进行用户研究来评估所有方法的性能。我们总共生成20个视频作为我们的测试。

这些样本包含几乎相同的性别，不同的年龄，姿势和表情，以显示我们的方法的鲁棒性。我们反转了20名参与者，让他们在视频清晰度、嘴唇同步、头部运动的多样性和自然性以及整体质量方面选择最佳方法。结果如表2所示，其中参与者喜欢我们的方法主要是因为视频和运动质量。我们还发现38%的参与者认为我们的方法比其他方法表现出更好的嘴唇同步，这与表1不一致。我们认为这可能是因为大多数参与者关注的是视频的整体质量，模糊和静止的视频影响了他们的观点[28,48]。

4.4 消融实验

图7。我们将我们的方法与基线方法进行比较，基线方法在没有任何条件的情况下从单个网络(从Speech2Gesture[9])学习所有系数。我们的方法显示了清晰的头部运动、身份保护和多样化的表情。

表3。消融治疗ExpNet。初始表达 β 0 \beta_0β0、唇读损失 L r e a d L_{read}Lread 均显著提高性能。然而，当使用真实系数时，唇同步度量下降了很多。

图8。消融ExpNet。我们从生成的视频中选择四帧作为比较。我们的方法在很大程度上降低了音频到表情生成的不确定性。参考 β 0 \beta_0β0 被用来提供识别信息，而只有唇系数产生更好的唇同步。注意，目标图像是作为身份和唇动参考提供的。

ExpNet消融实验。对于ExpNet，我们主要通过唇同步度量来评估每个组件的必要性。由于之前没有解卷积的方法，我们考虑一个基线(Speech2Gesture[9]，这是一个音频到关键点生成网络)来联合学习头部姿态和表情系数。如表3和图7所示，将所有运动系数一起学习很难生成真实的说话头视频。然后我们考虑了所提出的ExpNet的变体，初始表达 β 0 \beta_0β0 ，唇读损失 L r e a d L_{read}Lread 和lip - only系数的必要性都是至关重要的。视觉对比如图8所示，其中我们的方法没有初始表达 β 0 \beta_0β0，正如预期的那样显示了巨大的身份变化。此外，如果我们使用真实系数来取代我们使用的纯唇系数，在唇同步时性能会下降很多。

表4。消融实验PoseVAE的多样性和音频对齐。每个组件或条件都在很大程度上有助于生成真实的头部运动。

PoseVAE消融实验。我们根据运动多样性和音频节拍对齐来评估提出的PoseVAE。如表4所示，基线的Speech2Gesture[9]在姿态评估中表现也较差。至于我们的变体，由于我们的方法包含几个身份风格标签，为了更好地评估其他组件，我们首先考虑对我们的完整方法进行评估(OurFull, Single fixed style)的固定单热风格进行烧蚀研究。我们设置中的每个条件都有利于在多样性和节拍对齐方面的整体运动质量。我们进一步报告了我们的完整方法的混合风格的结果，该方法使用随机选择的身份标签作为风格，也显示出更好的多样性性能。由于姿态差异在图中难以显示，请参考我们的补充资料进行更好的对比。

图9。面部渲染的消融研究。在第一行中，我们直接将我们的方法与PIRenderer[31]进行面部动画比较，我们的方法显示了更好的表情建模。第二行是由相同运动系数生成的面部标志的轨迹图。使用额外的面部对准系数作为运动系数[31]的一部分将产生不现实的对准头部视频。

面部渲染消融消融实验。我们从两个方面对所提出的面部渲染进行消融研究。一方面，我们用PIRenderer[31]显示方法的重建质量，因为这两种方法都使用3DMM作为中间表示。如图9的第一行所示，由于稀疏无监督关键点的映射，所提出的人脸渲染具有更好的表情重构质量。其中精确的表达式映射也是实现唇同步的关键。此外，我们还评估了PIRenderer[31]中使用的附加对齐系数引起的姿态不自然性。如图9的第二行所示，我们绘制了生成视频中具有相同头部姿态和表情系数的地标的轨迹图。使用固定的或可学习的作物系数(作为我们poseVAE中的姿态系数的一部分)将生成面部对齐的视频，这作为自然视频来说很奇怪。我们将其去掉，直接使用头部姿态和表情作为调制参数，得到了更加真实的结果。

图10。局限性。在一些例子中，我们的方法可能会在嘴唇区域显示一些牙齿伪影，可以通过面部修复网络，即GFPGAN[41]进行改进。

4.5 局限性

虽然我们的方法从单个图像和音频生成真实的视频，但我们的系统仍然存在一些局限性。由于3dmm不能模拟眼睛和牙齿的变化，在某些情况下，我们的面部渲染中的mappingNet也将难以合成真实的牙齿。这种限制可以通过如图10所示的盲脸恢复网络[41]来改善。我们工作的另一个局限性是我们只关注嘴唇运动和眨眼，而不关注其他面部表情，如情绪和注视方向。因此，生成的视频具有固定的情感，这也降低了生成内容的真实感。我们认为这是未来的工作。

5. 总结

在本文中，我们提出了一种新的程式化音频驱动的说话头视频生成系统。我们使用3DMM的运动系数作为中间表示，并学习它们之间的关系。为了从音频中生成逼真的3D系数，我们提出了ExpNet和PoseVAE来实现逼真的表情和不同的头部姿势。为了模拟3DMM运动系数与真实视频之间的关系，我们受到图像动画方法[40]的启发，提出了一种新颖的3d感知人脸渲染方法。实验证明了该框架的优越性。由于我们预测了逼真的三维人脸系数，我们的方法也可以直接用于其他模式，即个性化的2D视觉配音[43]，2D卡通动画[49]，3D人脸动画[7]和基于nerf的4D说话头生成[14]。
道德考虑。我们考虑了所提出的方法的误用，因为它可以从单个人脸图像生成非常逼真的视频。生成的视频中同时插入可见和不可见视频水印，用于生成内容识别，类似于Dall-E[30]和Imagen[32]。我们也希望我们的方法能在伪证鉴定领域提供新的研究样本。

参考

[1] Volker Blanz and Thomas V etter. A morphable model for the synthesis of 3d faces. In ACM SIGGRAPH, 1999. 2, 3
[2] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In CVPR, 2019. 2
[3] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou.Arcface: Additive angular margin loss for deep face recognition. In CVPR, 2019. 5
[4] Y u Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, Y unde Jia, and Xin Tong. Accurate 3d face reconstruction with weakly-supervised learning: From single image to image set.In CVPR Workshops, 2019. 2, 3, 4, 5, 12, 13, 14
[5] Carl Doersch. Tutorial on variational autoencoders. arXiv preprint arXiv:1606.05908, 2016. 2, 4
[6] Michail Christos Doukas, Stefanos Zafeiriou, and Viktoriia Sharmanska. Headgan: One-shot neural head synthesis and editing. In ICCV, 2021. 3
[7] Yingruo Fan, Zhaojiang Lin, Jun Saito, Wenping Wang, and Taku Komura. Faceformer: Speech-driven 3d facial animation with transformers. In CVPR, 2022. 8
[8] Panagiotis P . Filntisis, George Retsinas, Foivos ParaperasPapantoniou, Athanasios Katsamanis, Anastasios Roussos, and Petros Maragos. Visual speech-aware perceptual 3d facial expression reconstruction from videos. arXiv preprint arXiv:2207.11094, 2022. 4, 13
[9] Shiry Ginosar, Amir Bar, Gefen Kohavi, Caroline Chan, Andrew Owens, and Jitendra Malik. Learning individual styles of conversational gesture. In CVPR, 2019. 7, 8, 14
[10] Y udong Guo, Keyu Chen, Sen Liang, Y ong-Jin Liu, Hujun Bao, and Juyong Zhang. Ad-nerf: Audio driven neural radiance fields for talking head synthesis. In ICCV, 2021. 2
[11] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. In CVPR, 2016.4
[12] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a local nash equilibrium.In NeurIPS, 2017. 5
[13] Fa-Ting Hong, Longhao Zhang, Li Shen, and Dan Xu. Depthaware generative adversarial network for talking head video generation. In CVPR, 2022. 3
[14] Yang Hong, Bo Peng, Haiyao Xiao, Ligang Liu, and Juyong Zhang. Headnerf: A real-time nerf-based parametric head model. In CVPR, 2022. 8
[15] Phillip Isola, Jun-Y an Zhu, Tinghui Zhou, and Alexei A Efros.Image-to-image translation with conditional adversarial networks. CVPR, 2017. 14
[16] Xinya Ji, Hang Zhou, Kaisiyuan Wang, Qianyi Wu, Wayne Wu, Feng Xu, and Xun Cao. Eamm: One-shot emotional talking face via audio-based emotion-aware motion model. In ACM SIGGRAPH, 2022. 2 [17] Xinya Ji, Hang Zhou, Kaisiyuan Wang, Wayne Wu, Chen Change Loy, Xun Cao, and Feng Xu. Audio-driven emotional video portraits. In CVPR, 2021. 3 [18] Hyeongwoo Kim, Pablo Garrido, Ayush Tewari, Weipeng Xu, Justus Thies, Matthias Niessner, Patrick P´erez, Christian Richardt, Michael Zollh¨ofer, and Christian Theobalt. Deep video portraits. ACM Transactions on Graphics (TOG), 2018.2
[19] Diederik P Kingma and Jimmy Ba. A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5
[20] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. CoRR, abs/1312.6114, 2014. 4
[21] Siyao Li, Y u Weijiang, Gu Tianpei, Lin Chunze, Wang Quan, Qian Chen, Loy Chen Change, and Liu Ziwei. Bailando: 3d dance generation via actor-critic gpt with choreographic memory. In CVPR, 2022. 5
[22] Y uanxun Lu, Jinxiang Chai, and Xun Cao. Live speech portraits: real-time photorealistic talking-head animation. ACM Transactions on Graphics (TOG), 2021. 3
[23] Pingchuan Ma, Y ujiang Wang, Stavros Petridis, Jie Shen, and Maja Pantic. Training strategies for improved lip-reading. In ICASSP, 2022. 13 [24] Arun Mallya, Ting-Chun Wang, and Ming-Y u Liu. Implicit Warping for Animation with Image Sets. In NeurIPS, 2022. 3
[25] Arsha Nagrani, Joon Son Chung, and Andrew Zisserman.V oxceleb: a large-scale speaker identification dataset. In INTERSPEECH, 2017. 5, 11, 12
[26] Niranjan D. Narvekar and Lina J. Karam. A no-reference image blur metric based on the cumulative probability of blur detection (cpbd). TIP, 2011. 5
[27] Ruiz Nataniel, Eunji Chong, and Rehg James M. Fine-grained head pose estimation without keypoints. In CVPR Workshops, 2018. 5
[28] K R Prajwal, Rudrabha Mukhopadhyay, Vinay P .Namboodiri, and C.V .Jawahar. A lip sync expert is all you need for speech to lip generation in the wild. In ACM MM, 2020. 2, 3, 4, 5, 6, 7, 11, 12
[29] Prajwal K R, Rudrabha Mukhopadhyay, Jerin Philip, Abhishek Jha, Vinay Namboodiri, and C V Jawahar. Towards automatic face-to-face translation. In ACM MM, 2019. 2
[30] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 2022.9
[31] Y urui Ren, Ge Li, Y uanqi Chen, Thomas H Li, and Shan Liu. Pirenderer: Controllable portrait image generation via semantic neural rendering. In ICCV, 2021. 2, 3, 5, 8, 11, 14
[32] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S Sara Mahdavi, Rapha Gontijo Lopes, et al Photorealistic text-to-image diffusion models with deep language understanding. arXiv preprint arXiv:2205.11487, 2022. 9
[33] Maximilian Seitzer. pytorch-fid: FID Score for PyTorch.
https://github.com/mseitzer/pytorch- fid, August 2020. V ersion 0.2.1. 5
[34] Aliaksandr Siarohin, St´ephane Lathuili`ere, Sergey Tulyakov, Elisa Ricci, and Nicu Sebe. First order motion model for image animation. In NeurIPS, 2019. 2, 3, 5, 11
[35] Aliaksandr Siarohin, Oliver Woodford, Jian Ren, Menglei Chai, and Sergey Tulyakov. Motion representations for articulated animation. In CVPR, 2021. 3
[36] Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nießner. Neural voice puppetry: Audio-driven facial reenactment. In ECCV, 2020. 2
[37] Suzhen Wang, Lincheng Li, Y u Ding, Changjie Fan, and Xin Y u. Audio2head: Audio-driven one-shot talking-head generation with natural head motion. In IJCAI, 2021. 2, 5, 6, 7, 12
[38] Suzhen Wang, Lincheng Li, Y u Ding, and Xin Y u. Oneshot talking face generation from single-speaker audio-visual correlation learning. In AAAI, 2022. 2, 5, 6, 7, 12
[39] Ting-Chun Wang, Ming-Y u Liu, Andrew Tao, Guilin Liu, Jan Kautz, and Bryan Catanzaro. Few-shot video-to-video synthesis. In NeurIPS, 2019. 3
[40] Ting-Chun Wang, Arun Mallya, and Ming-Y u Liu. One-shot free-view neural talking-head synthesis for video conferencing. In CVPR, 2021. 2, 3, 4, 5, 8, 11, 14
[41] Xintao Wang, Y u Li, Honglun Zhang, and Ying Shan. Towards real-world blind face restoration with generative facial prior. In CVPR, 2021. 8 [42] Yaohui Wang, Di Yang, Francois Bremond, and Antitza Dantcheva. Latent image animator: Learning to animate images via latent space navigation. arXiv preprint arXiv:2203.09043, 2022. 3
[43] Xin Wen, Miao Wang, Christian Richardt, Ze-Yin Chen, and Shi-Min Hu. Photorealistic audio-driven video portraits.IEEE Transactions on Visualization and Computer Graphics, 26(12):3457–3466, 2020. 2, 8
[44] Fei Yin, Y ong Zhang, Xiaodong Cun, Mingdeng Cao, Y anbo Fan, Xuan Wang, Qingyan Bai, Baoyuan Wu, Jue Wang, and Y ujiu Yang. Styleheat: One-shot high-resolution editable talking face generation via pre-trained stylegan. In ECCV, 2022. 3
[45] Chenxu Zhang, Yifan Zhao, Yifei Huang, Ming Zeng, Saifeng Ni, Madhukar Budagavi, and Xiaohu Guo. Facial: Synthesizing dynamic talking face with implicit attribute learning. In ICCV, 2021. 3
[46] Zhimeng Zhang, Lincheng Li, Y u Ding, and Changjie Fan.Flow-guided one-shot talking face generation with a highresolution audio-visual dataset. In CVPR, 2021. 2, 5, 11, 12
[47] Jian Zhao and Hui Zhang. Thin-plate spline motion model for image animation. In CVPR, 2022. 3
[48] Hang Zhou, Yasheng Sun, Wayne Wu, Chen Change Loy, Xiaogang Wang, and Ziwei Liu. Pose-controllable talking face generation by implicitly modularized audio-visual representation. In CVPR, 2021. 2, 3, 5, 6, 7, 12 [49] Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makelttalk:speaker-aware talking-head animation. ACM Transactions on Graphics (TOG), 2020. 2, 3, 5, 6, 7, 8, 12

你可能感兴趣的:(人工智能,ffmpeg)

网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
使用大模型预测胃穿孔的全流程系统技术方案大纲
目录一、项目概述二、项目背景三、建设目标四、建设内容（一）建设架构（二）核心功能（三）核心技术（四）预期成效（五）方案总结五、系统架构方案流程图六、实验验证证据七、健康教育与指导一、项目概述本项目旨在构建一套基于大模型的胃穿孔预测及全流程管理系统，通过整合术前、术中、术后各环节数据，利用先进的人工智能技术，实现对胃穿孔疾病的精准预测、手术方案优化、并发症风险预警以及术后护理指导等功能，为医疗决策提
表观遗传风暴：深圳AI-BioFab终极防御战全纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站⚡《表观遗传风暴：深圳AI-BioFab终极防御战全纪实》副标题：抗癌疫苗灌装倒计时90秒惊现组蛋白叛乱，中国启动虫洞计算化解文明级生物危机2025年7月2日14:26光明科学城急电当第184支抗癌疫苗注入冷链罐的瞬间，B3层突爆刺眼蓝光！培养舱内数千细胞染色体疯狂解旋，量子钟在14:26:03
医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站医疗影像诊断新范式：多模态AI在癌症早筛中的落地难题——2025年临床转化瓶颈突破与多中心验证报告残酷现实：FDA2025Q1报告显示，87%的AI影像工具因临床转化失败止步于III期试验破局曙光：斯坦福-梅奥联合研究证实，多模态融合使肺结节良恶性判别AUC提升至0.98（单模态上限0.91）一
合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《合成生物学奇点：AI驱动CRISPR超进化工厂2025投产纪实》副标题：全球首座AI-BioFab落地深圳，蛋白质设计周期从3年压缩至11天，生物制造成本暴跌90%一、生物制造范式的历史性颠覆▶︎传统生物工程的三大世纪困局graphTDA[缓慢的试错循环]-->B[单基因改造耗时≥6个月]C[
Transformer已死？2025年十大替代架构实战评测
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站封面图建议：十大架构3D渲染图环绕碎裂的Transformer图标，背景为动态性能雷达图副标题：实测推理速度/显存占用/长文本能力，附迁移成本决策树一、争议源起：Transformer的时代性局限（2025版）graphLRA[Transformer痛点]-->B[显存黑洞：千亿模型推理需1.6
生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南 HeartException 人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《生物启发AI新突破：神经形态芯片+脉冲神经网络落地指南》副标题：基于2025年英特尔Loihi3芯片的工业级部署实战（附能耗对比&代码库）封面建议：脉冲神经网络动态脉冲传导图覆盖在神经形态芯片显微结构上，标注「能效比：传统GPU的1/800」一、2025生物启发AI的临界点突破生物神经特性事件
《从Backprop到Diffusion：深度学习的算法进化树全景图》 HeartException 学习人工智能
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站《从Backprop到Diffusion：深度学习的算法进化树全景图》**展开系统性解析。全文基于算法原理-技术突破-产业重塑的三层逻辑链，融合2025年最新研究成果与产业数据，呈现深度学习四十年的底层技术迁徙路径从Backprop到Diffusion：深度学习的算法进化树全景图副标题：一部算法
语言模型之谜：提示内容与格式的交响诗步子哥 AGI通用人工智能语言模型人工智能自然语言处理
当代人工智能领域中，语言模型（LLM）正以前所未有的规模和深度渗透到各行各业。从代码生成到数学推理，从问答系统到多项选择题，每一次技术的跃进都离不开一个看似简单却充满玄机的关键环节——提示（prompt）的设计。而在这场提示优化的探索中，内容与格式的双重奏正逐渐揭开其神秘面纱，谱写出一曲宏大的交响诗。本文将带您走进“内容格式集成提示优化（CFPO）”的奇幻世界，揭示如何透过细腻的内容雕琢和精妙的格
多模态大模型：技术原理与实战看清GPT的进化史和创新点 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
多模态大模型：技术原理与实战看清GPT的进化史和创新点1.背景介绍1.1人工智能的发展历程1.1.1早期人工智能1.1.2机器学习时代1.1.3深度学习的崛起1.2自然语言处理的演进1.2.1基于规则的方法1.2.2统计机器学习方法1.2.3深度学习方法1.3大语言模型的出现1.3.1Transformer架构的提出1.3.2GPT系列模型的发展1.3.3多模态大模型的兴起2.核心概念与联系2.1
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
Xtuner：大模型微调快速上手潘达斯奈基~ AIGC AIGC
一、XTuner是什么？简单来说，XTuner是一个轻量级、易于使用的、为大语言模型（LLM）设计的微调工具库。它由上海人工智能实验室（OpenMMLab）开发，是其强大AI工具生态（MMCV,MMEngine等）的一部分。它的核心设计理念是“用一个配置文件搞定一切”，让开发者和研究人员可以极大地简化微调流程。二、为什么选择XTuner？（核心优势）轻量且用户友好：命令行驱动：你不需要编写复杂的训
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战 Agentic AI 实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战关键词：人工智能、身体增强、道德考虑、未来发展、机遇挑战摘要：本文将探讨AI时代人类增强的各个方面，包括道德考虑和身体增强技术的未来发展机遇与挑战。通过详细分析AI技术基础、身体增强技术、道德哲学及社会影响，本文旨在为读者提供对这一前沿领域的深入理解和前瞻性思考。目录大纲AI时代的人类增强：道德考虑与身体增强的未来发展机遇分析机遇挑战
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
FFmpeg、WebAssembly 和 WebGL 在 Web 端的结合应用醉方休 ffmpeg wasm webgl
FFmpeg、WebAssembly和WebGL在Web端的结合应用这三个技术组合可以创建强大的浏览器端多媒体处理解决方案，下面我将详细介绍它们如何协同工作。1.FFmpeg与WebAssemblyFFmpeg.wasm项目概念：将FFmpeg编译为WebAssembly在浏览器中运行特点：完全在浏览器中执行视频/音频处理无需服务器转码保护用户隐私（数据不离客户端）基本使用示例import{cre
FFmpeg 详解醉方休 ffmpeg wasm webgl
FFmpeg详解FFmpeg是一个强大的跨平台多媒体处理工具集，可以用于录制、转换、编辑和流式传输音频和视频内容。以下是FFmpeg的全面解析：一、FFmpeg核心组件ffmpeg-主要的多媒体转换工具ffplay-简单的媒体播放器ffprobe-媒体文件分析工具libavcodec-编解码器库libavformat-多媒体容器格式库libavutil-实用工具库libswscale-图像缩放和色
喜讯 | Navicat 蝉联 2025 年 DBTA 100 强名单 Navicat中国 Navicat 17 焕新上市 navicat 数据库
Navicat在“DBTA1002025-数据领域最重要的公司”榜单中获得表彰。该奖项旨在表彰在数据管理与分析领域的领先创新者。数据库趋势与应用集团出版人TomHogan表示：“企业正寻求扩大人工智能的应用范围，采用新的技术与应用，增加数据分析/商业智能的使用，并对现有应用进行现代化改造”，“每年，《数据库趋势与应用》杂志都会推出DBTA100榜单，旨在表彰具有创新精神、能够为客户带来新产品新体验
Midjourney：AI人工智能图像生成的新方向 AI智能探索者人工智能 midjourney 计算机视觉 ai
Midjourney：AI人工智能图像生成的新方向关键词：Midjourney、AI图像生成、扩散模型、提示词工程、多模态学习、生成式AI、创意工具摘要：本文将带您走进AI图像生成的前沿领域，以Midjourney为核心，从技术原理到实际应用，用通俗易懂的语言解析其背后的“魔法”。我们将通过生活案例、技术拆解和实战演示，揭示Midjourney如何通过扩散模型、提示词工程和多模态学习，重新定义“用
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S