c2a2o2

VideoReTalking：用于野外会说话的头部视频编辑的基于音频的唇形同步

我们展示了 VideoReTalking，这是一种新系统，可以根据输入音频编辑真实世界中说话的头部视频的面部，从而产生高质量和口型同步的输出视频，即使带有不同的情绪。我们的系统将这个目标分解为三个连续的任务：（1）具有规范表达的面部视频生成；(2) 音频驱动的口型同步；(3) 面部增强以提高照片的真实感。给定一个会说话的头像视频，我们首先使用表情编辑网络根据相同的表情模板修改每一帧的表情，从而生成具有规范表情的视频。然后将该视频与给定的音频一起输入口型同步网络以生成口型同步视频。最后，我们通过身份感知面部增强网络和后处理提高合成面部的照片真实感。我们对所有三个步骤都使用基于学习的方法，并且我们所有的模块都可以在没有任何用户干预的情况下按顺序处理。此外，我们的系统是一种通用方法，不需要针对特定人员进行再培训。对两个广泛使用的数据集和实际示例的评估表明，我们的框架在口型同步准确性和视觉质量方面优于其他最先进的方法。

图1。我们的方法修改原始视频并通过表情编辑和口型同步网络通过输入音频生成口型同步视频。自然脸 © ONU Brasil (CC BY)。

面部动画、视频合成、音频驱动生成

提交编号： 346期刊年份： 2022版权所有： acmcopyright会议： SIGGRAPH Asia 2022 会议论文；2022 年 12 月 6-9 日；韩国大邱书名： SIGGRAPH Asia 2022 会议论文（SA '22 Conference Papers），2022 年 12 月 6-9 日，大韩民国大邱价格： 15.00内政部： 10.1145/3550469.3555399国际标准书号： 978-1-4503-9470-3/22/12ccs：计算方法动画

图 2。给定一个任意的谈话视频和另一个音频，我们的方法可以合成一个照片般逼真的谈话视频，具有精确的唇音同步和修饰的面部表情。自然面孔 © 欧洲中央银行 (CC BY)。

1.介绍

图 3。我们的框架包含三个主要组件，用于生成逼真的口型同步视频。自然脸 © ONU Brasil (CC BY)。

根据输入的语音音频编辑说话的头部视频的任务具有重要的现实应用，例如将整个视频翻译成不同的语言，或者在视频录制后修改语音。这项任务被称为视觉配音，已经在之前的几部作品中进行了研究（Suwajanakorn 等人，2017年; 文等人。,2020; Thies 等人。,2020; Prajwal 等人。,2020)，它通过修改面部动画和情绪以匹配目标音频来编辑输入的说话头部视频，同时保持所有其他动作不变（如图 2 所示）。一些方法（Suwajanakorn 等人，2017年; 文等人。,2020; Thies 等人。,2020)可以在特定说话人上取得满意的效果，但需要在目标说话人的说话语料库上进行训练，得到个性化的模型，这并不总是可用的。另一方面，当前的通用方法会产生模糊的下部面孔（Prajwal 等人，2020)或口型同步不准确 (Song et al . ,2022年)，它们在视觉上具有侵扰性。这些方法也不支持情感编辑，这在更改语音内容时通常是可取的。

受先前基于修复的头部说话视频编辑方法的启发（Prajwal 等人，2020)，我们提出了一个新系统来编辑说话的嘴唇，以匹配输入音频，具有更稳定的口型同步结果和更好的视觉质量。以前的作品将视频中的原始帧视为头部姿势参考。然而，我们发现唇型生成对这些参考非常敏感，直接使用原始帧作为唇型生成的基础往往会产生不同步的结果。为此，如图 1所示，我们采用分而治之的策略，首先中和面部表情，然后使用修改后的帧作为唇形生成的姿势参考，考虑到所有参考面现在都具有相同的规范表情，这样更准确。最后，与以前经常产生低分辨率和模糊结果的作品相比，我们通过提出的身份感知增强网络和恢复产生照片般逼真的结果（Yang 等人，2021年; 王等人。,2021c）基于 StyleGAN 的面部先验（Karras 等人，2019)。

具体来说，给定一个任意的谈话视频，我们首先裁剪面部区域并通过深度神经网络提取 3D 可变形模型 (3DMM) 的姿势和表情系数 ( Deng 等人，2019b)。然后，我们将 3DMM 的参数与标准中性模板表达式一起使用，并通过类似于（Ren等人，2021年)。通过这样做，我们获得了一个在所有帧中都具有相同规范表达的视频，它们将被视为我们口型同步网络的结构参考。有趣的是，我们还可以通过改变表情模板，合成出不同情绪的说话头像视频。例如，通过改变表情模板的唇形来匹配“快乐”的情绪，这种唇形将被口型同步网络考虑在内，导致说话的头部视频表现出相同的情绪。

在表情中和之后，然后应用口型同步网络，使用合成的表情作为条件结构信息来合成逼真的下半脸。具体来说，我们设计了一个带有快速傅立叶卷积块的类似沙漏的网络（Chi 等人，2020)作为基本学习单元，因为它在一般图像修复任务中取得了巨大成功（Suvorov 等人，2021年)。至于音频注入，我们使用自适应实例规范化 (AdaIN) 块（Huang 和 Belongie，2017年)来调制全局的音频特征。类似于（Prajwal 等人，2020)，我们使用预训练的口型同步鉴别器来确保视听同步性。

虽然前面的步骤可以合成具有相对准确唇形的说话头部视频，但视觉质量仍然受到低分辨率训练数据集的限制（Nagrani 等人，2017年; Afouras 等人。,2018)。为了解决这个问题，我们设计了一个身份保持面部增强网络，通过渐进式训练产生高质量的输出。增强网络在增强的 LRS2 数据集上进行训练（Afouras 等人，2018)通过人脸修复方法 (Yang et al . ,2021年)。我们还应用了 StyleGAN 先验引导人脸修复网络（Wang 等人，2021c)去除牙齿周围的视觉伪影。

以上所有模块都可以按顺序应用，无需人工干预或微调。我们进行了广泛的实验，以评估我们在几个现有基准和野外视频中的框架。结果表明，所提出的系统可以生成比以前的方法具有更高视觉质量的视频，同时提供准确的口型同步。

2.相关工作

我们从两个方面回顾了相关方法，包括旨在通过音频编辑输入视频的视觉配音任务，以及以音频为条件的单图像动画。

2.1.视频编辑中的音频配音

2.1.1.任意主题方法

任意主题方法旨在建立一个不需要针对不同身份重新训练的通用模型。Speech2Vid （Chung 等人，2017年)可以使用上下文编码器重新配音带有不同音频片段的源视频。通过修复重建下半脸最近很流行（KR 等人，2019; Prajwal 等人。,2020; 公园等。,2022年)。例如，LipGAN （KR 等人，2019)设计一个神经网络来填充下半脸作为先验姿势。Wav2Lip （Prajwal 等人，2020)使用预训练的 SyncNet 作为口型同步鉴别器扩展 LipGAN （Chung 和 Zisserman，2016年)以生成准确的嘴唇同步。基于 Wav2Lip，SyncTalkFace （Park 等人，2022年)涉及音频嘴唇记忆以隐式存储嘴唇运动特征并在推理时检索它们。另一类方法首先预测中间表示，然后通过图像到图像转换网络合成逼真的结果，例如面部标志（Xie 等人，2021年)和基于 3D 人脸重建的人脸特征点 (Song et al . ,2022年)。然而，所有这些方法都难以合成具有可编辑情感的高质量结果。

2.1.2.个性化方法

个性化视觉配音比通用配音更容易，因为这些方法仅限于已知环境中的某个人。例如，SynthesizeObama （Suwajanakorn 等人，2017年)可以通过 audio-to-landmark 网络合成 Obama 的嘴巴区域。受面部重现方法的启发（Kim 等人，2018; Thies 等人。,2019)，最近的视觉配音方法侧重于从音频生成中间表示，然后通过图像到图像的转换网络渲染照片般逼真的结果。例如，几部作品（Thies 等人，2020; 文等人。,2020; 张等人。,2021b）关注音频特征的表达系数，并通过图像生成网络渲染照片般逼真的结果（Thies 等人，2019; 金等人。,2018; 王等人。,2018)。面部标志（Lu 等人，2021年)和边缘 (Ji et al . ,2021年)也是投影 3D 渲染面孔的流行选择，因为它包含更稀疏的信息。此外，基于 3D 网格（Lahiri 等人，2021年)和 NeRF (Mildenhall 等人，2020)为基础的方法 (Guo et al . ,2021年)也很强大。尽管这些方法可以合成照片般逼真的结果，但它们的应用相对有限，因为它们需要针对特定的人和环境重新训练模型。

2.2.基于音频的单图像面部动画

与视觉配音不同，单图人脸动画旨在通过单一的音频驱动来生成动画，同时也受到了视频驱动人脸动画的影响。例如，（宋等人，2018)使用递归神经网络从音频生成运动，（Zhou 等人，2019)通过对抗性表征学习解开主题相关信息和语音相关信息的输入。（Vougioukas 等人，2020; 周等人。,2021年)将音频视为潜在代码，并通过图像生成器驱动面部动画。中间表示也是该任务中的流行选择。ATVG （陈等人，2019)和 MakeItTalk (Zhou et al . ,2020)首先从音频生成面部标志，然后使用标志到视频网络渲染视频。稠密流场是另一个活跃的研究方向（Yin et al . ,2022年; Siarohin 等人。,2019)。（张等人，2021a)从音频预测 3DMM 系数，然后将这些参数传输到基于流的变形网络中。（王等人，2021a,b)借用视频驱动的面部动画的想法 (Siarohin et al . ,2019)。

3.框架

从技术上讲，我们的方法是一种跨模态视频修复框架，用于在驱动音频和情绪调制参考框架的指导下填充蒙版的下半脸。为此，我们设计了一个口型同步网络（大号斜体L-净中段。 3.2 )，它使用蒙版的下半脸帧、给定的音频和原始视频帧作为输入来生成口型同步视频。但是，如果我们使用大号斜体L- 仅限网络。首先是参考系造成的信息泄露，生成的口型仍然严重依赖参考系。另一个是视觉质量低，因为当前的大规模谈话头部数据集分辨率较低。

为此，除大号斜体L-Net，我们提出了两个额外的模块，如图 3所示。首先，为了解决信息泄露问题，我们通过语义引导的表情重现网络（{D}斜体字D-净中段。 3.1）。合成的嘴唇是参考嘴唇而不是原始嘴唇。然后，编辑视频的下半部分脸将用作我们的唇形合成网络的参考结构（{L}斜体L-网）。在{L}斜体L-Net，我们的方法将音频作为输入并逐帧合成口型同步结果。此外，我们设计了一个{E}斜体字E-Net 用于 Sec. 中的身份识别面部恢复。 3.3。最后，我们可以通过第 2 节中的后期处理将生成的人脸无缝粘贴回原始视频。 3.4。下面，我们给出每个组件的详细信息。

图 4。所提出的 D-Net 用于从原始视频中删除与谈话相关的动作。在没有 D-Net 的情况下，生成的嘴唇运动受源视频的严重影响，即使在音频无声时仍在运动，这表明信息泄漏会影响嘴唇合成。自然面孔 © 欧洲中央银行 (CC BY)。

3.1.语义引导重演网络

直接编辑视频中与嘴唇相关的动作具有挑战性。以前的作品经常省略原来的嘴唇运动变化（Prajwal 等人，2020)或重定时背景 (Suwajanakorn et al . ,2017年; 宋等。,2022年)以避免头部姿势和嘴唇之间的不自然运动。不同的是，我们直接编辑整个下半脸，包括借助面部重现方法的面部运动。我们的主要观察是存在信息泄漏（KR 等人，2019; Prajwal 等人。,2020)在基于条件内画的方法中，如果我们使用原始帧作为唇形同步的条件图像。我们在图4中举例说明这种现象。给定音频和输入帧，如果我们直接使用原始帧作为参考（w/o丁斜体字D-Net），生成的嘴唇将根据原始嘴唇进行修改。因此，我们的目标是通过所提出的语义引导重演网络来编辑整个下半脸的表情。然后，表达稳定的框架将作为进一步唇部合成的参考。

如图 3所示，在人脸检测和裁剪之后，我们使用单目人脸重建从每一帧中提取姿势和表情系数（Deng 等人，2019b)。然后，我们通过用预定义的表达式模板替换原始表达式系数来获得新的驱动信号。因此，我们可以通过生成的网络密集扭曲场和原始帧来合成具有冻结表情的视频。类似于（任等人，2021年) , 的{D}斜体字D-Net 包含两个类似编码器-解码器的结构，用于从粗到精的训练。表情编辑后，我们得到了所有帧的稳定表情。请注意，由于人脸重现网络的质量仍然有限，我们使用编辑后的人脸作为口型同步网络的结构参考。为此，我们首先检测面部标志，使用时间 Savitzky-Golay 滤波器对其进行平滑处理，然后使用眼睛中心和鼻子的关键点作为面部对齐的锚点。

有趣的是，我们还可以通过更多表情模板（例如微笑）利用由口型同步参考帧引起的信息泄漏，从而产生如图2所示的情绪化谈话视频。由于我们的表情重演网络仅编辑原始视频的下半脸，灵感来自面部动作代码系统（Ekman 和 Friesen，1978年) , 我们可以通过基于图像的表情编辑网络 (Pumarola et al . ,2018）在上面。我们将其视为一个插件，并在 Sec 中显示一些结果。5 .

图 5。建议的详细结构大号斜体L-网。为了清楚起见，省略了参考特征和解码器之间的跳跃连接。自然脸 © ONU Brasil (CC BY)。

3.2.口型同步网络

我们的口型同步网络（大号斜体L-Net) 的灵感来自最近的基于条件修复的框架（Prajwal 等人，2020)，它通过新音频直接编辑原始视频。不同的是，我们使用来自{D}斜体字D-Net作为身份和结构参考，音频和被屏蔽的原始帧作为条件，针对输入音频合成口型同步视频。

在图 3中，我们简要概述了大号斜体L-Net，包含两个子网络，下标{L}_{a}italic_L start_POSTSUBSCRIPT italic_a end_POSTSUBSCRIPT和下标{L}_{v}italic_L start_POSTSUBSCRIPT italic_v end_POSTSUBSCRIPT，分别用于音频和视频处理。在这里，我们给出详细的结构{L}斜体L- 图 5中的网络。对于音频处理，我们首先从原始音频中提取梅尔频谱图并使用基于 ResNet 的编码器（He 等人，2016年)提取全局音频向量下标上标ℝ2561个1个F_{audio}\in\mathbb{R}^{256\times 1\times 1}italic_F start_POSTSUBSCRIPT italic_a italic_u italic_d italic_i italic_o end_POSTSUBSCRIPT ∈ blackboard_R start_POSTSUPERSCRIPT 256 × 1 × 1 end_POSTSUPERSCRIPT的一个时间窗口。按照之前的工作，时间窗口设置为每帧0.2s，导致80维度的特征\次×16 处理。至于图像生成，我们首先提取图像特征下标下标上标ℝ256F_{ref},F_{orig}\in\mathbb{R}^{256\times H\times W}italic_F start_POSTSUBSCRIPT italic_r italic_e italic_f end_POSTSUBSCRIPT , italic_F start_POSTSUBSCRIPT italic_o italic_r italic_i italic_g end_POSTSUBSCRIPT ∈ blackboard_R start_POSTPERSCRIPT 256 × italic_H × italic_W end_POSTSUPER剧本分别通过两个不同的编码器从预处理后的参考图像和原始蒙版图像中学习这些特征，通过两个交叉注意块自动对像素之间的关系进行建模（Vaswani 等人，2017a)。这些交叉注意块将计算两个特征的像素级对应矩阵并扩大接收域。之后，我们使用九个残差快速傅里叶卷积块（Chi 等人，2020)来改进受最近通用图像修复框架启发的特征 (Suvorov 等人，2021年)，我们通过 AdaIN 块（Huang 和 Belongie，2017年)在每个 FFC 块之后按通道规范化视觉特征。最后，使用一系列卷积上采样层来生成最终结果。

3.3.身份感知增强网络

结果来自{L}斜体L-Net 仍然不完美，因为很难在高分辨率说话头数据集上训练模型。一方面，没有公开可用的大规模高分辨率谈话头部数据集。另一方面，如果我们直接应用基于 GAN 先验的人脸恢复网络（Wang 等人，2021c; 杨等。,2021年)作为改进结果的后处理工具，结果在身份变化方面可能并不完美 (Wang et al . ,2021c)和模糊的牙齿和脸 (Yang et al . ,2021年）如图6所示。

为此，我们提出了一种受最近图像生成网络启发的身份感知增强网络（Karras 等人，2020; 陈等。,2021年)。详细地说，为了获取高分辨率说话头部数据集和对齐域以进行上采样，我们首先使用基于 GAN 先验的人脸恢复网络增强低分辨率数据集（Yang 等人，2021年)。然而，训练期间增强的高分辨率数据集与模糊输出之间存在域差距丁斜体字D-测试期间的网络。然后，为了避免这种差距，我们产生低分辨率输入乙斜体字E-Net 通过将增强的帧及其相应的音频提供给大号斜体L-网。理想情况下，大号斜体L-Net 应该使用条件音频产生与原始帧相同的嘴唇动作。因此，我们可以直接使用高分辨率输入作为监督。至于架构，我们学习了两个基于样式的块（Karras 等人，2020)对结果进行四次上采样，我们设计了一个基于 ResBlock 的编码器下标{E}_{i}italic_E start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT-Net 在每个样式块中生成身份感知全局调制。

3.4.后期处理

在粘贴回原始视频时，我们还删除了几个伪影，包括牙齿生成的伪影和合成边界框大号斜体L-网。为面部视频合成逼真的牙齿非常困难（Suwajanakorn 等人，2017年)。与以前使用牙齿代理的方法不同（Suwajanakorn 等人，2017年)，我们从预训练的人脸恢复网络寻求帮助 (Wang et al . ,2021c)通过面部解析增强牙齿 (Yu et al . ,2018)。至于由人脸包围盒引起的大号斜体L-Net，我们分段（Yu 等人，2018)使用多波段拉普拉斯金字塔混合（Burt 和 Adelson，1983)。

图 6。不同人脸恢复网络在结果上的比较，包括 GFPGAN (Wang et al . ,2021c) , GPEN (Yang 等人,2021年)和我们的混合方法。请注意，GFPGAN 改变了很多身份。自然脸 © ONU Brasil (CC BY)。

图 7。与 LipGAN的定性比较（KR 等人，2019) , Wav2Lip (Prajwal 等人,2020) , 和 PC-AVS (Zhou et al . ,2021年)。上面两行分别显示编辑音频和输入视频帧。请注意，为了可视化输入音频，我们使用音频对应的面部来显示他们的嘴型。自然脸 © ONU Brasil (CC BY)。表格1。LRS2 和 HDTF 数据集的定量结果。

	LRS2 数据集				HDTF 数据集
	视觉质量		唇型同步		视觉质量		唇型同步
	FID↓\下箭头↓	CPBD↑\向上箭头↑	LSE-D↓\下箭头↓	伦敦政经学院↑\向上箭头↑	FID↓\下箭头↓	CPBD↑\向上箭头↑	LSE-D↓\下箭头↓	伦敦政经学院↑\向上箭头↑
LipGAN （KR 等人，2019)	5.168	0.2615	9.609	3.062	7.684	0.2754	9.943	4.052
不带 GAN 的 Wav2Lip （Prajwal 等人，2020)	5.069	0.2607	7.116	6.889	7.358	0.2764	8.689	5.427
Wav2Lip （Prajwal 等人，2020)	3.911	0.2714	7.191	6.870	5.632	0.2763	8.895	5.228
PC-AVS （周等人，2021年)	12.800	0.2085	7.666	5.974	-	-	-	-
我们的	5.193	0.2809	6.519	7.089	4.504	0.2903	9.359	4.518

4.训练

我们的框架是使用 Pytorch 实现的（Paszke 等人，2019)，并且我们单独训练每个模块。训练完成后，整个框架可以按顺序进行测试，无需人工干预。下面，我们给出了每个模块的数据集和训练细节。可以在补充材料中找到更多详细信息。

4.1.每个模块的培训

4.1.1.丁斜体字D-网

为了执行语义引导的表情重现，我们在 VoxCeleb （Nagrani 等人，2017年)具有姿势和表情的数据集(Deng et al . ,2019b)。该数据集包含 22496 个说话的头部视频，具有不同的身份和头部姿势。我们将输入帧的大小调整为 256\次×256并在类似于（Siarohin 等人，2019)。我们使用渐进式训练设置以 400k 次迭代训练网络。至于损失函数，我们使用感知损失计算预测图像和地面实况之间的像素级差异（Zhang 等人，2018)和克矩阵损失 (Gatys 等人，2016年)。

4.1.2.大号斜体L-网

我们训练大号斜体L-LRS2 上的网络（Afouras 等人，2018）数据集。这个唇读数据集包含来自 BBC 节目的大型 160p 视频。我们使用人脸检测（Bulat 和 Tzimiropoulos，2017年)并将输入图像调整为969696\乘以9696×96按照以前的方法（Prajwal 等人，2020)。我们训练大号斜体L-Net 使用感知损失和口型同步鉴别器来实现视觉质量和视听同步（Prajwal 等人，2020），分别。

4.1.3.乙斜体字E-网

的训练过程乙斜体字E-Net基于大号斜体L-网。我们提前增强 LRS2 数据集以获得高分辨率数据集，并训练乙斜体字E-Net 在 300k 次迭代中。至于损失函数，乙斜体字E-Net 接受了感知损失的混合损失的训练（Johnson 等人，2016年) , 像素级下标1个L_{1}italic_L start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPTloss, adversarial loss (Isola et al . ,2017年) , 口型同步鉴别器 (Prajwal et al . ,2020)和使用预训练人脸识别网络的身份丢失 ( Deng 等人，2019a)。

4.2.评估

我们根据视觉质量和口型同步来评估所提出的方法。至于视觉质量，由于地面实况谈话视频不可用，我们选择 Fr´\rm\bf\急性{e}over´ start_ARG bold_e end_ARG切特起始距离 (FID) （Heusel 等人，2017年)和累积概率模糊检测 (CPBD) （Narvekar 和 Karam，2009)来评估生成视频的视觉质量。较低的 FID 分数意味着生成的图像更接近数据集分布。CPBD 反映了结果的清晰度。不同于（Prajwal 等人，2020)，我们计算视频全帧的视觉质量指标而不是裁剪的人脸，因为我们关注整个视频的质量。我们选择 LSE-C 和 LSE-D （Prajwal 等人，2020)来评估嘴唇同步的质量。至于数据集的选择，我们在低分辨率数据集 (LRS2) 和高分辨率数据集 (HDTF) 上评估了我们的框架。HDTF 数据集包含来自 YouTube 的 720p 或 1080p 视频。按照（Prajwal 等人，2020)，我们从另一个不同的视频中截取一个视频和一个音频剪辑来合成结果。我们创造1414k14 斜体_k和 100 个二十秒音频视频对，分别用于 LRS2 和 HDTF 数据集评估。

5.结果

5.1.与最先进方法的比较

我们在相同设置下将我们的方法与三种最先进的方法进行比较，包括 LipGAN （KR 等人，2019) , Wav2Lip (Prajwal 等人,2020)和 PC-AVS (Zhou et al . ,2021年)。LipGAN 和 Wav2Lip 具有相似的网络结构。不同的是，Wav2Lip 使用预训练的口型同步鉴别器作为口型专家，但具有更好的口型同步性能。PC-AVS 最初被提议用于一次性姿势可控的说话头部生成。我们使用每个原始视频帧的身份代码来替换原始的单图像人脸动画设置。我们使用开源代码将所提出的方法与这些方法进行比较。

如表1所示，所提出的方法根据 CPBD 和 FID 实现了更好的视觉质量。由于 LRS2 数据集是低分辨率的，而我们的方法产生高分辨率结果，因此 Wav2Lip 在 LRS2 数据集上的 FID 更好。至于唇形同步的准确性，我们的方法在这两个数据集上仍然获得了更好且可比的性能。我们还在图 7中展示了一些示例来执行视觉比较。从这个图中，我们的方法产生了高质量的结果，比以前的方法具有更准确的唇形同步。由于视觉配音是一项视频编辑任务，我们强烈建议读者参考随附的视频将我们的方法与其他方法进行比较。

为了比较口型同步质量，需要人工评估。我们进行了一项用户研究，以进一步评估所提出方法的性能。在用户研究中，我们使用我们的方法和两种最先进的方法（LipGAN 和 Wav2Lip）在 HDTF 数据集上生成了十个具有不同音频和视频源的谈话视频。我们让用户在视觉和口型同步质量方面对每个视频发表意见。我们为每个选项设置了五个不同的分数（越大越好，范围从 1 到 5）。我们的表格总共发送给了 51 个人，得到了 510 条意见。如表2所示，大多数用户更愿意在视觉和口型同步质量方面给我们的方法更高的分数。

表 2。用户研究。

方法	视觉质量↑\向上箭头↑	口型同步质量↑\向上箭头↑
LipGAN	2.867	3.058
Wav2Lip	3.173	3.398
我们的	4.171	4.100

5.2.消融研究

我们在表 3中主要消融了我们框架的三个主要组成部分。第一个组成部分是两个图像编码器之间的交叉注意力。大号斜体L-Net w/o 表3中的交叉注意力意味着通道明智地连接来自源帧和参考帧的特征。我们发现交叉注意力在口型同步质量方面很有帮助，因为它可以捕获远程依赖性。除了数值指标的提升，我们还发现它带来了更生动的结果（例如，更大的嘴巴）。然后我们显示添加的结果乙斜体字E-Net 在我们的框架中。正如我们所料，身份识别面部增强将极大地提高视觉质量。但是，额外的伪像也会影响口型同步质量。最后，通过使用丁斜体字D-Net 来稳定参考帧，我们的框架在视觉和口型同步质量方面生成更好的视频。

表3。HDTF 数据集的主要消融研究。

	视觉质量		口型同步质量
	FID↓\下箭头↓	CPBD↑\向上箭头↑	LSE-D↓\下箭头↓	伦敦政经学院↑\向上箭头↑
大号斜体L-Net w/o cross-att。	5.951	0.2743	9.788	4.164
大号斜体L-网	6.471	0.2755	9.578	4.382
大号斜体L-网+乙斜体字E-网	3.334	0.2873	10.171	3.764
大号斜体L-网+乙斜体字E-网+丁斜体字D-网	4.504	0.2903	9.359	4.518

5.3.情感谈话视频的扩展

我们已经在图2中展示了所提出的方法可用于情绪化的头部谈话视频编辑。由于我们的方法只修改下半脸，我们也从面部动作单元系统（Ekman 和 Friesen，1978年)并使用(Pumarola et al . ,2018)，导致不同的组合，如图 8所示。

5.4.局限性

尽管所提出的方法可以适用于自然环境中的视频，但在某些情况下它仍然包含一些明显的伪像。如图 9所示，所提出的框架的一个显着差异是由于丁斜体字D-网。然而，它只是我们方法的一个模块，我们将用另一个面部重现网络替换它（Wang 等人，2021d）或基于 3D 的人脸重现方法（Kim 等人，2018）直接。我们的方法还显示了某些极端姿势中的一些伪影，如图9所示。由于我们的方法以逐帧方式编辑视频，因此结果可能会显示一些小的时间抖动和闪烁。

6.结论

我们提出了一个通用系统，用于通过首先去除嘴唇运动然后进行编辑来进行基于音频的头部谈话视频编辑。正如演示的那样，我们的框架可以在不进行微调的情况下处理野外视频，并使用音频作为条件产生高质量的结果。此外，我们的系统有潜力为视频的下半脸生成情绪化的说话头像。我们将在未来探索支持更多的情感，并将源音频和上下文与情感联系起来。

道德考虑。由于我们的系统可以在野外编辑视频的谈话内容，我们还考虑了所提出方法的误用。我们将为制作的视频添加强大的视频和音频水印，并开发工具来识别可信度。另一方面，我们希望我们的方法也能对 DeepFake 检测方面的研究有所帮助。

致谢。

你可能感兴趣的:(音视频,人工智能)

探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
Reflection 70B——HyperWrite推出的大型语言模型新加坡内哥谈技术语言模型人工智能自然语言处理
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在AI技术飞速发展的过程中，我们已经见证了可以写作、编程，甚至创造艺术的模型问世。但有一
5条实操干货有效打造你的个人品牌长安行动派
这是ZerK的第46篇原创相信大家对个人品牌这个词已经不在陌生。尤其是在知识付费的年代，你的个人品牌，就是你的标签！在《深度工作》中说到，在未来有三种人会越来越贵第一种人:能与机器对话，操纵机器的人。人工智能时代的到来，机器毕竟部分取代人类。第二种人:IP，知识产权或者文学潜在财产就像有些网上课程一周卖出的钱和一个机构卖一年一样多。价值99元的课程，10万人购买，是很常见的。爱产出大概就是10万✖
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况 m0_57781768 python langchain 语言模型
深入探讨：如何在Python中通过LangChain技术精准追踪大型语言模型（LLM）的Token使用情况在现代的人工智能开发中，大型语言模型（LLM）已经成为了不可或缺的工具，无论是用于自然语言处理、对话生成，还是其他复杂的文本生成任务。然而，随着这些模型的广泛应用，开发者面临的一个重要挑战是如何有效地追踪和管理Token的使用情况，特别是在生产环境中，Token的使用直接影响着API调用的成本
LangChain集成指南:如何利用多样化的AI提供商 aehrutktrjk 人工智能 langchain python
LangChain集成指南:如何利用多样化的AI提供商引言在人工智能和机器学习领域,LangChain已成为一个强大而灵活的框架,允许开发者轻松集成各种AI服务提供商。本文将深入探讨LangChain的集成能力,介绍如何利用不同的AI提供商来增强你的应用程序,并提供实用的代码示例。LangChain集成概览LangChain支持多种AI提供商的集成,这些集成可以分为两类:独立包集成:这些提供商有独
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【物联网技术大作业】设计一个智能家居的应用场景 Dream_Chaser～期末复习智能家居物联网技术期末大作业
前言：本人的物联网技术的期末大作业，希望对你有帮助。目录大作业设计题（1）智能家居的概述。（2）介绍智能家居应用。要求至少5个方面的应用，包括每个应用所采用的设备，性能，功能。（3）画出智能家居应用图，并设计使用。大作业设计题设计一个智能家居的应用场景。要求：（1）智能家居的概述。答：智能家居，又称为智能住宅或家庭自动化，是指运用综合布线、网络通信、安全防范、自动控制及音视频等技术，将家居设施集成
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那