胖胖腐乳

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation (译文)

项目链接

https://yuanxunlu.github.io/projects/LiveSpeechPortraits/

1. 简介

会说话的头部动画，即合成目标人物的音频同步视频帧，对于交互式应用（如数字化身、视频会议、视觉效果、虚拟现实、视频配音和计算机游戏）非常有价值。随着深度学习的最新进展，人们在这个长期存在的问题上取得了巨大的进步。然而，实现逼真且富有表现力的会说话的头部动画仍然是一个开放的挑战。人类对任何面部伪影都极为敏感，因此对所需技术的要求很高。有几个因素促成了这一挑战。首先，尝试生成嘴唇同步和个性化的面部动力学面临双重困难，部分原因是从一维音频信号映射到高维人脸运动的挑战，但也由于野生音频和目标语音空间之间的域差异。这使得该系统无法预先服务于个人的谈话习惯。其次，头部和身体的运动是逼真动画的另一个关键组成部分，与音频没有密切关系。例如，当一个人说同样的话时，他可以摇头，也可以一动不动，这取决于许多因素——他的情绪、地点或历史姿势。第三，合成目标的可控照片级真实感渲染非常简单。如今，传统的渲染引擎仍远未达到预期效果，其结果一目了然就被认为是假的。神经渲染器在照片级真实感渲染方面表现出强大的能力，但如果预测的运动远远超出训练语料库的范围，则会导致性能下降[Kim等人，2018]。最后但并非最不重要的一点是，许多交互场景（如视频会议和数字化身）要求整个系统实时运行，这对系统效率提出了很高的要求，同时又不会损害性能。

在本文中，我们提出了一种称为实时语音肖像（LSP）的深度学习体系结构，以应对这些挑战并进一步走向实际应用。我们的系统生成个性化的说话人头部动画流，包括面部表情和由音频驱动的运动动力学（头部姿势和上身运动），并允许实时真实感渲染。

首先，我们采用了自监督表征学习的思想，它在学习语义或结构表征方面显示出强大的能力，并有利于各种下游任务，以提取与说话人无关的音频特征。为了在野生音频流上实现逼真和个性化的动画，我们进一步将野生特征投影到目标特征空间，并使用目标特征重建它们。这个过程可以看作是从源到目标的域自适应。随后，我们可以学习从重建的音频特征到面部动力学的映射。

另一个重要的组成部分，有助于现实的谈话-头部动画是头部和身体的运动。为了从音频中生成个性化和时间一致的头部姿势，我们假设当前头部姿势部分与音频信息相关，部分与历史姿势相关。我们提出了一种新的自回归概率模型来学习基于这两种条件的目标人的头部姿势分布。根据估计的分布对头部姿势进行采样，并根据采样的头部姿势进一步推断上半身运动。

为了合成照片级真实感渲染，我们采用了一个基于特征映射和可编辑图像的图像到图像的转换网络。我们将采样的刚性头部姿势应用于面部动力学，并将变换后的面部关键点和上身位置投影到图像平面，生成地标图像作为中间表示。虽然我们的系统由几个模块组成，但它仍然足够紧凑，可以以30 fps以上的速度实时运行。总之，我们提出以下贡献：

据我们所知，我们提出实时语音Por-traits（LSP）作为第一个具有实时真实感渲染的音频驱动的说话头动画系统。综合评估表明，我们的方法在定性和定量上都优于先前的方法。
一种新颖的音频特征提取模块，将我们的系统推广到野生音频信号。该模型的关键组成部分是流形投影，它利用目标语音特征重建深层语音表示。
精心设计的概率自回归结构，可根据音频信号和历史运动预测个性化的头部姿势分布。我们的系统还允许用户控制头部姿势生成。

2. 相关工作

从数学上讲，音频驱动的面部动画旨在从输入音频流生成一系列会说话的头部帧。在下文中，我们将回顾音频驱动的面部动画的前期工作，以及语音表征学习、头部姿势估计和面部重现的相关技术。

音频驱动的说话头动画。音频驱动的说话人头部动画是计算机图形学界一个历史悠久的跨模态研究课题。以前的方法根据它们是否旨在生成照片级真实感视频而采用两种不同的方法。在非真实照片的情况下，这些方法侧重于学习从输入波形到面部运动的映射，例如，3D顶点坐标，参考面部模型参数[Taylor等人2017]或索具参数[Zhou等人2018]。这些方法通常需要高质量的4D人脸捕捉数据，或通过艺术家干预操纵参数。在这里，我们将重点放在我们的方法所渴望的真实照片上。二十多年前，人们在这个领域进行了开创性的探索。Bregler等人[1997]建议重写视频，使用现有的视频片段创建一个新的人物对话视频。Brand[1999]提出用声音木偶从音轨生成完整的虚拟动画。这些技术大致可以分为基于视频的编辑方法和基于图像的生成方法。基于视频的编辑方法可以对目标视频进行编辑-通常合成与嘴相关的区域贴片并将其混合到目标帧中，同时保持其他区域不变[Ezzat et al.2002；Garrido et al.2015；Thies et al.2020]。最近，Thies等人[2020]提出将神经语音木偶作为语音木偶的升级。他们首先从音频序列中学习一个通用的3D人脸模型，然后通过学习特定于人的混合形状，在tar-get剪辑上对模型进行微调，在这种情况下，目标肖像的说话风格可以保留下来。最后通过神经渲染网络合成下表面。然而，这些方法有几个固有的局限性。首先，将信息长度限制为目标视频长度。为了生成更长的视频，需要进行启发式后处理以选择合适的候选帧。其次，头部姿势和上半身运动是无法控制的，因为这些动作是直接从目标视频复制的，这可能与音频轨迹冲突，并给实时应用带来障碍。值得注意的是，Suwajanakorn等人[2017]采用了重新计时计划来选择具有自然和同步头部运动的目标帧。最后但并非最不重要的一点是，这些方法依赖于成功的人脸跟踪，当人脸部分不可见或未被检测到时（例如，较低的人脸被手遮挡或在非常黑暗的环境中），这些方法往往会失败。跳过这些不好的帧会导致短暂不一致的结果。相比之下，我们的方法直接合成肖像。在不影响性能的情况下，可在训练前放下阻塞的车架。

基于图像的生成方法基于一个或多个裁剪的参考图像生成对话头部视频。这种方法避免了前面提到的缺点，但对于操作整个图像（包括面部细节、运动动力学和背景）的要求，使任务更具挑战性。随着深度学习的兴起，端到端培训【Chung等人，2017年；Wiles等人，2018年】正在成为制作视频的强大趋势。Chuang等人[2017]首次利用CNN模型，从静止图像和音频序列生成了有声人脸视频。后来，GANs经常被用来通过对抗性学习生成高保真的面部图像[Vougioukas等人，2018年、2019年；Zhou等人，2019年]。Chen等人[2019]和Zhou等人[2020]没有直接合成会说话的人脸图像，而是利用稀疏的人脸标志作为中间表示。landmark Dynamics首先通过音频到landmark模块从音频输入推导出来，然后作为图像到图像转换网络的一个条件来生成动画视频。这些方法共有的一个共同问题是，他们倾向于在训练语料库中学习平均面部动力学，而没有特定于人的谈话风格。请注意，Zhou等人[2020]从说话人嵌入向量中学习了说话人感知动力学，但仍然无法学习目标感知动力学，这可能会产生不可思议的结果。我们的方法专注于只使用一段短的目标视频（大约3分钟）捕捉特定于人的谈话动态。我们利用面部标志作为中间表示，并生成可控的头部姿势和上身运动，这使得动画视频更令人印象深刻和逼真。

语音表征学习。语音信号包含丰富的高级信息，包括内容、音色和韵律。以前的许多工作都要求在毫秒时间内准确地标注音素标签，并将其作为输入。这些标签通常被组合成一系列的标签用于编码邻域信息的双音或三音 [Fan et al. 2015]。然而，将波形转换为音素会导致信息压缩，同时容易出错的自动音素标记工具可能会降低性能。人们还发现了不同的方案，以使用手工制作的功能消除对音素的依赖[Suwajanakorn等人，2017]。最近，通过深度神经网络对这些语义和结构表示进行建模已显示出巨大的成功，并优于传统的手工特征[Devlin等人，2018；Peters等人，2018]。Thies等人[2020]利用DeepSpeech[Han-nun等人2014]网络提取语音特征。Zhou等人[2020]求助于语音转换社区[Qian等人2019]来分离语音内容和身份信息。类似地，我们的系统使用自监督学习方法[Chung and Glass 2020]来提取高级语音信息。此外，采用流形投影来提高泛化能力。

根据音频估计头部姿势。头部姿势作为真实感动画的重要组成部分，在有声头部视频中提供了丰富的信息。Greenwood等人[2018]采用双向LSTM模型从音频预测角色头部动画。Zhou等人[2020]预测说话人感知的头部运动动力学为3D面部标志性位移。他们在对抗机制中培训了转换器架构[Vaswani et al.2017]，以限制长时间依赖并产生自然的头部动态。最近，Chen等人[2020a]提出了一种3D感知生成网络，用于从3秒钟的视频剪辑中学习目标感知的头部运动。与以往大多数使用确定性模型的工作不同，我们使用基于历史头部姿势和语音表示的自回归概率模型来预测当前时间戳的分布参数。头部姿势从预测的概率模型中采样。此外，我们进一步从预测的头部姿势推断出上半身的运动，这表明动画质量有了很大的提高。

基于视频的面部重现。基于视频的面部重现是另一种与音频驱动动画相关的技术。Thies等人[2015]提出了第一个使用两个RGBD摄像机的基于模型的实时再现系统。Face2Face[Thies et al.2016]仅使用RGB摄像机扩展边界。此外，Liu等人[2015]将音频和视频信息结合起来作为输入，解决了人脸被遮挡或头部姿势极端时跟踪结果容易失败的问题。Fried等人[2019]提出了一种基于文本的说话人头部编辑方法，而viseme搜索速度较慢（三个单词5分钟）。Yao等人[2021]将一个视频的视频生成时间缩短到40秒。最近，GANs在可控高保真人脸合成方面取得了巨大成功[Karras et al.2019；Wang et al.2018a，b]。通过在无监督方案中预先定义或学习的地标探索很少的镜头或甚至一次镜头面部动画方法[Siarohin等人2019；Sun等人2020；Zakharov等人2019]。大多数方法依赖于以语义图像作为输入的图像到图像机制。Kim等人[2018]通过输入参考视频生成了包括头部、嘴巴和凝视的肖像视频。Kim等人[2019]训练了一名复现的GAN来合成保留风格的视觉配音。最近，Elgharib在al.[2020]使用位置条件转换将以自我为中心的视图视频转换为面向前方的视频。与以前的方法不同，我们的方法仅从语音生成照片级真实感说话人头部动画，并实时运行。

3. 方法

概述。在给定任意语音流的情况下，我们的实时语音特征方法会实时生成目标人物的真实照片级说话头部动画（图2）。我们的方法包括三个阶段：深度语音表示提取、音频到人脸预测和真实感人脸渲染。第一阶段提取输入音频的语音表示（第3.1节）。表示提取器学习高级语音表示，并在未标记的语音语料库上以自我监督的方式进行训练。然后，我们将表示投影到目标人的语音空间，以提高泛化能力。第二阶段预测全运动动力学。两个精心设计的神经网络分别从语音表征预测与嘴相关的运动（第3.2节）和头部姿势（第3.3节）。与嘴相关的运动表示为稀疏的3D地标，头部姿势表示为刚性旋转和平移。考虑到头部姿势与声音信息的相关性小于与嘴相关的动作，我们采用概率自回归模型来学习以声音信息和历史姿势为条件的姿势。从训练集中采集与音频几乎没有关联的其他面部成分（例如眼睛、眉毛、鼻子等）。然后，我们根据预测的头部姿势计算上半身的运动。最后阶段使用条件图像到图像转换网络，从先前的预测和候选图像集（第3.4节）合成照片级真实感视频帧。下面，我们将详细介绍每个模块。

图2。我们的现场演讲肖像方法概述。在给定任意音频流的情况下，我们的方法实时生成目标人物的个性化和照片级真实感对话动画。首先，使用流形投影提取和重构输入音频的深层语音表示。然后，根据重建的语音表示预测与嘴相关的运动、头部姿势和上身运动。然后，我们通过投影预测的运动和其他采样的面部组件来生成条件特征映射。最后，我们将条件特征映射和候选图像集发送到图像到图像转换网络，以合成照片级真实感对话肖像。视频奥巴马®巴拉克奥巴马基金会（公共领域）。

3.1深度语音特征提取

在我们的例子中，输入信息是语音信号，它起着至关重要的作用，因为它为整个系统提供动力。如第2部分所言，人们利用深度学习方法，通常在自我监督机制下进行训练，从表面特征学习高级非特定人语音表示。这些方法极大地提高了下游任务的最先进性能，例如自动语音识别、电话分类和说话人验证[Chorowski等人，2019年；Liu等人，2020年；Oord等人，2018年]。这些方法成功的原因之一是，与人类标记数据集的有限大小相比，可以自由利用大量未标记数据。

具体而言，我们使用自回归预测编码（APC）模型[Chung and Glass 2020]来提取结构性语音表达。APC模型根据历史信息预测未来的表面特征。在我们的例子中，我们选择80维对数Mel谱图作为语音表面特征。该模型是一个标准的3层单向选通循环单元（GRU）：
$\mathbf{h}_{l}=G R U^{(l)}\left(\mathbf{h}_{l-1}\right), \forall l \in[1, L]$
这里 $\mathbf{h}_{l} \in \mathbb{R}^{512}$ 是GRU中每个层的隐藏状态。最后一个GRU层中的隐藏状态是我们想要的深层语音表示。我们在训练过程中添加一个线性层来映射输出，以预测未来的对数Mel谱图，并且在测试过程中删除线性层。

3.1.1 流形投影

不同的人拥有不同的说话风格，这被认为是个性化的风格。例如，May发音表现出较大的嘴唇运动，始终是“O”型，Ford 发音表现出较小的嘴唇运动，如耳语，Nadella 发音表现出上下嘴唇的粘连，如口齿不清。当输入语音表示远离目标语音特征空间时（例如，用男人的声音、外国语言甚至歌曲为女人制作动画），直接应用深度语音表示可能会导致较差的结果。为了提高泛化能力，我们在提取语音表示后进行流形投影。

流形投影操作的灵感来源于最近从草图中合成人脸的成功【Chen等人，2020c】，可以推广到远离人脸的草图。我们在语音表示流形上应用局部线性嵌入（LLE）假设：每个数据点及其邻域在高维流形上都是局部线性的[Roweis和Saul 2000]。

图 3. 流形投影。左：对于每个原始深度特征，我们将其投影到目标特征空间。右图：放大原始特征（黄色）， =5 最近邻（棕色）和重建特征（红色）。

给定一个提取的语音表示 $\mathbf{h} \in \mathbb{R}^{512}$ ，我们计算LLE重构表示 $\hat{\mathbf{h}} \in \mathbb{R}^{512}$ ，如图3所示，我们在目标语音表示数据库 $\mathcal{D} \in \mathbb{R}^{N_{s} \times 512}$ 中找到距离 $\mathbf{h}$ 最近的 $K$ 个点(通过计算欧几里德距离)。 $N_{s}$ 是训练的帧数。然后，我们寻求 $K$ 个最近邻居的线性组合来最好地重建 $\mathbf{h}$ ，这相当于通过解决以下最小化问题，基于其邻居计算 $\mathbf{h}$ 的重心坐标：

$\min \left\|\mathbf{h}-\sum_{k=1}^{K} w_{k} \cdot \mathbf{f}_{k}\right\|_{2}^{2}, \quad \text { s.t. } \sum_{k=1}^{K} w_{k}=1$

其中 $w_{k}$ 是-最近邻 $\mathbf{f}_{k}$ 的重心权重，可以通过求解最小二乘问题来计算。在我们的实验中根据经验选择为 10。最后，我们得到投影语音表示 $\hat{\mathbf{h}}$ 。
$\hat{\mathbf{h}}=\sum_{k=1}^{K} w_{k} \cdot \mathbf{f}_{k}$

随后，将 $\hat{\mathbf{h}}$ 作为输入深度语音表示发送到第 3.2 节和第 3.3 节中的运动预测器。我们的实验结果表明流形投影有助于提高我们的系统泛化能力。由于复杂性，尚未考虑非线性投影。

3.2 音频到口腔相关运动

在过去几年中，人们广泛研究了从音频中预测与嘴巴相关的运动。人们使用深度学习架构来学习从音频特征到中间表示的映射，例如与嘴唇相关的地标 [Greenwood et al. 2018 年；周等人。 2020]，参数模型的参数 [Chen et al. 2019; Suwajanakorn 等。 2017;泰勒等人。 2017]，3D 顶点 [Cudeiro 等人。 2019;卡拉斯等人。 2017]，或面部混合形状 [Thies 等人。 2020 年；周等人。 2018]。在我们的例子中，我们使用 3D 位移 $\Delta \mathbf{v}_{m} \in \mathbb{R}^{25 \times 3}$ 相对于目标人在对象坐标中的平均位置作为我们的中间表示。

为了对序列依赖性进行建模，我们使用长短期记忆 (LSTM) 模型来学习从语音表示到与嘴巴相关的运动的映射。类似于 [Suwajanakorn 等人。 2017]，我们添加了 帧延迟，使模型可以在短期内访问，从而显着提高质量。我们稍后将 LSTM 网络的输出提供给多层感知 (MLP)，并最终预测 3D 位移 $\Delta \mathbf{v}_{m}$ 。综上所述，我们的口腔相关预测模块的工作原理如下：
$\begin{aligned} \mathbf{m}_{0}, \mathbf{m}_{1}, \ldots, \mathbf{m}_{t} &=\operatorname{LSTM}\left(\hat{\mathbf{h}}_{0}, \hat{\mathbf{h}}_{1}, \ldots, \hat{\mathbf{h}}_{t+d}\right) \\ \Delta \mathbf{v}_{m, t} &=M L P\left(\mathbf{m}_{t}\right) \end{aligned}$
其中时间延迟设置为 18 帧，相当于我们实验中的 300 毫秒延迟（60 FPS）。 LSTM 堆叠成三层，每层有一个大小为 256 的隐藏状态。 MLP 解码器网络有三层，隐藏状态大小分别为 256、512 和 75。

3.3 概率头部和上身运动合成

头部姿势和上半身运动是另两个有助于生动对话的头部动画的组成部分。例如，人们在谈话时自然地摆动头部和移动身体，旨在向观众表达情感和表达态度。我们首先描述估计头部姿势和上半身运动的方法。

基于音频的头部姿势估计是非常重要的，因为它们之间几乎没有关系。考虑到固有的困难，即从音频到头部姿势的一对多映射（一个人可以在任意姿势中说同一个句子），我们将两个假设作为先验知识。

假设1。头部姿势部分与声音信息有关，如表情和语调。例如，人们在表达同意时倾向于点头，在用上升音调说话时倾向于抬头，反之亦然。

假设2。当前头部姿势部分取决于历史头部姿势。例如，如果人们以前转了一个大角度，他们很可能会回头。

这两个假设简化了问题并激发了我们的架构设计。为了满足这些要求，建议的网络系统应具备将历史头部姿势和当前音频信息视为条件的能力。此外，我们不应将其视为回归问题并使用欧几里德距离损失对其进行训练[Zhou等人，2020]，而应将该映射建模为概率分布。最近，概率模型成功地应用于运动合成[Henter et al.2020]，其性能优于确定性模型。头部运动的联合概率可描述如下：

$p(\mathbf{x} \mid \hat{\mathbf{h}})=\prod_{t=1}^{T} p\left(x_{t} \mid x_{1}, x_{2}, \ldots, x_{t-1}, \hat{\mathbf{h}}_{t}\right)$

这里 $x$ 是头部运动， $\hat{\mathbf{h}}$ 是言语表征。

图 4. 我们的概率头部姿势估计网络的图示。该图展示了一个示例架构，它由一个具有三层的残差块组成。

我们使用的概率模型是多维高斯分布。该网络体系结构的灵感来源于最近在条件概率生成建模方面取得的成功[Oord et al. 2016a,b]。概率模型的详细设计如图 4 所示。该模型是两个残差块的堆栈，每个块有七层。考虑到产生自然头部运动所需的长时间依赖（从左到右摆动头部可能持续几秒钟），这些残差块使用扩张卷积层来捕获依赖关系，而不是参数少得多的普通卷积。在我们的架构中，每一层的膨胀都加倍了七次，然后重复了两次：1、2、4、8、16、32、64、1、2、4、8、16、32、64。结果，我们模型的历史感受野大小是 255 帧，在我们的实验中等于 4.25 秒。每一层的输出被一个后处理网络（一个由 2 个 reluconv 层组成的堆栈）相加和处理，以生成当前的分布。特别是，该模型输出估计高斯分布的平均值和标准差 。然后我们在分布中采样以获得最终的刚性头部姿势 $\in \mathbb{R}^{6}$ ,，由3D旋转 $\in \mathbb{R}^{3}$ 和平移 $\in \mathbb{T}^{3}$ 组成。我们还尝试了高斯混合模型，但没有发现明显的改进。采样后，我们将当前姿势编码为下一个时间步的输入姿势信息，形成自回归机制。总之，头部姿态估计可以说明如下：
$\begin{aligned} \mathbf{P}_{\text {para, } t} &=\Phi\left(\mathbf{P}_{t-F}, \ldots, \mathbf{P}_{t-1}, \hat{\mathbf{h}}_{t}\right) \\ \mathbf{P}_{t} &=\text { Sample }\left(\mathbf{P}_{\text {para }, t}\right) \end{aligned}$

上身运动。对于上身运动估计，一种理想的方法是建立身体模型并估计参数[Mehta et al. 2020]。为了避免使算法过于复杂（上半身总是仅位于图像的底部），我们将上半身指定为广告牌 [Cao et al. 2016] 由手动定义的几个肩部地标形成。广告牌的初始深度被设置为完整训练序列中地标的平均深度，并且所有的都相同。在大多数情况下，我们用预测的头部运动 $P$ 中的 50% 平移部分 $T$ 来翻译广告牌模型作为结果。

3.4 逼真图像合成

我们方法的最后一个阶段是根据先前的预测生成逼真的面部渲染，如图 2 所示。我们的渲染网络受到合成逼真和可控面部视频的最新进展的启发 [Elgharib 等人。 2020 年；伊索拉等人。 2017;金等人。 2018 年；蒂斯等人。 2019]。我们使用条件图像到图像的翻译网络作为我们的主干以及对抗性训练。该网络将条件特征图和 = 4 个目标人物的候选图像按通道串联起来，以生成逼真的渲染效果。

图 5. 我们的条件特征图的一个例子。不同的颜色用于说明不同的语义子集。例如，绿色表示眼睛和眉毛，蓝色表示上身线条。在实际实验中，条件特征图是单色的，如图2。

条件特征图。为了提供面部和上半身的线索，我们从上述预测中为每一帧绘制条件特征图。条件图的示例如图 5 所示。特征图由面部部分和上半身部分组成。用颜色绘制语义区域，甚至更远的一个区域，一个通道会带来更丰富的信息和更多的绘制时间。我们没有发现这两个替代方案有明显的改进。请注意，我们预测的稀疏面部标志和上身广告牌都位于对象坐标中。因此，我们需要通过预先计算的相机内在参数将这些 3D 位置投影到 2D 图像平面。我们使用的相机模型是针孔相机模型， $K=\left[\begin{array}{llll}f & 0 & c_{x} ; 0 & f & c_{y} ; 0 & 0 & 1\end{array}\right]$ ，其中 $f$ 是焦距， $\left(c_{x}, c_{y}\right)$ 是主点。连续的 2D 投影组件以预先定义的语义序列进行线连接，从而产生大小为 $\times 512 \times 512$ 的条件特征图。

图 6. 我们的音频驱动的说话头动画结果的图库。给定任意音频流，我们的方法首先生成个性化的面部动态、头部姿势和上半身运动，然后根据这些预测合成逼真的渲染。有关完整序列，请参阅补充视频。视频（左上角）奥巴马 ©Barack Obama Foundation（公共领域）。 Video May ©英国政府（开放政府许可证）。视频 Nadella ©IEEE 计算机协会（公共领域）。视频特朗普©白宫（公共领域）。视频（右下角）奥巴马 ©White House（公共领域）。

候选图像集。除了条件特征图外，我们还输入了目标人物的候选图像集，以提供详细的场景和纹理线索。我们发现，考虑到训练集中不断变化的相机运动，添加这样一个候选集有助于网络生成一致的背景，并减轻网络合成细微细节（如牙齿和毛孔）的压力。这些图像是自动选择的。对于前两个，我们选择第 100 个最小/最大嘴巴区域。对于其余部分，我们按均匀间隔对 x 轴和 y 轴旋转进行采样，并从间隔中选择最近的样本。因此，最终连接后的输入图像的大小变为 $13 \times 4) \times 512 \times 512$ 。该网络是一个类似 UNet 的 8 层 [Esser 等人。 2018 年；韩等人。 2019; Ronneberger 等人。 2015] 在每个分辨率层中具有跳跃连接的卷积神经网络。每层的分辨率为 $\left(256^{2}, 128^{2}, 64^{2}, 32^{2}, 16^{2}, 8^{2}, 4^{2}, 2^{2}\right)$ ，对应的特征通道数为（64, 128, 256, 512, 512, 512, 512, 512） .每个编码器层由一个卷积（步幅 2）和一个残差块组成。对称解码器层几乎相同，除了第一个卷积被最近的上采样操作替换，比例因子为 2。我们的真实感渲染示例如图 6 所示。

4 实施细节

在本节中，我们将描述与我们的方法实现相关的方面：数据集获取和预处理（第 4.1 节）、损失函数（第 4.2 节）、训练设置（第 4.3 节）和实时动画设置（第 4.4 节）

4.1 数据集获取与预处理

我们将我们的方法应用于 7 个不同主题的 8 个不同目标序列进行训练和测试。这些序列跨越 3-5 分钟的范围。所有视频均以每秒 60 帧（FPS）的速度提取，并且同步的音频波以 16 Hz 频率采样。我们首先裁剪视频以保持人脸居中，然后调整为 512×512。所有输入图像和输出图像共享相同的分辨率。我们将视频分成 80% / 20% 用于训练和验证。有关详细信息，请参阅附录 A。

我们使用现成的工具检测所有视频的 73 个预定义的面部标志。为了提供 3D 嘴形和头部姿势的真实情况，我们采用了一种基于优化的 3D 面部跟踪算法，类似于 [Shi et al. 2014;蒂斯等人。 2016]。对于相机校准，我们使用二分搜索来计算焦距 $f$ ，如 [Cao 等人。 2013]。主点 $\left(c_{x}, c_{y}\right)$ 被设置为图像的中心。请注意，我们对原始图像进行相机校准和 3D 面部跟踪，并根据裁剪和调整大小参数计算变换矩阵。对于每个序列的第一帧手动选择一次上身运动特征点，并使用 LK 光流跟踪其余帧 [Bouguet 等人。 2001] 和 OpenCV 实现 [Bradski 2000]。有关单目 3D 人脸跟踪的更多详细信息，我们建议读者参考摘要论文 [Zollhöfer 等人。 2018]。

为了训练 APC 语音表示提取器，我们使用了 Common Voice 数据集的普通话中文部分 [Ardila et al. 2020] 提供未标记的狂野话语。具体来说，该子集包含 889 个不同口音的说话者。总共有大约 26 小时的未标记话语。我们使用 80 维对数梅尔谱图作为表面特征。 log mel 谱图是使用 1/60 秒帧长、1/120 秒帧移和 512 点短时傅立叶变换 (STFT) 计算的。尽管我们的 APC 模型是用普通话训练的，但我们发现我们的系统在其他语言中仍然运行良好，因为该模型学习了高级和语义信息。流形投影也提高了泛化能力。

4.2 损失函数

4.2.1 深度语音表征提取

APC 模型的训练是完全自我监督的，通过预测前面的表面特征帧。给定一系列对数梅尔谱图 $\left(x_{1}, x_{2}, \ldots, x_{T}\right)$ ，APC 模型在时间步长 $t$ 处理每个元素 $x_{t}$ 并输出预测 $y_{t}$ ，生成预测序列 $\left(y_{1}, y_{2}, \ldots, y_{T}\right)$ 。我们通过最小化输入序列和预测之间的 L1 损失来优化模型，如下所示：
$\sum_{i=1}^{T-n}\left|x_{i+n}-y_{i}\right|$
其中 $n = 3$ 遵循 [Chung and Glass 2020] 中的设置。

4.2.2 音频到口腔相关运动

为了学习从音频到嘴巴相关运动的映射，我们最小化了真实嘴巴位移和预测位移之间的 $L 2$ 距离。具体来说，损失可以写为：
$\sum_{t=1}^{T} \sum_{i=1}^{N}\left\|\Delta \mathbf{v}_{m, t}-\Delta \hat{\mathbf{v}}_{m, t}\right\|_{2}^{2}$
其中 $T = 240$ 表示每次迭代时发送到模型的连续帧数。 $N = 25$ 是我们实验中预先定义的稀疏嘴相关 3D 点的数量。

4.2.3 概率头部运动合成

除了学习从音频到嘴巴相关运动的映射之外，我们还旨在估计训练期间目标的头部姿势。上半身运动可以从 3.3 节中提到的头部姿势推断出来。具体来说，我们采用自回归概率模型来模拟头部姿势分布。我们通过最小化姿势分布的负对数似然来训练模型。给定一系列历史头部姿势 $\left(x_{t-F}, \ldots, x_{t}\right)$ 和语音表示 $\mathbf{h}_{t}$ ，概率损失为：
$-\ln \left(\mathcal{N}\left(\mathbf{x}_{t}, \mathbf{h}_{t} \mid \hat{\mu}_{n}, \hat{\sigma}_{n}\right)\right)$

其中 $\mathbf{x}_{t}, \mathbf{h}_{t}$ 是时间 $t$ 的输入头部姿势和语音表示。这个损失项迫使模型输出高斯分布的平均值 $\hat{\mu}_{n}$ 和标准差 $\hat{\sigma}_{n}$ 。为了增加数值稳定性，我们直接输出负对数 sigma 而不是 sigma。姿态序列中的每个元素 $\mathbf{x}_{t} \in \mathbb{R}^{12}$ 由当前姿态 $\mathbf{p}_{t} \in \mathbb{R}^{6}$ 和线速度项 $\Delta \mathbf{p}_{t} \in \mathbb{R}^{6}$ 组成。尽管我们在分布中采样后仅使用旋转和平移的前六个维度，但我们发现添加这样的速度项可以隐式地强制模型关注运动速度，从而导致更平滑的结果。

4.2.4 逼真图像合成

最后，我们训练神经渲染器来合成逼真的头部说话图像。训练过程遵循对抗训练机制 [Goodfellow et al. 2014]。我们采用多尺度 PatchGAN 架构 [Isola 等人。 2017;王等人。 2018b] 作为判别器 D 的骨干。图像到图像的翻译网络 G 被训练生成“真实”图像来欺骗判别器 D，而判别器 D 被训练来区分生成的图像和真实图像。具体来说，我们采用 LSGAN 损失 [Mao 等人。 2017] 作为优化判别器 D 的对抗性损失：
$\mathcal{L}_{G A N}(\mathbf{D})=(\hat{r}-1)^{2}+r^{2}$

其中 $\hat{r}, r$ 分别是输入真实图像 $\hat{y}$ 和生成的渲染 $y$ 时的判别器分类输出。我们还使用了颜色损失、感知损失 [Johnson et al. 2016] 和特征匹配损失 [Wang et al. 2018b]：
$\mathcal{L}_{G}=\mathcal{L}_{G A N}(\mathbf{G})+\lambda_{C} \mathcal{L}_{C}+\lambda_{P} \mathcal{L}_{P}+\lambda_{F M} \mathcal{L}_{F M}$

其中 $\mathcal{L}_{G A N}(\mathbf{G})=(r-1)^{2}$ 是对抗性损失， $\mathcal{L}_{C}$ 是颜色损失， $\mathcal{L}_{P}$ 是感知损失， $\mathcal{L}_{FM}$ 是特征匹配损失。在我们所有的实验中，每个损失的权重 $\lambda_{C}, \lambda_{P}, \lambda_{F M}$ 都根据经验设置为 (100,10,1)。颜色损失是 $L 1$ 每像素损失，以最小化生成图像 $y$ 和真实图像 $\hat$ 的差异： $\mathcal{L}_{C}=\|y-\hat{y}\|_{1}$ 。我们在嘴巴上尝试了更高的权重 (x10)，是的，嘴巴相关的错误减少了，但全图像错误增加了。考虑到全图像生成任务，我们选择相等的权重。对于感知损失，我们采用 VGG19 网络 [Simonyan and Zisserman 2014] 从 $\hat$ 和 $y$ 中提取感知特征，并最小化它们的 $L 1$ 距离：
$\mathcal{L}_{P}=\sum_{i \in \mathcal{S}}\left\|\phi^{(i)}(y)-\phi^{(i)}(\hat{y})\right\|_{1}$

这里 $\mathcal{S}=\{1,6,11,20,29\}$ 表示我们使用的层， $\phi^{(i)}$ 表示第 $i$ 层. 最后，为了提高训练速度和稳定性，我们采用特征匹配损失：
$\mathcal{L}_{F M}=\sum_{i=1}^{L}\|r-\hat{r}\|_{1}$
其中是判别器 $D$ 中的空间层数。基于 $L 1$ 的特征匹配损失旨在匹配判别器从 $\hat$ 和 $y$ 提取的特征的统计数据。

4.3 训练设置和参数

我们所有的模型都是在 PyTorch (Python) 上训练的 [Paszke et al. 2019] 使用 Adam 优化器和超参数 $\left(\beta_{1}, \beta_{2}\right)=(0.9,0.999)$ 。在所有实验中，学习率设置为 $10^{-4}$ 衰减至 $10^{-5}$ 。 APC模型包含4.064参数，嘴相关位置预测器包含3.064参数，头部姿态估计器包含4.267参数，渲染器包含76.204参数。我们在 Nvidia 1080Ti GPU 上训练前三个模型，总共需要 $(11, 0.5, 5)$ 小时 $(200, 200, 200)$ epochs，批大小分别为 32。逼真的图像渲染器在 4 个 Nvidia 1080Ti GPU 上进行了平均 22 小时的训练，训练时间为 60 个时期，批次大小为 8。在测试期间，我们选择验证损失最小的所有模型。

4.4 实时动画

我们在配备 Intel Core i7-9700K CPU（32 GB RAM）和 NVIDIA GeForce RTX 2080（8 GB RAM）的台式机上使用 C++ 实现和测试我们的实时动画系统。深度语音表示提取模块进行推理需要大约 2.9 毫秒（APC 模型前向传递需要 1.4 毫秒，流形投影需要 1.5 毫秒）。通过音频表示学习面部动态 3 层 LSTM 和 MLP 网络大约需要 2.5 毫秒。此外，Audio2Mouth 模块导致获取 18 帧未来音频信息的延迟约为 300 毫秒。然后我们使用 Tensorrt 来加速最后两个模型。具体来说，头部姿势估计模型需要 4.4 毫秒，而真实感渲染器在加速后需要 20.1 毫秒。 CPU 和 GPU 之间的内存复制时间已经包含在这里。因此，整个系统以超过 30 FPS 的速度进行推理大约需要 27.4 毫秒，延迟为 300 毫秒。

讨论。在这里，我们与 Zhou 等人的相关工作讨论了运行时间。 [2020] 和 Thies 等人。 [2020]。我们强调，考虑到这些论文没有展示实际的现场演示，我们的系统是第一个实现逼真的音频驱动说话头动画的端到端实时系统，并进一步走向实际应用。此外，周等人。 [2020] 不是为实时流媒体生成而设计的。自注意力网络 [Vaswani et al. 2017] 在扬声器感知动画中作为先前地标预测的后加权组合，不适用于视频会议等需要低延迟的实时应用程序。蒂斯等人。【2020】会遇到更多困难。他们的方法受限于目标视频长度，因此需要足够长且无遮挡的目标视频，这很难获取。为了生成更长的帧，需要额外的启发式调度来选择合适的候选帧。此外，由于缺乏对头部运动的控制，会出现姿势音频不一致（第 2 节）。这些因素导致现场实施的障碍。

5. 结果

我们的现场演讲肖像方法实时从音频输入生成个性化和照片逼真的谈话头部动画。我们建议读者观看补充视频。

在下文中，我们展示了我们的方法的结果，定性和定量地评估了我们方法的设计，与最先进的技术进行了比较，并展示了用户研究的结果。我们进一步展示了几种应用的潜力，例如，配音、视频会议和虚拟化身。

5.1 定性评价

略

5.2 定量评价

略

5.3 与最先进技术的比较

略

5.4 用户研究

略

5.5 应用

我们的方法从音频流中实时合成逼真的头部谈话动画，因此具有广泛的应用，例如，配音、视频会议和虚拟化身。我们向读者推荐我们的补充视频。图 16 展示了潜在的应用。在图的顶部，我们展示了目标人物的音频驱动配音结果。与基于视频的配音方法相比 [Kim 等人。 2019]，我们的方法避免了生成目标人物令人难以置信的面部动态，因为我们对个人特征进行了建模。

视频会议是另一个应用（见图 16 (b)）。在人们无法传递视觉信号的场景中，例如他们在户外或带宽有限，我们的方法可以实时生成仅由音频驱动的高保真视频帧。

我们最终在虚拟主播、助手等虚拟化身中展示了我们的潜力。我们的补充视频展示了虚拟化身的实时演示，例如，特蕾莎·梅的肖像被动画化，以通过演员的声音演唱歌曲。图 16 © 显示了由文本到语音 (TTS) 系统驱动的结果。补充视频还包括与 Zhou 等人的比较。 [2020] 和 Thies 等人。 [2020]。我们的方法生成更逼真的帧和更准确的唇形同步。

6. 结论

我们提出了一种深度学习方法，用于实时生成目标人物的逼真的头部说话动画。我们的方法可以处理训练期间看不到的新音频剪辑，并且仍然可以合成个性化的视频帧。整个系统只需要在几分钟长的视频上进行训练。我们的管道包含三个阶段：深度音频特征提取、面部动态和运动生成以及逼真的图像合成。第一阶段包括对深度音频特征的多方面投影，这有助于泛化到狂野的音频。在第二阶段，生成面部动态、头部姿势和上半身运动。训练一个自回归概率头部姿势估计网络来学习目标演员的姿势分布。该网络导致个性化的头部姿势生成，并避免了后续神经渲染器的潜在性能下降。最后，我们从这些预测中生成中间特征图，并将它们与候选图像集一起发送到图像到图像转换网络以合成视频帧。彻底的实验和用户研究表明，我们的方法在定性和定量上都优于最先进的技术。我们的方法可以应用于很多场景，尤其是需要实时运行的场景，比如配音、视频会议和虚拟化身。我们希望这项工作可以为未来的研究在该领域开辟一条新的途径。

局限性和未来的工作。虽然我们已经在各种场景中展示了我们方法的令人印象深刻的结果，但我们的方法仍然存在一些限制。我们的实时系统并不总是能很好地捕捉爆破音和鼻辅音，例如 /p/b/m/。背后的原因是多种多样的。首先，/p/b/m/ 通常声音很小，可能会被前端作为环境噪音忽略。其次，我们的直播系统以超过 30 FPS 的速度运行，它可能会错过这些短促的声音。它也无法以非常快的速度捕捉演讲，就像吵架一样。我们的离线结果（60FPS）更好，这在一定程度上验证了我们的假设。应用模型剪枝是减少参数和提高运行速度的有前途的解决方案。此外，我们使用的频谱构建往往会遗漏那些短音素，这可以通过使用纯深度特征来解决，例如 wav2vec [Schneider et al. 2019]。我们使用的面部跟踪算法不是最先进的，我们相信更好的重建会导致更好的唇形同步结果。

与大多数基于学习的方法类似，生成的视频的风格仅限于训练语料库。我们的方法通过流形投影保留了训练序列（3-5 分钟）中的谈话风格，流形投影是一种用于查找最相似样本的域转移方法。这种机制在一定程度上缓解了这个问题。我们认为一个完整的解决方案是应用一个完美的音频解缠算法，如 [Qian et al. 2020] 拆分每个组件，即内容、音高、音色和节奏，并找到这些组件的最佳映射。

当模型在中性风格的视频上训练时，情感音频可能会产生不满意的结果。我们的方法不能直接控制生成视频的情绪。最近的工作 [Ji et al. 2021] 在情感数据集上训练时显示出有希望的情感操纵结果。将这样的进展应用于我们的系统会很有趣。

虽然我们成功地处理了人们摇头时的阴影和灯光反射，但我们仍然无法明确控制这些参数。重新照明技术 [Sun et al. 2019] 可以直接应用于我们的渲染结果来控制环境照明。手势是人们表达表情的另一个重要组成部分。我们期待未来在音频驱动的手势生成方面的工作。

7. 道德考虑

略

你可能感兴趣的:(深度学习,人工智能,cv)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL