Yang SiCheng

【20220505】文献翻译9：从视频中学习语音驱动的3D对话手势

Learning Speech-driven 3D Conversational Gestures from Video

摘要
1 简介
2 相关工作
3 数据集创建
- 3.1 从视频中创建3D注释
- 3.2 音频特征预处理
4 方法
- 4.1 网络结构
- 4.2 训练的细节
5 结果
- 5.1 Baseline比较
- 5.2 用户对手势合成的研究评估
- 5.3 面部表情评估
6 讨论
7 结论
附录
- A 关于In-The-Wild视频的3D说明
- - A.1 注释质量和后处理
  - A.2 二维到三维移位vs.图像到身体的姿势
- B 网络结构
- C 对鉴别器的进一步分析

摘要

我们提出了第一个从语音输入中自动联合合成虚拟人物的同步三维对话身体和手势，以及三维面部和头部动画的方法。我们的算法采用了一个CNN架构，该架构克服了(leverages)面部表情和手势之间的内在关联性。对话性身体手势的合成是一个多模式的问题，因为许多类似的手势可以合理地(plausibly)伴随着相同的输入语音。为了在这种情况下合成合理的身体手势，我们训练了一个基于生成对抗网络（GAN）的模型，该模型在与输入的音频特征配对时测量生成的三维身体运动序列的合理性。我们将以新的方式创建一个巨大的语料库，其中包括超过33小时的来自说话人的在逃视频的身体、手和脸部的注释。为此，我们将最先进的单眼(monocular)方法用于三维身体和手的姿势估计，以及密集的三维脸部表现捕捉到的视频语料库。通过这种方式，我们可以比以前的算法在数量级上训练更多的数据，这些算法诉诸于复杂的演播室运动捕捉解决方案，从而训练出更有表现力的合成算法。我们的实验和用户研究表明，我们的语音合成的全三维角色动画具有最先进的质量

Fig. 1

1 简介

虚拟人物是许多计算机图形应用中的一个重要组成部分，如游戏或共享虚拟环境。传统上，他们的生成需要结合复杂的动作捕捉记录和动画专家的繁琐工作来生成合理的外观和动作。特别的挑战包括会说话的化身的对话身体姿态的动画。
以及伴随着音频传达说话人的情感和举止(mannerisms)的面部表情。传统上，这两种动画都是通过手动指定的关键帧动画来实现的。直接从语音中制作面部表情和身体姿态动画的自动化工具将大大减轻所需的努力，并由非专业人士来创作更高质量的人物动画。进一步说，这种工具将使用户能够驱动实时体现自己的对话式虚拟化身，在共享的虚拟空间里，用与语音相协调的面部表情和身体姿态为他们制作动画。在心理语言学的研究中，已经表明用户界面上的化身具有可信的面部表情、身体姿态和语言，被认为是更可信和值得信赖的[55]。也有研究表明，非语言行为对于传递信息非常重要[17]，它能让人看到说话者的内部状态，而且语言和身体姿态都是紧密相关的，是由同一个内部过程产生的[35, 23] 。

之前关于语音驱动的虚拟人物的工作仅限于通过基于启发式规则[33]或基于学习[12, 29, 28]的方法来生成共同语言的身体姿态，或者生成与语音相协调的面部表情[22]和头部动作[45]。许多基于学习的方法使用在研究中捕获的运动和手势训练数据，使用复杂的运动捕捉系统[27,29,28,51,12,13,2]。这样一来，就很难记录大量的数据，这些数据反映了不同受试者的手势变化，或者只有在长期观察中才能发现的受试者特有的特异性。

我们提出了第一个联合生成手臂、躯干和手的同步三维姿态的方法，以及一个简单但富有表现力的三维脸部和头部动作的方法，用于从语言中生成一个动画人物。它基于以下的贡献：

(1)我们提供了一种新的方法，从超过33小时的野外谈话视频中捕捉带注释的三维训练数据，这些数据之前被用于学习纯粹的二维建模模型，而没有面部表情合成[16]。为了创建ground truth，我们在这些视频上应用了单眼野外三维身体姿势重建[36]、三维手姿势重建[58]和单眼密集三维脸部重建[15]。这些注释将被提供。
(2)我们引入了一个新的CNN架构，它有一个用于面部表情、身体和手势的共同编码器，学习它们之间的内在关联，并有三个解码器头来共同生成面部、身体和手的逼真运动序列。除了面部表情和头部姿势与音频相协调外，它还能合成可信的对话手势，如人类用来强调口语的节拍手势，以及反映情绪和个人对话风格的手势。请注意，像以前的工作一样，我们的目标不是生成与语义有关的手势，或者像手语那样携带特定的语言含义。
(3) 身体手势的合成是一个多模式的问题；几个手势可以伴随着同一个话语。为了防止在训练中收敛到平均姿态，并提高表达性手势的合成，Ginosar等人[16]的先前2D工作使用了对抗性训练[18]。我们对这项工作进行了改进，不仅设计了一个可以衡量合成的身体和手势是否自然的判别器，而且还设计了在修复地面真实音频特征时合成的手势的可信度。我们通过广泛的用户研究来评估我们的方法，参与者认为我们的结果比基线方法更自然、更贴切。

2 相关工作

之前的工作主要是研究从音频输入中合成身体手势和面部动画的问题。问题设置不同，因为对话手势合成是一个多模式的设置，而不是语音驱动的脸部动画，后者的视元到音元的映射更为独特。在这篇论文中，我们研究了它们的组合。

语音驱动的身体手势和头部动作 现有技术可分为基于规则和数据驱动的方法。Cassell等人[6]和Cassell[5]的开创性工作表明，通过使用一套手动定义的规则，虚拟人物的自动身体手势和面部表情的生成可以与音频同步。其他工作将语言学分析[7]纳入一个可扩展的基于规则的框架。Marsella等人[33]开发了一个基于规则的系统，通过分析文本输入和音频的内容来生成身体姿态（和面部表情）。然而，这类方法严重依赖对语言特定规则的研究，不能轻易处理非音素的声音

为了克服这些问题，不依赖语言领域的专家知识的数据驱动方法已经引起了越来越多的关注。Neff等人[37]提出了一种方法，利用人工注释的视频语料，在给出口语文本和表演者的手势特征的情况下，创建一个针对个人的手势脚本。然后，该手势脚本被用来为一个虚拟头像制作动画。Levine等人[29]使用复杂的动作捕捉设置来捕捉45分钟的训练数据，并训练了一个隐马尔可夫模型来根据实时的语音语调选择最有可能的身体姿态片段。后来， Levine等人[28]认为语气词(prosody)并没有携带足够的信息来确定确切的手势形式。相反，语音通常是对肢体手势特征的编码，如速度和空间范围。基于这一假设，他们首先使用隐性条件随机场（CRF）的变体将听觉信号映射到潜在的运动学特征空间。然后，通过强化学习的方法，用学到的模型来选择一个手势序列。同样，Mariooryad和Busso[32]使用动态贝叶斯网络（DBN）的组合来合成语音中的头部姿势和眉毛运动。Sadoughi等人[44]通过将话语功能建模为DBN的额外约束来扩展这种方法。Sadoughi和Busso[43]也使用贝叶斯网络，通过结合语音信号、语义话语功能和原型动作来生成身体姿态。Bozkurt等人[3]使用了隐性半马可夫模型（Hidden Semi-Markov Model），该模型可以同步地学习语音到手势的关系。Sadoughi等人[45]使用一种基于学习的方法，可以利用文本到语音（TOS）系统来合成头部运动，并提出了一种可以解决训练期间真实和合成语音不匹配的方法。Chiu和Marsella[9]训练一个条件限制波尔兹曼机（CRBM）来直接从语音中合成身体姿势的序列。Chiu和Marsella后来提出使用高斯过程潜变量模型（GPLVM）来学习低维嵌入，从给定的语音输入中选择最可能的身体姿态[10]。

近年来，深度学习在从大数据中自动学习鉴别性特征方面显示了其优越性。双向LSTM被Takeuchi等人[50]、Hasegawa等人[21]以及Ferstl和McDonnell[12]用来从语音中合成身体姿态。同样地，Haag和Shimodaira[19]使用LSTM从语音中合成头部运动。Sadoughi和Busso[42]提出了一种基于GAN的方法来合成说话代理人的头部运动。Kucherenko等人[24]提出了一个去噪自动编码器来学习身体运动的低维表示，然后将其与音频编码器相结合，在测试时进行音频到手势的合成。Lee等人[27]提供了一个同步身体-手指运动和音频的大规模运动捕捉数据集，并提出了一种基于音频和手臂位置作为输入来预测手指运动的方法。Ferstl等人[13]使用了一个多目标对抗模型，并使用了一个分类器，该分类器被训练为预测运动中的姿态阶段，以提高手势合成的质量。

最近的工作也试图纳入基于文本的语义信息，以提高来自语音的身体姿态的生成质量[25, 56]。Alexanderson等人[2]提出了一个基于规范化流的生成模型，可以从语音输入中合成三维身体姿态。他们的系统可以从相同的音频中生成多个合理的手势，并允许对其合成进行一定程度的控制，例如手势的速度和对称性。Ahuja等人[1]表明，一个基于学习的混合模型可以被训练成在多个说话者之间进行手势风格转移。相比之下，我们的重点是找到使用单一框架从音频中预测所有相关身体模式的最佳解决方案，即使以特定人的方式训练，这也是一个具有挑战性的问题。

深度学习方法通常需要大规模的音频和三维运动对的训练库，而这些训练库通常是由复杂而昂贵的演播室运动捕捉系统捕获的。为了解决这个问题，Ginosar等人[16]提出了基于学习的语音驱动的二维上半身和手势模型的生成，该模型来自大规模的野外视频集。通过这个解决方案，他们能够从社区视频中建立一个数量级的大型语料库。同样，Yoon等人[57]的方法也是通过OpenPose[4]从TED演讲视频中提取的地面真实二维姿势进行训练。他们的模型采用了一个双向LSTM将音频输入转化为二维人体姿势的序列。此外，他们使用了一种提升的方法来推导出合成角色的三维运动约束。在我们的工作中，我们为Ginosar等人[16]的数据集提供了额外的三维脸部、手部和身体注释。此外，与现有的方法相比，我们不仅能识别三维上身和手势，还能识别说话人的头部旋转和面部表情。

语音驱动的面部表情目前的技术可以分为。1）基于脸部模型的技术[31, 39, 8, 52, 53, 11]和2）非模型的技术。基于模型的方法将表情的参数化，并从音频输入中估计这些参数。然而，非基于模型的方法直接将音频映射到脸部网格的三维顶点[22]或嘴部的二维点位置[49]。在Karras等人[22]中，一个LSTM被用来学习这种映射，而在Suwajanakorn等人[49]中，最终的照相学(photorelistic)结果被生成。Cudeiro等人[11]使用DeepSpeech语音识别[20]来产生音频信号的中间表示。然后将其回归到FLAME表面模型的参数中[30]。Taylor等人[52]使用一种现成的语音识别方法将音频映射成音素转录。训练一个网络来把音素翻译成参考脸部模型的参数。Tzikrakis等人[53]使用深度典范注意扭曲（DCAW）将音频翻译成表情混合型。Pham等人[39]直接将音频映射到混合型参数，尽管他们的结果存在强烈的抖动。虽然目前的音频驱动的面部表情技术产生了有趣的结果，但它们中的大多数都是在背景噪音最小的受控演播室中记录的语音数据的结果[31, 39, 22, 8, 52, 11]。Cudeiro等人[11]在处理不同的噪音水平时显示了有趣的结果。然而，目前还没有一种音频驱动的技术可以在野外估计高质量的面部表情，以及估计头部动作和身体对话姿态。我们的方法使用面部模型作为第一类。与其他方法相比，我们采用了简单有效的方法，通过直接回归从社区视频的大型语料库中捕获的面部参数，共同学习三维头部和面部动画与身体姿态。

3 数据集创建

3.1 从视频中创建3D注释

以前的语音驱动动画合成工作的一个主要瓶颈是产生足够多的训练数据。许多方法都是通过多机位运动捕捉系统对面部和全身运动进行复杂的室内捕捉。因此，我们提出了第一个方法，从带有音频的大型社区视频中提取三维面部动画参数、三维头部姿势、三维手部和三维上身手势的自动注释。通过这种方法，可以更容易地制作出跨越长时间窗口和不同对象的大型训练语料。

特别是，我们使用了Ginosar等人[16]的数据集，该数据集的特点是有10个被试者（如脱口秀主持人）以站姿和坐姿对着镜头说话的144小时的野外视频。从这些视频中，Ginosar等人提取了手臂和手的二维键点，以及二维稀疏面部地标。他们使用这些注释的一个子集来训练一个网络，该网络只从语音中合成二维手臂和手指的运动。虽然显示了语音驱动动画的潜力，但他们的方法没有合成三维身体运动；没有合成躯干的三维运动，如倾斜，这是个人演讲风格的一个要素；也没有预测三维头部姿势和详细的面部动画参数。为了训练一种与输入语音共同合成更完整的三维动画参数的方法，我们用最先进的三维性能捕捉和单眼三维身体和手部姿势估计算法对数据集进行了分析，见Fig. 2。

Fig. 2

对于单眼密集三维人脸性能的捕捉，我们使用基于优化的追踪器[15]，预测参数化人脸模型的参数，特别是。64个表达式混合系数，80个身份几何学系数，80个脸部反照率的PCA系数，27个入射光照参数，以及6个三维头部旋转和位置的系数。脸部追踪器希望将经过严格裁剪的脸部边界框作为输入。我们使用Saragih等人[47]的人脸追踪器来提取边界框，并对边界框的位置进行时间上的筛选；我们在实验中发现，这比使用Ginosar数据集中默认的二维人脸地标进行边界框追踪更稳定。为了训练我们的算法，我们只使用面部表情系数θFace∈R64和头部旋转系数R∈SO(3)（我们使用身体姿势追踪器发现的三维头部位置）。

对于三维身体捕捉，我们需要一种对身体自我遮挡、其他人的遮挡、桌子对身体的遮挡（脱口秀主持人的坐姿）或摄像机画面不显示身体的遮挡，甚至站立姿势的遮挡，都有很强的鲁棒性。因此，我们使用XNect[36]单眼三维姿态估计方法来处理这些情况。具体来说，在每个视频片段中，我们从XNect的第二阶段提取13个上身关节的三维身体关键点预测（头部2个，每个手臂3个，颈部1个，脊柱1个，髋部/骨盆3个）。这导致了身体姿势的39维表示K∈R39。我们将脸部跟踪器预测的头部旋转R与身体关键点K一起归入一个42维的矢量θBody∈R42。

在进行手部追踪时，我们采用了Zhou等人[58]的最先进的单眼3D手部姿势估计方法。为了确保良好的预测结果，我们首先使用Ginosar等人[16]提供的二维手部关键点注释对手部图像进行了严格的裁剪，然后将其送入三维手部姿势预测器。由于手部可能被遮挡或超出视线，我们还采用了一种现成的立方插值方法来填补可能遗漏的三维手部姿势信息，只要它们在两个相隔最多8帧的注释画面之间。这导致每只手有21个关节预测，这些关节组合成一个126维的向量θHand∈R126。

为了提高我们的数据因潜在的单眼跟踪问题（如闭塞(occlusions)）而具有的稳健性，如果在一定数量的帧内脸部地标或手部关键点的预测可信度低于一个给定的阈值，我们就将数据排除。这是通过重新解释跟踪器产生的身体部位的二维联合热图预测的最大值来获得的，是一种确信度的衡量标准。我们还删除了Ginosar等人[16]提供的10个对象中的4个，因为视频的分辨率低，导致3D密集脸部重建结果质量差。我们最终的3D数据集由6名受试者超过33小时的视频组成。

3.2 音频特征预处理

与Suwajanakorn等人[49]类似，我们在使用FFMPEG[14,40]对音频进行归一化处理后，用一个重叠的时间滑动窗口计算每个输入视频帧的MFC系数。我们利用CMUSphinx[26]来计算系数，并使用13个MFC系数和一个额外的特征来计算输入的平均能量。这些，加上时间上的前导数，产生一个28维的矢量 $F_{MFC}$ ∈R28，代表每个时间步骤的语音输入。MFCC编码了人类语音感知的特征，这使得它在语音识别等广泛的应用中非常有用。编码语音感知的特点使MFC系数成为预测面部表情的良好代表，因为面部形状的调制是语音产生过程的一部分。对于预测身体手势，MFCC特征在序列中的变化带有产生节拍手势所需的节奏信息。

4 方法

我们的方法是在给定语音信号的情况下，产生三维面部表情参数、头部方向、三维身体和三维手部姿势的关键点的时间序列。上述这些参数的时间变化包含了姿态信息。如第3.2节所述，对语音输入进行预处理，产生基于MFC的特征帧FMFC[t]∈R28，用于每个离散时间步长t。我们将每个时间步长的面部表情参数表示为θFace[t]∈R64，双手的三维关键点表示为θHand[t]∈R126，头部方向和三维身体关键点共同表示为θBody[t]∈R42。时间序列的采样频率是15Hz。

4.1 网络结构

与其他基于对抗性学习的方法类似，我们的模型由两个主要的神经网络组成，我们称之为生成器网络G和判别器网络D。

我们采用一维卷积编码器-解码器结构的生成器网络G，将输入的音频特征序列FMFC[0 : T]映射到三维人脸表情参数序列θFace[0 : T]，三维身体参数序列θBody[0 : T]，以及三维手部参数序列θHand[0 : T]，这也是以监督的方式进行训练。

我们对生成器G的一维卷积架构是根据UNet[41]架构的参考实现[54]改编的，该架构最初是为二维图像分割提出的。我们的架构利用一个单一的编码器，由8个内核大小为3的一维[Conv-BN-ReLU]块组成，除了最后一个块之外，每隔一个块都与MaxPool交织。最后一个块之后是一个上采样层（最近邻）。每个脸部、身体和手部的序列都使用一个单独的解码器。解码器与编码器对称，由7个一维[Conv-BN-ReLU]块和一个最后的一维卷积层组成，每隔一个块就与上采样层交错排列。解码器与编码器是对称的，利用编码器中相应层的跳过连接。

鉴别网络被设计为预测其输入的音频和姿势特征是否真实。该网络由6个一维[Conv-BN-ReLU]块组成，内核大小为3，每隔一个块就与MaxPool交错。之后，它又有一个线性和sigmoid激活层。

关于架构的确切细节，请参考补充文件。 Figure 3中显示了一个模式。

Figure 3

4.2 训练的细节

对于每个采样的语音特征序列FMFC[0 … T - 1]，以及注释的三维面部表情参数序列θFace[0 … T - 1]，三维身体姿势参数序列θBody[0 … T - 1]，和三维手部姿势参数序列θHand[0 … T - 1]，我们以滑动窗口的方式提取64帧（≈4秒）的子序列。我们以滑动窗口的方式提取64帧（≈4秒）的子序列，连续的子序列之间有1-5帧的重叠，这取决于被摄体的数据点数量。每个用于训练的mini-batch包括从所有训练序列中提取的这种64帧的子序列的随机抽样。我们使用Adam进行训练，学习率为5e-4，mini-batch尺寸为25，每个主体训练到30万次迭代。由于生成器网络是完全卷积的，在部署时我们的网络可以处理任意长度的输入语音特征。

训练目标。我们监督我们的生成器网络G，其损失项如下：

$\mathcal{L}_{\text {Reg }}=w_{1} * \mathcal{L}_{\text {Face }}+w_{2} * \mathcal{L}_{\text {Body }}+w_{3} * \mathcal{L}_{\text {Hand }}$

LFace是面部表情参数的L2误差：

$\mathcal{L}_{\text {Face }}=\sum_{t=0}^{T-1}\left\|\theta_{\text {Face }}[t]-\hat{\theta}_{\text {Face }}[t]\right\|_{2}$

LBody是三维身体关键点位置和头部方向的L1误差，LHand是三维手部关键点位置的L1误差：

$\begin{aligned} \mathcal{L}_{\text {Body }} &=\sum_{t=0}^{T-1}\left\|\theta_{\text {Body }}[t]-\hat{\theta}_{\text {Body }}[t]\right\|_{1} \\ \mathcal{L}_{\text {Hand }} &=\sum_{t=0}^{T-1}\left\|\theta_{\text {Hand }}[t]-\hat{\theta}_{\text {Hand }}[t]\right\|_{1} \end{aligned}$

我们确定w1=0.37，w2=600，w3=840，以确保每个术语在训练中的权重相等

在实践中，我们注意到只对身体关键点采用L1或L2错误的结果是没有表现力的手势，这一点在Ginosar等人[16]关于二维身体手势合成的前期工作中也被指出。受Ginosaretal[16]的对抗性训练方法的启发，我们展示了将对抗性损失与判别器网络D结合起来，该网络被训练来判断输入的姿势是真实的还是由生成器G假造的，可以产生更有表现力的姿态，而且与语音输入保持同步。在最大的游戏场景中与生成器网络一起训练时，它将推动生成器产生更高质量的三维身体和手部姿势合成，以骗过判别器。我们采用了与Ferstletal[13]的工作类似的方法，不仅使用姿势，还将音频特征作为输入给鉴别器。这样一来，鉴别器的任务就不仅仅是测量输入的手势是否真实，它还需要确定手势是否与输入的音频特征同步。由于身体手势的多模态性主要发生在身体和手部，我们将面部表情参数排除在对抗性损失表述之外：

$\begin{gathered} \mathcal{L}_{A d v}(G, D)=\mathbb{E}_{\mathcal{F}_{M F C}}\left[\log \left(1-D\left(\mathcal{F}_{M F C}, G^{*}\left(\mathcal{F}_{M F C}\right)\right)\right)\right] \\ +\mathbb{E}_{\mathcal{F}_{M F C}, \theta_{B o d y}, \theta_{\text {Hand }}}\left[\log D\left(\mathcal{F}_{M F C}, \theta_{\text {Body }}, \theta_{\text {Hand }}\right)\right] \end{gathered}$

其中G∗表示我们只使用原始生成器网络G的预测的θBody和θHand输出

加上直接监督的损失，我们的总体损失是：

$\mathcal{L}=\mathcal{L}_{R e g}+w \cdot \min _{D} \max _{G} \mathcal{L}_{A d v}(G, D)$

其中w被设定为5

请注意，我们的网络是在主体特定的训练集上训练的，以捕捉主体的特定手势特征

5 结果

我们提出的方法解决了为虚拟人制作动画的基本问题：合成面部表情、身体和手势，与语言相协调。为了使我们的结果可视化，以及对用户的研究，让观察者专注于面部和身体的运动，我们渲染了一个抽象的三维角色，展示了所有重要的骨骼和面部元素，而没有陷入恐怖谷的风险(uncanny valley)，这与先前工作中的类似方法[29,16]。由于我们的方法只预测了上半身的运动，我们将其与预先录制的下半身的基本运动融合在一起，包括坐着和站着的情况。

评估生成质量：由于对话手势的合成是一个多模态的问题，直接与跟踪的注释进行比较对于合成的结果没有意义，特别是对于评估合成的手势的质量。我们通过广泛的用户研究来评估我们的方法，以判断我们结果的质量和可信度，并将其与各种基线进行比较。此外，我们通过比较从预测的密集三维人脸模型的选定顶点中提取的三维嘴唇关键点与我们从源图像中获得的自动生成的ground truth嘴唇关键点来衡量对面部表情的预测。请看随附的视频，了解大量的视听结果。

5.1 Baseline比较

我们对我们的方法与那些使用音频特征作为输入的身体姿态预测的方法进行了评估。其他基线方法是使用3.2中描述的相同的MFCC特征进行训练。我们的第一条基线是我们提出的网络结构的直接回归一维CNN模型，没有使用对抗性损失。接下来，我们将我们的方法与Shlizermanetal的基于循环神经网络（RNN）的长短期记忆（LSTM）架构进行比较[48]，该架构最初被设计为在时间上预测2D手和手指的姿势。由于原来的方法不是为处理多模式数据而设计的，我们决定在我们的三维数据上分别训练面部、身体和手势的三个LSTM模型。

我们使用我们提出的模型对Ginosar等人[16]进行了适应性训练，并对对抗性损失进行了训练，以区分速度空间中手势的真假合成，这与他们提出的方法相似，并使用这个版本作为我们的基线比较。我们还将我们的方法与Alexandersonetal.[2]的工作进行了比较，在我们的野外3D数据上训练了该方法。他们的模型最初是在没有脸部或手部注释的干净的三维身体姿势的mocap数据上训练的。我们发现他们的模型对使用的参数不敏感。正因为如此，我们决定将其训练在身体和手部数据上，以简化问题。根据作者的建议，我们手工寻找了一个最佳的参数集，它能在自然度和同步性方面产生最好的结果。按照他们的建议，我们进行了多次实验，在512、700和800之间改变单元数H，在8到16之间改变流速步骤数K。我们发现，当使用单元数H=800和步骤数K=10时，基于MoGlow的模型产生最佳效果。

请参考我们的补充视频，了解基线方法的定性结果。

5.2 用户对手势合成的研究评估

我们进行了两项独立的用户研究，对我们提出的方法进行定性评估。

在第一个用户研究中，我们比较了从音频合成三维脸部、身体和手势的方法。在这项研究中，我们向参与者展示了6个视频序列中的3个（12秒/序列），这些视频是由我们提出的方法、基线和 ground truth（跟踪）注释合成的。这项研究涉及67名参与者。每个用户被要求对音频和生成的3D脸部和身体手势之间的自然性和同步性进行判断，评分标准为1到5，5为最可信，1为最不可信。

如Table1所示，与其他合成图像视频相比，地面真相序列被认为是最自然和最符合输入语音的，其评分分别为4.29±0.86和4.39±0.77。与其他基线方法相比，参与者认为我们的结果看起来更自然，与语音音频更合拍，自然度得分4.05±0.85，与语音同步度得分4.00±0.91。

Table1

我们还进行了第二项用户研究，只评估三维身体和手势的合成，并与Alexandersonetal.[2]的基于MoGlow的模型进行比较。在这项研究中，我们特别要求参与者忽略视频中面部表情的质量。为了确保公平的比较，本研究中呈现的所有视频都是通过使用我们的方法预测的三维面部表情来合成的。与第一次研究类似，45名参与者中的每一位都被要求对每种方法的6个可能视频中的3个视频的质量进行评分，评分标准在1到5之间。如Table 2所示，我们的方法被评为更自然和与音频同步。

Table 2

Figure4

5.3 面部表情评估

在Table 3中，我们比较了各种方法预测的面部表情所对应的生成的面部顶点的三维唇部关键点与基于图像的面部追踪器在中性头部姿势下的三维唇部关键点。比较是在整个测试集上进行的，该测试集包括578个序列（12秒/序列），涉及所有对象。作为一个理智的检查基线，我们还计算了一个序列的基于优化的跟踪注解与随机选择的不同序列的基于优化的注解之间的差异。评估结果显示，我们提出的方法与其他提议的基线相比，取得了相似或略微更好的性能。

Table 3

这一结果表明，我们的全身架构适合于同时进行质量尚可的人脸表情合成，而且比用其他身体手势合成架构同时进行人脸合成要好。请注意，我们并不是说我们的设计推动了纯脸部表情合成的最先进水平。这不在我们的工作范围之内，而是留待今后的工作。

6 讨论

虽然嘴部表达与语音有很强的相关性，但其余的预期生成目标，如身体手势，并没有一对一的映射。再加上我们实验中观察到的单眼数据的噪音性质，问题的这种多模式性质使得我们设计和分析可表达的模型具有挑战性。我们还观察到，在验证集上较低的L1或L2损失值并不总是能保证产生一个平等的、更好的姿态合成，这进一步显示了对抗性损失的重要性。超参数的选择，如编码器和解码器架构的设计，以及运算量的加权，也会导致不同的手势合成特征。例如，生成器和判别器之间的不对称更新以及不同的迭代次数可以导致不同但同样合理的手势合成。

在所提出的对抗性损失的成功之后，我们进一步论证，鉴别器网络也可以独立地作为可信度指标来评价来自语音的手势合成的质量，类似于inception score的使用方式[46]。这样的方法可以进行训练，目的是对具有各种身体手势噪声和可信度特征的同步和非同步音频手势对进行分类。如果我们能建立这样的数据集，这个模型就可以在将来用来定量评估其他提议的音频到手势合成模型。

7 结论

我们提出了第一个从语音中预测全三维脸部、身体和手势的方法，以自动驱动虚拟人物或具身的对话代理。我们利用单眼密集人脸重建和身体姿势重建的方法，在谈话对象的野外录像中为我们基于学习的方法获取训练数据，为≈33小时的录像生成三维人脸、身体和手的姿势注释。我们的主要观点是，不仅在三维姿势上加入对抗性惩罚，而且将其与音频输入相结合，使我们能够成功地生成与语音同步的具有表现力的身体手势。

附录

A 关于In-The-Wild视频的3D说明

Figure S1显示了从野外录像中提取的三维面部、身体和手的姿势注释的例子。

Figure S1

A.1 注释质量和后处理

我们通过使用三维单眼跟踪方法对野外视频进行注释来创建我们的训练数据。当然，与使用标准的多视角运动捕捉或表演捕捉系统相比，我们的伪基础事实(pseudo ground truth)的质量就不那么准确了。与Ginosar等人[16]评估他们的自动二维标签与人类注释不同，我们不可能定量地衡量我们的三维注释的质量。然而，由于录音的控制设置，大部分跟踪的视频都是我们所采用的单眼跟踪方法的训练集中经常出现的普通观察目的。通过对跟踪结果的人工检查，我们发现预测对我们的任务来说是相当可靠的。

正如我们在主文件中所提到的，我们使用2D关键点预测的平均可信度来剔除基于某个阈值的低质量数据。然而，我们注意到，手经常不在视线范围内，特别是在受试者站立的视频中，如Ellen和Conan。为了防止丢失大量的数据，我们设计的确认阈值允许一些手部遮挡的情况被纳入数据集，只要它们在一个较短的时间窗口内出现。其中一些手部遮挡的例子见Figure S2。

Figure S2

请参考三维身体追踪器XNect[36]、手部追踪器[58]和面部追踪器[15]的原始论文，了解它们各自的方法在几个基准数据集上的详细量化性能。

为了提高输出的视觉质量，我们用标准偏差为σ=1.5的高斯滤波器对我们的三维身体和手掌预测以及头部旋转结果进行了时间平滑。我们还对视频的地面真实序列进行了同样的滤波。

A.2 二维到三维移位vs.图像到身体的姿势

Ginosar等人的录像是用二维身体关键点的位置进行注释的。实现三维注释的一种方法是在提供的二维关键点上运行最先进的二维到三维提升方法，如Martinez等人[34]和Pavllo等人[38]。然而，数据集中的多个受试者要么坐在桌子后面，要么上半身的一部分在图像框架之外。遮挡的骨盆（办公桌）导致已经模糊的二维到三维移动的方法没有信息来正确预测躯干的倾斜，而这对于传达对话手势是至关重要的。像XNect[36]这样的方法被设计为对部分闭塞具有鲁棒性，并利用图像线索来预测可能丢失的躯干。

B 网络结构

网络结构的细节在主要文件Sec4.1中描述。Figure S3显示了网络结构的示意图。

Figure S3

C 对鉴别器的进一步分析

正如我们在主文件中所讨论的，我们提出的判别器有可能被扩展为一个独立的模型，对语音-手势模型的合成质量进行评分。验证这个想法的一个方法是训练模型来分类它的音频-手势对输入是同步的还是不同步的。 ground truth 音频-手势对可以直接用作同步训练的例子，而非同步训练的例子可以通过将音频序列与其他随机手势序列配对来准备。如Table S1所示，当我们在这种设置下训练我们的判别器网络时，它可以可靠地对未见过的测试对进行高准确率的分类。然后，人们可以认为，有可能将这个模型扩展为手势合成方法的定量指标。遗憾的是，由于分类器只在 ground truth 运动序列上进行训练，因此目前还无法做到这一点。当我们在基线模型上测试这个分类器时，它产生了不一致的结果。例如，它认为我们提出的模型比ground truth序列更有说服力。此外，它还给出了仅有CNN基线的最高分数。这一评估结果显然与用户研究的结果相矛盾。如果我们想把这个分类器扩展为一个更普遍的手势可信度指标，我们需要创建一个新的同步/不同步数据集，其中包含不同的手势噪声特征。

Table S1

这个分类实验表明，鉴别器可以通过测量音频和手势之间的同步质量，在训练期间向发生器提供有用的反馈信号。仅有的手势鉴别器是无法提供这种反馈的。此外，这个实验还提供了一个关于最佳语境窗口大小的见解，表明使用较长的训练序列会使模型的性能更好。

你可能感兴趣的:(小白学习,人工智能,深度学习,音视频,python)

Python训练营打卡 Day53 yunvwugua__ python自学打卡 python 开发语言
对抗生成网络知识点回顾：对抗生成网络的思想：关注损失从何而来生成器、判别器nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法leakyReLU介绍：避免relu的神经元失活现象对抗生成网络（GAN）知识点回顾对抗生成网络的思想思想：就像在餐厅中，有一个厨师（生成器）负责制作假菜，一个评论家（判别器）负责区分真菜和假菜。厨师的目标是制作出评论家无法区分的假菜，而评论家的目标是找
华为OD机试 2025B卷 - 货币单位转换(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD机试华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述记账本上记录了若干条多国货币金额，需要转换成人民币分（fen），汇总后输出。每行记录一条金额，金额带有货币单位，格式为数字+单位，可能是单独元，或者单独分，或者元与分的组合。要求将这些货币全部换算成人民币分（fen）后进行汇总，汇总结果仅保留整数，小数部分舍弃。元和分的换算关系都是
Python 训练营打卡 Day 50 2401_86382089 Python打卡 python
预训练模型CBAM注意力现在我们思考下，是否可以对于预训练模型增加模块来优化其效果，这里我们会遇到一个问题：预训练模型的结构和权重是固定的，如果修改其中的模型结构，是否会大幅影响其性能。其次是训练的时候如何训练才可以更好的避免破坏原有的特征提取器的参数。所以今天的内容，我们需要回答2个问题。resnet18中如何插入cbam模块？采用什么样的预训练策略，能够更好的提高效率？可以很明显的想到，如果是
Python训练营打卡 Day50
预训练模型+CBAM模块知识点回顾：resnet结构解析CBAM放置位置的思考针对预训练模型的训练策略差异化学习率三阶段微调预训练模型+CBAM模块知识点回顾ResNet结构解析残差块：ResNet的核心是残差块，它通过残差连接解决了深层网络的梯度消失问题。残差块允许梯度直接传播到后面的层，从而使得网络能够训练得更深。网络结构：ResNet由多个残差块组成，每个残差块包含两个或三个卷积层，以及一个
Python编程电子书：从基础到实践王奥雷
本文还有配套的精品资源，点击获取简介：Python电子书汇集了基础语法、面向对象编程、标准及第三方库使用、文件操作、网络编程、并发编程、单元测试与调试、Python2与Python3的区别等核心知识点。通过实例和项目案例，帮助读者在Web开发、数据分析、人工智能等应用领域提升编程技能，跟上Python的技术进步。1.Python基础语法介绍Python作为一种高级编程语言，其易读性和简洁的语法使其
Python爬虫实战：研究chardet库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 chardet
1.引言1.1研究背景与意义在互联网信息爆炸的时代，网络数据采集技术已成为信息获取、数据分析和知识发现的重要手段。Python作为一种高效的编程语言，凭借其丰富的第三方库和简洁的语法，成为爬虫开发的首选语言之一。然而，在网络数据采集中，文本编码的多样性和不确定性一直是困扰开发者的主要问题之一。不同网站可能采用不同的编码方式（如UTF-8、GBK、GB2312等），甚至同一网站的不同页面也可能使用不
开源模型应用落地-OpenAI Agents SDK-集成MCP与Qwen3-8B模型的创新应用探索（七）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言在人工智能技术飞速发展的今天，如何将先进的模型和技术无缝结合，成为推动行业变革的关键。OpenAIAgents通过集成模型上下文协议（MCP）和阿里巴巴推出的Qwen3-8B模型，正开启一场智能应用的革命。这种创新的结合不仅提升了AI代理与外部工具之间的通信能力，还在多模态任务处理、个性化服务等领域展现出巨大潜力。本文将深入探讨这一技术组合的实际应用场景，揭示其在改善客户体验和提升运营效率
开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-探索output_guardrail的创意应用（六）开源技术探险家开源模型-实际应用落地开源 python ai 人工智能
一、前言随着人工智能技术的迅猛发展，大语言模型（LLM）在各行各业的应用日益广泛。然而，模型生成的内容是否安全、合规、符合用户预期，成为开发者和企业不可忽视的问题。为此，OutputGuardrail应运而生，作为一种关键的安全机制，它在模型生成结果之后进行内容审核与过滤，确保输出不偏离道德、法律和业务规范。通过检测不当的内容，不仅提升了AI系统的可信度，也为构建更加稳健和负责任的人工智能应用提供
什么是深度学习框架中的计算图？杰瑞学AI Computer knowledge NLP/LLMs AI/AGI 深度学习人工智能 pytorch
在深度学习框架中，计算图是核心的数据结构和抽象概念，它用来表示和定义深度学习模型的计算过程。我们可以把它想象成一个描述数学运算如何组合和执行的有向图。以下是计算图的关键要素和作用：节点：代表操作或变量。操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据
Kafka-python 核心 API 深度解析：BrokerConnection 与 ClusterMetadata 的全方位指南佑瞻 python工程化 kafka python 分布式
在Kafka应用开发中，我们时常会面临连接管理混乱、元数据获取不及时等问题，这些问题的根源往往在于对底层API的理解不够深入。今天我们将聚焦kafka-python客户端中两个核心类——BrokerConnection和ClusterMetadata，通过剖析其核心功能与应用场景，帮助大家建立系统化的Kafka连接与元数据管理知识体系。BrokerConnection：Kafka连接管理的中枢神经
KafkaAdminClient 技术详解：Python 操作 Kafka 集群的管理接口佑瞻 python工程化 python kafka
一、KafkaAdminClient基础概念KafkaAdminClient是kafka-python客户端提供的集群管理类，用于通过编程方式管理Kafka集群资源。其核心定位是为开发者提供一套标准化接口，实现对主题、分区、ACL、消费者组等资源的全生命周期管理。核心特性说明：接口定位：专门用于集群资源管理，区别于KafkaConsumer/KafkaProducer的数据读写功能版本要求：要求B
Python日志模块
Python日志模块学习教程：b站王铭东老师Python中logging模块能够完成相关信息的记录，在debug时使用它事半功倍一、模块介绍日志级别DEBUG、INFO、WARNING、ERROR、CRITICAL默认是WARNING，当在WARNING或其之上时才被跟踪日志格式logging.basicConfig函数中，可以指定日志的输出格式format，这个参数可以输出很多有用的信息一般使用
Python爬虫笔记汇总大厂_jvS python 爬虫笔记
except:print(“爬取失败”)4.网络图片爬取及存储#实例4：爬取图片‘’‘r.content#表示返回内容的二进制格式’‘’importrequestsimportosroot=‘./Pic/’path=root+url.split(‘/’)[-1].split(‘@’)[0]url=‘http://img0.dili360.com/ga/M00/02/AB/wKgBzFQ26i2AW
开源模型应用落地-让AI更懂你的每一次交互-Mem0集成Qdrant、Neo4j与Streamlit的创新实践（四）开源技术探险家开源模型-实际应用落地 neo4j 开源人工智能语言模型
一、前言在人工智能迅速发展的今天，如何让AI系统更懂“你”？答案或许藏在个性化的记忆管理之中。Mem0作为一个开源的记忆管理系统，正致力于为AI赋予长期记忆与个性化服务能力。通过结合高性能向量数据库Qdrant、图数据库Neo4j的强大关系分析能力以及Streamlit的高效可视化交互，我们可以打造出一个既能存储用户历史行为、又能实时推理并展示结果的智能记忆助手。本文将带您一步步探索这一技术组合的
python-for-android 使用教程沈昊冕Nadine
python-for-android使用教程python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目介绍python-for-android（p4a）是一个开发工具，用于将Python应用打包成可以在Android设
【Python】邮件处理2 宅男很神经 python 开发语言
7.Pythonemail库深度解析：MIME邮件构建与解析的艺术在前面的章节中，我们深入探讨了电子邮件的底层协议（SMTP,POP3,IMAP）以及如何使用imaplib库从服务器接收和管理邮件。然而，邮件内容的实际格式和结构并非由这些传输协议定义，而是由MIME(MultipurposeInternetMailExtensions)标准规范。Python的email库是处理MIME格式邮件的强
Python多线程vs多进程：一场关于效率的“宫斗戏“，谁才是你的真命天子？
清晨的咖啡还冒着热气，你盯着监控面板上飙升的CPU使用率，键盘敲出的代码在"多线程"和"多进程"之间反复横跳——这可能是每个Python开发者都会经历的"效率抉择时刻"。当项目从"能跑就行"进化到"必须快跑"，多线程与多进程这对"欢喜冤家"就会跳出来，用各自的"十八般武艺"让你挑花眼。今天咱们就来扒开表象，从底层机制到实战案例，彻底搞懂这对CP的爱恨纠葛。一、GIL：多线程头顶的"紧箍咒"要聊多线
【mongodb】mongodb数据备份与恢复向往风的男子运维日常 DBA mongodb 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
数据存储：使用Python存储数据到redis详解数据知道爬虫和逆向教程 python redis 数据库非关系型数据库
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录一.安装相关库和进行连接二、存储数据到Redis2.1存储字符串2.2存储列表2.3存储集合2.4有序集合类型2.5存储哈希三、数据的持久化与过期设置3.1持久化3.2过期设置四、其它操作4.1删除操作4.2关闭连接4.3使用连接池4.4处理异常五、总结在Python中，我们可以使用redis-py库来与Redis数据库进行交互。以下是如何将数据
Python 中的循环小羊苏八 python 开发语言
目录前言一.for循环二.while循环三.break与continue四.循环与else总结前言Python中的循环：for、while、break、continue与循环中的else。在Python中，循环是控制程序流程的重要结构之一。它允许我们重复执行一段代码，直到满足特定条件为止。Python提供了两种主要的循环结构：for循环和while循环。此外，break和continue语句可以用
Python——pyautogui打地鼠游戏自动化脚本（基于图片定位）
以4399小游戏为例：4399游戏网importpyautoguiimportkeyboardimporttimeimportrandomimportloggingfromPILimportImageGrabimportos#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname)s-%(message)
最小二乘法(OLS)python 实践
参考链接：1，基本原理：https://zhuanlan.zhihu.com/p/1492809412，python实现：https://zhuanlan.zhihu.com/p/22692029实现结果线性回归：#--coding:utf-8--#简单线性回归demoimportnumpyasnpimportmatplotlib.pyplotaspltimportstatsmodels.apia
【Statsmodels和SciPy介绍与常用方法】机器学习司猫白 scipy statsmodels 统计
Statsmodels库介绍与常用方法Statsmodels是一个强大的Python库，专注于统计建模和数据分析，广泛应用于经济学、金融、生物统计等领域。它提供了丰富的统计模型、假设检验和数据探索工具，适合进行回归分析、时间序列分析等任务。本文将介绍Statsmodels的核心功能，并通过代码示例展示其常用方法。Statsmodels简介Statsmodels建立在NumPy和SciPy的基础上，
（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
Python高频面试题（四） Irene-HQ 测试 python 自动化测试 python 开发语言面试测试工具 github pycharm
以下是Python研发和自动化测试面试中‌更高阶的专项考点及典型问题‌一、并发与异步编程（高级）‌GIL全局解释器锁的应对策略‌问题：GIL如何影响Python多线程性能？如何绕过GIL限制？答案：GIL使同一时刻仅一个线程执行字节码，CPU密集型任务性能受限绕过方案：使用多进程（multiprocessing）、C扩展（如Cython）、异步IO（asyncio）‌46‌协程异步调用示例‌问题：
Python常考面试题汇总（附答案） TT图图面试职场和发展
写在前面本文面向中高级Python开发，太基本的题目不收录。本文只涉及Python相关的面试题，关于网络、MySQL、算法等其他面试必考题会另外开专题整理。不是单纯的提供答案，抵制八股文！！更希望通过代码演示，原理探究等来深入讲解某一知识点，做到融会贯通。部分演示代码也放在了我的github的该目录下。语言基础篇Python的基本数据类型Python3中有六个标准的数据类型：Number（数字）(
Python 编程基础作业总结
本周主要围绕Python基础编程展开了学习，通过一系列的作业题来巩固所学知识。这些题目涵盖了输入输出、条件判断、循环结构等多个基础知识点，下面将对每道作业题进行详细分析。1.计算指定月份第一天是星期几题目描述编写一个程序，接受用户输入的一个年份和一个月份，输出该月份的第一天是星期几。使用蔡乐公式计算星期。提示：使用蔡乐公式计算星期。W=((26*M-2)/10+D+Y+Y/4+C/4-2*C)%7
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟