PaperWeekly

谷歌最新研究：可交互式动态图片生成，细节逼真！

©PaperWeekly 原创 · 作者 | 岳廷

论文链接：

https://arxiv.org/abs/2309.07906

项目链接：

https://generative-dynamics.github.io./

要解决的问题：通过单张自然景观（树木，花朵等）图像，生成自然的动态视频（风、水流、呼吸或其他自然节奏造成的动态）一直是难点，要么生成不真实，要么不可控。如拍摄一朵荷花，如何生成一个荷花被风吹过摇曳的视频？

具体而言，自然界总处于运动之中，即使看似静止的场景也包含微妙的震荡，这是由风、水流、呼吸或其他自然节奏造成的。运动是最引人注目的视觉信号之一，人类尤其灵敏于此：如果拍下的图像没有运动（或者运动不太真实），通常会让人感到不自然或不真实。

虽然人类可以轻松地解释或想象场景中的运动，但训练一个模型学习真实场景运动远非易事。

解决方案：通过学习一系列从真实视频序列中提取的运动轨迹，从而建立一个图像空间场景动态的先验模型。模型通过一个频率协调的扩散采样过程来预测在频域中的每个像素的长期运动表示，即神经随机运动纹理。这个表示可以转换为跨越整个视频的密集运动轨迹。

效果：效果显著、基本看不出来是生成的，且可交互（建议查看 project 页视频）。不仅可以将静止的图像转变为无缝循环的动态视频，还可以让用户与真实图片中的物体进行交互，如上面提到的拍摄的荷花，可以有 2 种动态图片生成方式：1）直接生成；2）交互式生成，即用户选定花朵，并给出风的方向，整个画面朝招该方向摇曳。

与基于原始 RGB 像素的先验相比，这种基于运动的先验能够更有效地解释像素值的变化，因此，这种运动表示形式可以导致更连贯的长期生成，并对动画提供更细粒度的控制。

额外：拍摄大自然时，可根据单张图像、按照自己的方式，生成想要包含自然节奏运动的动态视频。

效果示意图：

▲ demo

方法概述

给定一张图片，目标是生成长度为T的视频，，，，展示像树木、花朵或烛焰在微风中的摇曳等震荡动力学。系统由两个模块组成：运动预测模块（第二部分）和基于图像的渲染模块（第三部分）。

流程从使用潜在扩散模型（Latent Diffusion Model ，LDM）预测输入图像的神经随机运动纹理，，，开始。一个随机运动纹理是输入图像中每个像素运动轨迹的一个频域表示。然后使用一个逆离散傅里叶变换将预测的随机运动纹理转换为运动位移场序列，，，。

这些运动场又用于确定每个输入像素在每个未来时间步的位置。给定这些预测运动场，本文的渲染模块使用基于图像的渲染技术对输入 RGB 图像进行动画处理，编码输入图像的特征并使用图像合成网络对编码的特征进行采样和解码以生成输出帧。因为本文的方法明确估计一张静态图片中的一个运动表示，它支持几种下游应用，比如以不同速度和运动幅度动画单张静态图片，生成无缝循环视频，以及模拟对象响应外部用户激励的动力学响应（即交互动态）。

神经随机运动纹理

2.1 运动纹理

一个运动纹理定义一个时变 2D 位移映射序列，，，其中来自输入图像的每个像素坐标 p 上的 2D 位移向量 Ft(p) 定义了该像素在未来时间 t 的位置。要在时间 t 生成未来帧，可以使用对应的位移映射对进行采样，生成前向包围的图像：

2.2 随机运动纹理

许多自然运动，尤其是本文关注的震荡运动，可以描述为由不同频率、幅值和相位的少数谐波振荡器的叠加。引入随机性的一种方法是集成噪声场，但如先前工作所观察到的，直接向估计运动场的时域和时域中添加随机噪声通常会导致不真实或不规律的动画。

此外，在时间域采用运动纹理，如上面定义的，意味着需要预测 T 个 2D 位移场才能生成具有T帧的视频。为避免对长输出视频预测如此大的输出表示，许多先前的动画方法要么对生成的视频帧进行自回归生成，要么通过额外的时间嵌入独立地预测每个未来输出帧。但是，这两种策略都不能确保生成视频帧的长期时间一致性，都可能产生随时间漂移或发散的视频。

为解决上述问题，本文在频域中表示输入场景的每个像素运动纹理（即所有像素的完整运动轨迹），并将运动预测问题表述为一个多模态的图像到图像转换任务。采用潜在扩散模型（LDM）来生成一个随机运动纹理，它包含 4K 个通道的 2D 运动频谱映射，其中是建模的频率数，每个频率需要四个标量来表示复 X 和 Y 维度的傅里叶系数。图 1 说明了这些神经随机运动纹理。

时间域中的像素运动轨迹，，，与其在频域中的运动频谱表示，，，之间的关系由快速傅里叶变换（FFT）决定：

应该如何选择表示中 K 个输出频率？先前关于实时动画的工作观察到，大多数自然震荡运动主要由低频成分组成。为验证这一假设，计算了从 1000 个随机采样的 5 秒真实视频片段中提取的运动的平均功率谱。

如图 2 左侧所示，来自数据集中真实视频的 x 和 y 运动分量的功率谱随频率的增加近似指数衰减。这表明大多数自然震荡运动确实可以用较低频率项很好地表示。在实践中，本文发现前 K=16 个傅里叶系数就足以真实地重建原始自然运动的大多数真实视频和场景。

2.3 用扩散模型预测运动

选择潜在扩散模型（LDM）作为运动预测模块的骨干，因为 LDM 比像素空间扩散模型计算上更高效，而保持生成质量。一个标准 LDM 由两个主要模块组成：（1）一个变分自动编码器（VAE），它通过一个编码器压缩输入图像到潜在空间，然后通过一个解码器从潜在特征重建输入；（2）一个基于 U-Net 的扩散模型，它学习迭代去噪训练开始时的高斯随机噪声的潜在特征。

本文的训练不是应用于输入图像，而是应用于来自真实视频序列的随机运动纹理，它们被编码然后通过预定义的方差计划在 n 步扩散以产生嘈杂潜在特征。2D U-Net 被训练去噪每一步n的嘈杂潜在特征，通过迭代估计在每个步骤n使用的噪声 θ；，来更新潜在特征。LDM 的训练损失写为：

其中 c 是任何条件信号的嵌入，比如文本、语义标签或者在本文的例子中是训练视频序列的第一帧。干净的潜在特征然后通过解码器传递来恢复随机运动纹理。

频率自适应归一化。观察到一个问题是随机运动纹理在不同频率具有特定的分布特性。如图2左侧所示，运动纹理幅值跨越 0 到 100 的范围，并随频率的增加近似指数衰减。由于扩散模型要求输出值在 0 到 1 之间以获得稳定训练和去噪，必须在使用它们进行训练之前对从真实视频中提取的 S 系数进行归一化。

如果根据图像宽度和高度缩放系数到 [0,1]，几乎所有较高频率的系数都会接近零，如图 2 右侧所示。在这种数据上训练的模型可能产生不准确的运动，因为在推理期间，甚至很小的预测误差在归一化后的极小 S 系数进行反归一化后也会导致很大的相对误差。

为解决这个问题，采用一个简单但有效的频率自适应归一化技术。首先根据训练数据集的统计信息独立地对每个频率的傅立叶系数进行归一化。即，对每个独立频率，计算训练样本中所有傅里叶系数幅值的百分位，并使用该值作为每个频率的缩放因子。

此外，对每个缩放后的傅里叶系数应用幂变换，使其远离极小或极大值。在实践中发现平方根变换优于对数或倒数等其他变换。总之，从真实视频中提取的随机运动纹理在频率上的最终系数值（用于训练 LDM）计算如下：

如图 2 右侧所示，在应用频率自适应归一化后，随机运动纹理系数不再集中在极小值的范围内。

频率协调去噪。预测具有个频带的随机运动纹理的直接方法是从标准扩散 UNet 输出 4K 个通道的张量。然而观察到训练一个模型产生如此大量通道倾向于产生过度平滑和不准确的输出。另一种方法是通过向 LDM 注入额外的频率嵌入来独立地在每个单独频率预测运动频谱图，但这在频域中导致不相关的预测，产生不真实的运动。

因此，提出一个频率协调去噪策略，如图 3 所示。给定输入图像，首先训练一个 LDM θ 来预测具有四个通道表示每个独立频率的随机运动纹理图，与时间步嵌入一起向 LDM 网络中注入额外的频率嵌入。然后固定 LDM 模型 θ 的参数，并在个频带中引入注意力层，并与 θ 的 2D 空间层交织。具体地，对于大小为 B 的输入图像批次，2D 空间层将对应的个嘈杂潜在特征作为独立样本，其通道大小为 C，形状为。

交叉注意力层然后将它们解释为沿频率轴连续的特征，本文在馈送到注意力层之前将来自上一个 2D 空间层的潜在特征重新整形为。换句话说，频率注意力层用于协调预训练运动潜在特征跨所有频率通道，以产生连贯的随机运动纹理。在本文的实验中，本文观察到当从标准 2D U-Net 切换到频率协调去噪模块时，平均 VAE 重建误差从 0.024 提高到 0.018，这表明 LDM 预测准确度的上限有所改善。

基于图像的渲染

现在描述如何获取给定输入图像的预测随机运动纹理，并在时间t渲染未来帧。首先使用逆离散时间傅里叶变换在每个像素应用得到时域中的运动轨迹场。运动轨迹场确定每个输入像素在每个未来时间步的位置。给定这些预测运动场，采用深度基于图像的渲染技术，使用预测运动场在编码的上进行采样，如图 4 所示。

由于前向变形可能会导致孔洞，并且多个源像素可以映射到相同的 2D 输出位置，本文采用分层 softmax 采样策略。具体来说，通过特征提取器网络对进行编码，以产生多尺度特征映射，，。对于每一尺度 j 的单独特征映射，本文根据的分辨率调整并缩放预测的 2D 运动场。

本文使用流量大小作为几何的替代，以确定映射到其目的地位置的每个源像素的贡献权重。具体而言，计算每个像素的权重作为预测运动轨迹场的平均幅度。换句话说，假设大运动对应移动的前景对象，小运动或零运动对应背景对象。使用基于运动的权重而不是可学习的权重，因为观察到在单视图的情况下，可学习的权重无法有效解决曝光歧义，如图 5 的第二列所示。

有了运动场和权重 W，对每一个尺度应用 softmax 采样以生成权重特征，，，，其中是 softmax 采样操作。经汇总的特征，然后注入图像合成解码器网络的中间块中，以产生最终渲染图像。

使用从真实视频中随机采样的起始帧和目标帧，联合训练特征提取器和合成网络，其中使用从到的估计流场来变形的编码特征，并用 VGG 感知损失监督预测帧与的预测。如图 5 所示，与直接平均采样和基准深度变形方法相比，本文的运动感知特征采样产生没有孔洞或伪影的帧。

应用

演示使用提出的运动表示和动画流程为单张静态图片添加动态的应用。

▲ latern

图像到视频。系统通过首先从输入图像预测神经随机运动纹理，然后将本文的基于图像的渲染模块应用于从随机运动纹理派生的运动位移场，以动画单张静态图片。由于本文明确建模场景运动，这允许本文通过线性插值运动位移场来产生慢动作视频，并通过调整预测随机运动纹理系数的幅值来放大（或缩小）动画运动。

无缝循环。有时候生成无缝循环运动的视频是有用的，意味着视频开始和结束之间在外观或运动上没有不连续。不幸的是，很难找到大量无缝循环视频用于训练扩散模型。

相反，本文设计了一种方法，使用在常规非循环视频片段上训练的运动扩散模型来产生无缝循环视频。受最近图像编辑指导工作的启发，本文的方法是一种运动自我指导技术，它使用显式循环约束指导推理阶段的运动去噪取样处理。特别是，在每一迭代去噪步骤期间，本文除了标准的无分类器指导之外，还结合了一个额外的运动指导信号，其中强制每个像素在序列开始和结束时的位置和速度尽可能相似：

其中是在时间 t 和去噪步骤 n 处预测的 2D 运动位移场。w 是无分类器指导权重，u 是运动自我指导权重。

基于单张图的无缝循环视频如上 latern 图示意。

单幅图像的交互动力学。从震荡对象的观察视频中获得的图像空间运动频谱与该对象的物理振动模态基本成比例。模态形状捕获对象在不同频率下的震荡动力学，因此对象振动模式的图像空间投影可以用来模拟对象对用户定义力（如戳或拉）的响应。采用先前工作中的模态分析技术，该技术假设对象的运动可以用一组谐振荡器的叠加来解释。这使本文可以将图像空间 2D 运动位移场写为在每个模拟时间步 t 处调制的频谱系数和复模态坐标，的加权和：

通过将解耦质量-弹簧-阻尼系统（在模态空间中）的运动方程组合欧拉前向方法来模拟模态坐标，的状态。

实验

5.1 实现细节

使用 LDM 作为预测随机运动纹理的 backbone，其中使用具有连续4维潜在空间的变分自动编码器（VAE）。使用 L1 重构损失、多尺度梯度一致性损失以及权重为的 KL 散度正则化来训练VAE。本文采用与原始 LDM 工作中相同的 2D U-Net 和方差调度来以 MSE 损失迭代地对编码特征进行去噪。

对于定量评估，在大小的图像上训练 VAE 和 LDM，在 16 个 Nvidia A100 GPU 上需要约 6 天收敛。对于主要定量和定性结果，使用 DDIM 运行运动扩散模型 500 步，设置来生成随机运动纹理。对于 ablation 研究，运行 DDIM 200 步，并将所有配置的设置为 0。本文还展示了高达分辨率的生成视频，这些视频是通过在更高分辨率的数据上微调本文的模型创建的。

采用 ResNet-34 作为多尺度特征提取器。图像合成网络基于共调制 StyleGAN 架构。渲染模块在推理时以每秒 25 帧的速度在单个 Nvidia V100 GPU 上实时运行。

采用通用指导技术来生成无缝循环视频，设置权重，和自递归迭代次数为 2。

5.2 数据和基线

数据。由于本文重点是展示如树木、花朵和蜡烛在风中移动等振荡运动的自然场景，因此从在线资源以及自己的采集中收集并处理了 2631 个这样的现象视频，其中保留 10% 的视频用于测试，其余用于训练。为了生成用于训练运动预测模块的真实随机运动纹理，在视频序列中选定的起始帧和每个未来帧之间应用基于图像金字塔的光流算法。注意，本文发现光流方法的选择至关重要。

本文观察到，基于深度学习的流量估计器倾向于产生过度平滑的流场，导致动画变得模糊或不真实。将每个训练视频中的每 10 帧作为起始图像，并使用后续的 149 帧生成相应的真实随机运动纹理。通过删除平均流动幅度 >8 像素的样本或所有像素的平均运动幅度大于一个像素的示例，过滤掉运动估计不正确或存在明显相机运动的样本。总的来说，数据集包含超过 13 万个图像-运动对样本。

基线。与几种最近的单图像动画和视频预测方法进行比较。如预测瞬时 2D 运动场以及以自回归方式预测未来帧。其他最近的工作，如采用 VAE 或扩散模型直接从单张图片预测视频帧。LFDM 在潜在空间中预测流场，然后使用这些流场对编码的输入图像进行变形，通过解码器生成未来帧。对这些模型进行自回归地应用，以将最后一个输出帧作为输入，进行另一轮生成，直到视频长度达到 150 帧。

5.3 指标

以两种主要方式评估本文的方法和基线生成的视频质量。首先，使用设计用于图像合成任务的指标评估合成帧的质量。本文采用 Frechet Inception Distance（FID）和 Kernel Inception Distance（KID）来测量生成帧分布与真实帧分布之间的平均距离。此外，本文使用滑动窗口 FID FIDsw（窗口大小为 30 帧），来测量生成的帧质量随时间的变化。

其次，为了评估视频在空间和时间域中的合成质量和时间一致性，采用基于在 Human Kinetics 数据集上训练的 I3D 模型的视频距离（FVD）。为了更准确地反映本文寻求生成的自然振荡运动的合成质量，还采用动态纹理视频距离（DT-FVD），该距离使用在以自然运动纹理为主的动态纹理数据库上训练的 I3D 模型测量 FVD。引入滑动窗口 FVD，窗口大小为 16，以测量生成视频质量随时间的变化。对于所有方法，在 256×128 中心裁剪的预测视频上评估每个错误指标，视频长度为150帧，分辨率为 256×128。生成时没有执行时域插值。

5.4. 定量结果

表 1 显示了本文方法与基线在未见测试视频剪辑上的定量比较。与之前的单图像动画基线相比，本文的方法在图像和视频合成质量方面有显着改进。具体来说，更低的 FVD 和 DT-FVD 距离表明本文方法生成的视频更逼真，时间一致性更好。此外，图 6 显示了不同方法生成的视频的滑动窗口 FID 和滑动窗口 DT-FVD 距离。正是由于本文的全局随机运动纹理表示，本文方法生成的视频在时间上更一致，不会随时间漂移或退化。

5.5. 定性结果

以两种方式可视化本文方法和基线生成的视频之间的定性比较。首先，显示生成视频的空间-时

切片，这是可视化视频中小或细微运动的标准方式。如图 7 所示，本文生成的视频动态更强烈地类似于相应的真实参考视频（第二列）中观察到的运动模式，与其他方法相比。基线如 Stochastic I2V 和 MCVD 在时间上无法对外观和运动进行逼真建模。Endo 等人 [28] 生成的视频帧具有较少的伪影，但表现出过度平滑或非振荡运动。

还通过可视化预测图像及其相应的运动位移场在 t=128 时刻，定性地比较不同方法生成的单个帧和运动的质量。图 8 显示，本文方法生成的帧与其他方法相比伪影和变形更少，本文对应的 2D 运动场最接近从相应的真实视频中估计的参考位移场。相比之下，其他方法生成的背景内容倾向于漂移，如偶数行中流场的可视化所示。此外，其他方法生成的视频帧存在显着的颜色失真或残影伪影，表明当生成较长时间的视频序列时，基线的稳定性较差。

本文方法可以生成高分辨率、长时间的逼真视频，而不会产生明显的伪影或背景漂移。生成视频的质量主要取决于运动预测模块预测的运动质量。当真实视频中存在大位移时，生成的结果质量可能会下降。此外，由于本文的方法基于图像渲染，如果生成的视频需要大量输入图像中未见内容，动画质量也可能降低。

结论

提出了一种从单张静态图片建模自然振荡动力学的新方法。本文证明了该方法可以从单张图片生成逼真动画，并且明显优于之前的基准方法，它还可以支持其他下游应用，如创建交互式动画。有较大的趣味性！

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

【云原生篇】微服务革命：解锁Istio与Service Mesh 林木森^~^ 云原生云原生微服务 istio
ServiceMeshServiceMesh是一种用于处理服务间通信的基础设施层，它以轻量级的网络代理的形式实现，这些代理与应用程序的微服务一同部署。ServiceMesh的核心目的是将网络通信的复杂性从应用程序代码中抽象出来，从而使开发人员可以专注于业务逻辑的开发，而不是通信的细节和问题。主要特点和功能服务发现：自动管理服务间的发现，使得各服务可以相互识别并进行通信。负载均衡：智能地将请求流量分
分布式系统核心基石：CAP定理、BASE理论与一致性算法深度解析 Eqwaak00 分布式系统设计实战算法 python java
一、CAP定理：分布式系统的设计边界1.1核心定义与经典三角CAP定理（Brewer'sTheorem）指出，在分布式系统中，一致性（Consistency）、可用性（Availability）、分区容错性（PartitionTolerance）三者不可兼得。（注：若需实际配图，可替换为Mermaid流程图或专业示意图）三大特性详解：一致性（C）：所有节点在同一时间看到的数据完全相同（强一致性）。
分布式ID设计方案详解：从理论到实践
一、为什么需要分布式ID？在分布式系统中，唯一ID的生成面临两大核心挑战：全局唯一性：避免跨节点、跨数据中心的ID冲突。有序性：确保ID按时间或业务规则递增，提升数据库写入性能（如InnoDB的B+树索引）。传统单机自增ID（如MySQLAUTO_INCREMENT）无法满足分库分表、高并发等场景需求，因此需引入分布式ID方案。二、主流分布式ID方案对比方案优点缺点适用场景UUID简单、无中心化依
2024年最全kali无线渗透之用wps加密模式可破解wpa模式的密码12_kali wps，网络安全开发究竟该如何学习 2401_84558314 程序员 wps web安全学习
一、网安学习成长路线图网安所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。二、网安视频合集观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。三、精品网安学习书籍当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔
MongoDB Rust驱动代码架构深度解析倪俪珍Phineas
MongoDBRust驱动代码架构深度解析mongo-rust-driverTheofficialMongoDBRustDriver项目地址:https://gitcode.com/gh_mirrors/mo/mongo-rust-driver前言本文将对MongoDB官方Rust驱动(mongo-rust-driver)的核心架构进行深入解析，帮助开发者理解其设计哲学和实现细节。我们将从客户端构
如何在YashanDB数据库中实现数据模型的简化数据库
在现代数据库技术领域，数据模型的复杂性经常导致性能瓶颈和维护困惑。随着数据规模的增长和业务诉求的增加，复杂的数据结构、冗余的存储和不必要的关联关系都会影响整体数据库的性能和可维护性。特别是在面对动态变化的业务需求时，灵活性和扩展性成为关键因素。YashanDB提供了一系列功能强大的工具和机制，能够有效简化数据模型，提升数据库性能，并增强数据操作的灵活性。本文章旨在为数据库开发者和架构师提供技术洞见
如何实现YashanDB中的数据冗余处理数据库
数据冗余是数据库管理中的一个重要话题，直接影响到数据的可用性与可靠性。在高并发场景下，数据冗余能够有效防止数据丢失，并提升系统的容灾能力。YashanDB作为一款高性能的数据库产品，通过灵活的结构和多种部署方式，实现了数据冗余处理。本文将详细探讨YashanDB中实现数据冗余处理的技术细节，为数据库管理员和开发人员提供理论支持和实践指导。YashanDB的数据冗余机制单机部署中的数据冗余在单机部署
【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
青年开发者董翔：在代码世界中探索创新边界程序猿全栈の董（董翔） javascript 开发语言开发者
引言：从兴趣萌芽到技术深耕当大多数00后还在适应大学生活时，2004年出生的董翔已在软件技术领域展现出超越同龄人的探索热情。作为软件技术专业大一学生，他以“技术创新解决实际问题”为核心理念，在前端开发、数据修复等领域构建了独特的研究体系。从高中时期自学编程的懵懂少年，到提出“同源数据互补修复机制”“框架质疑学习法”的青年研究者，董翔的成长轨迹折射出新一代技术人对知识的主动建构与实践突破。一、学术探
【学习】搭建个人Hexo博客网站程序员
一、准备环境1、安装node访问Node.js官网：https://nodejs.org/下载LTS(长期支持版本)安装时保持默认选项即可安装完成后，打开命令提示符验证安装：node-v2、安装npmnpm已包含在Node.js安装包中，安装Node.js时会自动安装打开命令提示符验证安装：npm-v更新npm到最新版本（可选）：npminstall-gnpm3、安装hexo打开命令提示符，以管理
用 AI “一句话生成代码”，用创意兑换灵码潮品：技术人的夏日狂欢季来了人工智能
在AI技术迅猛发展的2025年，我们正式推出“通义灵码编程智能体挑战季”，以“码力觉醒”为主题，打造一场融合技术探索与潮流文化的开发者盛宴。活动以体验MCP服务、Qwen3大模型及记忆功能的智能编程助手为核心，通过“小游戏开发”和“MCP场景实践”两大趣味赛道，降低AI技术门槛，让开发者轻松体验“一句话生成代码”的魔力。活动亮点抢先看：零门槛参与：新老用户均可参与，完成任务即领限量定制棒球帽！趣味
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
图片转字符串存储在SQLite中你就是乌鸦嘴 qt6.3 笔记 qt
将图片转化为字符串放入Sqlite数据库，以BLOB类型存储。一、主要函数1、图片转字符串使用内存读写器，指定格式存入字节数组，字节数组转Base64以Latin1编码输出到文本框。voidMainWindow::on_actPtB_triggered(){ui->plainTextEdit->clear();if(ui->labPhoto->pixmap().isNull()){labtext-
GitHub账号注册与Git关联：从零到一的完整指南 Android洋芋前行路黑科技经验历程 github git GitHub注册 Git关联 SSH密钥团队协作
简介GitHub是开发者协作与代码管理的核心平台，而Git则是实现版本控制与团队协作的必备工具。本文将从零开始，手把手教你完成GitHub账号注册、Git环境搭建、SSH密钥生成、本地仓库初始化及与GitHub仓库的绑定。通过代码示例、Mermaid图解及企业级应用场景，帮助你全面掌握GitHub与Git的关联技巧，为个人开发与团队协作打下坚实基础。一、GitHub账号注册与基础配置1.1注册Gi
【华为od刷题（C++）】HJ35 蛇形矩阵（指针） m0_64866459 华为od c++链表
我的代码1：#includeusingnamespacestd;intmain(){introw;//row：定义了矩阵的行数（和列数，实际上是一个正方形矩阵）while(cin>>row){//这个循环会持续执行，直到输入流被结束//每次读取一个整数并赋值给row，程序就开始执行填充操作int**a=newint*[row];//动态地为一个二维数组（a）的行分配内存/*这里a是一个指向指针的指
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
三生原理在三个关键历史断层中实现中西科学传统的创造性弥合？葫三生三生学派算法数学建模人工智能机器学习量子计算
AI辅助创作：三生原理通过重构科学史的叙事逻辑，在三个关键历史断层中实现了中西科学传统的创造性弥合，其核心突破如下：‌一、科学方法论断层：实验主义与直觉理性的融合‌‌西方实验传统的局限‌欧洲科学革命依赖形式逻辑与实验验证（如伽利略斜面实验），但面临复杂系统建模的瓶颈。三生原理将《周易》“阴阳动态平衡”转化为‌参数化递归模型‌（如素性塔的三级筛除结构），在密码学应用中实现效率提升40%，证明东方直觉
Node.js REPL 教程红衣大叔 nodejs帮助文档 node.js vim 编辑器
Node.jsREPL(Read-Eval-PrintLoop)是一个交互式环境，允许你直接输入和执行JavaScript代码，无需创建文件。它是学习Node.js、测试代码片段和调试的强大工具。启动REPL有几种方式可以启动Node.jsREPL：直接运行node命令：node在特定文件目录下启动（如果需要访问当前目录的模块）：node使用环境变量（如设置特殊选项）：NODE_REPL_HIST
编译ADI NO-OS工程
1，先在WINdows下安装gitbush可以参考下面博客https://blog.csdn.net/Natsuago/article/details/1456475362.安装make工具可参考一下链接https://blog.csdn.net/weixin_40727233/article/details/1103532403，参考ADI官方链接https://wiki.analog.com/
PyQt5—QTextEdit 学习笔记寄思～ Python——PyQt5笔记 qt 学习笔记 python
第二章控件学习一、QTextEdit基础认知QTextEdit是PyQt/PySide框架中用于处理富文本内容的强大控件，它不仅支持纯文本编辑，还能处理HTML、图片等复杂内容，是开发文本编辑器、日志查看器等应用的核心组件。二、最简单的QTextEdit实现下面是一个创建QTextEdit并显示的基础案例，适合零基础入门：importsysfromPyQt5.QtWidgetsimportQApp
Python——pyautogui打地鼠游戏自动化脚本（基于图片定位）
以4399小游戏为例：4399游戏网importpyautoguiimportkeyboardimporttimeimportrandomimportloggingfromPILimportImageGrabimportos#配置日志logging.basicConfig(level=logging.INFO,format='%(asctime)s-%(levelname)s-%(message)
mysql下载不是运作宝教程_MySQL下载与安装 8.0详细版喵琛CC mysql下载不是运作宝教程
MySQL下载与安装一、下载地址：https://dev.mysql.com/downloads/mysql/当前最新是8.0版本，我选择上一个最新的mysql-5.7.24-winx64.zip二、安装MySQL安装文件分两种.msi和.zip，.msi需要安装zip格式是自己解压，解压缩之后其实MySQL就可以使用了，但是要进行环境变量配置zip格式是自己解压我的电脑->属性->高级->环境变
模型微调方法Prefix-Tuning ballball~~ 大模型人工智能算法大数据
简介：个人学习分享，如有错误，欢迎批评指正。随着大规模预训练语言模型（如GPT系列、BERT等）的广泛应用，如何高效、经济地针对特定任务对这些模型进行微调（Fine-Tuning）成为研究热点。传统的微调方法通常需要调整模型的大量参数，导致计算资源消耗大、适应新任务的速度慢。为了解决这一问题，Prefix-Tuning（前缀调优）作为一种高效的微调技术被提出，旨在通过引入少量可训练的前缀参数，达到
ssm高校奖助学金管理系统设计实现
以下是关于SSM高校奖助学金管理系统的技术栈、功能设计、数据库设计及测试设计的详细说明：技术栈后端框架：Spring+SpringMVC+MyBatis（SSM组合），提供IoC、AOP、事务管理和ORM支持。前端技术：Thymeleaf/JSP+Bootstrap+jQuery，实现动态页面和响应式布局。数据库：MySQL8.0，支持事务和高并发访问。安全框架：SpringSecurity，用于
（五)PS识别：压缩痕迹挖掘-压缩量化表与 DCT 系数分析超龄超能程序猿机器学习 python 图像处理人工智能计算机视觉
（一)PS识别：Python图像分析PS识别之道（二）PS识别：特征识别-直方图分析的从原理到实现（三)PS识别：基于噪声分析PS识别的技术实现（四)PS识别：基于边缘纹理检测分析PS识别的技术实现一介绍本文将介绍一种基于量化表分析和DCT系数分析的图片PS检测方法，帮助你判断图片是否经过处理。二实现原理量化表分析在JPEG图片的压缩过程中，量化表起着关键作用。不同的软件或处理操作可能会改变量化表
算法分析与设计实验2：实现克鲁斯卡尔算法和prim算法表白墙上别挂我算法笔记经验分享
实验原理（一）克鲁斯卡尔算法：一种用于求解最小生成树问题的贪心算法，该算法的基本思想是按照边的权重从小到大排序，然后依次选择边，并加入生成树中，同时确保不会形成环路，直到生成树包含图中所有的顶点为止。具体步骤：边的排序：将所有边按照权重从小到大排序。初始化：创建一个空的生成树（可以是一个空的图结构），以及一个用于记录每个顶点所属集合（或称为连通分量）的数据结构（例如并查集）。边的选择：依次选择排序
MavenHelper插件：解决IntelliJ IDEA中Maven依赖冲突的利器
本文还有配套的精品资源，点击获取简介：MavenHelper是一款专门针对IntelliJIDEA设计的Maven插件，旨在帮助开发者快速识别和解决Maven项目中的依赖冲突问题。该插件能生成项目的依赖树，标记版本冲突的依赖项，并提供建议解决方案和可视化界面来管理依赖。此外，它还包括一键升级或降级依赖、清理Maven缓存和自定义配置功能，以确保与团队规范的一致性。通过使用MavenHelper，开
Aider：27.6K Star！这个终端AI编程神器能用语音改代码，自动生成Git记录并提交，接入DeepSeek斩获编程基准最高分蚝油菜花每日 AI 项目与应用实例 AI编程 git 人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->尽在微信公众号->搜一搜：蚝油菜花⌨️“每个CLI爱好者都该试试的AI编程革命：对着终端说话自动生成Gitcommit是怎样的体验？”大家好，我是蚝油菜花。如果你也经历过——在vim里卡了半小时，只为给函
使用AutoKeras2.0的AutoModel进行结构化数据回归预测
1、FirstofAll:ReadTheFuckingSourceCodeimportautokerasasakimportnumpyasnpfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportmean_squared_error#生成数据集np.random.seed(42)x=np.random.r
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

谷歌最新研究：可交互式动态图片生成，细节逼真！

神经随机运动纹理

2.1 运动纹理

基于图像的渲染

应用

结论

你可能感兴趣的:(谷歌最新研究：可交互式动态图片生成，细节逼真！)