小闫奋斗史

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

Stable video diffusion：将潜在视频扩散模型扩展到大型数据集

可以做到：文本-视频的生成、（文本-）图像-视频的生成、通过图像-视频微调进行多视图合成

摘要

我们提出了Stable video diffusion——一种用于高分辨率、最先进的文本-视频和图像-视频生成的潜在视频扩散模型。最近，通过插入时间层并在小型高质量视频数据集上对其进行微调，用于 2D 图像合成训练的潜在扩散模型已转变为生成视频模型。然而，文献中的训练方法差异很大，该领域尚未就视频数据的统一策略达成一致。在本文中，我们确定并评估了视频 LDM 成功训练的三个不同阶段：文本到图像预训练、视频预训练和高质量视频微调。此外，我们证明了精心策划的预训练数据集对于生成高质量视频的必要性，并提出了系统的策划流程来训练强大的基础模型，包括字幕和过滤策略。然后，我们探索微调基本模型对高质量数据的影响，并训练文本到视频模型。我们还表明，我们的基本模型为下游任务提供了强大的运动表示，例如图像到视频的生成以及对相机运动特定 LoRA 模块的适应性。最后，我们证明我们的模型提供了强大的多视图 3D 先验，并且可以作为微调多视图扩散模型的基础，该模型以前馈方式联合生成对象的多个视图，在计算成本上性能优于基于图像的方法的一小部分。

SVD的三个训练阶段：

1、文本-图像的预训练

2、在低分辨率大数据集上的视频预训练

3、在具有更高分辨率的小数据集上进行高分辨率视频微调

SVD可以实现文本-视频、（文本-）图像-视频生成、通过图像-视频微调进行多视图合成

本文十分重视数据选择

引言

在扩散模型生成图像建模 [36,64,67,72] 进步的推动下，生成视频模型在研究 [8,40,78,91] 和实际应用中都取得了重大进展。一般来说，这些模型要么从头开始训练[39]，要么从插入额外时间层的预训练图像模型进行微调（部分或完全）[8,30,41,78]。训练通常在图像和视频数据集的混合上进行。

虽然围绕视频建模改进的研究主要集中在空间和时间层的精确排列上[8,39,41,78]，但上述工作都没有调查数据选择的影响。但训练数据分布对生成模型的显着影响是无可争议的。此外，对于生成图像建模，众所周知，对大型且多样化的数据集进行预训练以及对较小但质量较高的数据集进行微调可以显着提高性能 [12, 67]。由于以前的许多视频建模方法已经成功地借鉴了图像领域的技术[8,40,41]，因此值得注意的是数据和训练策略的影响，即将较低分辨率预训练和高质量视频的微调作为两部分进行分离，这还有待研究。这项工作直接涉及这些以前未知的领域。

我们认为，尽管数据选择在大规模训练视频模型时得到了从业者的广泛认可，但在当今的视频研究领域中，数据选择的重大贡献却被严重低估。因此，与之前的工作相比，我们利用简单的潜在视频扩散基线[8]，为此我们修复了架构和训练方案并评估了数据管理的效果。为此，我们首先确定了三个不同的视频训练阶段，我们发现这三个阶段对于良好的性能至关重要：文本到图像预训练、低分辨率大数据集上的视频预训练以及在具有更高分辨率的小得多的优质视频数据集上进行高分辨率视频微调。（同时还精心准备了数据集）借鉴大规模图像模型训练[12,60,62]，我们引入了一种大规模管理视频数据的系统方法，并对视频预训练期间数据管理的效果进行了实证研究。我们的主要发现表明，对精心策划的数据集进行预训练可以带来显着的性能改进，并且在高质量微调后这种改进仍然持续存在。

A general motion and multi-view prior 根据这些发现，我们将提出的管理方案应用于包含大约 6 亿个样本的大型视频数据集，并训练一个强大的预训练文本到视频基础模型，该模型提供general运动表示。我们利用这一点，并在较小的高质量数据集上微调基本模型，以实现高分辨率下游任务，例如文本到视频（参见图 1，顶行）和图像到视频。

此外，我们还证明我们的模型提供了强大的多视图先验，并且可以作为微调多视图扩散模型的基础，该模型以前馈方式生成对象的多个一致视图，并且优于专门的新颖视图合成方法，例如Zero123XL 和 SyncDreamer。同时，我们的模型可以做显示的运动控制，具体通过了使用运动线索去提示时间层，并且通过仅在类似于特定运动的数据集上训练 LoRA 模块，这些数据集可以有效地插入到模型中。

总而言之，我们的核心贡献有三个：

（i）我们提出了一个系统的数据管理工作流程，将大量未经管理的视频集合转变为用于生成视频建模的高质量数据集。

(ii) 训练最先进的文本到视频和图像到视频模型，其性能优于所有现有模型。

(iii) 通过进行特定领域的实验来探索我们模型中运动和 3D 理解的强先验。具体来说，我们提供的证据表明，预训练的视频扩散模型可以转变为强大的多视图生成器，这可能有助于克服 3D 领域中通常观察到的数据稀缺问题。

背景

最近的视频生成工作依赖于扩散模型从文本或图像调节中联合合成多个一致的帧。扩散模型通过学习逐渐对正态分布的样本进行去噪来实现迭代细化过程，并已成功应用于高分辨率文本到图像和视频合成。

在这项工作中，我们遵循这个范例并在我们的视频数据集上训练潜在视频扩散模型。在这项工作中，我们遵循这个范例并在我们的视频数据集上训练潜在视频扩散模型。我们在下面的段落中简要概述了利用潜在视频扩散模型（Video-LDM）的相关工作。关于GANS和自回归方法的讨论在附录B。

潜在视频扩散模型

Video-LDM 在计算复杂度降低的潜在空间中训练主要生成模型。与仅训练时间层或完全不训练的工作相比，本文微调了整个模型。特别是对于文本到视频的合成，大多数工作直接在文本提示上调节模型或使用额外的文本到图像先验。

在我们的工作中，我们遵循前一种方法，并表明所得模型是强大的一般运动先验，可以轻松地微调为图像到视频或多视图合成模型（也就是说预训练的模型可以很好的进行微调）。此外，我们还引入了对帧速率的微调节。我们还采用 EDM 框架，并将噪声表显着转向更高的噪声值，我们发现这对于高分辨率微调至关重要。

数据管理

在大规模数据集上进行预训练是区分文本图像和语言建模等多项任务中强大模型的重要组成部分。通过利用高效的语言-图像表示（例如 CLIP），数据管理同样已成功应用于生成图像建模。然而，视频生成文献中很大程度上缺少对此类数据管理策略的讨论[39,41,78,90]，并且以临时方式引入了处理和过滤策略。在可公开访问的视频数据集中，WebVid-10M [6] 数据集一直是一个流行的选择 [8, 78, 110]，尽管带有水印且大小不理想。此外，WebVid-10M 通常与图像数据结合使用[76]，以实现联合图像视频训练。然而，这加大了分离图像和视频数据对最终模型的影响的难度。为了解决这些缺点，这项工作对视频数据管理方法进行了系统研究，并进一步介绍了生成视频模型的通用三阶段训练策略，产生了最先进的模型。

为HQ视频合成整理数据

在本节中，我们介绍了在大型视频数据集上训练最先进的视频扩散模型的一般策略。为此，我们（i）介绍了数据处理和管理方法，为此我们在第 3.3 节和第 3.4 节中系统地分析了对最终模型质量的影响，以及（ii）确定了生成视频建模的三种不同的训练方案。特别是，这些方案包括：

第一阶段：图像预训练，即二维文本到图像的扩散模型

第二阶段：视频预训练，对大量视频进行训练

第三阶段：视频微调，在一小部分高分辨率的高质量视频上完善模型。

我们在 3.2 至 3.4 节中分别研究了每种方案的重要性。

数据处理和标注

我们收集长视频的初始数据集，它构成了视频预训练阶段的基础数据。为了避免剪切和淡入淡出泄漏到合成视频中，我们在三个不同的 FPS 级别以级联方式应用剪切检测pipeline。图2（左）为处理前后每个视频的平均剪辑数，表明我们的检测到大量额外剪辑。

接下来，我们使用三种不同的合成字幕方法来注释每个剪辑：首先，我们使用图像字幕器 CoCa 注释每个剪辑的中帧，并使用 V-BLIP 获得基于视频的字幕。最后，我们通过前两个字幕的基于 LLM 的摘要生成剪辑的第三个描述。

由此产生的初始数据集，我们将其称为大型视频数据集 (LVD)，由 5.8 亿个带注释的视频剪辑对组成，形成了 212 年的内容。（本文构建了一个名为LVD的大型视频数据集）

然而，进一步的调查表明，生成的数据集包含可能会降低最终视频模型性能的示例，例如运动较少的剪辑、过多的文本存在或普遍较低的审美价值。因此，我们另外用密集光流 [22, 46] 注释我们的数据集，我们以 2 FPS 进行计算，并通过删除平均光流幅度低于特定阈值的任何视频来过滤静态场景。事实上，当通过光流分数考虑 LVD 的运动分布（见图 2，右）时，我们识别出其中接近静态剪辑的子集。

此外，我们应用光学字符识别 [4] 来清除包含大量书面文本的剪辑。最后，我们使用 CLIP [62] 嵌入来注释每个剪辑的第一帧、中间帧和最后一帧，从中计算美学分数 [76] 以及文本图像相似度。表1中提供了我们数据集的统计数据，包括剪辑的总大小和平均持续时间。

总结：

1、剪辑检测和运动注释非常重要，可以保证时间质量。

2、训练生成文本-视频模型的另一个关键要素是字幕。最好每个视频有多个字幕，并且与视频内容保持良好的一致。

3、训练示例的质量要高

为了确保时间质量，我们在download后立即使用级联方法检测剪辑，相应地剪辑视频并估计每个生成的视频剪辑的光流。之后，我们对每个剪辑应用三个合成字幕，并进一步提取与所有这些文本提示的帧级 CLIP 相似性，以便能够过滤掉外层。最后，使用基于 CLIP 嵌入的aesthetics评分来评估帧级别的视觉质量。

对于字幕的生成，我们观察到 CoCa 通常可以捕获良好的空间细节，而 VBLIP 则倾向于捕获时间细节。我们使用LLM将这两者结合起来，并对所有三种类型的合成字幕进行实验。

阶段一：图片预训练

本文在stable diffusion的基础上构建初始模型，使其可以有强大的视觉表征。在有预训练的空间权重的模型和没有预训练的空间权重的模型上进行预训练，来分析图像预训练的效果（附录D）。并且使用人类偏好比较了模型（附录E），如图3a所示。结果表明图片预训练模型确实很重要。

阶段二：整理视频预训练数据集

视频数据管理的系统方法

对于多模态图像建模，数据管理是许多强大的判别型和生成型模型的关键要素。然而，由于视频领域中没有同样强大的现成表示可用于过滤掉不需要的示例，因此我们依靠人类偏好作为信号来创建合适的预训练数据集。具体来说，我们使用下面描述的不同方法来策划 LVD 子集，然后考虑在这些数据集上训练的潜在视频扩散模型的基于人类偏好的排名。

LVD-F为最终的预训练数据集。

精心策划的训练数据可提高性能

图3b为结果

LVD-10M-F是比LVD-10M小四倍的数据集。经过管理的数据集要比没经过管理的数据集效果更好。

为了进一步展示我们的管理方法的有效性，我们将在 LVD-10M-F 上训练的模型与在 WebVid-10M [6]（最受认可的研究许可数据集）和 InternVid-10M [96] 上训练的类似视频模型进行比较。尽管 LVD-10M-F 也比这些数据集小四倍，但在时空质量和提示对齐方面，人类评估者更喜欢相应的模型，如图 4b 所示。

数据管理有助于规模化

数据管理的优势也随着大量数据而发挥作用。（图4c）

对精选数据进行训练时，数据集大小也是一个关键因素，其中在 50M 精选样本上训练的模型优于在 LVD-10M-F 上训练相同步数的模型。（图4d）

阶段三：高质量的微调

在上一节中，我们演示了系统数据管理对视频预训练的有益影响。然而，由于我们主要感兴趣的是优化视频微调后的性能，因此我们现在研究阶段 II 后的这些差异如何转化为阶段 III 后的最终性能。在这里，我们借鉴了潜在扩散建模 [12, 60] 的训练技术，并提高了训练示例的分辨率。此外，我们使用一个小型微调数据集，其中包含 25 万个高视觉保真度的预字幕视频剪辑。

为了分析视频预训练对最后阶段的影响，我们对三个相同的模型进行了微调，这些模型仅在初始化方面有所不同。我们用预训练的图像模型初始化第一个权重，并跳过视频预训练。其余两个模型使用上一节中的潜在视频模型的权重进行初始化，特别是在 50M 精选和非精选视频剪辑上训练的模型。结果如图4e。从策划的预训练权重恢复的微调排名始终高于从未经策划的训练后的视频权重初始化的微调。

结论：

1、将视频预训练和视频的微调训练分开可以提高最终的模型性能；

2、在大规模、精心策划的数据集上进行视频预训练效果更好。

大规模训练视频模型

预训练基础模型

我们的视频模型基于stable diffusion 2.1 [67] (SD 2.1)。最近的工作表明，在训练图像扩散模型时采用噪声调度至关重要，转向更高分辨率图像的更多噪声。第一步，我们使用 Karras 等人提出的网络预处理将图像模型中的固定离散噪声表微调为连续噪声，Karras方法的图像大小为256*384。插入时间层后，我们在 LVD-F 上以 256 × 384 的分辨率在 14 帧上训练模型。我们使用标准 EDM 噪声调度 [48] 进行 150k 次迭代和批量大小 1536。接下来，我们对模型进行微调，使用批量大小 768 进行 100k 次迭代，生成 14320 × 576 帧。我们发现，在此训练阶段将噪声计划转向更多噪声非常重要（训练细节在附录D）。

高分辨率文本-视频模型

我们在约 100 万个样本的高质量视频数据集上对基本文本到视频模型进行了微调。数据集中的样本通常包含大量的物体运动、稳定的相机运动和对齐良好的字幕，并且总体上具有很高的视觉质量。我们使用批量大小 768 在分辨率 576 × 1024 下对基本模型进行 50k 次迭代微调（再次将噪声调度转向更多噪声）。

高分辨率图片-视频模型

除了文本-视频之外，我们还对图像-视频生成的基本模型进行了微调，其中视频模型接收静态输入图像作为条件。因此，我们将输入基础模型的文本嵌入替换为条件的 CLIP 图像嵌入。此外，我们将调节帧通道的噪声增强 [37] 版本连接到 UNet [69] 的输入。我们不使用任何mask技术，只是在时间轴上复制帧。我们微调两个模型，一个预测 14 帧，另一个预测 25 帧。

帧插值

为了以高帧速率获得流畅的视频，我们将高分辨率文本到视频模型微调为帧插值模型。通过掩码将左右帧连接到UNet的输入。该模型学习预测两个调节帧内的三个帧，从而有效地将帧速率提高了四倍。

多视图生成

为了同时获得对象的多个新视图，我们在多视图数据集上微调图像到视频 SVD 模型。

数据集

Objaverse数据集和MVImgNet数据集

模型

SD2.1-MV是具有图片先验的，Scratch-MV没有先验，SVD-MV是经过finetune的。

我们使用 8 个 80GB A100 GPU 训练所有模型 12k 步骤（∼16 小时），总批量大小为 16，学习率为 1e-5。

总结

我们提出了稳定视频扩散（SVD），这是一种用于高分辨率、最先进的文本到视频和图像到视频合成的潜在视频扩散模型。为了构建其预训练数据集，我们进行了系统的数据选择和扩展研究，并提出了一种方法来整理大量视频数据，并将大型且嘈杂的视频集合转变为适合生成视频模型的数据集。此外，我们介绍了视频模型训练的三个不同阶段，我们分别对其进行分析，以评估它们对最终模型性能的影响。稳定视频扩散提供了强大的视频表示，我们可以从中微调视频模型，以实现最先进的图像到视频合成和其他高度相关的应用，例如用于摄像机控制的 LoRA。最后，我们提供了关于视频扩散模型的多视图微调的开创性研究，并表明 SVD 构成了强大的 3D 先验，它在多视图合成中获得了最先进的结果，同时仅使用了先前方法的一小部分计算量。

局限

1、长视频的合成：虽然潜在方法提供了效率优势，但一次生成多个关键帧在训练和推理过程中都非常昂贵，未来长视频合成的工作应该尝试级联非常粗略的帧生成，或者构建专用的tokenizers视频生成。

2、生成的视频有时会遇到生成的运动太少的问题

3、视频扩散模型通常采样速度较慢且对 VRAM 要求较高，扩散蒸馏方法是快速合成的有希望的候选方法。

Paddle进阶实战系列（三）：基于SVTR算法的手写英文单词识别 GoAI 深入浅出OCR 深入浅出AI 计算机视觉 OCR paddle 深度学习人工智能
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️链接加群。专栏推荐：➡️
自动驾驶系列—深度剖析自动驾驶芯片SoC架构：选型指南与应用实战学步_技术自动驾驶自动驾驶架构人工智能 SoC 芯片
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
开源模型应用落地-DeepSeek-R1-Distill-Qwen-7B与vllm实现推理加速的正确姿势（一）开源技术探险家开源模型-实际应用落地 #人工智能自然语言处理语言模型深度学习
一、前言在当今人工智能技术迅猛发展的时代，各类人工智能模型如雨后春笋般不断涌现，其性能的优劣直接影响着应用的广度与深度。从自然语言处理到计算机视觉，从智能安防到医疗诊断，AI模型广泛应用于各个领域，人们对其准确性、稳定性和高效性的期望也与日俱增。在此背景下，DeepSeek模型的出现为行业带来了新的曙光。DeepSeek团队开发的DeepSeek-R1-Distill-Qwen-7B模型，利用蒸馏
Diffusion--人工智能领域的革命性技术油泼辣子多加专业名词解释人工智能
在人工智能领域，“diffusion”一词通常指的是“扩散模型”（DiffusionModels），其全称为“DenoisingDiffusionProbabilisticModels”（DDPMs）。扩散模型是一类生成式模型，它通过逐步去噪的方式，从随机噪声中生成高质量的数据，近年来在图像、音频、视频等多个领域取得了显著进展。1.发展历史扩散模型的概念源于物理学中的扩散过程，即粒子在介质中的随机
探索2025年的编程新趋势：技术、工具与未来展望桂月二二 wasm 人工智能前端
随着2025年的到来，编程技术领域依旧在高速发展。一些新兴的技术方向、工具和方法正在悄然改变开发者的日常实践。如果您是一名开发者，无论是资深还是初入门道，跟上这些趋势将让您的技能保持前沿，并为职业发展打下坚实基础。本文将从多个维度深入探讨当前最值得关注的编程技术，希望为您的技术提升带来启发。一、AI驱动的编程辅助工具人工智能已成为程序开发的重要组成部分。以下是几款2025年值得关注的AI驱动编程工
基于Hexo的主题Fluid搭建Github博客 qq742234984 计算机 github git npm node.js hexo
公众号：数学建模与人工智能基于Hexo的主题Fluid搭建Github博客一、Github配置1.安装Git2.部署本地Git与Github连接（SSH）二、node.js安装和环境配置1.安装node.js2.查看安装是否成功（版本号）3.配置环境变量三、下载Hexo并配置fluid主题1.下载Hexo2.配置fluid主题1.安装fluid2.配置fluid3.更新部署博客页面4.部署到git
【自我修炼】大疆技术总监对于大学生学习机器人工程师路线建议 ( 大一篇) 2401_89323952 学习机器人
很多朋友私信问我对机器人和人工智能感兴趣，该怎么展开学习。最近稍微有点空，我写写我的看法。两年前，我在知乎回答如何定义「机器人」？YY硕的回答中试图给机器人做出一个比较仔细的定义，我觉得机器人和人工智能最大的区别在于是否要和物理世界进行交互。今年初在另一篇知乎回答里对机器人或人工智能的研究会帮助我们更好的了解人类自己吗？-YY硕的回答我说到传感器是和物理世界交互的基础。后来，我又在知乎回答有哪些与
【C++】C++回调函数基本用法（详细讲解）米码收割机 C/C++c++php 开发语言
博__主：米码收割机技__能：C++/Python语言公众号：测试开发自动化【获取源码+商业合作】荣__誉：阿里云博客专家博主、51CTO技术博主专__注：专注主流机器人、人工智能等相关领域的开发、测试技术。一文详解C++回调函数目录一文详解C++回调函数1.什么是回调函数？2.为什么需要回调函数3.回调函数的应用场合4.举例说明5.高级回调方式1.什么是回调函数？回调函数可以被简单地理解为：A函
DeepSeek 详细使用教程神探阿航计算机产业科普与思考大模型人工智能
1.简介DeepSeek是一款基于人工智能技术的多功能工具，旨在帮助用户高效处理和分析数据、生成内容、解答问题、进行语言翻译等。无论是学术研究、商业分析还是日常使用，DeepSeek都能提供强大的支持。本教程将详细介绍DeepSeek的各项功能及使用方法。2.注册与登录注册：访问DeepSeek官网（https://www.deepseek.com）。点击“注册”按钮。填写邮箱地址、设置密码，并完
人工智能第2章-知识点与学习笔记想拿高薪的韭菜人工智能学习笔记
结合教材2.1节，阐述什么是知识、知识的特性,以及知识的表示。人工智能最早应用的两种逻辑是什么？阐述你对这两种逻辑表示的内涵理解。什么谓词，什么是谓词逻辑，什么是谓词公式。谈谈你对谓词逻辑中的量词的理解。阐述谓词公式的解释的含义。介绍谓词公式表示知识的一般步骤，阐述谓词逻辑表示知识的优点与局限性。什么是知识表示的产生式，请详细阐释产生式和谓词逻辑蕴涵式的差异。什么是产生式系统，请详细阐述产生式系统
微软推出GRIN-MoE：开创专家路由新范式 OpenCSG microsoft
前沿科技速递在人工智能领域，模型的性能和可扩展性一直是研究的热点。微软最近推出的GRIN-MoE（Gradient-InformedMixture-of-Experts）模型，以其独特的架构和显著的性能表现，正引领着AI技术的前沿，特别是在编码和数学任务上展现出强大的能力。GRIN-MoE的发布标志着企业级应用中AI技术的又一次飞跃，旨在提升处理复杂任务的效率和准确性。来源：传神社区01模型简介G
动手学PyTorch建模与应用：从深度学习到大模型王国平 pytorch 人工智能数据分析 python 数据挖掘
在人工智能时代，机器学习技术日新月异，深度学习是机器学习领域中一个全新的研究方向和应用热点，它是机器学习的一种，也是实现人工智能的必由之路。深度学习的出现不仅推动了机器学习的发展，而且促进了人工智能技术的革新，已经被成功应用在语音识别、图像分类识别、地球物理、大语言模型等领域，具有巨大的发展潜力和价值。本书是一本带领读者快速学习PyTorch并将其运用于深度学习建模方向的入门指南，重点介绍了基于P
AI浪潮下程序员的职业转型与技术进阶之路 nbsaas-boot 人工智能
一、引言1.1研究背景与意义在科技飞速发展的当今时代，人工智能（AI）无疑是最为耀眼的技术领域之一。从早期简单的专家系统到如今复杂的深度学习模型，AI技术经历了从理论探索到广泛应用的巨大跨越，正以前所未有的速度改变着我们的生活和工作方式。近年来，AI技术取得了一系列突破性进展。以GPT系列为代表的大型语言模型，展现出强大的自然语言处理能力，能够实现文本生成、对话交互、代码编写等多种任务。根据《20
DeepSeek的出现对全球GPT产业产生的冲击不要em0啦机器学习 gpt
引言近年来，人工智能技术的迅猛发展推动了自然语言处理（NLP）领域的革命性进步。特别是以GPT（GenerativePre-trainedTransformer）系列模型为代表的大规模预训练语言模型，已经在全球范围内引发了广泛关注和应用。然而，随着技术的不断演进，新兴的GPT模型如DeepSeek的出现，正在对全球GPT产业产生深远的影响。本文将从技术、市场、应用场景和产业生态等多个维度，深入探讨
国产AI疯卷！DeepSeek-R1成开源霸主，字节腾讯纷纷放大招？盼达思文体科创经验分享
引言家人们，最近的AI圈简直是“火药味”十足，热闹程度堪比世界杯！在科技飞速发展的当下，人工智能领域已经成为全球科技竞争的焦点，各国科技企业都在这个赛道上你追我赶，试图占据一席之地。AI技术不仅深刻改变了我们的生活方式，像智能语音助手让生活更便捷，智能推荐算法让信息获取更精准，还推动了众多行业的变革，如医疗、交通、金融等。今天咱们要聊的这几件AI大事，每一件都可能会对未来的科技走向产生深远影响。先
Qwen2.5-Max 百态老人笔记大数据人工智能
Qwen2.5-Max是阿里巴巴于2024年1月29日发布的一款旗舰级人工智能模型，基于混合专家（MoE）架构开发，拥有超过20万亿tokens的超大规模预训练数据。这一模型在多项权威基准测试中展现了卓越的性能，超越了包括DeepSeekV3、GPT-4和Claude-3.5-Sonnet在内的多款国际顶尖AI模型，标志着中国AI技术在高性能、低成本路线上的重大突破。技术特点与优势超大规模预训练数
ChatGPT-4o和ChatGPT-4o mini的差异点老六哥_AI助理指南人工智能 chatgpt
在人工智能领域，OpenAI再次引领创新潮流，近日正式发布了其最新模型——ChatGPT-4o及其经济实惠的小型版本ChatGPT-4oMini。这两款模型虽同属于ChatGPT系列，但在性能、应用场景及成本上展现出显著的差异。本文将通过图文并茂的方式，深入解析两者之间的不同点。一、性能差异ChatGPT-4o：全能型语言模型多模态处理能力：ChatGPT-4o不仅限于文本处理，更能够实时处理和生
第一章: AIGC概述野老杂谈 AIGC时代的创新与未来 AIGC 大模型人工智能神经网络
1.AIGC的定义与历史1.1什么是AIGC？AIGC，全称为人工智能生成内容（ArtificialIntelligenceGeneratedContent），是一种利用人工智能技术来自动生成各种类型内容的方式。这些内容包括文字、图像、音频和视频等。简单来说，就是让计算机像人一样创作。例如，AI可以生成一篇文章、一幅画、一段音乐，甚至是一部短视频。AIGC是如何运作的？AIGC的核心技术包括机器学
Ubuntu16.04环境下安装cuda10+pytorch1.2 小楼昨夜，东风 pytorch 深度学习神经网络
1、背景环境：Ubuntu16.04&titanx作为新一代的人工智能训练平台的PYTORCH，有其独特的优势，为此，完整的安装这一平台，是开展所有工作的首要条件，一开始，笔者认为应该轻松的完成，但是发现实际上要从零完成这一工作，尤其是在NVIDIATITANX下，是需要3～4天的摸索的，为了便于后续的工作，也为了后面使用的童鞋，写下这篇文章，闲话少说，先上最终完成shell输出。xxx@xxxU
深度学习盛行，还记得哪些传统机器学习方法和模型？硬件学长森哥人工智能深度学习机器学习人工智能
开头森哥说：假期前后在准备成像技术的总结，目前已完成两部分，争取在摸索出一些编辑和运营技巧后，完善成一个系列和大家见面；当然也有可能会通过一些更加贴合摄影实用的角度出一些更加浅显的内容。最终如何呈现还需要慢慢摸索。传统机器学习是指在深度学习盛行之前开发的机器学习和人工智能技术。这些传统方法通常依赖于手工设计的特征提取和模型结构。而深度学习是一种机器学习技术，它通过深层神经网络从原始数据中学习特征表
探索自然语言处理的前沿：使用OpenAI API进行文本分析 qq_37836323 自然语言处理 easyui 人工智能 python
#引言自然语言处理（NLP）是人工智能领域中最令人兴奋和快速发展的部分之一。本文将介绍如何使用OpenAI的API进行文本分析。我们将通过代码示例，深入探讨如何利用这些工具来提升应用程序的智能和功能。#主要内容##什么是OpenAIAPI？OpenAIAPI提供了强大的自然语言处理能力，能够帮助开发者在自己的应用中集成先进的语言模型。这些模型可以用于文本生成、情感分析、翻译等多种任务。##使用AP
【PyTorch】6.张量运算函数：一键开启！PyTorch 张量函数的宝藏工厂 Icomi_ 805.Pytorch入门 pytorch 人工智能 python c语言 c++深度学习机器学习
目录1.常见运算函数个人主页：Icomi专栏地址：PyTorch入门在深度学习蓬勃发展的当下，PyTorch是不可或缺的工具。它作为强大的深度学习框架，为构建和训练神经网络提供了高效且灵活的平台。神经网络作为人工智能的核心技术，能够处理复杂的数据模式。通过PyTorch，我们可以轻松搭建各类神经网络模型，实现从基础到高级的人工智能应用。接下来，就让我们一同走进PyTorch的世界，探索神经网络与人
语音识别播报人工智能分类垃圾桶（论文+源码）沐欣工作室_lvyiyi 人工智能语音识别毕业设计 PLC 单片机单片机毕业设计
2.1需求分析本次语音识别播报人工智能分类垃圾桶，设计功能要求如下∶1、具有四种垃圾桶，分别为用来回收厨余垃圾，有害垃圾，可回收垃圾，其他垃圾。2、当用户语音说出“旧报纸”，“剩菜”等特定词语时，系统可以通过语音识别模块准确检测出该垃圾属于何种类型，。3、根据检测出的垃圾类型，系统通过舵机自动打开相应的垃圾桶，并通过语音播报模块提醒用户。2.2系统整体设计针对分成需求，设计了如图2.1所示的整体系
《AI逆袭：科技与人类的终极对决，谁才是未来的主宰？》云边有个稻草人热门文章人工智能科技
目录第一章：人工智能的崛起1.1AI技术的基础与发展1.2AI的技术分支1.3AI的应用领域第二章：AI与人类的关系2.1AI对就业的影响2.2AI与伦理问题2.3AI与创意的结合第三章：AI的未来：谁才是主宰？3.1AI与人类的合作3.2AI的自主性与未来3.3AI与社会的融合第四章：AI技术实践——代码示例4.1图像分类（使用TensorFlow）结语导语人工智能（AI）无疑是当前科技发展的热
自然语言编程：用 Cursor 将需求转化为代码 drebander AI 编程 Cursor
引言在传统编程中，开发者需要精确掌握语法规则、API接口和框架特性才能实现功能需求。然而，随着人工智能技术的发展，以自然语言交互为核心的编程方式正在颠覆这一流程。Cursor作为一款智能编程助手，通过其自然语言编程功能，允许开发者直接通过文本描述生成代码，将模糊的需求快速转化为可执行的程序。本文将深入探讨Cursor的自然语言交互能力，并通过实际案例（如生成React组件、Python脚本等），展
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型实现男女分类 CV视界模式识别机器学习与图像处理机器学习 python 人工智能
模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和pazen窗方法实现男女分类欢迎大家来到安静到无声的《模式识别与人工智能（程序与算法）》，如果对所写内容感兴趣请看模式识别与人工智能（程序与算法）系列讲解-总目录，同时这也可以作为大家学习的参考。欢迎订阅，优惠价只需9.9元，请多多支持！目录标题模式识别与机器学习（Python实现）：基于sklearn朴素贝叶斯模型和paz
️ 在 Windows WSL 上部署 Ollama 和大语言模型的完整指南20241206 Narutolxy 技术干货分享智浪初航 windows 语言模型人工智能
️在WindowsWSL上部署Ollama和大语言模型的完整指南引言随着大语言模型（LLM）和人工智能的飞速发展，越来越多的开发者尝试在本地环境中部署大模型进行实验。然而，由于资源需求高、网络限制多以及工具复杂性，部署过程常常充满挑战。本指南基于实际经验，详细讲解如何在WindowsWSL（WindowsSubsystemforLinux）上部署Ollama和大语言模型，同时解决端口转发等常见痛点
Ollama 部署 DeepSeek - r1 教程：Windows 与 Linux 篇 Fgaoxing windows linux 人工智能
在人工智能技术飞速发展的今天，能够在本地部署并使用先进的模型成为许多技术爱好者和专业人士的追求。DeepSeek-r1以其出色的性能备受关注，借助Ollama工具，我们可以方便地在Windows和Linux系统上完成部署。下面就为大家详细介绍具体步骤。一、准备工作在开始部署之前，需要确保已经安装了Ollama。如果尚未安装，请按照以下对应系统的安装方法进行操作。（一）Windows系统安装Olla
DeepSeek：开启智能搜索与AI发展的新纪元 gs80140 AI 人工智能
在人工智能领域，DeepSeek正以其卓越的技术创新和强大的性能表现，成为全球瞩目的焦点。作为一款基于深度学习技术的智能搜索引擎和AI模型，DeepSeek不仅在技术上取得了重大突破，还在多个应用场景中展现了巨大的应用潜力，为用户带来了前所未有的智能体验。一、DeepSeek简介DeepSeek由杭州深度求索人工智能基础技术研究有限公司推出，是一款集自然语言处理（NLP）、计算机视觉（CV）、强化
【Java】已解决java.lang.ClassNotFoundException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的