AI记忆

AIGC视频生成/编辑技术调研报告

人物AIGC：FaceChain人物写真生成工业级开源项目，欢迎上github体验。

简介： 随着图像生成领域的研究飞速发展，基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天，视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状，包括不同技术路线的优劣势，以及该领域当下面临的核心问题与挑战。

摘要

随着图像生成领域的研究飞速发展，基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天，视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状，包括不同技术路线的优劣势，以及该领域当下面临的核心问题与挑战。

1. 背景介绍

不少视频生成/编辑模型都是基于图像生成模型的预训练权重进行训练，结构也与图像生成模型一脉相承，因此在介绍视频生成/编辑模型之前有必要先介绍图像生成/编辑模型。我们根据不同的技术路线将图像生成/编辑模型分成四种类型，分别是使用编辑前后数据对进行训练的模型、zero-shot模型、one-shot/few-shot模型以及解耦合模型。我们将视频生成/编辑模型也分成四类，分别是large-data-driven模型、zero-shot模型、one-shot/few-shot模型和解耦合模型。接下来将分别介绍这几种类型。

2. 图像生成/编辑

2.1. 使用编辑前后数据对进行训练

比较典型的工作是 InstructPix2Pix [1]。该方法通过构造编辑前后的图像数据对来生成训练数据，使用这种数据进行训练得到的模型无需 finetune 即可进行图像编辑。具体的构造方式是利用 GPT3 生成编辑前后的 text prompt，再利用 stable diffusion + Prompt2Prompt 的方式进行编辑得到编辑前后图像对。

下图是 InstructPix2Pix 的示意图：

2.2. Zero-Shot 方法

比较具有代表性的工作是 Prompt-to-prompt [2] 和 MasaCtrl [3]。他们通过修改 cross attention 里的 attention maps 或 attention 机制的方式来实现无需 finetune 的图像编辑。Prompt-to-prompt 的具体做法是，对于由给定 prompt 通过模型生成的图像（若是真实场景图像，则需要做精确的 inversion），保留其 cross attention 步骤中的 attention map，对于新 text prompt，将新的词生成的 new attention 插入原 attention maps 中，并根据权重重新计算，生成编辑后的图像。

下图是 Prompt-to-prompt 的示意图：

2.3. One-Shot/Few-Shot方法

该类方法分为两类，一种是通过 finetune 来让网络学习到关于输入图像的 identifier，这样编辑过程中就能保留原图的内容和结构；第二种是通过设计保留原图内容和结构的 loss 来进行 finetune。第一种的代表性方法包括 Dreambooth [4] 和 DreamArtist [5]。其中 Dreambooth 便是通过对描述输入图像的 text prompt 插入特征 tokenizer，然后在同一物体的少量数据上训练，让网络记住该物体与该特定 identifier 之间的对应关系。接下来便能通过对 identifier 进行修饰从而达到对该物体的图像进行编辑的目的。

下图是 Dreambooth 的示意图：

第二种的代表性方法是 Text2live [6]。对于一张输入图像以及 target text prompt，该方法对图像和 text 分别做 augmentations 并生成数据集 internal dataset，然后在这个 internal dataset 上对模型进行finetune。模型的输出是带 alpha 通道的图层，该图层添加到原图上构成最终的输出图像。为了让生成的图像在保留原图内容和结构不变的基础上符合 target prompt 的描述，它使用了三种 loss：Composition Loss，Structure Loss 和 Screen Loss。Composition Loss 计算生成图像与 target prompt 在 clip 空间的距离；Structure Loss 计算生成图像与原图在结构和内容上的距离；Screen Loss 计算将带 alpha 通道的图层与绿幕组合后的图像与对该绿幕图像的 text 描述之间的 clip 距离。

下图是 Text2live 的示意图：

2.4. 解耦合方法

这类方法将图像要素解耦合成控制条件（如人体pose、edge map等）与图像内容/风格/语义，通过训练显式的编码器对控制条件或图像内容/风格/语义分别进行编码。推理阶段，修改图像内容/风格来生成符合控制条件的编辑后图像，或是通过修改控制条件来生成相同内容/风格/语义的图像。比较典型的方法如 DisCo [14] 和 Prompt-Free Diffusion [15]。其中 DisCo 是针对人物姿态转换的模型，在第一阶段的训练中，它将人物图像进一步拆解成前景（人物）和背景对网络进行训练，第二阶段在第一阶段的基础上加上对控制条件（人物姿态）的编码器进行进一步训练。DisCo 虽然在图像数据集上训练，但它可以被用来进行姿态引导的人物动态视频的生成，只要对单帧分别处理即可。

下图是 DisCo 的示意图：

3. 视频生成/编辑

3.1. Large-Data-Driven

这类方法在保持图像生成模型权重不变的基础之上，添加时序层，用大量的视频或者视频-文本数据对时序层进行训练，让模型学习到视频帧间连续性的同时尽可能保留原模型的图像生成能力。这类方法包括 Make-A-Video [7]，Follow Your Pose [8]，Control-A-Video [9]，AnimateDiff [10]，Align your Latents [11]。其中 Follow Your Pose 采取两阶段的训练方法，第一阶段使用带 pose 的 text-image 图像数据对进行训练，第二阶段使用不带 pose 的 text-video 数据对 temporal self-attention layer 和 cross-frame spatial attention layer 进行训练。最终 inference 阶段，使用 pose 和 text 共同控制视频的生成。

下图是 Follow Your Pose 的示意图：

3.2. One-Shot/Few-Shot 方法

与图像的方法类似，这类方法针对单个视频进行 finetune，使网络学习到属于该视频的时域特征，比较典型的是Tune-A-Video [12] 和 ControlVideo [13]。Tune-A-Video 将图像生成模型的权重固定不变，在单个视频上使用 source text prompt 和 image 对时序层进行 finetune。在 inference 阶段，先对输入视频进行 DDIM inversion，然后使用新的 prompt 生成编辑后的视频。ControlVideo 在 Tune-A-Video 的基础之上，加入了如 edge map 等其他控制手段引导视频的生成。

下图是 ControlVideo 的示意图：

3.3. Zero-Shot 方法

与图像的方法类似，这类方法通过对视频求精确的 inversion，然后修改 attention maps 或是 attention 机制来进行无需训练的视频编辑，典型的比如 Fatezero [16]，Zero-shot video editing [17] 和 Video-p2p [18]。另一类方法根据视频时域连续性的先验知识，有针对性地设计新的 cross attention 机制或 adapter 来控制采样阶段生成的帧序列在结构、内容和色彩上的连续性。典型的方法比如 ControlVideo [19] 和 Rerender A Video [20]。其中 Rerender A Video 利用视频的光流信息，对采样阶段的隐空间特征进行变换和引导，同时辅以结构和色彩 adapter，实现了对输出视频的时域连续性控制。

下图为 Rerender A Video 的示意图：

3.4. 解耦合方法

图像编辑的解耦合方法也可以用来实现视频编辑，例如 DisCo [14]，这里我们主要介绍针对视频的解耦合方法（考虑了时域特征）。与图像解耦合思路类似，视频也能被解耦合成控制条件帧序列（如人体pose、edge map等）与单帧图像内容/风格/语义，通过训练显式的编码器对控制条件序列或单帧图像内容/风格/语义进行编码，典型的方法如 DreamPose [21]。另一类解耦合方法，CoDeF [22]，从视频本身的特性出发将视频拆解成 canonical content field 和 temporal deformation field 两个元素。只要通过图像编辑/生成模型对单帧图像进行编辑，生成新的 canonical content field，再根据原视频的 temporal deformation field 就能生成被编辑后的视频。这一类方法的效果高度依赖解耦合思路的合理性以及模型的解耦合程度/能力。

下图为 DreamPose 的示意图：

4. 总结

视频编辑/生成的核心难点是如何保证帧间的连续性，在内容和结构上获得令人满意的视觉效果。这四种方法本质上均是试图解决帧间内容连续性的问题，只不过采用了四种不同的手段和技术路线。Large-Data-Driven 需要大量的优质视频数据进行训练，对存储空间和算力资源的需求很大。One-Shot/Few-Shot 方法对资源的消耗较小，但每次需对单个视频进行 finetune，较为耗时。Zero-Shot 方法对资源消耗小且速度快，但囿于技术手段本身的局限性，所能实现的效果存在着天然的瓶颈，且对精心设计的时域控制手段的要求也很高。解耦合方法从视频本身特性出发，将视频拆解成不同的要素，进行针对性的训练以及再组合，但效果的好坏取决于解耦合的设计与模型解耦合的能力。探索出保证视频帧间连续性的技术路线仍然是一个亟待解决的核心问题。

References

[1] InstructPix2Pix: Learning to Follow Image Editing Instructions.

[2] Prompt-to-prompt image editing with cross attention control.

[3] MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing.

[4] Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation.

[5] DreamArtist: Towards Controllable One-Shot Text-to-Image Generation via Contrastive Prompt-Tuning.

[6] Text2live: Text-driven layered image and video editing.

[7] Make-A-Video: Text-to-Video Generation without Text-Video Data.

[8] Follow Your Pose: Pose-Guided Text-to-Video Generation using Pose-Free Videos.

[9] Control-A-Video: Controllable Text-to-Video Generation with Diffusion Models.

[10] AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning.

[11] Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models.

[12] Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation.

[13] ControlVideo: Adding Conditional Control for One Shot Text-to-Video Editing.

[14] DisCo: Disentangled Control for Referring Human Dance Generation in Real World.

[15] Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion Models.

[16] Fatezero: Fusing attentions for zero-shot text-based video editing.

[17] Zero-shot video editing using off-the-shelf image diffusion models.

[18] Video-p2p: Video editing with cross-attention control.

[19] ControlVideo: Training-free Controllable Text-to-Video Generation.

[20] Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation.

[21] DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion.

[22] CoDeF: Content Deformation Fields for Temporally Consistent Video Processing.

你可能感兴趣的:(深度,学习论文与相关应用,AIGC,人工智能,深度学习,技术报告,编辑生成)

ChatGPT和DeepSeek打造科研与办公的高效引擎 AAIshangyanxiu 编程算法统计语言农林生态遥感 chatgpt
一、2024大语言模型最新进展与ChatGPT各模型讲解1、2024AIGC技术最新进展介绍（生成式人工智能的基本概念与原理、最新前沿技术和发展趋势简介）2、国内外大语言模型（ChatGPT4O、Gemini、Claude、Llama3、PerplexityAI、文心一言、星火、通义千问、Kimi、智谱清言、秘塔AI等）对比分析3、OpenAI12天12场直播新功能解读与演示（ChatGPTO1模
Python 继承详解江湖一条鱼 python
继承是面向对象编程（OOP）的一个重要特性，允许一个类（子类）从另一个类（父类）继承属性和方法。继承可以提高代码的重用性，增强程序的可扩展性和可维护性。目录一、继承的作用二、继承的语法1.单继承2.多继承三、子类扩展1.添加新功能2.重写父类方法3.调用父类方法四、继承的特殊情况1.子类初始化父类2.方法解析顺序（MRO）五、抽象类与接口1.抽象类2.接口3.ABC类4.使用方法1.定义抽象基类2
【数据挖掘】ARFF格式与数据收集布鲁惠比寿数据挖掘数据挖掘人工智能
【数据挖掘】ARFF格式与数据收集三级目录1.ARFF格式与数据收集2.稀疏数据3.属性类型4.缺失值与不正确的值5.了解数据6.知识表达7.聚类机器学习算法训练数据挖掘分析数据共享与交换三级目录1.ARFF格式与数据收集ARFF（Attribute-RelationFileFormat）是一种用于存储数据集的文本文件格式，常用于机器学习和数据挖掘领域。它可以表示结构化数据，包括属性定义、关系信息
【如何学习商城源码】启山智软商城源码微信小程序小程序 java
学习商城源码是一个系统而深入的过程，需要掌握多种方法和技巧。以下是一些建议，帮助你有效地学习商城源码：一、搭建学习环境准备开发工具编程语言相关：根据商城源码使用的编程语言，安装相应的集成开发环境（IDE）。例如，若源码是Java语言编写的，可安装IntelliJIDEA或Eclipse；若是Python语言，可选择PyCharm等。这些IDE能帮助你高效地编辑、调试代码，提供语法高亮、自动补全等功
C++ 游戏开发：从零到英雄的进阶之旅孤寂大仙v c++c++android
在当今数字化时代，游戏开发已然成为极具吸引力与挑战性的领域。C++作为游戏开发中极为常用的语言之一，凭借其高性能和强大功能，长久以来都是游戏开发者的心头好。若你对游戏开发满怀热忱，却不知如何起步，这篇博客就将为你揭开C++游戏开发的神秘面纱，引领你踏上从新手到高手的进阶之路。一、为什么选择C++进行游戏开发？在游戏开发的广袤天地里，编程语言的抉择至关重要。C++以其独有的优势，成为众多开发者的不二
量子测量：如何从量子状态获取信息？ Ash Butterfield 量子计算机学习计划量子计算人工智能
量子测量是量子力学中的一个基本概念，它涉及如何从量子系统中获取信息。与经典物理不同，量子系统的状态并不是一个确定的值，而是由多个可能的状态组成的概率波函数，测量过程在其中扮演了至关重要的角色。量子测量不仅为我们提供了对量子系统的理解，也引发了许多深刻的哲学和物理学问题。本文将详细讨论量子测量的基本概念、量子态的表示、测量过程的理论基础以及一些重要的量子测量实验。1.量子态的表示在量子力学中，物理系
DeepSeek在企业中的有那些具体应用？大势下的牛马搭建本地gpt Deepseek 大模型推理微调人工智能
在当今竞争激烈的商业世界里，企业就像在大海中航行的船只，需要不断寻找新的方向和动力来保持领先。而DeepSeek，就是那股强劲的东风，能给企业带来全新的活力和机遇。它就像一个超级智能助手，能帮企业解决各种难题，提高效率，降低成本，还能让客户更满意。接下来，就让我们看看DeepSeek到底是怎么做到的，它又能给企业带来哪些实实在在的好处。应用场景1、客户服务与支持智能客服实现方式：DeepSeek能
Docker 与 CI/CD：自动化构建和部署 drebander docker docker ci/cd 自动化
在现代软件开发中，CI/CD（持续集成/持续部署）是一种高效的软件开发和运维方法。CI/CD通过自动化构建、测试和部署流程，减少了人为错误，提高了软件交付的速度和质量。Docker，作为一种容器化平台，为CI/CD提供了理想的运行环境，通过容器化实现应用的一致性和可移植性。本文将探讨如何将Docker与CI/CD集成，实现自动化构建和部署。1.Docker与CI/CD集成的优势1.1通过Docke
DeepSeek混合专家模型：低成本高精度革新多语言AI应用智能计算研究中心其他
内容概要当前人工智能领域正经历从通用模型向垂直化、场景化应用的关键转型，DeepSeek混合专家模型（MoE）通过突破性的架构设计，为这一进程提供了技术范本。该模型采用分治策略的混合专家架构，通过动态激活670亿参数中的子模块处理特定任务，既保证了模型规模带来的知识广度，又显著降低了计算资源的冗余消耗。在此基础上，其多模态处理能力不仅覆盖80余种自然语言的高精度互译，还实现了视觉符号与文本语义的跨
自动化测试的学习路线 Ws＿学习
自动化测试是提高软件开发效率和质量的关键手段。学习自动化测试通常涉及多个方面的技能，从基础的编程语言知识到测试工具的使用，再到实际的测试脚本编写和执行。以下是一个学习自动化测试的路线图，帮助你有条不紊地掌握相关技能：1.基础知识在开始自动化测试之前，首先要具备一定的编程和软件测试基础：编程语言：Python、Java、JavaScript或者Ruby（根据你选择的自动化测试工具决定）软件测试基础：
Python自动化测试 Ws＿ python python
Python自动化测试是软件开发中的重要组成部分，可以帮助提高测试效率和准确性。以下是学习Python自动化测试的基本路线，以及相关资料的链接：学习路线1.基础知识Python基础：掌握Python语言的基本语法、数据类型、控制流、函数、面向对象编程等。你可以先确保对Python的基本语法有清晰的理解。参考资料：Python官方文档书籍推荐：《Python编程：从入门到实践》2.了解自动化测试的基
通义灵码AI程序员天天向上杰 AI编程 AIGC 人工智能
通义灵码是阿里云与通义实验室联合打造的智能编码辅助工具，基于通义大模型技术，为开发者提供多种编程辅助功能。它支持多种编程语言，包括Java、Python、Go、TypeScript、JavaScript、C/C++、PHP、C#、Ruby等200多种编码语言。通义灵码AI程序员：今年1月，通义灵码AI程序员全面上线，同时支持VSCode、JetBrainsIDEs，是国内首个真正落地的AI程序员。
简识MQ之Kafka、ActiveMQ、RabbitMQ、RocketMQ传递机制天天向上杰 MQ kafka activemq rabbitmq rocketmq
四种主流消息队列（Kafka、ActiveMQ、RabbitMQ、RocketMQ）的生产者与消费者传递信息的机制说明，以及实际使用中的注意事项和示例：1.ApacheKafka传递机制模型：基于发布-订阅模型，生产者向主题（Topic）发送消息，消费者订阅主题并消费消息。核心流程：生产者将消息发送到Kafka集群的Broker，根据分区策略（如轮询、哈希）将消息写入对应的分区（Partition
JavaEE进阶知识学习-----定时任务调度Quartz-4 四川码匠 Quartz JAVA进阶学习 Quartz 任务调度
Quartz和SpringMVC，Spring整合1.Quartz依赖的包如下：org.springframeworkspring-context-support${spring.version}org.springframeworkspring-tx${spring.version}org.quartz-schedulerquartz2.2.3使用Quartz配置作业的方式第一种：MethodI
6月5日世界环境日：Agoda发布可持续旅游趋势调查报告美通社微软分布式存储 vm 办公软件 datagridview
Agoda近日发布“可持续旅游趋势调查”报告，揭示轻松识别可持续的环保旅行选择、限制使用一次性塑料制品以及为最大限度提高能源效率的住宿供应商提供经济激励是让旅行更具可持续性所需的前三大额外措施。建立更多保护区，限制游客人数并取消一次性卫浴用品排在全球前五大措施之列。为纪念2021年6月5日世界环境日，Agoda公布这项调查结果。从调查中我们还发现，过度旅游、海滩和水道污染是人们最担心的旅游会带来的
近18亿亏损阴霾笼罩，江淮汽车能否依赖尊界走出困境？财经三剑客汽车
在新能源汽车行业的风起云涌中，江淮汽车似乎找到了一条新的出路——与华为联手打造超豪华品牌尊界。然而，这场豪赌能否让江淮汽车摆脱困境，仍然是一个未知数。2月14日，网络上传播了一张朋友圈截图，截图中的何畅声称“有些科技，无法平权，尊贵的人，优先享受”，并附上尊界S800的海报作为配图。这番言论公然挑战了行业内倡导的科技普及和平等的理念，同时也进一步明确了尊界的品牌定位——作为一个超豪华品牌，其车型售
Anaconda与python和pycharm的安装及其关系 Daylight.. 学习笔记 pycharm python ide
Anaconda与python和pycharm的安装及其关系一、Anaconda与python和pycharm的关系：1.Anaconda包含python，并且里面含有许多常用的库。（安装了Anaconda就不需要安装python了）2.pycharm是一种IDE（集成开发环境），在其中可以编写Python程序。（工具和语言的关系）。二、如何安装？Anaconda的安装Anaconda官网下载地址
23. AI-概述真上帝的左手 23.AI ai 人工智能
文章目录前言一、AI1.简介2.发展3.应用场景前言AI‌ 随着技术的发展，AI正变得越来越强大和普及，其在解决复杂问题和提高人类生活质量方面的潜力日益显现。一、AIAI（ArtificialIntelligence，人工智能）1.简介 AI（ArtificialIntelligence，人工智能）是计算机科学的一个分支，旨在开发智能系统，使其能够执行通常需要人类智能的任务，例如学习、推理、问
joint_info smpl AI算法网奇 python基础计算机视觉人工智能
生成代码：出处：https://github.com/DART-Lab-LLUI/Metrabs_PoseEstimationdefget_joint_info():joint_names_smpl=('pelv,lhip,rhip,bell,lkne,rkne,spin,lank,rank,thor,ltoe,rtoe,neck,lcla,rcla,head,lsho,''rsho,lelb,r
python图形界面化编程GUI（二）常用的组件(Text、Radiobutton、Checkbutton、Canvas)和布局管理器(gird、pack、place) hwwaizs python-GUI图形化编程 python 开发语言
Text文本框Text(多行文本框)的主要用于显示多行文本，还可以显示网页链接,图片,HTML页面,甚至CSS样式表，添加组件等。主要用来显示信息，也常被当做简单的文本处理器、⽂本编辑器或者网页浏览器来使用。IDLE就是Text组件构成的。insert插入的时候可以用INSERT代表当前光标的位置，END代表在结尾的位置，也可以用插入小数的形式，2.3代表第二行第三列后插入。fromtkinter
基于微信小程序的天气预报平台的设计与实现 usp1994 微信小程序小程序
基于微信小程序的天气预报平台的设计与实现DesignandImplementationofaWeatherForecastPlatformBasedonWeChatMiniProgram完整下载链接:基于微信小程序的天气预报平台的设计与实现文章目录基于微信小程序的天气预报平台的设计与实现摘要第一章引言1.1研究背景1.2研究目的1.3研究方法1.4论文结构第二章相关技术介绍2.1微信小程序开发2.
如何设置内网IP的端口映射到公网天才技术宅智能路由器网络
在现代网络环境中，端口映射（PortMapping）是一项非常实用的技术，它允许用户将内网设备的服务端口映射到公网，使外网用户可以访问内网中的服务。这项技术在远程办公、设备远程控制、游戏服务器、家庭监控等场景中得到了广泛应用。今天，我们将介绍如何实现端口映射，帮助大家在不同网络环境下实现内网设备的公网访问。一、端口映射是什么？端口映射（PortMapping），也称为端口转发（PortForwar
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
c语言迷宫小游戏350行（源码）迷茫&&前行 c语言 c语言游戏
这是一款基于控制台的双模式迷宫冒险游戏。在极限逃脱模式中，玩家需操控角色"A"在三个精心设计的关卡中躲避追踪者"B"，通过WASD键在100步限制内抵达终点"@"，关卡包含特殊地形和动态敌人机制。无尽挑战模式则采用随机生成的渐进式迷宫，每关迷宫尺寸随等级扩大，玩家需在无限扩展的迷宫中不断挑战。游戏提供可视化操作界面，通过方向键控制移动，支持中途退出功能（o)。两种模式分别提供3个固定关卡和无限递增
项目目标与范围管理 2301_82243709 visual studio
项目目标与范围管理是项目管理的基石，它涉及确定项目的目标、边界和工作内容1。在项目启动阶段，项目经理需要与利益相关者共同明确项目的目标、预期成果和关键里程碑，以确保项目的方向正确。范围管理还包括对项目变更的控制，以防止范围蔓延导致的项目失败。应用：在项目初期，制定详细的项目章程和范围说明书，明确项目的目标、范围、可交付成果和验收标准。在项目执行过程中，严格监控范围变更，确保所有变更都经过正式批准并
代理IP服务如何优化AI大模型训练的分布式计算效率 http
AI大模型训练就像一场接力赛，每个计算节点都是接力选手，而代理IP则是保证选手们“跑得更稳、交接更顺”的隐形教练。在分布式计算中，效率瓶颈往往不是算力本身，而是数据调度与通信协作的隐性损耗。接下来，我们从三个实操场景拆解代理IP的增效逻辑。场景一：数据采集与分发的“高速公路”分布式训练的第一步是将海量数据切分到不同计算节点。假设某团队要训练法律文书解析模型，需从20个省级法院网站抓取判例。如果所有
腾讯控股销售易！中国CRM市场将迎血腥洗牌？ saas
近期，销售易官宣与腾讯战略合作升级，拉开了Salesforce×阿里云、销售易x腾讯两大阵营战线，标志着中国CRM市场正式进入“双巨头”时代——一方是国际巨头Salesforce联合阿里云的本土化攻势，另一方是本土头部玩家销售易背靠腾讯生态的技术与流量加持。而在这场“神仙打架”的牌局中，曾与销售易齐名的某FCRM厂商却愈发沉寂，让人不禁发问：未来是否只剩Salesforcevs销售易？中小厂商的生
制造业上了MES后，生产过程透明化，实时掌握生产动态
一、MES系统的作用与功能MES系统是车间制造执行系统，它打通了企业计划层和执行层的信息通道，建立了透明、高效、有序的生产模式。生产调度：MES系统能够实时调度生产任务，优化资源配置，确保生产过程中的每个环节都能高效运作。这种调度能力使得生产过程中的每一步都能被清晰记录和监控。数据采集：MES系统能够自动采集生产数据，包括设备运行状态、工人操作记录等。这些数据为后续分析提供了可靠依据，使得生产过程
【核心算法篇十三】《DeepSeek自监督学习：图像补全预训练方案》再见孙悟空_ 「2025 DeepSeek技术全景实战」算法学习计算机视觉 deepSeek 深度学习 transformer 人工智能
引言：为什么自监督学习成为AI新宠？在传统监督学习需要海量标注数据的困境下，自监督学习（Self-SupervisedLearning）凭借无需人工标注的特性异军突起。想象一下，如果AI能像人类一样通过观察世界自我学习——这正是DeepSeek图像补全方案的技术哲学。根据，自监督学习通过设计巧妙的"预训练任务"（PretextTask），让模型在无标签数据中自动学习图像语义特征。而图像补全正是这类
HarmonyOS Next AI开发环境搭建与工具使用 harmonyos
本文旨在深入探讨华为鸿蒙HarmonyOSNext系统（截止目前API12）中AI开发环境搭建与工具使用相关技术细节，基于实际开发实践进行总结。主要作为技术分享与交流载体，难免错漏，欢迎各位同仁提出宝贵意见和问题，以便共同进步。本文为原创内容，任何形式的转载必须注明出处及原作者。一、HarmonyOSNextAI开发环境概述（一）硬件与软件环境需求介绍硬件环境处理器：对于HarmonyOSNext
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他