计算机视觉-Archer

[读论文] [ 蒸馏-diffusion] BOOT : Data-free Distillation of Denoising DiffusionModels with Bootstrapping

苹果宾夕法尼亚

摘要

Diffusion models have demonstrated excellent potential for generating diverse images.
However, their performance often suffers from slow generation due to iterative denoising. Knowledge distillation has been recently proposed as are medy which can reduce the number of inference steps to one or a few, without significant quality degradation.
However, existing distillation methods either require significant amounts of offline computation for generating synthetic training data from the teacher model, or need to perform expensive online learning with the help of real data.
In this work, we present a novel technique called BOOT , that overcomes these limitations with an efficient data-free distillation algorithm.
The core idea is to learn a time-conditioned model that predicts the output of a pre trained diffusion model teacher given any time-step.
Such a model can be efficiently trained based on bootstrapping from two consecutive sampled steps.
Furthermore, our method can be easily adapted to large-scale text-to-image diffusion models,

which are challenging for conventional methods given the fact that the training sets are often large and difficult to access.
We demonstrate the effectiveness of our approach on several benchmark datasets in the DDIM setting, achieving comparable generation quality while being orders of magnitude faster than the diffusion teacher.

The text-to-image results show that the proposed approach is able to handle highly complex distributions, shedding light on more efficient generative modeling。

扩散模型已经证明了生成不同图像的良好潜力。
然而，由于迭代去噪，它们的性能往往受到生成缓慢的影响。
最近提出的知识蒸馏是一种可以将推理步骤减少到一个或几个，而不会显著降低质量的方法。
然而，现有的蒸馏方法要么需要大量的离线计算来从教师模型生成综合训练数据，要么需要在真实数据的帮助下执行昂贵的在线学习。
在这项工作中，我们提出了一种名为BOOT的新技术，该技术通过有效的无数据蒸馏算法克服了这些限制。
核心思想是学习一个时间条件模型，该模型可以预测预先训练过的扩散模型教师给定任何时间步长的输出。
基于连续两个采样步的引导可以有效地训练该模型。
此外，我们的方法可以很容易地适应大规模的文本到图像扩散模型，
这对传统方法来说是一个挑战，因为训练集通常很大，很难访问。
我们在DDIM设置下的几个基准数据集上证明了我们的方法的有效性，实现了相当的生成质量，同时比扩散教师快了几个数量级。
文本到图像的结果表明，该方法能够处理高度复杂的分布，为更有效的生成建模提供了线索

Introduction

上：一致性模型，
下：BOOT

xxx, standard diffusion models often have slow inference times (around 50 ∼ 1000× slower than single-step models like GANs)

To address this issue, previous studies have proposed using knowledge distillation to improve the inference speed ( Hinton et al. , 2015 ).

最早的KD方法
The idea is to train a faster student model that can replicate the output of a pre-trained diffusion model.
In this work, we focus on learning single-step models that only require one neural function evaluation (NFE).
However, conventional methods, such as Luhman & Luhman ( 2021 ), r equire executing the full teacher sampling to generate synthetic targets for every student update, which is impractical for distilling large diffusion models like StableDiffusion (SD, Rombach et al. , 2021 ).
Recently, several techniques have been proposed to avoid sampling using the concept of "bootstrap".
For example, Salimans & Ho ( 2022 ) gradually reduces the number of inference steps based on the previous stage’s student, while Song et al. ( 2023 ) and Berthelot et al.

( 2023 ) train single-step denoisers by enforcing self-consistency between adjacent student outputs along the same diffusion trajectory (see Fig. 2 ).
However, these approaches rely on the availability of real data to simulate the intermediate diffusion states as input, which limits their applicability in scenarios where the desired real data is not accessible.

为了解决这个问题，之前的研究已经提出使用知识蒸馏来提高推理速度(Hinton et al.， 2015)。
我的意思是是训练一个更快的学生模型，它可以复制预训练的扩散模型的输出。
在这项工作中，我们专注于学习只需要一个神经功能评估(NFE)的单步模型。
然而，传统方法，如Luhman & Luhman(2021)，需要执行完整的教师抽样来为每次学生更新生成合成目标，这对于提取StableDiffusion等大型扩散模型是不切实际的(SD, Rombach等人，2021)。
最近，已经提出了几种使用“自举”概念来避免采样的技术。
例如，Salimans & Ho(2022)基于前一阶段的学生逐渐减少了推理步骤的数量，
而Song等人(2023)和Berthelot等人(2023)通过在沿相同扩散轨迹的相邻学生输出之间加强自一致性来训练单步去噪器(见图2)。

然而，这些方法依赖于真实数据的可用性来模拟中间扩散状态作为输入，这限制了它们在无法访问所需真实数据的情况下的适用性。

In this paper, we propose BOOT, a data-free knowledge distillation method for denoising diffusion models based on bootstrapping.
BOOT is partially motivated by the observation made by consistency model (CM, Song et al., 2023) that all points on the same diffusion trajectory (also known as PF-ODE (Song et al., 2020b)) have a deterministic mapping between each other.
Unlike CM, which seeks self-consistency from any xt to x0, BOOT predicts all possible xt given the same noise point ϵ and a time indicator t.
Since our model gθ always reads pure Gaussian noise, there is no need to sample from real data.
Moreover, learning all xt from the same ϵ enables bootstrapping:
it is easier to predict xt if the model has already learned to generate xt′ where t′ > t. However, formulating bootstrapping in this way presents additional challenges, such as noisy sample prediction, which is non-trivial for neural networks.
To address this, we learn the student model from a novel Signal-ODE derived from the original PF-ODE.
We also design objectives and boundary conditions to enhance the sampling quality and diversity.
This enables efficient inference of large diffusion models in scenarios where the original training corpus is inaccessible due to privacy or other concerns.
For example, we can obtain an efficient model for synthesizing images of "raccoon astronaut" by distilling the text-to-image model with the corresponding prompts (shown in Fig. 3), even though collecting such data in reality is difficult.

本文提出了一种基于自举bootstrapping的扩散模型去噪的无数据知识蒸馏方法BOOT。
BOOT的部分动机来自于一致性模型(CM, Song et al.， 2023一致性模型)的观察，即相同扩散轨迹上的所有点(也称为PF-ODE (Song et al.， 2020b))彼此之间具有确定性映射。
与CM不同，它寻求从任何xt到x0的自一致性，BOOT在给定相同的噪声点λ和时间指示器t的情况下预测所有可能的xt。
由于我们的模型gθ总是读取纯高斯噪声，因此不需要从实际数据中采样。
此外，从相同的ϵ 中学习所有的xt可以实现自举bootstrapping:
如果模型已经学会生成t > t的xt，则更容易预测xt。
然而，以这种方式制定自举会带来额外的挑战，例如噪声样本预测，这对于神经网络来说是非平凡的。
为了解决这个问题，我们从原始的PF-ODE衍生出的新颖信号ODE中学习学生模型。
我们还设计了目标和边界条件，以提高采样质量和多样性。
这使得在原始训练语料库由于隐私或其他问题而无法访问的情况下，能够有效地推断大型扩散模型。
例如，我们可以通过提取文本到图像的模型和相应的提示(如图3所示)来获得一个高效的“浣熊宇航员”图像合成模型，尽管在现实中很难收集到这样的数据。

In the experiments, we first demonstrate the efficacy of BOOT on various challenging image generation benchmarks, including unconditional and class-conditional settings.
Next, we show that the proposed method can be easily adopted to distill text-to-image diffusion models. An illustration of sampled images from our distilled text-to-image model is shown in Fig. 1 .

在实验中，我们首先证明了BOOT在各种具有挑战性的图像生成基准测试中的有效性，包括无条件和类条件设置。

接下来，我们证明了所提出的方法可以很容易地用于提取文本到图像的扩散模型。图1显示了从我们提炼的文本到图像模型中采样图像的示例。

2 Preliminaries

2.1 Diffusion Models

2.2 Knowledge Distillation

Orthogonal to the development of ODE solvers, distillation-based techniques have been proposed to learn faster student models from a pre-trained diffusion teacher.
The most straightforward approach is to perform direct distillation ( Luhman & Luhman , 2021 ), where a student model g θ is trained to learn from the output of the diffusion model, which is computationally expensive itself:

Here, ODE-solver refers to any solvers like DDIM as mentioned above.
While this naive approach shows promising results, it typically requires over 50 steps of evaluations to obtain reasonable distillation targets, which becomes a bottleneck when learning large-scale models.

Alternatively, recent studies ( Salimans & Ho , 2022 ; Song et al. , 2023 ; Berthelot et al. , 2023 ) have proposed methods to avoid running the full diffusion path during distillation.
For instance, the consistency model (CM, Song et al. , 2023 ) trains a time-conditioned student model g θ ( x t , t ) to predict self-consistent outputs along the diffusion trajectory in a bootstrap fashion:

where x s = ODE-Solver ( f ϕ , x t , t → s ) , typically with a single-step evaluation using Eq. ( 2 ).
In this case, θ − represents an exponential moving average (EMA) of the student parameters θ , which is important to prevent the self-consistency objectives from collapsing into trivial solutions by always predicting similar outputs.
After training, samples can be generated by executing g θ ( x T , T ) with a single NFE.
It is worth noting that Eq. ( 4 ) requires sampling x t from the real data sample x , which is the essence of bootstrapping:
the model learns to denoise increasingly noisy inputs until x T .

However, in many tasks, the original training data x for distillation is inaccessible.
For example, text-to-image generation models require billions of paired data for training.
One possible solution is to use a different dataset for distillation; however, the mismatch in the distributions of the two datasets would result in suboptimal distillation performance.

与ODE求解器的发展正交，已经提出了基于蒸馏的技术，以便从预训练的扩散教师那里更快地学习学生模型。
最直接的方法是执行直接蒸馏(Luhman & Luhman, 2021)，其中训练学生模型gθ从扩散模型的输出中学习，这本身在计算上是昂贵的:

这里，ODE-solver指的是任何像上面提到的DDIM这样的求解器。
虽然这种朴素的方法显示出有希望的结果，但通常需要超过50步的评估才能获得合理的蒸馏目标，这在学习大规模模型时成为瓶颈。

或者，最近的研究(Salimans & Ho, 2022;Song et al.， 2023;Berthelot等人，2023)提出了避免在蒸馏过程中运行完整扩散路径的方法。
例如，一致性模型(CM, Song et al.， 2023)训练一个时间条件学生模型gθ(xt, t)，以自举方式沿扩散轨迹预测自洽输出:

其中xs = ODE-Solver(fϕ， xt, t→s)，通常使用Eq.(2)进行单步评估。
在这种情况下，θ−表示学生参数θ的指数移动平均(EMA)，这对于通过总是预测相似的输出来防止自洽目标崩溃为平凡的解决方案非常重要。
训练完成后，可以用单个NFE执行gθ(xT, T)生成样本。
值得注意的是，Eq.(4)要求从真实数据样本x中抽取xt，这就是bootstrapping的本质:
模型学习去噪越来越多的噪声输入，直到xT。
然而，在许多任务中，用于蒸馏的原始训练数据x是不可访问的。
例如，文本到图像生成模型需要数十亿对数据进行训练。
一个可能的解决方案是使用不同的数据集进行蒸馏;
然而，两个数据集分布的不匹配会导致蒸馏性能的次优。

3 Method

In this section, we present BOOT, a novel distillation approach inspired by the concept of bootstrapping without requiring target domain data during training.
We begin by introducing signal-ODE , a modeling technique focused exclusively on signals (§ 3.1 ), and its corresponding distillation process (§ 3.2 ).
Subsequently, we explore the application of BOOT in text-to-image generation (§ 3.3 ).
The training pipeline is depicted in Fig. 3 , providing an overview of the process.

在本节中，我们介绍BOOT，这是一种受bootstrapping概念启发的新型蒸馏方法，在训练期间不需要目标域数据。
我们首先介绍signal-ODE，这是一种专门针对信号(§3.1)的建模技术，及其相应的蒸馏过程(§3.2)。
随后，我们探索BOOT在文本到图像生成中的应用(第3.3节)。
训练管道如图3所示，提供了过程的概述。

Figure 3: Training pipeline of BOOT.
s and t are two consecutive timesteps where s < t.
From a noise map ϵ, the objective of BOOT minimizes the difference between the output of a student model at timestep s, and the output of stacking the same student model and a teacher model at an earlier time t.
The whole process is data-free.

BOOT培训流水线。
s和t是两个连续的时间步，其中s < t。
噪声映射λ中，BOOT的目标是最小化学生模型在时间步长s的输出与在更早时间t叠加相同学生模型和教师模型的输出之间的差异。
整个过程是无数据的。

3.1 Signal-ODE

We utilize a time-conditioned student model g θ ( ϵ , t ) in our approach.
Similar to direct distillation ( Luhman & Luhman , 2021 ), BOOT always takes random noise ϵ as input and approximates the intermediate diffusion model variable: g θ ( ϵ , t ) ≈ x t = ODE-Solver ( f ϕ , ϵ , T → t ) , ϵ ∼ N (0 , I ) .

在我们的方法中，我们使用了一个时间条件学生模型gθ(λ， t)。
与直接蒸馏类似(Luhman & Luhman, 2021)， BOOT总是以随机噪声为输入并近似中间扩散模型变量:gθ(λ， t)≈xt = ODE-Solver(fφ， λ， t→t)， λ ~ N (0, I)。

This approach eliminates the need to sample from real data during training.
The final sample can be obtained as g θ ( ϵ , 0) ≈ x 0 .
However, it poses a challenge to train g θ effectively, as neural networks struggle to predict partially noisy images ( Berthelot et al. , 2023 ), leading to out-of-distribution (OOD) problems and additional complexities in learning g θ accurately.

这种方法消除了在训练期间从真实数据中采样的需要。
最终的样本可以得到gθ(λ， 0)≈x0。
然而，它对有效训练gθ提出了挑战，因为神经网络难以预测部分噪声图像(Berthelot et al.， 2023)，导致分布外(OOD)问题和准确学习gθ的额外复杂性。

To overcome the aforementioned challenge, we propose an alternative approach where we predict y t = ( x t − σ t ϵ ) /α t .
In this case, y t represents the low-frequency "signal" component of x t , which is easier for neural networks to learn.
The initial noise for diffusion is denoted by ϵ . This prediction target is reasonable since it aligns with the boundary condition of the teacher model, where y 0 = x 0 .

Furthermore, we can derive an iterative equation from Eq. ( 2 ) for consecutive timesteps:

Figure 4: Comparison between the generated outputs of DDIM/Signal-ODE and our distilled model given the same prompt A raccoon wearing a space suit, wearing a helmet.
Oil painting in the style of Rembrandt and initial noise input.
By definition, signal-ODE converges to the same final sample as the original DDIM, while the distilled single-step model does not necessarily follow.

图4:在相同提示下，DDIM/Signal-ODE生成的输出与我们的蒸馏模型的输出对比:
一只浣熊穿着宇航服，戴着头盔。
伦勃朗风格的油画和初始噪声输入。
根据定义，signal-ODE收敛于与原始DDIM相同的最终样本，而经过提炼的单步模型则不一定遵循。

华为面试题及答案——机器学习(二) 麦当当MDD 题目挖掘机器学习人工智能数据库开发数据库大数据
21.如何评价分类模型的优劣?（1）模型性能指标准确率（Accuracy）：定义：正确分类的样本数与总样本数之比。适用：当各类样本的数量相对均衡时。精确率（Precision）：定义：预测为正类的样本中实际为正类的比例。适用：当关注假阳性错误的成本较高时（例如垃圾邮件检测）。召回率（Recall）：定义：实际为正类的样本中被正确预测为正类的比例。适用：当关注假阴性错误的成本较高时（例如疾病检测）。
深度学习突破：LLaMA-MoE模型的高效训练策略人工智能大模型讲师培训咨询叶梓深度学习 llama 人工智能 Llama-Moe 大模型语言模型
在人工智能领域，大模型（LLM）的崛起带来了前所未有的进步，但随之而来的是巨大的计算资源需求。为了解决这一问题，Mixture-of-Expert（MoE）模型架构应运而生，而LLaMA-MoE正是这一架构下的重要代表。LLaMA-MoE是一种基于LLaMA系列和SlimPajama的MoE模型，它通过将LLaMA的前馈网络（FFNs）划分为稀疏专家，并为每层专家插入top-K个门，从而显著减小模
顺丰科技-2024 机器学习算法面经程序员奇奇 offer分享+面试经验顺丰科技机器学习机器学习算法面经
专栏分享：计算机小伙伴秋招春招找工作的面试经验和面试的详情知识点专栏首页：软件测试开发类面经合集主要分享：测试开发类岗位在面试互联网公司时候一些真实的经验面试code学习参考请看：数据结构面试必刷100题一面：1.自我介绍2.线程和进程的区别，什么时候用多进程，什么时候用多线程（这个属于给自挖坑了）3.实习项目问题，项目目标是怎么定的，用的什么算法
基于 Python + Django 的学生成绩综合评价分析预测可视化系统源码空间站11 python django 开发语言课程设计机器学习成绩预测毕业设计
开发报告：一、项目概述本项目是一个基于Python和Django框架开发的学生成绩综合评价分析与预测可视化系统。系统的主要功能包括：学生成绩数据的管理与展示、成绩预测模型的建立与应用、以及预测结果的可视化展示。该系统利用机器学习算法（如线性回归）进行成绩预测，并通过DjangoWeb框架实现数据的展示和用户交互。二、系统功能概述学生信息管理：系统管理学生的基本信息，包括年龄、性别、爱好等，基于Dj
机器学习之学习笔记孤城laugh 机器学习学习笔记人工智能 python
机器学习-学习笔记1.简介2.算法3.特征工程3.1数据集3.2特征提取3.3特征预处理3.4特征降维4.分类算法4.1`sklearn`转换器和估计器4.2K-近邻算法（KNN）4.3模型选择与调优4.4朴素贝叶斯算法4.5决策树4.6集成学习方法之随机森林5.回归算法5.1线性回归5.2过拟合与欠拟合5.3岭回归5.4逻辑回归（实际上是分类算法，用于解决二分类问题）6.聚类算法1.无监督学习2
深度学习day1 孤城laugh 深度学习人工智能笔记学习机器学习
深度学习day11.深度学习与机器学习的区别1.1特征提取方面1.2数据量与计算性能要求1.3算法代表2.深度学习框架之TensorFlow2.1TensorFlow基础2.2TensorFlow基础知识1.**张量（Tensor）**：多维数组、多维列表2.**变量（Variable）**：用于表示程序处理的共享持久状态3.**图与函数**4.**可视化学习（TensorBoard）**：用来展
系统对接方案_浅谈RPA系统 weixin_39881760 系统对接方案
首先本文是有感而发，其次是我本身是大数据和人工智能领域产品多年从业者，并不局限于RPA领域，做过一些RPA项目也和客户沟通并且提供过顾问和咨询服务，所以有一定理解。从网上可见的大部分文章包括本问题下面的回答中，都可以看到，大部分是宏观回答，从狭义来说，RPA可以是一个软件工具、可以是一套系统也可以是一个平台；RPA可以让办公自动化、业务流程自动化。从广义来说，任何一个可被规则化且突发、未知情况少的
双盲机制（信念，欲望）：模型上下文通常会包含所有信，双盲机制屏蔽：每个智能体分别进行独立的模型调用 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力人工智能 android python 自然语言处理 pycharm
如何让人工智能生成的说服性对话更接近真实的日常交流目录如何让人工智能生成的说服性对话更接近真实的日常交流**一、核心创新点解析****1.双盲对话生成机制****2.因果心理理论指导****3.多智能体协作框架ToMMA****二、实验结论****三、论文贡献**怎么代码中实现Agent的双盲场景假设代码实现代码解释注意事项模型上下文通常会包含所有信，双盲机制屏蔽：每个智能体分别进行独立的模型调用
【Swift 算法实战】判断数组中是否存在重复元素网罗开发 Swift vue.js leetcode 算法
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
深度学习现状与未来发展趋势分析报告（深度学习还是主流吗？）与光同尘大道至简深度学习人工智能
此博客分析深度学习当前的主流应用领域、其受关注度的变化趋势、可能的技术替代或补充方案、产业界和学术界的不同发展方向，以及影响其受关注度变化的核心因素。报告将包括结构化分析（背景、现状、挑战、未来趋势）、数据驱动（市场趋势、论文发表量等数据支持）以及行业案例分析，以展示某些行业如何逐步减少对深度学习的依赖。背景深度学习的概念与发展历程：深度学习（DeepLearning）是机器学习中的一类方法，源于
K-means聚类：解锁数据隐藏结构的钥匙蓝天资源分享 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
Python项目-基于深度学习的校园人脸识别考勤系统天天进步2015 Python项目实战 python
引言随着人工智能技术的快速发展，深度学习在计算机视觉领域的应用日益广泛。人脸识别作为其中的一个重要分支，已经在安防、金融、教育等多个领域展现出巨大的应用价值。本文将详细介绍如何使用Python和深度学习技术构建一个校园人脸识别考勤系统，该系统能够自动识别学生身份并记录考勤信息，大大提高了考勤效率，减轻了教师的工作负担。系统概述功能特点实时人脸检测与识别：能够从摄像头视频流中实时检测并识别人脸自动考
python常见面试题基础篇 (一) 航叔啦
Python基础篇1：为什么学习Python家里有在这个IT圈子里面，也想让我接触这个圈子，然后给我建议学的Python，然后自己通过百度和向有学过Python的同学了解了Python，Python这门语言，入门比较简单，它简单易学，生态圈比较强大，涉及的地方比较多，特别是在人工智能，和数据分析这方面。在未来我觉得是往自动化，人工智能这方面发展的，所以学习了Python2：通过什么途径学习Pyth
一次性了解OpenAI的“草莓”（Strawberry）超强实力金融街小单纯预测模型生成式人工智能人工智能
OpenAI预计在秋季推出的代号为“草莓”（Strawberry）的新AI模型，是其在AI推理领域的一项重要突破。该项目的成功也将为人类实现通用人工智能（AGI）目标迈出重要一步。使模型不仅能够生成查询答案，还能处理复杂的科学和数学问题，进行自主可靠的“深度研究”。“草莓”项目是OpenAI在AI推理领域的一项重要突破具备高级推理能力、长任务规划、超大规模训练等核心功能与技术特点。该项目的推出将进
深度解析大模型蒸馏方法：原理、差异与案例赵大仁 AI 人工智能大语言模型人工智能
深度解析大模型蒸馏方法：原理、差异与案例1.引言随着深度学习的飞速发展，大模型（LargeModels）如GPT、BERT、ViT逐渐成为AI领域的主流。然而，这些模型通常参数量庞大，计算开销极高，不适用于移动端或低算力环境。因此，模型蒸馏（KnowledgeDistillation,KD）作为一种模型压缩技术，成为高效部署大模型的重要手段。在本篇文章中，我们将深入探讨不同类型的模型蒸馏方法，并通
基于opencv消除图片马赛克小苗爸爸 opencv 人工智能计算机视觉
以下是一个基于Python的图片马赛克消除函数实现，结合了图像处理和深度学习方法。由于马赛克消除涉及复杂的图像重建任务，建议根据实际需求选择合适的方法：importcv2importnumpyasnpfromPILimportImagedefremove_mosaic(image_path,output_path,method='traditional',block_size=10,scale_f
【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码） arbboter 人工智能人工智能深度学习 pandas 数据处理数据分析数据清洗数据分析效率提升
Pandas系列文章导航入门篇进阶篇终极篇一、引言在大数据与AI驱动的时代，数据预处理和分析是深度学习与机器学习的基石。Pandas作为Python生态中最强大的数据处理库，以其灵活的数据结构（如DataFrame和Series）和丰富的功能（数据清洗、转换、聚合等），成为数据科学家和工程师的核心工具。Pandas以Series（一维标签数组）和DataFrame（二维表格）为核心数据结构，提供高
Github 2024-09-30 开源项目周报 Top15 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，本周(2024-09-30统计)共有15个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目7JupyterNotebook项目2Dart项目1Ruby项目1HTML项目1C#项目1TypeScript项目1Rust项目1非开发语言项目1AutoGPT:人工智能革命的先锋创建周期：486天开发语言：Python协议类型：MI
免费分享，清华大学DeepSeek 1-6版教程全析，探索未知的技术新领域推文 qq_35008050 pdf
免费分享，清华大学DeepSeek1-6版教程全析，探索未知的技术新领域在科技飞速发展的今天，人工智能领域不断推陈出新，DeepSeek作为其中的一颗新星备受瞩目。如今，一份来自清华大学的珍贵礼物——DeepSeek1-6版教程，正免费向大家敞开知识的大门，助力我们深入探索未知的技术新领域。第一版：基础奠基，开启DeepSeek之旅对于初次接触DeepSeek的人来说，第一版教程就像是一座坚实的基
对“预训练”的理解衣衣困深度学习神经网络自然语言处理
预训练有什么用传统的机器学习是偏数学的，对数据的量不做过多要求，而深度学习的项目通常是有大量的数据可供使用。在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大数据支持的模型的参数，作为基准，这样就能提高效率和准确率。因为他们神经网络的浅层是相似的，也就是说，在任务相似的情况下，可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。预训练可以节省
Java 大视界 -- Java 大数据机器学习模型的可解释性增强技术与应用（107）青云交大数据新视界 Java 大视界大数据 java 可解释性 AI SHAP LIME 因果推理可视化交互
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
2025人工智能AI与电商革命：人工智能如何塑造在线市场的未来报告300+份汇总解读|附PDF下载数据挖掘深度学习人工智能算法
原文链接：https://tecdat.cn/?p=40894在当今数字化时代，电子商务与人工智能的融合正重塑商业格局。本报告汇总洞察基于Prosus、Dealroom.co发布的《TheAIxEcommerceRevolution：HowAIisshapingtheFutureofOnlineMarketplaces》及文末308份电子商务和人工智能行业研究报告的数据，报告合集已分享在交流群，阅
大模型中的Token究竟是什么？从原理到作用深度解析自然语言处理算法人工智能
引言在人工智能领域，大型语言模型（LLM）如GPT-4、Claude等系统性地改变了人机交互方式。这些模型处理文本的核心单元被称为"Token"，这个看似简单的概念实则蕴含复杂的工程设计和语言学原理。本文将深入解析Token的本质、技术实现及其在模型运作中的关键作用。Token化技术全景图核心处理流程原始文本→预处理→分词算法→词表映射→模型输入↓↓↓大小写转换子词拆分策略特殊Token添加标点规
ChatGPT与DeepSeek：开源与闭源的AI模型之争我们的五年游戏实现 chatgpt 人工智能
目录一、模型架构与技术原理二、性能能力与应用场景三、用户体验与部署灵活性四、成本与商业模式五、未来展望与市场影响六、总结随着人工智能技术的飞速发展，ChatGPT和DeepSeek作为两大领先的AI语言模型，成为了行业内外关注的焦点。它们在技术架构、应用场景、用户体验和成本等方面存在显著差异，尤其是开源与闭源的模式，使得两者在市场竞争中各有优势。本文将对ChatGPT和DeepSeek进行全面对比
郑州人工智能计算中心成果发布会成功举办埃文科技共建AI生态人工智能
2024年3月1日，由郑州市科学技术局主办，郑州联通、华为技术有限公司联合承办的郑州人工智能计算中心成果发布会在郑州隆重举行，郑州埃文科技有限公司（以下简称“埃文科技”）作为河南省人工智能领军企业受邀参会。大会以“全面拥抱智能化，共筑算力新底座”为主题，郑州市委副书记、代市长庄建球，河南联通党委书记、总经理华豫民等领导，以及300余位行业专家、企业代表齐聚一堂，共同见证中部地区首个政府主导的智能算
基于K8S设计实现机器学习管理调度平台 richenlin 机器学习
设计和实现一套基于Kubernetes(K8s)的机器学习管理调度平台，目标是利用K8s的容器化和调度能力，提供高效的资源管理、任务调度、可扩展性及灵活性，适应机器学习（ML）训练、推理等不同场景的需求。以下是平台设计的主要模块和实施步骤：1.系统架构概述该平台需要一个多层架构，其中K8s作为底层容器调度和资源管理平台，机器学习任务管理与调度层作为平台的核心模块。平台应具备高可用、弹性伸缩、任务监
DeepSeek×博云AIOS：突破算力桎梏，开启AI普惠新纪元 deepseek
背景在全球人工智能技术高速迭代的背景下，算力成本高企、异构资源适配复杂、模型部署效率低下等问题，始终是制约企业AI规模化应用的关键。DeepSeek以创新技术直击产业痛点，而博云先进算力管理平台AIOS的全面适配，则为这一技术落地提供了坚实底座。两者的深度融合，正在重塑AI产业化的技术范式。DeepSeek：算法创新定义AI新范式DeepSeek凭借技术突破，为AI领域树立了新标杆：DeepSee
【python数据挖掘之numpy】-数组及对象属性和数据转换 sc.溯琛 python 数据挖掘 numpy
Numpy是一个Python库，用于处理多维数组和矩阵，以及针对这些数组执行数学运算的函数。它提供了高效的数组对象和相关的操作，可以用于快速处理大量数据。Numpy的主要功能包括：创建数组、数组运算、数组索引和切片、线性代数、随机数生成等。Numpy在科学计算、数据分析、机器学习等领域都广泛应用。tips：（本博文在jupyter中实训）目录一、创建数组对象1.array（）函数来创建数组的对象2
赋能农业数字化转型用DeepSeek大模型开启智慧农业新纪元 jingwang-cs 人工智能人工智能后端
赋能农业数字化转型用DeepSeek大模型开启智慧农业新纪元当农业遇见DeepSeek大模型：从经验驱动到数据智能的跨越传统农业依赖“看天吃饭”，而「智慧农业」平台依托公司自主研发的农业大模型，深度融合DeepSeek前沿AI技术，构建“数据-模型-决策”全链路智能服务体系。通过深度学习历史种植数据、气象信息、土壤墒情等多维农业要素，平台可精准预测病虫害风险、产量波动及市场趋势，为农户提供科学种植
Transformer架构简略：DeepSeek 的底层基石 windwant 人工智能人工智能 transformer 架构
2017年，一篇名为《AttentionisAllYouNeed》的论文横空出世，提出了Transformer架构，彻底改变了自然语言处理（NLP）领域的格局。它不仅在各种NLP任务上取得了突破性进展，更成为了当今人工智能领域最具影响力的架构之一。一、从RNN到Transformer：突破瓶颈，开创先河在Transformer出现之前，循环神经网络（RNN）及其变体（如LSTM、GRU）是处理序列
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

[读论文] [ 蒸馏-diffusion] BOOT : Data-free Distillation of Denoising DiffusionModels with Bootstrapping

你可能感兴趣的:(人工智能,机器学习,深度学习)