计算机视觉-Archer

[读论文][2s生成] SnapFusion: Text-to-Image Diffusion Model on MobileDevices within Two Seconds

摘要

Text-to-image diffusion models can create stunning images from natural language

descriptions that rival the work of professional artists and photographers.
However, these models are large, with complex network architectures and tens of denoising

iterations, making them computationally expensive and slow to run.
As a result, high-end GPUs and cloud-based inference are required to run diffusion models at

scale.
This is costly and has privacy implications, especially when user data is sent

to a third party.
To overcome these challenges, we present a generic approach that, for the first time, unlocks running text-to-image diffusion models on mobile devices in less than 2 seconds .
We achieve so by introducing efficient network architecture and improving step distillation.
Specifically, we propose an efficient UNet by identifying the redundancy of the original model and reducing the computation of the image decoder via data distillation.
Further, we enhance the step distillation by exploring training strategies and introducing regularization from classifier-free guidance.
Our extensive experiments on MS-COCO show that our model with 8 denoising steps achieves better FID and CLIP scores than Stable Diffusion v 1 . 5 with 50 steps.
Our work democratizes content creation by bringing powerful text-to-image diffusion models to the hands of users 1 .

文本到图像的扩散模型可以从自然语言中创造出令人惊叹的图像与专业艺术家和摄影师的作品相媲美的描述。
然而，这些模型非常庞大，具有复杂的网络结构和数十次去噪迭代，使它们在计算上昂贵且运行缓慢。
因此，需要高端gpu和基于云的推理来运行扩散模型规模。
这是昂贵的，并且涉及隐私问题，特别是在发送用户数据时给第三方。
为了克服这些挑战，我们提出了一种通用方法，首次在不到2秒的时间内解锁移动设备上运行的文本到图像扩散模型。
我们通过引入高效的网络结构和改进步进蒸馏来实现这一目标。
具体来说，我们通过识别原始模型的冗余并通过数据蒸馏减少图像解码器的计算，提出了一种高效的UNet。
此外，我们通过探索训练策略和引入无分类器引导的正则化来增强步进蒸馏。
我们在MS-COCO上的大量实验表明，我们的模型具有8个去噪步骤，比具有50个步骤的Stable Diffusion v1.5获得更好的FID和CLIP分数。
我们的工作通过将强大的文本到图像的扩散模型带到用户手中，使内容创作民主化。

Introduction

Diffusion-based text-to-image models [1, 2, 3, 4] show remarkable progress in synthesizing photorealistic content using text prompts.
They profoundly impact the content creation [5, 6], image editing and in-painting [7, 8, 9, 10, 11], super-resolution [12], video synthesis [13, 14], and 3D assets generation [15, 16, 17], to name a few.
This impact comes at the cost of the substantial increase in the computation requirements to run such models [18, 19, 20].
As a result, to satisfy the necessary latency constraints large scale, often cloud-based inference platforms with high-end GPU are required.
This incurs high costs and brings potential privacy concerns, motivated by the sheer fact of sending private images, videos, and prompts to a third-party service.

基于扩散的文本到图像模型[1,2,3,4]在使用文本提示将pho合成为逼真内容方面取得了显著进展。它们深刻地影响着内容创作[5,6]、图像编辑和绘画[7,8,9,10,11]、超分辨率[12]、视频合成[13,14]和3D资产生成[15,16,17]等。
这种影响的代价是运行此类模型的计算需求大幅增加[18,19,20]。
因此，为了满足必要的大规模延迟约束，通常需要基于云的高端GPU推理平台。
这招致了高昂的成本，并带来了潜在的隐私问题，其动机是向第三方服务发送私人图像、视频和提示。

Not surprisingly, there are emerging efforts to speed up the inference of text-to-image diffusion models on mobile devices.
Recent works use quantization [ 21 , 22 ] or GPU-aware optimization to reduce the run time, i.e. , accelerating the diffusion pipeline to 11 . 5 s on Samsung Galaxy S23 Ultra [ 23 ].
While these methods effectively achieve a certain speed-up on mobile platforms, the

obtained latency does not allow for a seamless user experience. Besides, none of the existing studies systematically examine the generation quality of on-device models through quantitative analysis.

毫不奇怪，人们正在努力加快移动设备上文本到图像扩散模型的推断速度。
最近的研究使用量化[21,22]或gpu感知优化来缩短运行时间，即在三星Galaxy S23 Ultra上将扩散流水线加速到11.5s[23]。Speed is all you need
虽然这些方法在移动平台上有效地实现了一定的加速，但是获得的延迟不能提供无缝的用户体验。此外，现有的研究都没有通过定量分析系统地考察设备上模型的生成质量。

In this work, we present the first text-to-image diffusion model that generates an image on mobile devices in less than 2 seconds.
To achieve this, we mainly focus on improving the slow inference speed of the UNet and reducing the number of necessary denoising steps.
First , the architecture of UNet , which is the major bottleneck for the conditional diffusion model (as we show in Tab. 1 ), is rarely optimized in the literature.
Existing works primarily focus on post-training optimizations [ 24 , 25 ].

Conventional compression techniques, e.g. , model pruning [ 26 , 27 , 28 ] and architecture search [ 29 , 30 ], reduce the performance of pre-trained diffusion models, which is difficult to recover without heavy fine-tuning .
Consequently, the architecture redundancies are not fully exploited, resulting in a limited acceleration ratio.
Second , the flexibility of the denoising diffusion process is not well explored for the on-device model.
Directly reducing the number of denoising steps impacts the generative performance, while progressively distilling the steps can mitigate the impacts [ 31 , 32 ].

However, the learning objectives for step distillation and the strategy for training the on-device model have yet to be thoroughly studied, especially for models trained using large-scale datasets.

在这项工作中，我们提出了第一个文本到图像的扩散模型，该模型可以在不到2秒的时间内在移动设备上生成图像。
为了实现这一目标，我们主要关注提高UNet缓慢的推理速度和减少必要的去噪步骤。
首先，UNet的架构是条件扩散模型的主要瓶颈(如表1所示)，在文献中很少进行优化。
现有的工作主要集中在训练后优化[24,25]。
传统的压缩技术，如模型修剪[26,27,28]和架构搜索[29,30]，会降低预训练扩散模型的性能，如果没有大量的微调，很难恢复。
因此，架构冗余没有被充分利用，导致有限的加速比。
其次，对于器件上模型(on-device model)，去噪扩散过程的灵活性没有得到很好的探索。
直接减少去噪步骤会影响生成性能，而逐步提取步骤(progressively distilling the steps)可以减轻影响[31,32]。
然而，步进蒸馏的学习目标和设备上模型的训练策略还有待深入研究，特别是对于使用大规模数据集训练的模型。

This work proposes a series of contributions to address the aforementioned challenges:
• We provide an in-depth analysis of the denoising UNet and identify the architecture redundancies.
• We propose a novel evolving training framework to obtain an efficient UNet that performs better than the original Stable Diffusion v1.52 while being significantly faster.
We also introduce a data distillation pipeline to compress and accelerate the image decoder.
• We improve the learning objective during step distillation by proposing additional regularization, including losses from the v-prediction and classifier-free guidance [33].
• Finally, we explore the training strategies for step distillation, especially the best teacher-student paradigm for training the on-device model.
Through the improved Step distillation and network architecture development for the difFusion model, our introduced model, SnapFusion, generates a 512 × 512 image from the text on mobile devices in less than 2 seconds, while with image quality similar to Stable Diffusion v1.5 [4] (see example images from our approach in Fig. 1).

这项工作提出了一系列应对上述挑战的贡献:
1 我们提供了去噪UNet的深入分析，并确定了架构冗余。
2 我们提出了一种新的进化训练框架，以获得比原来的Stable Diffusion v1.52更好的高效UNet，同时速度也明显快得多。
我们还引入了一个数据蒸馏管道来压缩和加速图像解码器。
3 我们通过提出额外的正则化来改进步进蒸馏过程中的学习目标，包括v-预测和无分类器引导的损失[33]。
4 最后，我们探讨了步进蒸馏的训练策略，特别是用于训练设备上模型的最佳师生范式。
通过改进的Step蒸馏和扩散模型的网络架构开发，我们引入的模型SnapFusion在不到2秒的时间内从移动设备上的文本生成512 × 512的图像，而图像质量与Stable difFusion v1.5[4]相似(参见图1中我们方法的示例图像)。

2 Model Analysis of Stable Diffusion

2.1 Prerequisites of Stable Diffusion

2.2 Benchmark and Analysis

Here we comprehensively study the parameter and computation intensity of the SD-v1.5.
The in-depth analysis helps us understand the bottleneck to deploying text-to-image diffusion models on mobile devices from the scope of network architecture and algorithm paradigms. Meanwhile, the micro-level breakdown of the networks serves as the basis of the architecture redesign and search.

Macro Prospective.
As shown in Tab. 1 and Fig. 3, the networks of stable diffusion consist of three major components.
Text encoder employs a ViT-H model [40] for converting input text prompt into embedding and is executed in two steps (with one for CFG) for each image generation process, constituting only a tiny portion of inference latency (8 ms).
The VAE decoder takes the latent feature to generate an image, which runs as 369 ms.
Unlike the above two models, the denoising UNet is not only intensive in computation (1.7 seconds latency) but also demands iterative forwarding steps to ensure generative quality.
For instance, the total denoising timesteps is set to 50 for inference in SD-v1.5, significantly slowing down the on-device generation process to the minute level.

宏观经济预期。
从表1和图3可以看出，稳定扩散网络主要由三个部分组成。
1 文本编码器采用ViT-H模型[40]将输入文本提示转换为嵌入，每个图像生成过程分两步执行(其中一步用于CFG)，仅占推理延迟的很小一部分(8 ms)。
2 VAE解码器利用潜特征生成图像，运行时间为369 ms。
3 与上述两种模型不同，去噪UNet不仅计算量大(1.7秒延迟)，而且需要迭代转发步骤以确保生成质量。
例如，SD-v1.5中用于推断的总去噪时间步长设置为50，显著地将设备上的生成过程减慢到分钟级别。

[读论文][2s生成] SnapFusion: Text-to-Image Diffusion Model on MobileDevices within Two Seconds_第2张图片

Breakdown for UNet.
The time-conditional (t) UNet consists of cross-attention and ResNet blocks.
Specifically, a cross-attention mechanism is employed at each stage to integrate text embedding (c) into spatial features: Cross-Attention(Qzt , Kc, Vc) = Softmax( Qzt ·) · Vc, where Q is projected from noisy data zt, K and V are projected from text condition, and d is the feature dimension.
UNet also uses ResNet blocks to capture locality, and we can formulate the forward of UNet as:

UNet的细分。
时间条件(t) UNet由交叉注意块和ResNet块组成。
具体来说，在每个阶段采用交叉注意机制将文本嵌入(c)整合到空间特征中:交叉注意(Qzt, Kc, Vc) = Softmax(Qzt·)·Vc，其中Q是由噪声数据zt投影而来，K和V是由文本条件投影而来，d是特征维数。
UNet也使用ResNet块来捕获局部性，我们可以将UNet的forward表述为:

The distribution of parameters and computations of UNet is illustrated in Fig. 2, showing that parameters are concentrated on the middle (downsampled) stages because of the expanded channel dimensions, among which ResNet blocks constitute the majority.
In contrast, the slowest parts of UNet are the input and output stages with the largest feature resolution, as spatial cross-attentions have quadratic computation complexity with respect to feature size (tokens).

UNet的参数分布和计算如图2所示，由于通道尺寸的扩大，参数集中在中间(下采样)阶段，其中ResNet块占大多数。
相比之下，UNet中最慢的部分是具有最大特征分辨率的输入和输出阶段，因为空间交叉关注相对于特征大小(令牌)具有二次计算复杂度。

3 Architecture Optimizations

架构优化

Here we investigate the architecture redundancy of SD-v1.5 to obtain efficient neural networks.
However, it is non-trivial to apply conventional pruning [41, 42, 43, 44] or architecture search [45, 46,30] techniques, given the tremendous training cost of SD.
Any permutation in architecture may lead to degraded performance that requires fine-tuning with hundreds or thousands of GPUs days.
Therefore, we propose an architecture-evolving method that preserves the performance of the pre-trained UNet model while gradually improving its efficacy.
As for the deterministic image decoder, we apply tailored compression strategies and a simple yet effective prompt-driven distillation approach.

本文研究了SD-v1.5的架构冗余，以获得高效的神经网络。
然而，考虑到SD的巨大训练成本，应用传统的剪枝[41,42,43,44]或架构搜索[45,46,30]技术并非易事。
架构中的任何排列都可能导致性能下降，需要数百或数千个gpu天进行微调。
因此，我们提出了一种架构进化方法，在保持预训练UNet模型性能的同时逐步提高其效率。
对于确定性图像解码器(deterministic image decoder)，我们采用定制tailored的压缩策略和简单而有效的提示驱动蒸馏方法。

3.1 Efficient UNet

From our empirical observation, the operator changes resulting from network pruning or searching lead to degraded synthesized images, asking for significant training costs to recover the performance.
Thus, we propose a robust training, and evaluation and evolving pipeline to alleviate the issue.
Robust Training.
Inspired by the idea of elastic depth [47, 48], we apply stochastic forward propagation to execute each cross-attention and ResNet block by probability p(·, I), where I refers to identity mapping that skips the corresponding block.
Thus, we have Eq. (4) becomes as follows:

ϵˆθ(t, zt) = Y {p(Cross-Attention(zt, c), I), p(ResNet(zt, t), I)}.

(5)

With this training augmentation, the network is robust to architecture permutations, which enables an accurate assessment of each block and a stable architectural evolution (more examples in Fig. 5).

从我们的经验观察来看，由于网络修剪或搜索导致的算子变化导致合成图像降级，需要大量的训练成本来恢复性能。
因此，我们提出了一个健全的培训、评估和发展管道来缓解这个问题。
Robust Training.
受弹性深度思想的启发[47,48]，我们应用随机前向传播以概率p(·，I)执行每个交叉关注和ResNet块，其中I指跳过相应块的身份映射。
由此，我们得到(4)式为:

有了这种训练增强，网络对体系结构排列具有鲁棒性，这使得网络能够实现

准确评估每个块和稳定的架构演变(图5中有更多示例)。

Figure 5: Advantages of robust training .
Prompts of top row: a photo of an astronaut riding a horse on mars and bottom row:
A pikachu fine dining with a view to the Eiffel Tower .
(a) Images from SD-v1.5.
(b) Removing cross-attention (CA) blocks in downsample stage of SD-v1.5.
(c) - (e) Removing cross-attention (CA) blocks in {downsample (DS), middle (mid.), upsample (US)} using our model after robust training. (f) - (h) Removing ResNet blocks (RB) in different stages using our model.
The model with robust training maintains reasonable performance after dropping blocks.

图5: 健壮训练的优点。

上一行提示:宇航员在火星上骑马的照片，下一行提示:

能看到埃菲尔铁塔的皮卡丘餐厅。

(a)来自SD-v1.5的图像。

(b)去除SD-v1.5下采样阶段的交叉注意(CA)块。

(c) - (e)在鲁棒训练后使用我们的模型去除{downsample(DS)，middle(mid.)，upsample(US)}中的交叉注意(CA)块。
(f) - (h)使用我们的模型在不同阶段移除ResNet块(RB)。

经过鲁棒训练的模型在丢块后仍能保持合理的性能

Evaluation and Architecture Evolving.
We perform online network changes of UNet using the model from robust training with the constructed evolution action set:
A ∈ {A+,−Cross-Attention[i,j] , A+,−ResNet[i,j]}, where A+,− denotes the action to remove (−) or add (+) a cross-attention or ResNet block at the corresponding position (stage i, block j). Each action is evaluated by its impact on execution latency and generative performance.
For latency, we use the lookup table built in Sec. 2.2 for each possible configuration of cross-attention and ResNet blocks.
Note we improve the UNet for on-device speed; the optimization of model size can be performed similarly and is left as future work.
For generative performance, we choose CLIP score [40] to measure the correlation between generated images and the text condition.
We use a small subset (2K images) of MS-COCO validation set [49], fixed steps (50), and CFG scale as 7.5 to benchmark the score, and it takes about 2.5 A100 GPU hours to test each action.
For simplicity, the value score of each action is defined as CLIP ∆Latency , where a block with lower latency and higher contribution to CLIP tends to be preserved, and the opposite is removed in architecture evolving (more details in Alg. 1).
To further reduce the cost for network optimization, we perform architecture evolving, i.e., removing redundant blocks or adding extra blocks at valuable positions by executing a group of actions at a time.
Our training paradigm successfully preserves the performance of pre-trained UNet while tolerating large network permutations (Fig. 5).
The details of our final architecture is presented in Sec. A.

我们使用鲁棒训练的模型和构建的进化动作集来执行UNet的在线网络变化:
A∈{A+，−Cross-Attention[i,j]， A+，−ResNet[i,j]}，其中A+，−表示在相应位置(阶段i，块j)移除(−)或添加(+)交叉注意或ResNet块的动作。
每个动作通过其对执行延迟和生成性能的影响来评估。
对于延迟，我们使用2.2节中构建的查找表来查找交叉注意和ResNet块的每种可能配置。

注意，我们改进了UNet的设备上速度;模型尺寸的优化可以类似地进行，并留给未来的工作。
对于生成性能，我们选择CLIP分数[40]来衡量生成的图像与文本条件之间的相关性。
我们使用MS-COCO验证集[49]的一个小子集(2K图像)，固定步骤step(50)，CFG尺度为7.5来基准测试分数，每个动作测试大约需要2.5 A100 GPU小时。
为简单起见，将每个动作的价值评分定义为∆CLIP/∆Latency，其中倾向于保留延迟较低且对CLIP贡献较大的块，而在架构演变中删除相反的块(详见图1)。
为了进一步降低网络优化的成本，我们执行架构进化，即通过一次执行一组操作来删除冗余块或在有价值的位置添加额外块。
我们的训练范式成功地保留了预训练UNet的性能，同时容忍了大的网络排列(permutations )(图5)。
我们最终架构的细节在章节A中给出。

Sec A

We provide the detailed architecture of our efficient UNet in Tab. 3 .
We perform denoising diffusion in latent space [ 4 ].
Consequently, the input and output resolution for UNet is H / 8 × W / 8 , which is 64 × 64 for generating an image of 512 × 512 .
In addition to mobile phones, we show the latency and memory benchmarks on Nvidia A100 40G GPU, as in Tab. 4 .
We demonstrate that our efficient UNet achieves over 12 × speedup compared to the original SD-v1.5 on a server-level GPU and shrinks 46% running memory.
The analysis is performed via the public TensorRT [ 62 ] library in single precision.

我们在表3中提供了高效UNet的详细架构。
我们在潜空间中进行去噪扩散[4]。
因此，UNet的输入和输出分辨率为H8 × w8，这是64×64，用于生成512×512的图像。
除了手机，我们还展示了Nvidia A100 40G GPU上的延迟和内存基准测试，如表4所示。
我们证明，与服务器级GPU上的原始SD-v1.5相比，我们的高效UNet实现了超过12倍的加速，并缩减了46%的运行内存。
分析是通过公共TensorRT[62]库以单精度执行的。

3.2 Efficient Image Decoder 压缩解码器

For the image decoder, we propose a distillation pipeline that uses synthetic data to learn the efficient image decoder obtained via channel reduction, which has 3.8× fewer parameters and is 3.2× faster than the one from SD-v1.5.
Here we only train the efficient decoder instead of following the training of VAE [4, 37, 38] that also learns the image encoder. We use text prompts to get the latent representation from the UNet of SD-v1.5 after 50 denoising steps and forward it to our efficient image decoder and the one of SD-v1.5 to generate two images.
We then optimize the decoder by minimizing the mean squared error between the two images. Using synthetic data for distillation brings the advantage of augmenting the dataset on-the-fly where each prompt be used to obtain unlimited images by sampling various noises.
Quantitative analysis of the compressed decoder can be found in Sec. B.2.

对于图像解码器，我们提出了一个蒸馏管道，该管道使用合成数据来学习通过信道约简(channel reduction)获得的高效图像解码器，其参数比SD-v1.5少3.8倍，速度比SD-v1.5快3.2倍。
这里我们只训练有效的解码器，而不是遵循同样学习图像编码器的VAE[4,37,38]的训练。
我们使用文本提示从SD-v1.5的UNet中获得50步去噪后的潜在表示，并将其转发给我们的高效图像解码器和SD-v1.5的解码器，生成两幅图像。
然后我们通过最小化两幅图像之间的均方误差来优化解码器。
使用合成数据进行蒸馏的优点是可以实时增加数据集，每个提示都可以通过采样各种噪声来获得无限的图像。
压缩解码器的定量分析可以在第B.2节中找到。

B.2 VAE Decoder

We provide qualitative visualizations and quantitive results of our compressed VAE decoder in Fig. 7 .

The main paper shows that the image decoder constitutes a small portion of inference latency ( 369 ms) compared to the original UNet from SD-v1.5.
However, regarding our optimized pipeline ( 230 ms × 8 steps), the decoder consumes a considerable portion of overall latency.
We propose an effective distillation paradigm to compress the VAE decoder.
Specifically, we obtain the latent-image pairs by forwarding the text prompts into the original SD-v1.5 model.
The student, which is the compressed decoder, takes the latent from the teacher model as input and generates an output image that is optimized with the ones from the teacher model by the mean squared error.
Our proposed method wields the following advantages.
First, our approach does not demand paired text-image samples, and it can generate unlimited data on-they-fly, benefiting the generalization of the compressed decoder.
Second, the distillation paradigm is simple and straightforward, requiring minimal implementation efforts compared to conventional VAE training.
As in Fig. 7 , our compressed decoder ( 116ms) provides comparable generative quality, and the performance degradation compared to the original VAE decoder is negligible.
我们在图7中提供了压缩VAE解码器的定性可视化和定量结果。

主要论文表明，与SD-v1.5的原始UNet相比，图像解码器构成了一小部分推理延迟(369ms)。

然而，对于我们优化的管道(230ms × 8步)，解码器消耗了相当大一部分的总延迟。

（与原始的UNet(50step)耗时相比，decoder时间消耗占比较少，但是对于本文优化的unet(8step)相比这个时间就很多了。）

我们提出了一种有效的压缩VAE解码器的蒸馏范式。

具体来说，我们通过将文本提示转发到原始SD-v1.5模型中来获得潜在图像对。

student model，也就是compressed decoder，将教师模型的latent作为输入，并生成一个输出图像，该输出图像通过均方误差(mean squared error)与教师模型的隐函数进行优化。

我们提出的方法具有以下优点。

首先，我们的方法不需要配对的文本图像样本，并且它可以动态生成无限的数据，有利于压缩解码器的泛化。

第二，蒸馏范例简单而直接，与传统的VAE培训相比，需要最少的实现努力。

如图7所示，我们的压缩解码器(116ms)提供了相当的生成质量，与原始VAE解码器相比，性能下降可以忽略不计。

左图：上面是原始的，下面是compressed decoder

右图：
FID评价图像真实度（FID 值越低，越好。）
CLIP评价文本、图像相关性（CLIP值越大，越好）Version:0.9 StartHTML:0000000105 EndHTML:0000009532 StartFragment:0000000141 EndFragment:0000009492

Citing the wisdom from previous studies [ 32 , 31 ], step distillation works best with the v -prediction

type, i.e. , UNet outputs velocity v [ 32 ] instead of the noise ϵ . Thus, we fine-tune SD-v1.5 to v

prediction (for notation clarity, we use

ˆ

v

θ to mean the SD model in v -prediction vs. its ϵ -prediction

counterpart ϵ ˆ θ ) before step distillation, with the following original loss L ori :

L ori = E t ∼ U [0 , 1] , x ∼ p data ( x ) , ϵ ∼N ( 0 , I ) ||

ˆ

v

θ ( t, z t , c ) − v || 2

右下角比较好

图7:使用MS-COCO 2014验证集进行评估[49]。
(a) 使用SD-v1.5的解码器和本文compressed image decoder。
UNet是我们高效的UNet

CFG的指导等级为9.0。
(b) 6K采样的定量比较。

考虑到广泛使用的CFG尺度，即从7到9，我们的压缩解码器的性能与原始解码器相似，并且仍然优于SD-v1.5。

4 Step Distillation

Besides proposing the efficient architecture of the diffusion model, we further consider reducing the number of iterative denoising steps for UNet to achieve more speedup.
We follow the research direction of step distillation [32] , where the inference steps are reduced by distilling the teacher, e.g., at 32 steps , to a student that runs at fewer steps, e.g., 16 steps .
This way, the student enjoys 2× speedup against the teacher.
Here we employ different distillation pipelines and learning objectives from existing works [ 32 , 31 ] to improve the image quality, which we elaborate on as follows.

除了提出扩散模型的高效架构外，我们还进一步考虑减少UNet的迭代去噪步骤，以实现更大的加速。
我们遵循步骤蒸馏的研究方向[32](Progressive Distillation for Fast Sampling)，其中通过将教师(例如，32步)蒸馏为以较少步骤(例如，16步)运行的学生来减少推理步骤。
通过这种方式，学生可以享受2倍的速度。
在这里，我们采用不同的蒸馏管道和现有作品中的学习目标[32,31]来提高图像质量，具体说明如下。

4.1 Overview of Distillation Pipeline

Citing the wisdom from previous studies [ 32 , 31 ], step distillation works best with the v -prediction type, i.e. , UNet outputs velocity v [ 32 ] instead of the noise ϵ .
Thus, we fine-tune SD-v1.5 to v prediction (for notation clarity, we use ˆ vθ to mean the SD model in v -prediction vs. its ϵ -prediction counterpart ϵ ˆ θ ) before step distillation, with the following original loss Lori:

引用先前研究[32,31]的智慧，step distillation最适合v-prediction类型，即UNet输出速度v[32]而不是噪声ε。
因此，我们将SD-v1.5微调到v prediction(为了表示法清晰，我们使用了vθ表示步进蒸馏前v-预测中的SD模型与ϵ-prediction对应的λ θ)，原始损失Lori如下:

其中v为GT速度，它可以由给定时间步长t的干净潜函数x和噪声函数λ解析得出:v≡α tλ−σtx。

Our distillation pipeline includes three steps.
First , we do step distillation on SD-v1.5 to obtain the UNet with 16 steps that reaches the performance of the 50 -step model.
(Note here we use a 32 -step SD-v1.5 to perform distillation directly, instead of doing it progressively , e.g. , using a 128 -step model as a teacher to obtain the 64 -step model and redo the distillation progressively. )
The reason is that we empirically observe that progressive distillation is slightly worse than direct distillation (see Fig. 6 (a) for details).
Second , we use the same strategy to get our 16 -step efficient UNet.
Finally , we use the 16 -step SD-v1.5 as the teacher to conduct step distillation on the efficient UNet that is initialized from its 16 -step counterpart.
This will give us the 8-step efficient UNet, which is our final UNet model.

我们的蒸馏管道包括三个步骤。
1 首先，我们在SD-v1.5上进行分步蒸馏，以获得16步的UNet，达到50步模型的性能。
16step的Unet达到50step的性能
(请注意，这里我们使用32步SD-v1.5直接执行蒸馏，而不是逐步执行，例如，使用128步模型作为教师来获得64步模型并逐步重做蒸馏。)
原因是我们根据经验观察到，渐进蒸馏比直接蒸馏略差(详见图6(a))。
蓝色(SD50s) 红色(直接蒸馏8s) 黑色(渐进蒸馏8s)
2 其次，我们使用相同的策略来获得16步高效的UNet。
3 最后，我们使用16步的SD-v1.5作为教师，对从16步对应程序初始化的高效UNet进行步骤蒸馏。
这将给我们8步高效的UNet，这是我们最终的UNet模型。
简单来说就是用32步SD-v1.5先蒸馏出16step Unet，然后蒸馏出8step Unet

4.2 CFG-Aware Step Distillation

CFG（Classifier-Free Guidance）是 SD 推理阶段的必备技巧，可以大幅提升图片质量，非常关键！尽管已有工作对扩散模型进行步数蒸馏（Step Distillation）来加速 [4]，但是它们没有在蒸馏训练中把 CFG 纳入优化目标，也就是说，蒸馏损失函数并不知道后面会用到 CFG。这一点根据我们的观察，在步数少的时候会严重影响 CLIP score。

为了解决这个问题，我们提出在计算蒸馏损失函数之前，先让 teacher 和 student 模型都进行 CFG，这样损失函数是在经过 CFG 之后的特征上计算，从而显式地考虑了不同 CFG scale 的影响。实验中我们发现，完全使用 CFG-aware Distillation 尽管可以提高 CLIP score，但 FID 也明显变差。我们进而提出了一个随机采样方案来混合原来的 Step Distillation 损失函数和 CFG-aware Distillation 损失函数，实现了二者的优势共存，既显著提高了 CLIP score，同时 FID 也没有变差。这一步骤，实现进一步推理阶段加速 6.25 倍，实现总加速约 46 倍。

实验部分可以参考这个知乎文章

iPhone两秒出图，目前已知的最快移动端Stable Diffusion模型来了 - 知乎

你可能感兴趣的:(人工智能,深度学习)

一文彻底搞清楚HarmonyOS NEXT的元服务 harmonyos-next
程序员Feri一名12年+的程序员,做过开发带过团队创过业,擅长Java、嵌入式、鸿蒙、人工智能等,专注于程序员成长那点儿事,希望在成长的路上有你相伴！君志所向,一往无前！1.什么是元服务在万物互联时代，人均持有设备量不断攀升，设备种类和使用场景更加多样，使得应用开发、应用入口变得更加复杂。在此背景下，应用提供方和用户迫切需要一种新的服务提供方式，使应用开发更简单、服务（如听音乐、打车等）的获取和
从阅读空间到知识孵化器，AI时代智慧图书馆何为？技能咖生成式人工智能认证 GAI认证人工智能
在人工智能（AI）浪潮席卷全球的当下，图书馆作为知识传播与文化传承的重要场所，正面临着前所未有的变革。从传统的阅读空间到如今的知识孵化器，智慧图书馆在AI时代肩负着新的使命与挑战。本文将探讨智慧图书馆在AI时代的发展方向，并引入生成式人工智能认证（GAI）认证，为图书馆从业者的技能提升提供新思路。AI时代智慧图书馆的新角色知识资源整合与挖掘者在AI时代，信息爆炸式增长，图书馆不再仅仅是纸质书籍的收
基于人工智能的扫阅卷和数据分析服务需求文档 YiWait 人工智能人工智能数据分析数据挖掘
基于人工智能的扫阅卷和数据分析服务需求文档一、项目背景在教育领域，传统的人工阅卷方式效率低下、主观性强且易出错，难以满足大规模考试及频繁测评的需求。随着人工智能技术的飞速发展，基于人工智能的扫阅卷和数据分析服务应运而生。该服务利用先进的图像识别、自然语言处理等技术，实现试卷扫描、自动阅卷、成绩统计以及深度数据分析，为教育机构、学校提供高效、准确、全面的测评解决方案，助力教学质量提升和教育决策优化。
AI程序员大逃杀：从“码农”到“魔法师”的奇幻漂流 ——揭秘人工智能如何重塑程序员工作流 lifire_H 人工智能
当程序员遇上AI，是“饭碗不保”还是“原地飞升”？这场代码界的工业革命，正在让每个程序员经历从“流水线工人”到“科技魔法师”的奇幻蜕变。一、效率革命：当键盘遇上“读心术”1.需求分析：从“鸡同鸭讲”到“灵魂共鸣”还记得那些年被客户需求文档支配的恐惧吗？甲方爸爸一句“我想要五彩斑斓的黑”，就能让产品经理和程序员集体崩溃。现在，AI就像个自带翻译机的“需求捕手”——把客户支离破碎的诉求往WPSAI里一
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
当细致剪裁遇上大语言模型：从数据匹配到卓越性能的奇幻之旅步子哥 AGI通用人工智能语言模型人工智能自然语言处理
在浩如烟海的人工智能技术中，构建和调教大语言模型（LLMs）的过程就像是一场精心策划的奇幻冒险。本文带您走进一个鲜为人知的领域——如何利用“量身定制”的数据，让模型在知识的海洋中游刃有余。我们将透过一篇最新的研究《TheBestInstruction-TuningDataareThoseThatFit》，探索如何通过选择与目标模型分布高度契合的数据来优化监督式微调（SFT）的效果，以及这一方法如何
深度学习：让机器学会“思考”的魔法 AI极客Jayden　 AI 深度学习
文章目录引言：从“鹦鹉学舌”到“举一反三”一、深度学习是什么？1.定义：机器的“大脑”2.核心思想：从数据中“悟”出规律二、深度学习的“大脑”结构：神经网络1.神经元：深度学习的基本单元2.神经网络：多层“神经元”的组合3.深度：为什么需要多层？三、深度学习如何“学习”？1.训练过程：从“笨拙”到“熟练”2.损失函数：衡量“错误”的尺子3.反向传播：从错误中“反思”四、深度学习的“超能力”1.图像
基于Python+Django的可视化学习系统设计与实现（毕业设计源码+技术文档+系统部署）逐梦设计 Python毕业设计实战案例 python django 课程设计 vue.js 毕业设计源码
博主简介作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验，被多个学校常年聘为校外企业导师，指导学生毕业设计并参与学生毕业答辩指导，有较为丰富的相关经验。期待与各位高校教师、企业讲师以及同行交流合作主要内容：Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能与大数据、
AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>