EDPJ

（2022，Diffusion & 语义混合）MagicMix：使用扩散模型进行语义混合

MagicMix: Semantic Mixing with Diffusion Models

公众号：EDPJ（添加 VX：CV_EDPJ 进群）

0. 摘要

1. 简介

2. 相关工作

2.1 扩散概率模型

2.2 可控图像生成

2.3 图像编辑

3. 方法

3.1 扩散模型的预备知识

3.2 扩散模型的语义混合

3.3 控制混合比

3.3.1 注入内容提示的时间步长

3.3.2 加权图文交叉注意力

3.4 实现细节

4. 应用

4.1 语义风格迁移

4.2 新物体合成

4.3 品种混合

4.4 概念去除

4.5 文本-文本语义混合

5. 限制

6. 结论

7. 社会影响

参考

S.总结

S.1 主要思想

S.2 应用

S.3 限制

0. 摘要

你有没有想象过像柯基犬一样的咖啡机或像老虎一样的兔子会是什么样子？在这项工作中，我们试图通过探索一项称为语义混合的新任务来回答这些问题，旨在混合两种不同的语义以创建一个新概念（例如，柯基犬+咖啡机 → 类似柯基犬的咖啡机）。与根据参考风格对图像进行风格化而不改变图像内容的风格迁移不同，语义混合以语义方式混合两个不同的概念，以合成新的概念，同时保留空间布局和几何形状。为此，我们提出了 MagicMix，这是一种基于预训练的文本条件扩散模型的简单而有效的解决方案。受扩散模型的渐进生成特性的启发，其中布局 / 形状出现在早期去噪步骤中，而语义上有意义的细节出现在去噪过程中的后续步骤中，我们的方法首先获得粗略布局（给定文本提示，通过破坏图像或从纯高斯去噪获得），然后注入条件提示以进行语义混合。我们的方法不需要任何空间掩模或重新训练，但能够合成高保真度的新物体。为了提高混合质量，我们进一步设计了两种简单的策略，以对合成内容提供更好的控制和灵活性。通过我们的方法，我们在不同的下游应用中展示了我们的结果，包括语义样式迁移、新颖的对象合成、品种混合和概念删除，证明了我们方法的灵活性。更多结果可以在项目页面 https://magicmix.github.io/ 上找到。

1. 简介

您有没有想象过类似柯基犬的咖啡机会是什么样子？兔子长得像老虎怎么办？由于现实世界中不存在此类物体，渲染此类想象场景极具挑战性。在这项工作中，我们有兴趣研究一个称为语义混合的新问题，其目标是以语义方式混合两种不同的语义（例如“柯基犬”和“咖啡机”）以创建一个新概念（例如，像柯基犬的咖啡机），同时具有照片般的真实感。

最近开发的大规模文本条件图像生成模型，如 DALL-E2 (Ramesh et al., 2022)、Imagen (Saharia et al., 2022)、Parti (Yu et al., 2022) 等，已经展示了仅给出文本描述即可生成令人惊叹的高质量图像的能力。由于从大量图像标题对中学到了强语义先验，此类模型甚至可以生成新颖的构图（例如，骑马的宇航员）。尽管组合新颖，但每个对象实例（例如“宇航员”、“马”）都是已知的。此外，与组合生成（例如，一只柯基犬坐在咖啡机旁边）不同，我们感兴趣的是通过在语义上混合两个不同的概念来合成一个新颖的概念（例如，类似柯基犬的咖啡机，反之亦然）。然而，这样的问题具有挑战性，因为即使是人类用户也可能不知道它应该是什么样子。

为了解决这个问题，我们提出了一种称为 MagicMix 的新方法，它建立在现有的基于文本条件图像扩散的生成模型之上。我们的方法非常简单，既不需要重新训练，也不需要用户提供掩模。我们的方法受到基于扩散的模型的渐进特性的启发，其中布局/形状/颜色首先出现在早期去噪步骤中，而语义上有意义的内容在去噪过程中出现得更晚。鉴于此，我们将语义混合任务分解为两个阶段：（1）布局（例如形状和颜色）语义和（2）内容语义（例如语义类别）生成。具体来说，考虑混合“柯基犬”和“咖啡机”的例子，我们的 MagicMix 首先通过破坏给定的柯基犬真实照片或在给定文本提示“柯基犬的照片”的情况下从纯高斯噪声中去噪来获得粗略的布局语义。然后，它注入一个新概念（在本例中为“咖啡机”）并继续去噪过程，直到我们获得最终的合成结果。一般来说，这种简单的方法效果出奇地好。为了改进混合，我们进一步设计了两种简单的策略，以对生成的内容提供更好的控制和灵活性。

语义混合在概念上不同于其他图像编辑和生成任务，例如风格转移或组合生成。风格迁移根据给定的风格（例如梵高的《星空》）对内容图像进行风格化，同时保留图像内容。另一方面，组合生成将多个单独的组件组合起来以生成复杂的场景（例如，组合“骆驼”和“丛林”会产生骆驼站在丛林中的图像）。虽然组合本身可能是新颖的，但每个单独的成分都是已知的（即骆驼是什么样子）。不同的是，语义混合旨在将多种语义融合到一个新颖的对象/概念中（例如，“柯基犬”+“咖啡机” → 一台类似柯基犬的咖啡机）。这些任务之间的差异如图 2 所示。

得益于生成新颖概念的强大能力，我们的 MagicMix 支持各种各样的创意应用，包括语义风格迁移（例如，给定参考符号布局和某些所需内容生成新符号）、新颖的对象合成（例如，生成看起来像西瓜片的灯）、品种混合（例如，通过混合“兔子”和“老虎”生成新物种）和概念去除（例如，合成看起来像橙子的非橙子物体）。尽管该解决方案很简单，但却为计算图形领域开辟了新的方向，并为娱乐、电影摄影和CG效果等广泛领域的艺术家提供了人工智能辅助设计的新可能性。

总之，我们在这项工作中的贡献是：

一个新问题：语义混合。目标是通过混合两种不同的语义来合成一个新颖的概念，同时保持照片般的真实感。
新技术：MagicMix。它建立在大规模预训练的基于文本到图像扩散的生成模型之上，并将语义混合任务分解为布局和内容生成阶段。
我们展示了 MagicMix 的几种创意应用，包括语义风格转换、新颖的对象合成、品种混合和概念删除。

2. 相关工作

2.1 扩散概率模型

扩散概率模型（DPM）家族在无条件和条件生成建模任务中都取得了巨大的成功（Ho et al., 2020; Song et al., 2022; Ho et al., 2022; Song et al., 2021），包括图像/视频生成（Ho et al., 2022；Nichol & Dhariwal, 2021）、分子生成（Xu et al., 2022）和时间序列建模（Rasul et al., 2021）。它们不仅能够生成感知上高质量的样本，而且还可以产生出色的对数似然分数。然而，由于迭代采样过程，基于扩散的模型的计算成本非常高（Song et al., 2022; Lu et al., 2022; Liu et al., 2022a）。为了改善这个问题，人们提出了先进的采样器和新颖的建模框架。例如，宋等人 (2021) 提出了概率流 ODE 采样策略，该策略激发了 DDIM (Song et al., 2022) 和 DPM 求解器 (Lu et al., 2022) 的发展。Rombach 等人（2022）和 Vahdat 等人（2021）同时提出将数据映射到低维潜在空间并使用扩散模型来拟合潜在编码的分布。在图像生成的应用中，Ho 等人 (2020) 证明 DDPM 以渐进的方式合成图像，即中间噪声中的布局信息（例如形状和颜色）首先出现，而细节随后增强。这种现象有利于潜在噪声空间中的图像编辑，例如图像插值和修复。我们的工作还利用渐进生成特性来实现潜在噪声空间中的语义混合。

2.2 可控图像生成

生成模型可用于合成以某些控制信号为条件的图像（Kingma & Welling，2014；Goodfellow 等，2020；Oord 等，2016；Kobyzev 等，2021），例如类标签、文本描述（Saharia 等人，2022；Yu 等人，2022；Ramesh 等人，2022），以及退化图像（Kawar 等人，2022a）。许多方法都是基于自回归模型、变分自动编码器（VAE）、生成对抗网络（GAN）和基于扩散/评分的模型而开发的。例如，对于文本到图像的生成，Yu 等人 (2022) 提出以自回归方式对以文本标记为条件的图像标记的概率密度进行建模；Saharia 等人 (2022) 使用扩散模型直接近似 RGB 空间中图像的条件概率密度。为了降低基于扩散的生成的计算成本，Rombach 等人 (2022) 提出了一种潜在扩散模型，将图像压缩为低维编码并对潜在编码的条件分布进行建模。

2.3 图像编辑

语义混合与多种图像编辑任务相关。第一个是掩蔽图像修复，旨在用合理的内容填充掩蔽区域（Lugmayr et al., 2021；Saharia et al., 2021；Peng et al., 2021；Zhao et al., 2020）。如果没有关于空白区域的语义指导，生成模型倾向于合成内容，使得整个图像位于高密度区域。用户无法交互式地控制合成的内容以使其感兴趣（Lugmayr 等人，2021）。即使给出了一定的语义指导，生成的内容可能看起来与原始图像的其他部分不协调。

第二个相关任务是风格迁移，试图将一个源图像的艺术风格迁移到另一个目标图像（Gatys et al., 2015; Karras et al., 2019; Luan et al., 2017; Ulyanov et al., 2016） ; Zhu et al., 2020），通过全局方式修改目标图像的颜色、形状和纹理。然而，风格迁移不能改变目标图像的语义内容。另一方面，语义混合旨在将另一个对象的内容语义注入到布局语义中；它会自动检测布局对象的哪一部分要修改（例如，当图 1 中的骆驼符号与“哈士奇”混合时，只有骆驼被哈士奇替换，而整体布局保持不变）。生成的图像整体和局部看起来都很自然。

第三个相关任务是基于扩散生成模型的文本驱动图像编辑。近期工作（Hertz 等人，2022；Gal 等人，2022；Couairon 等人，2022；Kawar 等人，2022b；Wu 和 De la Torre，2022；Chandramouli 和 Gandikota，2022；Kwon 和 Ye，2022 ）探索使用扩散生成模型进行文本驱动的图像编辑，例如对象替换、样式或颜色更改、对象添加等。但是，与我们的语义混合不同，这种编辑不会导致新的未知对象/概念的合成，这是本文工作的主要焦点。另一方面，组合生成将多个单独的组件组合起来生成复杂的场景。例如，刘等人 (2022b) 将基于多个提示的扩散模型分解为分别基于每个提示的扩散模型的乘积。因此，它可以将多个提示中描述的场景组合成一张图像。与这些任务不同，语义混合旨在将多种语义融合到一个对象中，而不是在一张图像中组合多个对象。

另一个相关任务是提示插值，其中两个不同的文本提示在用于内容生成之前被插值在文本潜在空间中。然而，这种方法仅适用于具有相似语义的提示（例如，两种狗品种或两张脸）。在两个概念极其不同的情况下（例如“柯基犬”和“咖啡机”），生成的内容通常以其中一个概念为主（图 3）。相反，我们的语义混合可以成功地混合两种高度不同的语义。

3. 方法

在本节中，我们首先介绍去噪扩散概率模型（DDPM）的背景。然后，我们提出了语义混合的新问题，旨在结合两种不同的语义来创建新的概念，并提出一种有效的基于扩散的框架来实现这一目标。此外，我们讨论了所提出框架的两个应用实例并阐明了实现细节。

3.1 扩散模型的预备知识

深度生成建模旨在通过深度神经网络近似一组数据的概率密度。深度神经网络经过优化以模仿训练数据采样的分布（Ho et al., 2020；Kingma & Welling, 2014；Goodfellow et al., 2020；Song et al., 2021）。去噪扩散概率模型（DDPM）是一系列潜在生成模型，通过马尔可夫高斯扩散过程的逆过程来近似训练数据的概率密度（Sohl-Dickstein et al., 2015；Ho et al., 2020）。

给定一组从某些数据分布 q(·) 中采样训练数据

DDPM 将概率密度 q(x) 建模为 x 和一系列潜在变量 x_1:T 之间的联合分布的边际，

联合分布被定义为，具有从标准正态分布 N ( · ; 0, I) 开始学到的高斯转移的马尔可夫链，即

因此

为执行参数化边际 p_θ (·) 的似然最大化，DDPM 使用固定马尔可夫高斯扩散过程 q(x_1:T | x_0) 来近似后验 p_θ (x_1:T | x_0)。具体来说，定义了两个系列

对于任何 t > s ≥ 0，

因此，

DDPM 的参数化逆过程 p_θ 通过最大化相关证据下界 (ELBO) 进行优化：

给定训练有素的 DDPM p_θ (·)，我们可以通过各种类型的采样器生成新数据，包括 Langevin ancestral 采样和概率流 ODE 求解器（Song 等人，2021）。在逆过程（采样过程）中，具有随机高斯噪声的信号将逐渐转换为位于训练数据流形上的数据点。在图像生成的情况下，具有纯噪声的图像将逐渐演化为语义上有意义且感知上高质量的图像。在每个阶段，我们都可以从相应的噪声中估计出真正的干净图像，并且重建从粗到细发展（Ho et al., 2020）。更具体地说，已经表明 DDPM 的采样过程首先制作最终输出图像的布局或轮廓，然后合成细节，例如人脸或花的纹理。考虑某个中间步骤，其中噪声已经包含布局信息，Ho 等人（2020）证明，如果我们修复噪声并从这一步开始运行多个采样操作，所得图像将共享通用布局。受这种现象（渐进生成）的启发，我们将探索如何使用基于扩散的模型进行语义混合，即给定一定的语义布局，我们是否可以将其与我们感兴趣的任意内容混合？

3.2 扩散模型的语义混合

新概念和对象的创建在多媒体制作中发挥着重要作用，例如创建拟人化动画角色。概念创建的一种范例是混合多种事物的语义。例如，许多经典动画角色都是将动物面孔与人体混合设计的，例如“孙悟空”和“穿靴子的猫”。在本节中，我们介绍图像生成的一项新任务，即语义混合，其目的是修改给定对象的特定部分的内容，同时保留其布局语义。新内容是根据另一个对象的内容语义合成的。例如，给定从一个对象（例如，西瓜片）提取的形状和颜色布局语义，可以生成具有该形状和颜色的特定内容语义的对象（例如，一盏灯）。

受基于扩散的模型的渐进生成特性的启发，我们提出了一种方法 MagicMix 来混合两个对象的语义。 MagicMix 利用预先训练的基于文本到图像扩散的生成模型 p_θ (x|y) 来提取和混合两种语义。整体框架如图 4 所示。布局语义可以从给定图像或文本提示中提取，而内容语义则由条件文本提示确定。我们可以通过使用条件内容提示对噪声布局图像进行去噪来生成混合语义的图像。根据布局生成的输入类型，我们的 MagicMix 可以以两种不同的模式运行：(a) 图像-文本混合和 (b) 文本-文本混合。

（a）图像-文本混合。在布局语义由给定图像 x 指定的情况下，我们首先生成与从 Kmin 到 Kmax 的中间步骤相对应的噪声版本。每个噪声图像

由给定图像 x 的布局和轮廓信息组成，具有从粗到细的布局。然后，我们通过调节内容语义 y 的文本来执行去噪过程。相反的过程从布局语义 ^x_Kmax = x_Kmax 的噪声开始。对于从 Kmax 到 Kmin 的每个步骤 k，去噪过程利用来自生成模型

的信息以及来自布局噪声 x_(k-1) 的信息。具体来说，我们首先从

中采样 ^x'_(k-1)。然后，我们使用常数 v ∈ [0,1] 执行

的线性组合，以生成混合噪声

从步骤 Kmin 到 0，去噪过程仅依赖于条件生成模型，并且不应用线性插值。图 5 展示了图文混合的详细过程。

(b) 文本-文本混合。在布局语义由文本提示 y_layout 确定的另一种情况下，我们首先从分布

中采样布局噪声序列

然后，与图像文本混合的情况类似，我们迭代地对布局噪声进行去噪，以通过以 y_content 为条件的生成过程来合成混合语义的图像。插值仍然仅适用于从 Kmax 到 Kmin 的步骤。

3.3 控制混合比

虽然能够合成具有混合语义的图像，但如何控制混合元素的数量仍不清楚，例如增加“咖啡机”的元素或保留更多“柯基犬”的元素。接下来，我们将介绍一些技巧，以便对生成的内容提供更好的控制和灵活性。

3.3.1 注入内容提示的时间步长

如前所述，MagicMix 通过首先制作从步骤 Kmax 到 Kmin 的布局语义的噪声图像，然后注入条件提示，可以混合两个不同的概念。我们选择 Kmin 使得噪声布局图像包含给定布局图像的丰富细节，并选择 Kmax 使得不相关的细节被破坏，只保留粗略的布局。通过整合不同时间步长的噪声，生成过程可以将内容语义注入给定布局图像中的适当区域，并保留更多布局语义，例如形状和颜色。

内容注入的不同时间步长。 在图 6 中，令 K = Kmax = Kmin 且 v = 1，我们首先研究改变内容注入时间步长 K 的效果。我们首先注意到，当 K 很小时，由于可用的去噪步骤数量有限，生成过程

只能修改一小部分图像内容。因此，我们可以融合两个具有相似语义的概念（例如，柯基犬和哈士奇），但无法混合两个非常不同的对象（例如，柯基犬和咖啡机）。例如，当 K = 0.4T 时，哈士奇的眼睛和纹理开始出现在柯基犬的脸上，但将“柯基犬”与“哈士奇”和“咖啡机”分别混合时，没有发现“咖啡机”的元素。另一方面，为了能够混合两个不同的对象，以 y_content 为条件的生成过程需要更大的 K 以确保足够的混合步骤。如图 6 顶行所示，给定 K = 0.6T，条件生成过程成功合成了柯基犬形状的咖啡机。

保留更多布局细节。 为了保留给定布局对象的更多元素，我们从步骤 x_Kmax 开始执行去噪，并建议用先前从条件生成过程获得的合成噪声对原始布局噪声进行插值。混合常数 v 控制布局和内容语义之间的比率。我们再次在图 7 中展示了一个将“柯基犬”的布局与“咖啡机”的内容混合的示例。当 v = 1 时，条件生成过程从步骤 Kmax 开始，不使用噪声序列

中的信息。我们可以合成一个与“柯基犬”图像颜色相似的“咖啡机”图像，但除了形状之外几乎不包含“柯基犬”的元素。有趣的是，当 v 为 0.4 时，我们注意到由于“corgi”元素占主导地位，只合成了一个咖啡杯。在此示例中，当我们设置 v = 0.5 或 0.6 时，我们可以获得类似柯基犬的咖啡机图像。在实践中，我们固定 Kmax = 0.6T 和 Kmin = 0.3T，并且仅改变 n。

v 的最优值。我们还注意到，“最优”插值常数 v 是由两个概念之间的语义相似性决定的。例如，当混合“柯基犬”和“哈士奇”时，扩散模型只需要修改眼睛和纹理。因此，我们可以使用较小的 v 值（例如，0.1）。相反，当混合“柯基犬”和“咖啡机”时，由于这两个概念极其不同，扩散模型需要更多的去噪步骤才能覆盖细节。在这种情况下，我们可以使用较大的 v 值（例如，0.9）。

3.3.2 加权图文交叉注意力

受 Prompt-to-Prompt (Hertz et al., 2022) 的启发，我们还发现重新加权图像-文本交叉注意力以增加或减少概念的重要性是有效的。考虑混合“兔子”和“老虎”的情况。给定文本-图像交叉注意力图

其中 N_image 和 N_text 分别表示空间和文本标记的数量，以及条件提示 y =“老虎的照片”，我们缩放对应于参数为 s ∈ [-2,2] 的 “tiger” 标记的注意力图，同时保持其余注意力图不变。如图8所示，“老虎”内容的程度可以使用不同的正尺度 s 值（例如老虎条纹的数量）来调整。

概念去除。另一方面，我们观察到应用负 s 会导致一个有趣的行为：给定汉堡图像和条件提示 y =“汉堡包的照片”，使用负 s 相当于鼓励扩散模型生成布局类似于汉堡包但不是汉堡包的图像。我们称这个为概念去除。如图 8 的右子图所示，当消除“汉堡”概念时，扩散模型被迫想象最可能的非汉堡物体，例如飞艇或螃蟹。

3.4 实现细节

在实践中，我们使用潜在扩散模型（LDM）进行语义混合。由于 LDM 中的自动编码器是通过 patch-wise 损失进行训练的，因此自动编码器保留了潜在空间和原始 RGB 空间之间的空间对应关系。我们还观察了 LDM 采样过程中的渐进生成特性。我们的实现是基于 Stable Diffusion （https://huggingface.co/CompVis/stable-diffusion）代码库开发的，它是 LDM 的开源实现。人们可以使用稳定扩散来生成高质量的图像。它还提供多种类型的采样器来平衡样本质量和计算效率之间的权衡。我们在实验中使用 DDIM 采样器。

4. 应用

在本节中，我们将展示使用 MagicMix 的几个应用，包括 (a) 语义样式迁移（第 4.1 节）、(b) 新对象合成（第 4.2 节）、(c) 品种混合（第 4.3 节）和 (d) 概念删除（第 4.4 节）。

4.1 语义风格迁移

我们首先通过合成具有不同语义的符号（例如，用人物替换双向符号中的箭头）来演示语义样式迁移应用。与样式迁移基于参考样式图像对内容图像进行风格化而不更改图像内容不同，我们的 MagicMix 允许用户注入新的语义，同时保留空间布局和几何形状（例如，三角形符号）。我们在图 9 中展示了一些示例。请注意，尽管内容发生了很大变化，背景仍保留完好。此类应用程序可能用于通过向模板注入新概念来辅助新徽标/标志的设计。

4.2 新物体合成

我们的 MagicMix 还允许通过将新概念（例如咖啡机）注入现有对象（例如公共汽车）来合成新颖的对象。这对于在设计新的商业产品时激发创造力非常有用。我们在图 10 中展示了一些示例。背景上下文根据条件提示进行相应的调整。例如，当“潜艇”与南瓜图像混合时，道路就变成了大海。同样，当一座宝塔与“巧克力蛋糕”混合在一起时，道路就变成了一张桌子，以更好地契合整个图像语境。这表明这两个概念的混合发生在语义层面。

4.3 品种混合

接下来，我们展示了根据我们的方法混合两种不同品种的可能性。如图 11 的前两行所示，我们的方法可以混合两种不同的动物品种（例如拉布拉多犬 Labrador 和斗牛犬 bulldog），并生成具有不同特征（拉布拉多犬的耳朵和斗牛犬的脸）的合理结果。更有趣的是，我们的方法甚至可以混合两种不同的物种并生成新的未见过的动物物种，如第三行和第四行所示。请注意，其中一些组合几乎没有共同点（例如，兔子和鸡、兔子和老虎），但我们仍然可以获得逼真的结果。同样，在最后两行中，我们还演示了两种不同水果（例如菠萝和葡萄）或花朵（例如玫瑰和蒲公英）的混合。

4.4 概念去除

我们通过向现有语义注入新语义来呈现各种应用。在这里，我们还感兴趣的是通过删除其原始语义来生成新图像，并让模型决定除了原始内容之外还生成什么。这可以通过将图像-文本交叉注意力图乘以负权重来轻松实现（第 3.3.2 节）。图 12 显示了一些示例。正如我们所看到的，生成的图像在很大程度上保留了整体布局，同时删除了原始语义。例如，如最后一行所示，给定一篮子水果，通过删除“水果”概念，我们得到一篮子花。另一方面，删除“篮子”的概念会导致生成顶部有水果的蛋糕。

4.5 文本-文本语义混合

在前面的部分中，我们已经演示了 MagicMix 使用图像文本混合的几种应用（布局语义是根据给定图像精心设计的）。接下来，我们还提供了一些不需要图像的情况下使用文本-文本混合模式的 MagicMix 的结果。如图 13 所示，我们的方法成功地混合了两种不同的语义并生成逼真的结果。然而，文本-文本语义混合的一个限制是，由于没有提供图像用于布局生成，因此最终的合成结果是不可预测的。

5. 限制

我们确定了我们的方法的失败案例，其中如果两个概念没有任何形状相似性，则它们不能混合（例如，混合“货车”和“猫”或“厕纸”和“柯基犬”）。在这种情况下，这两个概念将被简单地组合起来（例如，一只猫骑着一辆货车或在卫生纸卷上画了一幅柯基犬）。图 14 中可以找到一些示例。我们将解决这些问题留待未来的工作。

6. 结论

在这项工作中，我们提出了一项称为语义混合的新颖任务，其目标是混合两种不同的语义以合成一个新的看不见的概念。为此，我们提出了 MagicMix，这是一种基于预先训练的基于文本条件扩散的图像生成模型的简单解决方案。我们的方法通过在去噪过程中注入新概念来利用基于扩散的生成模型的特性。我们的方法不需要任何空间掩模或重新训练，同时保留布局和几何形状。鉴于此，我们的 MagicMix 支持多种下游应用程序，包括语义样式转换、新对象合成、品种混合和概念删除。

7. 社会影响

我们工作的目标是合成一个混合概念的新颖对象。与其他基于深度学习的图像合成和编辑算法类似，我们的方法根据应用和用途既有积极的也有消极的社会影响。从积极的一面来看，MagicMix 可以激发新商业产品的创造（例如，类似柯基犬的咖啡机）。不利的一面是，它可能被恶意方用来欺骗或误导人类。另一个问题是，这项工作中使用的预训练模型 Stable Diffusion v1.4（Rombach 等人，2022）是在 LAION 数据集上进行训练的，已知该数据集存在社会和文化偏见。

参考

Liew J H, Yan H, Zhou D, et al. Magicmix: Semantic mixing with diffusion models[J]. arXiv preprint arXiv:2210.16056, 2022.

S.总结

S.1 主要思想

MagicMix 基于预训练的文本条件扩散模型进行语义混合。受扩散模型的渐进生成特性的启发，其中布局 / 形状出现在早期去噪步骤中，而语义上有意义的细节出现在去噪过程中的后续步骤中。

基于此，语义混合任务可分解为两个阶段：

布局语义（例如形状和颜色）生成：通过破坏给定的真实照片或在给定文本提示的情况下从纯高斯噪声中去噪来获得粗略的布局语义。
内容语义（例如语义类别）生成：为布局语义注入一个新概念并继续去噪过程，直到我们获得最终的合成结果。

语义混合在概念上不同于其他图像编辑和生成任务，例如风格转移或组合生成。

风格迁移根据给定的风格（例如梵高的《星空》）对内容图像进行风格化，同时保留图像内容。
组合生成将多个单独的组件组合起来以生成复杂的场景。
语义混合旨在将多种语义融合到一个新颖的对象/概念中。

S.2 应用

语义风格迁移：与样式迁移基于参考样式图像对内容图像进行风格化而不更改图像内容不同，MagicMix 允许用户注入新的语义，同时保留空间布局和几何形状。

新物体合成：通过将新概念注入现有对象来合成新颖的对象。此外，背景上下文根据条件提示进行相应的调整。例如，当一座宝塔与“巧克力蛋糕”混合在一起时，道路就变成了一张桌子，以更好地契合整个图像语境。

品种混合：混合两种不同的动物品种，并生成具有不同特征的合理结果。甚至可以混合两种不同的物种并生成新的未见过的动物物种，即使这些组合几乎没有共同点。

概念去除：通过将图像-文本交叉注意力图乘以负权重，使生成的图像在很大程度上保留了整体布局，同时删除了原始语义。例如，给定一篮子水果，删除“水果”概念得到一篮子花，删除“篮子”的概念得到顶部有水果的蛋糕。

文本-文本混合：在没有图像的情况下进行合成。然而，由于没有提供图像用于布局生成，因此最终的合成结果是不可预测的。

S.3 限制

如果两个概念没有任何形状相似性（例如，货车和猫），则它们不能混合，只能将两个概念简单地组合（例如，骑着货车的猫）。该问题留待未来解决。

你可能感兴趣的:(论文笔记,人工智能,深度学习,计算机视觉)

【优秀文章】7月优秀文章推荐
优秀文章智能自主运动体与人工智能技术——环境感知、SLAM定位、路径规划、运动控制、多智能体协同作者：fpga和matlabC++之红黑树认识与实现作者：zzh_zao【手把手带你刷好题】–C语言基础编程题(十)作者：草莓熊Lotso飞算JavaAI：从“码农”到“代码指挥官”的终极进化论作者：可涵不会debug前端网页开发学习（HTML+CSS+JS）有这一篇就够！作者：一颗小谷粒
蛋白质结构预测/功能注释/交互识别/按需设计，中国海洋大学张树刚团队直击蛋白质智能计算核心任务 hyperai
蛋白质作为生命活动的主要承担者，在人体生理功能中扮演关键角色。然而传统研究面临结构解析成本高昂、功能注释严重滞后、新型蛋白质设计效率低下等挑战。近年来，生命科学对蛋白质复杂特性解析的需求日益迫切，大数据、深度学习、多模态计算等技术的突破性发展，为构建蛋白质智能计算体系提供了全新的发展契机。蛋白质智能计算体系的构建，使得蛋白质在大规模功能注释、交互预测及三维结构建模等领域取得显著成果，为药物发现与生
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发