资料加载中

stable diffusion到底是如何工作的

stable diffusion简单入门

stable diffusion是一个文生图模型，主要由CompVis、Stability AI和LAION的研究者们创建。这个模型主要是在512X512分辨率的图像上训练的，训练数据集是LAION-5B，该数据集是目前可访问的最大的多模态数据集。

在这篇文章中，我们想展示如何将 Stable Diffusion 与 Diffusers 库一起使用，解释模型的工作原理，最后更深入地探讨如何 diffusers 允许自定义图像生成管道。

如果你是一个stable diffusion的新人，可以先了解一下sd的原理及代码相关的博客，这里推荐两篇比较好的博客

The Annotated Diffusion Model

Getting started with Diffusers

用法

首先，应安装 diffusers==0.10.2 以运行以下代码片段：

pip install diffusers==0.10.2 transformers scipy ftfy accelerate

在这篇文章中，我们将使用模型版本 v1-4 ，但您也可以使用模型的其他版本，例如 1.5、2 和 2.1，只需进行最少的代码更改。

Stable Diffusion 模型只需使用 StableDiffusionPipeline 流水线的几行即可在推理中运行。该管道设置了通过简单的 from_pretrained 函数调用从文本生成图像所需的一切。

from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4")

如果 GPU 可用，让我们将其移至cuda！

pipe.to("cuda")

如果您受到 GPU 内存的限制并且可用的 GPU RAM 少于 10GB，请确保加载 StableDiffusionPipeline float16 精度，而不是上面默认的 float32 精度。

为此，可以从 fp16 分支加载权重，并告知 diffusers 期望权重的精度为 float16：

import torch
from diffusers import StableDiffusionPipeline

pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", revision="fp16", torch_dtype=torch.float16)

要运行管道，只需定义提示词并调用 pipe 。

prompt = "a photograph of an astronaut riding a horse"

image = pipe(prompt).images[0]

# you can save the image with
# image.save(f"astronaut_rides_horse.png")

结果如下所示

前面的代码将在您每次运行时为您提供不同的结果。

如果在某个时候得到黑色图像，可能是因为模型中内置的内容过滤器可能检测到了 NSFW 结果。如果您认为情况并非如此，请尝试调整提示词或使用其他种子。事实上，模型预测包括有关是否针对特定结果检测到 NSFW 的信息。让我们看看它们是什么样子的：

可以打印一下结果，会有一个nsfw内容的boolean值返回，如果为True，则表示内容包含NSFW。

如果需要确定性输出，可以设定随机种子的种子，并将生成器传递到管道。每次使用具有相同种子的生成器时，您都会获得相同的图像输出。

import torch

generator = torch.Generator("cuda").manual_seed(1024)
image = pipe(prompt, guidance_scale=7.5, generator=generator).images[0]

# you can save the image with
# image.save(f"astronaut_rides_horse.png")

结果如下所示

您可以使用参数 num_inference_steps 更改推理步骤数。

一般来说，您使用的步骤越多，结果越好，但是步骤越多，生成所需的时间就越长。Stable Diffusion 在步骤数相对较少的情况下效果很好，因此我们建议使用默认的推理步骤数 50, 如果您想要更快的结果，可以使用较小的数字。如果您想要可能更高质量的结果，则可以使用更大的数字。

让我们尝试使用较少的降噪步骤来运行管道。

import torch

generator = torch.Generator("cuda").manual_seed(1024)
image = pipe(prompt, guidance_scale=7.5, num_inference_steps=15, generator=generator).images[0]

# you can save the image with
# image.save(f"astronaut_rides_horse.png")

注意结构是一样的，但宇航员服和马的一般形式存在问题。这表明仅使用 15 个去噪步骤会显着降低生成结果的质量。如前所述， 50 去噪步骤通常足以生成高质量的图像。

除了num_inference_steps，我们一直在使用另一个函数参数，在前面的所有示例中都调用 guidance_scale 了该参数。 guidance_scale 是一种提高对生成的条件信号的影响（在本例中为文本）以及整体样本质量的依从性的方法。它也被称为无分类器引导，简单来说，它迫使生成者更好地匹配提示，可能会以牺牲图像质量或多样性为代价。介于7 和 8.5 之间的值通常是稳定扩散的不错选择。默认情况下，管道使用 7.5 guidance_scale 。

如果使用非常大的值，则图像可能看起来不错，但多样性会降低。您可以在帖子的这一部分中了解此参数的技术细节。

接下来，让我们看看如何一次生成同一提示的多个图像。首先，我们将创建一个 image_grid 函数来帮助我们在网格中很好地可视化它们。

from PIL import Image

def image_grid(imgs, rows, cols):
    assert len(imgs) == rows*cols

    w, h = imgs[0].size
    grid = Image.new('RGB', size=(cols*w, rows*h))
    grid_w, grid_h = grid.size
    
    for i, img in enumerate(imgs):
        grid.paste(img, box=(i%cols*w, i//cols*h))
    return grid

我们可以通过简单地使用一个列表来为同一个提示生成多个图像，并重复多次相同的提示。我们会将列表发送到管道，而不是之前使用的字符串。

num_images = 3
prompt = ["a photograph of an astronaut riding a horse"] * num_images

images = pipe(prompt).images

grid = image_grid(images, rows=1, cols=3)

# you can save the grid with
# grid.save(f"astronaut_rides_horse.png")

默认情况下，稳定扩散会生成 512 × 512 像素图像。使用 height 和 width 参数以纵向或横向比例创建矩形图像非常容易覆盖默认值。

在选择图像尺寸时，我们建议如下：

确保 height 和 width 都是 8 的倍数。
低于 512 可能会导致图像质量降低。
在两个方向上超过 512 将重复图像区域（全局相干性丢失）。
创建非正方形的正确做法是使用512为一个维度，然后让另一个维度大于512就行。

让我们运行一个示例：

prompt = "a photograph of an astronaut riding a horse"
image = pipe(prompt, height=512, width=768).images[0]

# you can save the image with
# image.save(f"astronaut_rides_horse.png")

在了解了稳定扩散可以产生的高质量图像之后，让我们尝试更好地理解模型的功能。

稳定扩散基于一种称为潜在扩散的特定类型的扩散模型，该模型由基于latent diffusion models合成高分辨率图像这一论文提出。

一般来说，扩散模型是经过训练的机器学习系统，可以逐步对随机高斯噪声进行降噪，以获得感兴趣的样本，例如图像。有关它们如何工作的更详细概述，请查看此colab。

扩散模型已被证明可以实现生成sota的图像数据。但扩散模型的一个缺点是，由于其重复的、连续的性质，反向去噪过程很慢。此外，这些模型会消耗大量内存，因为它们在像素空间中运行，这在生成高分辨率图像时会变得巨大。因此，训练这些模型并将它们用于推理是具有挑战性的。

潜在扩散可以通过在较低维的潜在空间上应用扩散过程来降低内存和计算复杂性，而不是使用实际的像素空间。这是标准扩散模型和潜在扩散模型之间的主要区别：在潜在扩散中，模型被训练为生成图像的潜在（压缩）表示。

潜在空间扩散三大组件

潜伏扩散有三个主要成分。

一个自编码器(VAE)
一个U-Net
一个文本编码器，例如CLIP文本编码器

自动编码器

VAE模型由编码器和解码器两部分组成。编码器用于将图像转换为低维潜在表示，该表示将作为U-Net模型的输入。相反，解码器将潜在表示转换回图像。

在潜在扩散训练期间，编码器用于获取前向扩散过程的图像的潜在表示（潜伏），该过程用于前向的噪声扩散过程，每一步会在前一步的基础上生成更多的噪声。在推理过程中，反向扩散过程产生的去噪潜伏使用VAE解码器转换回图像。正如我们将在推理过程中看到的那样，我们只需要 VAE 解码器。

UNet网络

U-Net 有一个编码器部分和一个解码器部分，两者都由 ResNet 模块组成。编码器将图像表示压缩为较低分辨率的图像表示，解码器将较低分辨率的图像表示解码回原始的高分辨率图像表示，该图像表示应该噪声较小。更具体地说，U-Net 输出预测噪声残差，可用于计算预测的去噪图像表示。

为了防止U-Net在下采样时丢失重要信息，通常在编码器的下采样ResNet和解码器的上采样ResNet之间添加捷径连接。此外，稳定的扩散 U-Net 能够通过交叉注意力层在文本嵌入上调节其输出。交叉注意力层被添加到U-Net的编码器和解码器部分，通常在ResNet模块之间。

文本编码器

文本编码器负责将输入提示（例如“骑马的宇航员”）转换为U-Net可以理解的嵌入空间。它通常是一个简单的基于 transformer 的编码器，它将一系列输入标记映射到一系列潜在的文本嵌入。

受 Imagen 的启发，Stable Diffusion 不会在训练期间训练文本编码器，而只是使用 CLIP 已经训练好的文本编码器 CLIPTextModel。

为什么潜伏扩散快速高效？

由于潜在扩散在低维空间上运行，因此与像素空间扩散模型相比，它大大降低了内存和计算要求。例如，Stable Diffusion 中使用的自动编码器的折减系数为 8。这意味着形状 (3, 512, 512) 的图像会进入 (3, 64, 64) 潜在空间，这意味着可以减少8 × 8 = 64倍的内存开销。

这就是为什么即使在 16GB 的 Colab GPU 上也能如此快速地生成 512 × 512 图像的原因！

推理过程中的稳定扩散

综上所述，现在让我们通过说明逻辑流程来仔细看看模型在推理中是如何工作的

稳定扩散模型将潜在种子和文本提示作为输入。然后，潜伏种子用于生成大小 64×6464×64 的随机潜在图像表示，其中文本提示通过 CLIP 的文本编码器转换为大小 77×76877×768 的文本嵌入。

接下来，U-Net 迭代地对随机的潜在图像表示进行降噪，同时以文本嵌入为条件。U-Net 的输出是噪声残差，用于通过调度器算法计算去噪的潜在图像表示。许多不同的调度器算法可用于此计算，每种算法都有其优点和缺点。对于稳定扩散，我们建议使用以下方法之一：

PNDM scheduler
DDIM scheduler
K-LMS scheduler

关于调度程序算法函数如何超出本笔记本范围的理论，但简而言之，人们应该记住，它们从先前的噪声表示和预测的噪声残差中计算预测的去噪图像表示。有关更多信息，我们建议研究阐明基于扩散的生成模型的设计空间

去噪过程重复约50次，以逐步检索更好的潜在图像表示。完成后，潜在图像表示由变分自动编码器的解码器部分解码。

在对 Latent and Stable Diffusion 进行了简要介绍之后，让我们看看如何高级使用 Hugging Face diffusers 库！

编写自己的推理管道

最后，我们将展示如何使用 diffusers 创建自定义扩散管道。编写自定义推理管道是 diffusers 该库的高级用法，可用于切换某些组件，例如上面介绍的 VAE 或调度程序。

例如，我们将展示如何将 Stable Diffusion 与不同的调度器一起使用，即 Katherine Crowson 在此 PR 中添加的 K-LMS 调度器。

预训练模型包括设置完整扩散管道所需的所有组件。它们存储在以下文件夹中：

text_encoder ：Stable Diffusion 使用 CLIP，但其他扩散模型可能使用其他编码器，例如 BERT .
tokenizer 。它必须与模型使用的 text_encoder 模型匹配。
scheduler ：用于在训练期间逐步向图像添加噪点的调度算法。
unet ：用于生成输入潜在表示的模型。
vae ：自动编码器模块，我们将使用它来将潜在表示解码为真实图像。

我们可以通过引用保存组件的文件夹来加载组件，并使用 subfolder 参数 from_pretrained .

from transformers import CLIPTextModel, CLIPTokenizer
from diffusers import AutoencoderKL, UNet2DConditionModel, PNDMScheduler

# 1. Load the autoencoder model which will be used to decode the latents into image space. 
vae = AutoencoderKL.from_pretrained("CompVis/stable-diffusion-v1-4", subfolder="vae")

# 2. Load the tokenizer and text encoder to tokenize and encode the text. 
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14")
text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14")

# 3. The UNet model for generating the latents.
unet = UNet2DConditionModel.from_pretrained("CompVis/stable-diffusion-v1-4", subfolder="unet")

现在，我们不再加载预定义的调度程序，而是加载带有一些拟合参数的 K-LMS 调度程序。

from diffusers import LMSDiscreteScheduler

scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)

接下来，让我们将模型移动到 GPU。

torch_device = "cuda"
vae.to(torch_device)
text_encoder.to(torch_device)
unet.to(torch_device)

现在，我们定义将用于生成图像的参数。

请注意， guidance_scale 该定义类似于 Imagen 论文中公式（2）的引导权重 w 。 guidance_scale == 1 对应于不执行无分类器指导。在这里，我们将其设置为 7.5，就像之前所做的那样。

与前面的示例相比，我们设置为 num_inference_steps 100 以获得更清晰的图像。

prompt = ["a photograph of an astronaut riding a horse"]

height = 512                        # default height of Stable Diffusion
width = 512                         # default width of Stable Diffusion

num_inference_steps = 100           # Number of denoising steps

guidance_scale = 7.5                # Scale for classifier-free guidance

generator = torch.manual_seed(0)    # Seed generator to create the inital latent noise

batch_size = len(prompt)

首先，我们得到 text_embeddings for the passed 提示。这些嵌入将用于调节 UNet 模型，并引导图像生成类似于输入提示的内容

text_input = tokenizer(prompt, padding="max_length", max_length=tokenizer.model_max_length, truncation=True, return_tensors="pt")

text_embeddings = text_encoder(text_input.input_ids.to(torch_device))[0]

我们还将获得无分类器指南的无条件文本嵌入，这些嵌入只是填充标记（空文本）的嵌入。它们需要具有与条件 text_embeddings （ batch_size 和 seq_length ）相同的形状。

max_length = text_input.input_ids.shape[-1]
uncond_input = tokenizer(
    [""] * batch_size, padding="max_length", max_length=max_length, return_tensors="pt"
)
uncond_embeddings = text_encoder(uncond_input.input_ids.to(torch_device))[0]

对于无分类器的指导，我们需要进行两次前向传递：一次使用条件输入（ text_embeddings ），另一次使用无条件嵌入（ uncond_embeddings ）。在实践中，我们可以将两者连接成一个批次，以避免进行两次前向传递。

text_embeddings = torch.cat([uncond_embeddings, text_embeddings])

接下来，我们生成初始随机噪声。

latents = torch.randn(
    (batch_size, unet.in_channels, height // 8, width // 8),
    generator=generator,
)
latents = latents.to(torch_device)

如果我们在这个阶段检查它们 latents ，我们会看到它们的形状 torch.Size([1, 4, 64, 64]) 比我们想要生成的图像小得多。该模型稍后会将这种潜在表示（纯噪声）转换为 512 × 512 图像。

接下来，我们使用我们选择的 num_inference_steps .这将计算 sigmas 在去噪过程中使用的确切时间步长值。

scheduler.set_timesteps(num_inference_steps)

K-LMS 调度器需要将乘 latents 以它 sigma 的值。让我们在这里执行此操作：

latents = latents * scheduler.init_noise_sigma

我们已准备好编写去噪循环。

from tqdm.auto import tqdm

scheduler.set_timesteps(num_inference_steps)

for t in tqdm(scheduler.timesteps):
    # expand the latents if we are doing classifier-free guidance to avoid doing two forward passes.
    latent_model_input = torch.cat([latents] * 2)

    latent_model_input = scheduler.scale_model_input(latent_model_input, timestep=t)

    # predict the noise residual
    with torch.no_grad():
        noise_pred = unet(latent_model_input, t, encoder_hidden_states=text_embeddings).sample

    # perform guidance
    noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
    noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)

    # compute the previous noisy sample x_t -> x_t-1
    latents = scheduler.step(noise_pred, t, latents).prev_sample

我们现在使用将 vae 生成的 latents 解码回图像。

# scale and decode the image latents with vae
latents = 1 / 0.18215 * latents
with torch.no_grad():
    image = vae.decode(latents).sample

最后，让我们将图像转换为 PIL，以便我们可以显示或保存它。

image = (image / 2 + 0.5).clamp(0, 1)
image = image.detach().cpu().permute(0, 2, 3, 1).numpy()
images = (image * 255).round().astype("uint8")
pil_images = [Image.fromarray(image) for image in images]
pil_images[0]

参考链接：

https://huggingface.co/blog/stable_diffusion#how-does-stable-diffusion-work

你可能感兴趣的:(深度学习,stable,diffusion,人工智能,深度学习)

信息技术革新引领时代变革 JiYan_xiaohei 业界资讯
信息技术革新引领时代变革一、信息技术的飞速发展1．信息技术的概念及重要性信息技术，即信息的获取、传输、存储、处理和应用等技术的综合，已经成为现代社会不可或缺的基础设施。信息技术的飞速发展极大地改变了人们的生活方式和工作模式，推动了社会进步。2．信息技术的快速发展现状近年来，人工智能、大数据、云计算等前沿技术不断突破，展现出强大的潜力。这些新技术的出现不仅改变了数据处理和分析的方式，还催生了新的产业
信息技术革新引领社会变革 JiYan_yellow 业界资讯
信息技术革新引领社会变革一、信息技术推动数字化转型随着信息技术的迅猛发展，我们正处在一个数字化的时代。信息技术在推动产业数字化转型方面发挥着重要作用。云计算、大数据、人工智能等先进技术的应用，使得企业能够实现更高效的生产和运营。例如，在制造业领域，智能制造技术能够提高生产效率和质量，降低运营成本。此外，信息技术还在促进供应链管理、市场营销等环节的数字化转型，为企业提供更广阔的发展空间。信息技术还深
自学人工智能大模型，满足7B模型的训练和微调以及推理，预算3万，如何选购电脑岁月的眸人工智能
如果你的预算是3万元人民币，希望训练和微调7B参数规模的人工智能大模型（如LLaMA、Mistral等），你需要一台高性能的深度学习工作站。在这个预算范围内，以下是推荐的配置：1.关键硬件配置(1)GPU(显卡)推荐显卡：NVIDIARTX4090(24GBVRAM)或者RTX3090（24GBVRAM）理由：7B模型推理：24GB显存足够跑7B模型的推理，但全参数训练可能吃力，适合LoRA等微调
多模态大模型（LMMs）与大语言模型（LLMs）的比较大F的智能小课底层技术解析人工智能语言模型
前言现在的大模型分为两大类：大语言模型（LargeLanguageModels，简称LLMs）和多模态大模型（LargeMultimodalModels，简称LMMs）。本文将从基础定义、输入数据、应用场景、训练过程这几方面讨论下两者的区别。基础定义LLMs(LargeLanguageModels,大型语言模型)-深度学习的应用之一，是基于深度学习的大规模机器学习模型，通常由数十亿到数万亿个参数构
人工智能之推荐系统实战系列(协同过滤,矩阵分解,FM与DeepFM算法) weixin_58351028 人工智能深度学习神经网络算法机器学习
一.推荐系统介绍和应用(1)推荐系统通俗解读推荐系统就是来了就别想走了。例如在大数据时代中京东越买越想买，抖音越刷越是自己喜欢的东西，微博越刷越过瘾。(2).推荐系统发展简介1)推荐系统无处不在，它是根据用户的行为决定推荐的内容。用户每天在互联网中都会留下足迹，这样就会越来越多的用户画像。2)为什么要推荐系统卖的好的商品就那几种，其它就不管了吗？答案是否定的。80%的销售来自20%的热门商品，要想
Stable Diffusion AI软件绘画速成从入门到精通课兴兴 stable diffusion 人工智能
课兴兴资源圈创始人，更多课程干货，欢迎关注（课兴兴）KMastery-StableDiffusionAI软件绘画速成从入门到精通-中英字幕KMasteryStableDiffusionFromNovicetoArtist英文+中英字幕|1080P|14.5GBAI绘画软件速成课程：从初学者到专业人士欢迎来到人工智能绘画软件初学者速成班！无论您是刚刚开始探索绘画世界，还是希望使用人工智能技术增强您的
《Stable Diffusion绘画完全指南：从入门到精通的Prompt设计艺术》第一章 Allen-Steven python相关应用 SD 创作实践 stable diffusion prompt 人工智能
第一章：认识StableDiffusion与Prompt设计基础1.1什么是StableDiffusion：生成原理与核心优势一、颠覆性生成逻辑：从噪声到艺术的魔法逆向降噪原理传统AI绘画：直接生成完整像素StableDiffusion：通过潜扩散模型（LDM），在低维潜空间（LatentSpace）逐步去除噪声，最终解码为高清图像类比解释：如同雕塑家从混沌的大理石中凿出形体，AI在噪声中「雕刻」
Stable Diffusion 教程基础篇：如何写出好的prompt，一些技巧和原则 AI想象家 stable diffusion prompt midjourney 人工智能 openAI AI作画
StableDiffusion教程-中文AskAIforART·Originaltxt2imgandimg2imgmodes·基础模式之文生图/图生图点击可放大基础入门部分输入一段话，生成一张图。这是AI绘画的核心。入门就是那么简单，不过，这段话怎么写，其实也是有窍门的。在StableDiffusion里面，这段描述也就是Prompt，我们称之为AI的魔法咒语。那么，最开始我们需要怎么做呢？当然是
解码DeepSeek家族系列：大语言模型赛道上的黑马传奇大F的智能小课语言模型人工智能自然语言处理
1.DeepSeek公司概况1.1成立背景与发展历程DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，于2023年7月17日正式成立。公司由知名量化资管巨头幻方量化孕育而生，其创始人梁文峰是幻方量化的联合创始人之一。DeepSeek自成立之初，便专注于开发先进的大语言模型（LLM）及相关技术，致力于通过数据蒸馏技术提取更精炼、有用的数据，以提升模型性能。在发展历程中，DeepSeek
《Stable Diffusion绘画完全指南：从入门到精通的Prompt设计艺术》第三章 Allen-Steven python相关应用 SD 创作实践 stable diffusion prompt 人工智能
第三章：风格化Prompt专题解析3.1写实类：照片级细节的刻画技巧一、物理仿真引擎构建#写实类Prompt标准模板{"主体描述":"精确物种/型号/品牌（如：Mercedes-AMGGTBlackSeries2025款）","材质系统":[ "PBR材质规范（金属度/粗糙度/法线贴图）", "表面瑕疵（划痕0.2级，灰尘密度0.5）"],"光学系统":[ "镜头参数：佳能RF85mmf/1.2L
从需求分析到代码生成：AI如何重塑软件需求工程前端
软件开发的世界，一直以来都面临着巨大的挑战。传统软件开发过程中，需求分析往往耗时长、易出错，沟通成本高昂，这些都直接导致项目延期和成本超支。然而，随着人工智能技术的飞速发展，一个新的时代正在到来。AI代码生成器等AI技术的应用，为我们提供了自动化部分需求分析和代码生成过程的可能性，显著提高了效率，降低了成本。本文将探讨AI技术如何重塑软件需求工程，并以ScriptEcho为例，说明AI驱动的代码生
AI前端开发对未来职业规划的影响：拥抱变化，迎接挑战前端
随着人工智能技术的飞速发展，AI写代码工具（以及其他AI代码生成工具）的兴起正在深刻地改变着前端开发领域。从简单的代码片段生成到复杂的页面布局设计，AI已经开始扮演越来越重要的角色。这不仅给前端开发带来了前所未有的效率提升，也对前端开发者的职业规划提出了新的挑战和机遇。本文将探讨AI前端开发的未来趋势，以及如何利用AI工具，例如ScriptEcho，来帮助前端开发者适应未来，在竞争激烈的市场中保持
AI前端开发与个人品牌打造：乘风破浪会有时，直挂云帆济沧海前端
在数字化浪潮席卷全球的今天，前端开发领域正经历着前所未有的变革。得益于人工智能技术的快速发展，越来越多的AI写代码工具涌现，深刻地改变着前端开发的模式和效率。掌握AI前端开发技能，不仅能提升个人竞争力，更能助力个人品牌的打造，让你的职业生涯乘风破浪。AI前端开发技能如何提升个人竞争力在竞争日益激烈的IT行业，高效的开发能力是建立个人品牌的基础。而AI赋能的前端开发，正为开发者提供了前所未有的效率提
DeepSeek使用手册，其中一份是清华大学出品 cpa007 云计算
自娶，。https://pan.quark.cn/s/d174471b17c0深入了解DeepSeek：从技术到应用一、DeepSeek是什么？DeepSeek（深度求索）是一款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能平台，专注于提供高效易用的AI模型训练与推理能力。它既包含预训练大语言模型（如DeepSeek-R1系列），也提供配套工具链，助力开发者快速实现AI应用落地。二、De
获取 OpenAI o1-preview/o1-Mini API key 进行 API 调用的详细教程 openaiapikey
如何使用OpenAI推理模型：o1-preview/o1-Mini模型的API调用在快速发展的人工智能领域，OpenAI推出了o1系列模型（草莓），包括o1-preview和o1-Mini。这些模型旨在执行复杂的推理任务，成为开发人员和研究人员的强大工具。本文将介绍如何使用这些模型进行API调用。1.openaiapikey获取首先，您需要一个OpenAIAPI密钥。您可以在OpenAI的官方网站
免费体验！DeepSeek一键部署全攻略 deepseek
1.背景介绍热点聚焦：DeepSeek-R1&V3引爆全球关注！自从深度求索团队开源了DeepSeek-R1和DeepSeek-V3，这两款模型迅速成为AI领域的焦点，引发了全球范围的热议！它们不仅是人工智能技术的重大突破，更是深度求索团队献给全人类的一份重磅科技大礼。AlayaNeW算力云：让DeepSeek部署更简单！借助AlayaNeW算力云服务提供的强大GPU资源，您可以轻松实现DeepS
【学术投稿-2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025)】CSS样式解析：行内、内部与外部样式的区别与优先级分析禁默前端学术会议 css 前端
简介2025年计算机视觉研究进展与应用（ACVRA2025）将于2025年2月28-3月2日在中国广州召开，会议将汇聚世界各地的顶尖学者、研究人员和行业专家，聚焦计算机视觉领域的最新研究动态与应用成就。本次会议将探讨前沿技术，包括深度学习、多模态学习、图像和视频分析、3D重建等，以及其在智能交通、医疗影像、增强现实和自动化等多个实际应用中的创新转化。会议官网：www.acvra.org目录前言一、
重磅：中国开源首个百万级机器人数据集，具身智能迎来ImageNet时刻吴脑的键客机器人技术机器人人工智能数据挖掘
智元机器人携手上海人工智能实验室等机构，重磅发布AgiBotWorld数据集，这是全球首个基于真实场景的百万级机器人数据集。相较谷歌的OpenX-Embodiment，其长程数据规模提升10倍，场景覆盖扩大100倍，数据质量达到工业级标准。这个被誉为具身智能领域"ImageNet时刻"的开源项目展现了令人惊叹的机器人能力。从客厅插花到厨房做饭，从超市收银到工厂分拣，AgiBotWorld涵盖了家居
从零开始大模型开发与微调：Miniconda的下载与安装 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：Miniconda的下载与安装1.背景介绍随着人工智能和机器学习技术的快速发展,大型语言模型(LargeLanguageModel,LLM)已经成为当前研究和应用的热点。这些模型通过在海量文本数据上进行预训练,能够捕捉到丰富的语义和上下文信息,从而在自然语言处理任务中表现出色。然而,训练这些庞大的模型需要大量的计算资源,对于普通开发者来说,从头开始训练一个大模型是一个巨大
【DeepSeek 行业赋能】从金融到医疗：探索 DeepSeek 在垂直领域的无限潜力网罗开发人工智能 AI 大模型深度学习机器学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
小白零基础学习深度学习之张量爱理科的小王子学习深度学习人工智能
1.张量PyTorch中的张量（Tensor）就是一种用来存储数据的“盒子”，这个盒子可以有不同的形状和大小，里面可以装各种数字。张量是PyTorch中最基本的东西，就像乐高积木一样，你可以用它来搭建各种复杂的模型。2.张量的用途存储数据：你可以把张量当作一个容器，用来存储各种数据。比如，一张图片可以用一个三维张量来表示，其中第一维是颜色通道（红、绿、蓝），第二维和第三维是图片的宽度和高度。进行计
探索机器学习在个性化推荐系统中的妙用：Python实战解析 Echo_Wish 前沿技术人工智能机器学习 python 人工智能
探索机器学习在个性化推荐系统中的妙用：Python实战解析在信息爆炸的时代，我们每天都被大量的内容包围着。如何在海量的信息中找到真正适合自己的内容？这就是个性化推荐系统的使命。作为一名热爱人工智能和Python的技术人，今天我想和大家聊聊机器学习在个性化推荐系统中的应用，并通过具体的代码示例，带大家一起探索这个领域的奥秘。一、个性化推荐系统的意义首先，我们来思考一个问题：为什么需要个性化推荐系统？
深度学习-情感分析小赖同学啊人工智能深度学习人工智能
以下将分别使用PyTorch和TensorFlow框架实现基于深度学习的情感分析，这里以影评的情感分析为例，数据集使用IMDB影评数据集。使用PyTorch实现1.安装必要的库pipinstalltorchtorchtextspacypython-mspacydownloaden_core_web_sm2.代码实现importtorchimporttorch.nnasnnimporttorch.o
Java与Python的集成与性能对比研究向哆哆 Java入门到精通 java python 开发语言
Java与Python的集成与性能对比研究随着科技的不断进步，Java和Python这两种编程语言在不同领域得到了广泛应用。Java凭借其高性能、平台独立性和庞大的生态系统，广泛应用于企业级应用、Web开发和大数据处理等领域。而Python因其简洁易学、灵活性强，在数据科学、人工智能和快速原型开发方面具有显著优势。虽然这两种语言在设计上有很大的差异，但它们可以通过多种方式进行集成，结合各自的优势，
值得收藏！十大中国流行的AI大模型企业及平台汇总 deepseek大模型人工智能 AIGC chatgpt 面试产品经理
在当今这个信息化迅速发展的时代，人工智能技术已经成为推动社会进步的重要力量。特别是在我国，AI大模型技术的发展速度令人瞩目，各种平台纷纷涌现，表现出强大的技术实力和广泛的应用前景。本文将为您介绍当前目前我国十个流行的AI大模型企业及各自平台（根据用户访问流量及行业反馈情况），下面一起来看看吧！1.百度-文心一言百度在大模型开发上持续采用创新算法和结构，如Transformer，以优化模型性能和学习
微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练人工智能
LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。Transformer具有多层架构，每层主要由多头自注意力机制和逐位置全连接前馈网络组成。Transformer的输入是文本嵌入$Y=y_{1:L}$和图像嵌入$X=x_{1:M}$序列的连接，其中$L$和$M$分别是文本和图像的序列长度。通过Tr
AI前端开发技能提升路径：从入门到精通，成为AI时代的前端专家前端
在数字时代飞速发展的今天，AI写代码工具的出现为前端开发带来了革命性的变化。AI前端开发，这个融合人工智能与前端技术的领域，正以前所未有的速度蓬勃发展，为开发者们带来了巨大的机遇与挑战。本文将为你详细解读AI前端开发技能提升路径，助你成为AI时代的前端专家。1.AI前端开发：机遇与挑战并存AI前端开发，简单来说，就是将人工智能技术融入到前端应用中，例如开发智能推荐系统、AI图像处理工具、基于自然语
【深度学习】常见模型-GPT（Generative Pre-trained Transformer，生成式预训练 Transformer） IT古董深度学习人工智能深度学习 gpt transformer
GPT（GenerativePre-trainedTransformer）1️⃣什么是GPT？GPT（GenerativePre-trainedTransformer，生成式预训练Transformer）是由OpenAI开发的基于Transformer解码器（Decoder）的自回归（Autoregressive）语言模型。它能够通过大量无监督数据预训练，然后微调（Fine-tuning）以适应特
微软 LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练人工智能
LayoutLMv3：通过统一文本和图像掩码进行文档人工智能预训练LayoutLMv3应用统一的文本-图像多模态Transformer来学习跨模态表示。Transformer具有多层架构，每层主要由多头自注意力机制和逐位置全连接前馈网络组成。Transformer的输入是文本嵌入$Y=y_{1:L}$和图像嵌入$X=x_{1:M}$序列的连接，其中$L$和$M$分别是文本和图像的序列长度。通过Tr
AI时代前端开发的创造力：解放还是束缚？前端
在人工智能（AI）快速发展的时代，AI技术的影响已经渗透到各个领域，从医疗保健到金融服务，再到创意产业。AI工具的出现，为前端开发带来了前所未有的效率提升，但也引发了人们对创造力的担忧：这些强大的AI写代码工具会解放前端工程师的创造力，还是会最终扼杀它？本文将以ScriptEcho为例，探讨AI辅助前端开发工具对前端工程师创造力的双面影响。AI辅助前端开发对创造力的潜在负面影响不可否认，AI辅助前
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分