新缸中之脑

文本生成图像应用指南【Stable Diffusion】

Stable Diffusion 是一种文本到图像的潜在扩散模型，由来自 CompVis、Stability AI 和 LAION 的研究人员和工程师创建。它使用来自 LAION-5B 数据库子集的 512x512 图像进行训练。稳定扩散，生成人脸，也可以在自己的机器上运行，如下图所示：

推荐：将 NSDT场景编辑器加入你的3D开发工具链。

如果你足够聪明和有创意，你可以创建一系列图像，然后形成视频。例如，Xander Steenbrugge 使用稳定扩散和图 1 所示的输入提示创建了令人惊叹的 Voyage through Time 视频：

以下是他用来创作这幅创意作品的提示和种子：

在本文中，我们将首先介绍什么是Stable Diffusion并讨论其主要组成部分。然后我们将使用稳定扩散以三种不同的方式创建图像，从简单到复杂。

1、稳定扩散模型

扩散模型是机器学习模型，经过训练可以逐步对随机高斯噪声进行去噪以获得感兴趣的样本，例如图像。

扩散模型有一个主要的缺点，因为去噪过程的时间和内存消耗都非常昂贵。这会使进程变慢并消耗大量内存。这样做的主要原因是它们在像素空间中运行，这变得非常昂贵，尤其是在生成高分辨率图像时。

引入稳定扩散来解决这个问题，因为它依赖于潜在扩散。潜在扩散通过在较低维度的潜在空间上应用扩散过程而不是使用实际像素空间来减少内存和计算成本。

1.1 潜在扩散的组成

潜在扩散包含三个主要组成部分：

变分自编码器 (VAE)

变分自编码器 (VAE) 由两个主要部分组成：编码器和解码器。编码器会将图像转换为低维潜在表示，该表示将作为下一个组件 U_Net 的输入。解码器将做相反的事情，将潜在表示转换回图像。

编码器用于在潜在扩散训练期间为前向扩散过程获取输入图像的潜在表示（latent）。在推理过程中，VAE 解码器会将潜在的转换回图像。

U-Net

U-Net 也由编码器和解码器部分组成，两者都由 ResNet 块组成。编码器将图像表示压缩为较低分辨率的图像，解码器将较低分辨率解码回较高分辨率的图像。

为了防止 U-Net 在下采样时丢失重要信息，通常在编码器的下采样 ResNet 和解码器的上采样 ResNet 之间添加快捷连接。

此外，稳定扩散 U-Net 能够通过交叉注意层调节其在文本嵌入上的输出。交叉注意层被添加到 U-Net 的编码器和解码器部分，通常在 ResNet 块之间。

文本编码器

文本编码器会将输入提示（例如，“A Pikachu fine dining with view to the Effiel tower”）转换为 U-Net 可以理解的嵌入空间。这将是一个简单的基于转换器的编码器，它将标记序列映射到潜在文本嵌入序列。

重要的是使用一个好的提示符以获得预期的输出。这就是为什么现在正在流行即时工程的主题。提示工程是找到某些词的行为，这些词可以触发模型产生具有某些属性的输出。

1.2 为什么潜扩散快速高效

latent diffusion 之所以快速高效，是因为 latent diffusion 的 U-Net 在低维空间上运行。与像素空间扩散相比，这减少了内存和计算复杂性。例如，Stable Diffusion 中使用的自动编码器的缩减系数为 8。这意味着形状为 (3, 512, 512 ) 的图像在潜在空间中变为 (4, 64, 64 )，这需要的内存减少 64 倍。

1.3 推理中的稳定扩散

首先，稳定扩散模型将潜在种子和文本提示作为输入。然后使用潜在种子生成大小为 64×64 的随机潜在图像表示，而文本提示通过 CLIP 的文本编码器转换为大小为 77×768 的文本嵌入。

接下来，U-Net 在以文本嵌入为条件的同时迭代地对随机潜在图像表示进行去噪。 U-Net 的输出是噪声残差，用于通过调度程序算法计算去噪的潜在图像表示。调度器算法根据先前的噪声表示和预测的噪声残差计算预测的去噪图像表示。

许多不同的调度程序算法可用于此计算，每个算法都有其优点和缺点。对于稳定扩散，建议使用以下之一：

PNDM 调度程序（默认使用）
DDIM调度器
K-LMS调度程序

去噪过程重复大约 50 次以逐步检索更好的潜在图像表示。完成后，潜在图像表示由变分自编码器的解码器部分解码。

2、使用HuggingFace Space

HuggingFace Space提供了一个非常简单的 API 来使用稳定扩散生成图像。在下图中，你可以看到我使用了“Astronauts riding a horse”，可以在下图中看到输出：

有一些可用的高级选项可用于更改生成图像的质量，如下图所示：

有四个选项可供使用：

images：这个控制图片的数量，最多4张图片。
Steps：此选项选择你想要的扩散过程的步骤数。步骤越多，生成的图像质量就越好。如果你想要高质量，你可以选择可用的最大步数，即 50。如果你需要更快的结果，那么可以考虑减少步数。
Guidance Scale：指导比例是生成的图像与你的输入提示的接近程度与输入的多样性之间的权衡。它的典型值约为 7.5。比例增加得越多，图像的质量就越高，但输出的多样性就会降低。
Seed：种子使你能够控制生成样本的多样性

3、使用Diffusers开发包

第二种方法是使用 Hugging Face 生成的 Diffusers 库并在 google Colab 上运行它。 diffuser 是 Hugging Face 生成的一个库，它包含了目前可用的大部分稳定的扩散模型。

第一步是打开google collab，然后按connect。之后，要检查它是否连接到GPU，可以从资源按钮中检查它，如下图所示：

另一个选项是从 Runtime 菜单中选择 change run-time type，然后你应该会发现硬件加速器被选择为 GPU：

首先，让我们确保使用 GPU 运行时来使用下面的代码运行此笔记本，以便推理速度更快。如果以下命令失败，请使用运行时菜单并选择更改运行时类型，如上图所示：

!nvidia-smi

如果它正在工作并被检测到，你将收到类似的消息：

接下来，应该安装diffusers、 scipy、ftfy 和 transformer：

!pip install diffusers==0.4.0
!pip install transformers scipy ftfy
!pip install "ipywidgets>=7,<8"

还需要通过勾选此处的复选框来接受示范许可。你必须在 hugging face 上注册并获得访问令牌才能使用这些模型。

由于 google collab 已经禁用了外部小部件，我们需要启用它。为此，请运行以下代码以使用 notebook_login ：

from google.colab import output
output.enable_custom_widget_manager()

现在可以使用从你的帐户获得的访问令牌登录到你的Huggingface帐户：

from huggingface_hub import notebook_login

notebook_login()

接下来，我们将从扩散器库中加载 StableDiffusionPipeline。 StableDiffusionPipeline 是一个端到端推理管道，可用于从文本生成图像。

我们将加载预训练模型的权重。模型 ID 将是 CompVis/stable-diffusion-v1–4，我们还将对函数使用特定类型的修订版和 torch_dtype。我们将设置 revision = “fp16” 以从半精度分支加载权重，并设置 torch_dtype = “torch.float16” 以告知扩散器期望权重为 float 16 精度。

像这样设置变量以便能够在免费版的 google CoLab 上运行模型非常重要。

import torch
from diffusers import StableDiffusionPipeline

# make sure you're logged in with `huggingface-cli login`
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", revision="fp16", torch_dtype=torch.float16)

现在让我们将管道移动到 GPU 以进行更快的推理：

pipe = pipe.to("cuda")

现在是生成图片的时候了。我们将编写一个提示并将其提供给管道并打印输出。这里的输入提示是一张宇航员骑马的照片：

prompt = "a photograph of an astronaut riding a horse"
image = pipe(prompt).images[0]  # image here is in [PIL format](https://pillow.readthedocs.io/en/stable/)

# Now to display an image you can do either save it such as:
image.save(f"astronaut_rides_horse.png")

我们看一下输出：

每次你运行上面的代码，你都会得到不同的图像。要每次都获得相同的结果，可以将随机种子传递给管道，如下面的代码所示：

import torch

generator = torch.Generator("cuda").manual_seed(1024)

image = pipe(prompt, generator=generator).images[0]

image

还可以使用 num_inference_steps 参数更改推理步骤的数量。一般来说，推理步骤越多，生成的图像质量越高，但生成结果的时间也会越长。如果想要更快的结果，你可以使用更少的步骤。

以下单元格使用与之前相同的种子，但步骤更少：

import torch

generator = torch.Generator("cuda").manual_seed(1024)

image = pipe(prompt, num_inference_steps=15, generator=generator).images[0]

image

请注意一些细节，例如马的头部或头盔，比上一张图像中的定义更少：

管道调用中的另一个参数是指导比例。这是一种提高对条件信号的依从性的方法，在这种情况下，条件信号是文本以及整体样本质量。

简单来说，无分类器指导迫使生成更好地匹配提示。像 7 或 8.5 这样的数字给出了很好的结果。如果您使用非常大的数字，图像可能看起来不错，但多样性会降低。

要为同一个提示生成多个图像，我们只需使用一个包含重复多次相同提示的列表。我们会将列表而不是我们之前使用的字符串发送到管道。

让我们首先编写一个辅助函数来显示图像网格。只需运行以下单元格即可创建 image_grid 函数：

from PIL import Image

def image_grid(imgs, rows, cols):
    assert len(imgs) == rows*cols

    w, h = imgs[0].size
    grid = Image.new('RGB', size=(cols*w, rows*h))
    grid_w, grid_h = grid.size
    
    for i, img in enumerate(imgs):
        grid.paste(img, box=(i%cols*w, i//cols*h))
    return grid

现在，我们可以在运行带有 3 个提示列表的管道后生成网格图像。

num_images = 3
prompt = ["a photograph of an astronaut riding a horse"] * num_images

images = pipe(prompt).images

grid = image_grid(images, rows=1, cols=3)
grid

结果如下：

我们还可以生成 n*m 图像的网格：

num_cols = 3
num_rows = 4

prompt = ["a photograph of an astronaut riding a horse"] * num_cols

all_images = []
for i in range(num_rows):
  images = pipe(prompt).images
  all_images.extend(images)

grid = image_grid(all_images, rows=num_rows, cols=num_cols)
grid

结果如下：

稳定扩散生成的图像的默认大小为 512*512 像素。但是，使用高度和宽度参数更改生成图像的高度和宽度非常容易。以下是选择合适图像尺寸的一些提示：

将高度和宽度参数都选择为 8 的倍数。
在较低质量下将任何高度和宽度设置为小于 512。
将两个方向设置为大于 512 将导致列出全局一致性并导致准备图像区域。
最好选择的值是一个方向为 512，而另一个方向大于 512。

prompt = "a photograph of an astronaut riding a horse"

image = pipe(prompt, height=512, width=768).images[0]
image

结果如下：

4、用扩散器建立你自己的管道

最后，是时候使用扩散器创建自定义扩散管道了。我们将演示如何将 Stable Diffusion 与不同的调度程序一起使用，即 Katherine Crowson 的 K-LMS 调度程序。

让我们逐步了解 StableDiffusionPipeline，看看我们如何自己编写它。我们将从加载涉及的各个模型开始：

import torch
torch_device = "cuda" if torch.cuda.is_available() else "cpu"

预训练扩散模型包括建立完整扩散管道所需的所有组件。它们存储在以下文件夹中：

text_encoder：Stable Diffusion使用CLIP，但其他diffusion模型可能使用其他编码器如BERT。
tokenizer：它必须与 text_encoder 模型使用的匹配。
scheduler：用于在训练期间逐步向图像添加噪声的调度算法。
U-Net：用于生成输入的潜在表示的模型。
VAE：变分自编码器模块，我们将使用它来将潜在表示解码为真实图像。

我们可以通过引用保存组件的文件夹来加载组件，使用 from_pretrained 的子文件夹参数。

from transformers import CLIPTextModel, CLIPTokenizer
from diffusers import AutoencoderKL, UNet2DConditionModel, PNDMScheduler

# 1. Load the autoencoder model which will be used to decode the latents into image space. 
vae = AutoencoderKL.from_pretrained("CompVis/stable-diffusion-v1-4", subfolder="vae")

# 2. Load the tokenizer and text encoder to tokenize and encode the text. 
tokenizer = CLIPTokenizer.from_pretrained("openai/clip-vit-large-patch14")
text_encoder = CLIPTextModel.from_pretrained("openai/clip-vit-large-patch14")

# 3. The UNet model for generating the latents.
unet = UNet2DConditionModel.from_pretrained("CompVis/stable-diffusion-v1-4", subfolder="unet")

现在我们不加载预定义的调度程序，而是加载 K-LMS 调度程序。

from diffusers import LMSDiscreteScheduler

scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)

接下来，我们将模型移至 GPU。

vae = vae.to(torch_device)
text_encoder = text_encoder.to(torch_device)
unet = unet.to(torch_device)

我们现在定义将用于生成图像的参数。请注意，与前面的示例相比，我们设置 num_inference_steps = 100 以获得更清晰的图像。

prompt = ["a photograph of an astronaut riding a horse"]

height = 512                        # default height of Stable Diffusion
width = 512                         # default width of Stable Diffusion

num_inference_steps = 100            # Number of denoising steps

guidance_scale = 7.5                # Scale for classifier-free guidance

generator = torch.manual_seed(32)   # Seed generator to create the inital latent noise

batch_size = 1

接下来，我们获取提示的 text_embeddings。这些嵌入将用于调节 U-Net 模型。

text_input = tokenizer(prompt, padding="max_length", max_length=tokenizer.model_max_length, truncation=True, return_tensors="pt")

with torch.no_grad():
  text_embeddings = text_encoder(text_input.input_ids.to(torch_device))[0]

我们还将获得用于无分类器指导的无条件文本嵌入，它们只是填充标记（空文本）的嵌入。它们需要与条件 text_embeddings（batch_size 和 seq_length）具有相同的形状：

max_length = text_input.input_ids.shape[-1]
uncond_input = tokenizer(
    [""] * batch_size, padding="max_length", max_length=max_length, return_tensors="pt"
)
with torch.no_grad():
  uncond_embeddings = text_encoder(uncond_input.input_ids.to(torch_device))[0]

对于无分类器指导，我们需要进行两次前向传递。第一个是条件输入 (text_embeddings)，第二个是无条件嵌入 (uncond_embeddings)。因此，我们会将两者连接成一个批次，以避免进行两次前向传递：

text_embeddings = torch.cat([uncond_embeddings, text_embeddings])

让我们生成初始随机噪声：

latents = torch.randn(
  (batch_size, unet.in_channels, height // 8, width // 8),
  generator=generator,
)
latents = latents.to(torch_device)

生成的 latent 的形状是 64 * 64。之后模型会将这个 latent representation（纯噪声）转换为 512 * 512 的图像。

现在我们将使用选定的 num_inference_steps 初始化调度程序。这将计算将在去噪过程中使用的西格玛和确切的步长值：

scheduler.set_timesteps(num_inference_steps)

K-LMS 调度器需要将潜伏量乘以它的西格玛值。让我们在这里这样做：

latents = latents * scheduler.init_noise_sigma

最后，我们现在准备编写去噪循环：

from tqdm.auto import tqdm
from torch import autocast

for t in tqdm(scheduler.timesteps):
  # expand the latents if we are doing classifier-free guidance to avoid doing two forward passes.
  latent_model_input = torch.cat([latents] * 2)

  latent_model_input = scheduler.scale_model_input(latent_model_input, t)

  # predict the noise residual
  with torch.no_grad():
    noise_pred = unet(latent_model_input, t, encoder_hidden_states=text_embeddings).sample

  # perform guidance
  noise_pred_uncond, noise_pred_text = noise_pred.chunk(2)
  noise_pred = noise_pred_uncond + guidance_scale * (noise_pred_text - noise_pred_uncond)

  # compute the previous noisy sample x_t -> x_t-1
  latents = scheduler.step(noise_pred, t, latents).prev_sample

我们现在可以使用 vae 将生成的潜在解码回图像：

# scale and decode the image latents with vae
latents = 1 / 0.18215 * latents

with torch.no_grad():
  image = vae.decode(latents).sample

最后，让我们将图像转换为 PIL，以便我们可以显示或保存它。

image = (image / 2 + 0.5).clamp(0, 1)
image = image.detach().cpu().permute(0, 2, 3, 1).numpy()
images = (image * 255).round().astype("uint8")
pil_images = [Image.fromarray(image) for image in images]
pil_images[0]

原文链接：稳定扩散模型应用指南 — BimAnt

轻松掌握：Milvus向量数据库部署与RAG使用技巧威研威语人工智能数据库 milvus 数据库人工智能 RAG
Milvus简介Milvus是一款开源的向量数据库，由Zilliz开发并维护，适合用于机器学习和人工智能领域。是一款专为处理向量查询而设计的数据库，Milvus能够对万亿级向量进行索引。Milvus官网：https://milvus.io/Milvus中文文档：https://www.milvus-io.com/Milvus部署环境准备Linux操作系统Docker19.03或更高版本Docker
《深度剖析：鸿蒙系统下智能NPC与游戏剧情的深度融合》人工智能深度学习
在游戏开发领域，鸿蒙系统的崛起为开发者们带来了前所未有的机遇与挑战。尤其是在开发基于鸿蒙系统的人工智能游戏时，实现智能NPC的行为逻辑与游戏剧情紧密结合，成为了打造沉浸式游戏体验的关键。鸿蒙系统作为一款面向全场景的分布式操作系统，具有强大的多设备协同能力和出色的性能表现。这为人工智能游戏的开发提供了坚实的基础，使得游戏能够在不同设备上流畅运行，并且实现数据的无缝同步。而人工智能技术的融入，则为游戏
《解锁华为黑科技：MindSpore+鸿蒙深度集成奥秘》人工智能深度学习
在数字化浪潮汹涌澎湃的当下，人工智能与操作系统的融合已成为推动科技发展的核心驱动力。华为作为科技领域的先锋，其AI开发框架MindSpore与鸿蒙系统的深度集成备受瞩目，开启了智能生态的新篇章。华为MindSpore：AI框架的创新先锋MindSpore自2019年诞生以来，迅速在AI领域崭露头角。它以其独特的设计理念和先进的技术架构，为开发者提供了全场景的AI开发支持。从设计理念上看，MindS
Python API接口君王的羔羊 Python AI python
人工智能机器人EverydayWechat老李API图灵机器人：http://www.turingapi.com/（需求实名制认证，并每天免费数量只有100条）青云客智能聊天机器人：http://api.qingyunke.com/（无须申请，无数量限制，但有点智障，分手神器。分手神器，慎用）智能闲聊（腾讯）：https://ai.qq.com/product/nlpchat.shtml(申请使用
深度学习在医疗影像诊断中的应用与实现 Evaporator Core #DeepSeek快速入门人工智能 #深度学习深度学习人工智能
引言随着人工智能技术的快速发展，深度学习在医疗领域的应用日益广泛，尤其是在医疗影像诊断方面。医疗影像数据量大、复杂度高，传统的诊断方法往往依赖于医生的经验，容易受到主观因素的影响。而深度学习通过自动学习特征，能够从海量数据中提取出有用的信息，辅助医生进行更精准的诊断。本文将探讨深度学习在医疗影像诊断中的应用，并通过代码示例展示如何实现一个简单的医疗影像分类模型。深度学习在医疗影像诊断中的应用1.图
1985-2024年地级市人工智能专利数据经管数据库人工智能
《地级市人工智能专利数据（1985-2024）》于2025年1月完成最新更新。数据聚焦于中国各地级市，时间跨度设定为1985年至2024年。在数据整理过程中，参照《关键数字技术专利分类体系（2023）》，依据其中“人工智能”类技术的专利分类号，结合国家知识产权局所提供的信息，对各地每年的专利申请展开搜索与匹配。在此基础上，从众多专利申请中精准筛选出属于“人工智能”类别的专利，并进行数量统计，数据涵
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
python实现KNN算法的手写数字识别：深入解析与完整项目流程快撑死的鱼 Python算法精解算法
随着人工智能和机器学习的快速发展，图像识别技术在多个领域得到广泛应用。而手写数字识别作为图像识别的典型场景之一，已经成为研究者和开发者学习、应用机器学习算法的经典项目。本文将深入解析如何使用Python编程语言，结合KNN（K-最近邻）算法实现手写数字识别系统。文章不仅介绍了算法的核心原理，还从用户交互、图像处理、数据预处理等多个角度对整个项目进行了全方位的讲解。读者通过本文，可以全面掌握手写数字
《今日AI-人工智能-编程日报》小亦工作室人工智能
1.AI行业动态1.1Manus通用智能体初成型，开启AIAgent新时代中泰证券发布研报称，首款通用型AI智能体Manus已问世，能够将复杂任务拆解为可执行的步骤链，并在虚拟环境中灵活调用工具，标志着AI从“Reasoner”走向“Agent”阶段。Manus的成功引发了开源复现潮，DeepSeek模型已被整合到OWL项目中，并在GAIA基准测试中表现接近Manus。1.2DeepSeek-R2
1章5节：大模型术语解读与从生成到推理的演进 DAT｜R科学与人工智能人工智能
在人工智能的浩瀚宇宙中，大模型正以前所未有的速度演进，推动着科技变革的新浪潮。从多模态到通用模型，再到行业模型，人工智能的边界不断拓展，为各行各业带来了全新的机遇与挑战。本篇文章将深入剖析大模型相关的核心术语，探讨其内涵、应用及发展趋势，并回顾大模型从生成到推理的演进历程，解析全球科技巨头与国内前沿企业在这一领域的竞争与创新。让我们一同探索大模型的演进脉络，把握智能时代的发展脉搏。一、剖析大模型相
Microsoft Fabric 功能更新！更多智能优化，数据平台更强大
近期，微软MicrosoftFabric又更新了，大大增强了AI方面的功能。迅易科技作为微软13年来紧密的生态合作伙伴，为300+行业头部客户实施1000+项目。今天，我们带大家来看下，MicrosoftFabric有什么新玩法？一年前，微软正式推出了一款端到端数据平台，MicrosoftFabric（国际版）是一个集成一体化的平台，提供支持各种数据项目的人工智能驱动服务，帮助所有数据团队能够更快
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
嵌入式人工智能应用- 第七章人脸识别数贾电子科技嵌入式人工智能应用人工智能
嵌入式人工智能应用`文章目录嵌入式人工智能应用1人脸识别1.1dlib介绍1.2dlib特点1.3dlib的安装与编译2人脸识别原理2.1ResNet3代码部署3.1安装[CUDAToolkit12.8](https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubunt
2025 年最值得收听的 AI 播客推荐！助你轻松掌握人工智能前沿动态！真智AI 人工智能开发语言机器学习
如今，几乎每个人都被告知需要提升技能，而当前许多组织最看重的技能之一就是人工智能（AI）。学习AI相关技能通常涉及数学、统计学和机器学习，但除此之外，你还需要了解行业趋势、业内人士的观点以及各大公司的动态。然而，学习并不意味着时刻都要埋头苦读！有时候，你需要给大脑一个喘息的机会，同时依然能获取有价值的信息。而收听AI相关的播客，就是一个轻松高效的方式。以下是2025年你必须关注的AI播客！1.Th
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
（十一）人工智能 - Python 教程 - Python元组星星学霸人工智能 -Python系列教程 python 搜索引擎开发语言
更多系列教程，每天更新更多教程关注：xxxueba.com星星学霸1元组（Tuple）元组是有序且不可更改的集合。在Python中，元组是用圆括号编写的。实例创建元组：thistuple=("apple","banana","cherry")print(thistuple)("apple","banana","cherry")2访问元组元素可以通过引用方括号内的索引号来访问元组元素：实例打印元组中
CES Asia2025新机制引关注，科技创新奖申报火热赛逸展张胜科技
随着2025第七届亚洲消费电子技术贸易展（赛逸展）“展位即门票”机制的推出，科技创新奖的申报工作也正式拉开帷幕。截至目前，已有数十家企业提交了申报材料，涵盖人工智能、物联网、智能硬件等多个热门领域。据了解，CESAsia2025科技创新奖旨在表彰在科技研发和产品创新方面取得卓越成就的企业。此次申报面向所有预订展位的参展企业，评审过程将由行业专家、院士，协会，学者和媒体代表共同参与，确保评选结果的公
再添殊荣！移远通信工业智能品牌宝维塔™斩获AI创新应用奖移远通信算力人工智能工业智能
12月24日，2024中国物联网产业大会暨第21届慧聪品牌盛会在深圳圆满落幕。会上，移远通信凭借其工业智能品牌宝维塔™在推动AI技术落地与应用创新方面的卓越贡献，获颁“AI创新应用奖”。作为科技发展的前沿力量，AI技术正深刻改变着各行各业的生产模式和效率，尤其在工业领域，展现出了巨大潜力。宝维塔™是移远通信精心打造的工业智能品牌，专注于将人工智能、边缘计算、机器视觉、深度学习、软件算法平台等前沿技
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
2025扩展可能性采购和供应链管理使用AI报告100+份汇总解读|附PDF下载拓端研究室百度人工智能
原文链接：https://tecdat.cn/?p=40348在当今快速发展的商业环境中，采购和供应链管理领域正经历着深刻变革，人工智能（AI）技术的融入成为推动这一变革的关键力量。本报告汇总解读聚焦于AI在采购和供应链管理中的应用，深入剖析其发展现状、面临挑战与潜在机遇。通过对大量数据的分析，揭示AI技术在实际应用中的具体表现，如不同行业的采用比例、应用场景等。本报告汇总洞察基于文末135份供应
OpenCV图像基础天行者@ opencv 人工智能计算机视觉
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是OpenSourceComputerVisionLibrary,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国WillowGarage为OpenCV提供主要的支持OpenCV可用于开发实时的图
【Agent实战】发票信息识别提取专家（AI +OCR技术结合ChatGPT4o能力+结构化prompt（CoT、One-shot等）+Knowledge - RAG+API工具Agent项目实践）姚瑞南大模型落地探索及agent搭建 RAG技术应用探索 prompt实战应用案例人工智能 ocr prompt AIGC chatgpt gpt agi
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）目录1.项目背景2.项目目标定性：定量：3.发票核心字段概述4.关键举措5.Workflow设计思路及编排5.1整体设计思路5.2流程搭建及解读流程解读：代码节点：解析agent数据
你所不知道的关于AI的27个冷知识——AI的军事应用贫苦游商 transformer 人工智能自动化算法 gpt
AI的军事应用亲爱的朋友们，今天我们要踏入一个既神秘又令人激动的领域——人工智能（AI）在军事中的应用。想象一下，一个由智能机器人和无人机组成的军队，能够进行精准打击和复杂的战略部署，这一切听起来像是科幻电影中的场景，但在现实中已经逐渐成为可能。让我们一起探索AI在军事中的奇妙应用以及它所带来的挑战。智能无人机：空中的无形战士首先，让我们飞向天空，看看那些令人惊叹的智能无人机。这些无人机不仅能进行
普通人如何利用GPT赚钱之开发虚拟助手贫苦游商普通人利用AI搞钱系列 gpt 人工智能深度学习机器人 AIGC
普通人如何利用GPT赚钱之开发虚拟助手随着人工智能技术的迅猛发展，GPT（GenerativePre-trainedTransformer）作为一种强大的语言模型，正在改变我们的生活和工作方式。普通人如何利用GPT赚钱？开发虚拟助手是一个极具潜力的方向。本文将探讨如何开发虚拟助手，以及如何通过这一技术实现经济收益。什么是虚拟助手虚拟助手是一种基于人工智能的技术，能够理解自然语言并执行特定任务。它们
南京大学×百度“星河杯”AI大模型创意校园赛正式起航
3月9日，教育部长怀进鹏在十四届全国人大二次会议民生主题记者会上，谈到了人工智能+教育的重要性。他强调，要把人工智能技术深入到教育教学和管理的全过程和全环节，研究其有效性和适应性，让青年一代更加主动地学习，让教师更加创造性地教学。南京大学早在年初就已经敏锐地洞察到了人工智能的重要性，在新学期工作布置会上，发布了一个前瞻性决策：24年9月面向全体本科新生开设“人工智能通识核心课程体系”，南京大学党委
大模型（DeepSeek等）是否会动摇AI工程师的工作？点我头像干啥 Ai 深度学习人工智能 AI编程计算机视觉
引言近年来，人工智能（AI）领域取得了突飞猛进的发展，尤其是大模型（如GPT-3、BERT、DeepSeek等）的出现，极大地推动了自然语言处理（NLP）、计算机视觉（CV）等领域的进步。大模型凭借其强大的泛化能力和广泛的应用场景，逐渐成为AI领域的核心技术之一。然而，随着大模型的普及，一个备受关注的问题浮出水面：大模型是否会动摇AI工程师的工作？本文将从多个角度探讨这一问题，分析大模型对AI工程
DeepSeek大模型部署指南点我头像干啥 Ai 人工智能 python 分类数据挖掘深度学习
在当今人工智能快速发展的时代，大模型的应用越来越广泛。DeepSeek作为一款高性能的大模型，支持长文本、多模态、代码生成等复杂任务，已经在多个领域展现出强大的能力。本文将详细介绍DeepSeek大模型的部署流程，帮助读者在自己的环境中高效地使用这一先进工具。一、DeepSeek大模型简介DeepSeek是一款专注于大模型与AGI（人工智能通用智能）研究的高性能基座模型。它支持长文本处理、多模态理
医学人工智能影像诊断数据收集与整理 V搜xhliang0246 人工智能健康医疗算法
在医学领域中，人工智能（AI）尤其是深度学习技术，已经被广泛应用于医学影像的分析和诊断。为了训练这些模型，需要大量的高质量标注数据。下面我会给出一个简单的示例流程，介绍如何收集、整理和准备医学影像数据集，并提供一些基础的Python代码示例。数据收集首先，你需要收集包含医学影像的数据集。这些数据通常来自医院或研究机构，并且需要经过伦理审查和患者同意。示例数据集假设我们有一个包含肺部X光片的数据集，
深度学习模块缝合教程：从理论到实践 RockLiu@805 深度学习模块机器视觉深度学习人工智能
深度学习模块缝合教程：从理论到实践引言随着深度学习的不断发展，模型的设计与优化成为研究者关注的核心问题之一。如何有效地“缝合”不同模块，以实现更高效的计算和更强大的功能，是当前深度学习研究中的一个重要课题。在本文中，我们将从基础概念出发，详细探讨深度学习模块缝合的方法、技巧及其应用场景。无论是理论深厚的研究者还是实验导向的实践者，都可以从中获得启发。一、深度学习基础知识详解深度学习是人工智能领域的
Stable Diffusion/DALL-E 3图像生成优化策略云端源想 stable diffusion
StableDiffusion的最新版本或社区开发的插件，可以补充这些信息以保持内容的时效性。云端源想1.硬件与部署优化（进阶）显存压缩技术使用--medvram或--lowvram启动参数（StableDiffusionWebUI），通过分层加载模型降低显存占用（适合6GB以下显卡）。分块推理（TiledDiffusion）：将图像分割为512×512区块，逐块生成后无缝拼接，支持4096×40
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

文本生成图像应用指南【Stable Diffusion】

1、稳定扩散模型

1.1 潜在扩散的组成

1.2 为什么潜扩散快速高效

1.3 推理中的稳定扩散

2、使用HuggingFace Space

3、使用Diffusers开发包

4、用扩散器建立你自己的管道

你可能感兴趣的:(Gen-AI,stable,diffusion,计算机视觉,人工智能)