亚马逊云开发者

Generative AI 新世界 | 走进文生图（Text-to-Image）领域

在之前的四篇 “Generative AI 新世界” 中，我们带领大家一起探索了生成式 AI（Generative AI），以及大型语言模型（LLMs）的全新世界概览。并在文本生成（Text Generation）领域做了一些概述、相关论文解读、以及在亚马逊云科技的落地实践和动手实验。

亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技术文档、开发案例、技术专栏、培训视频、活动与竞赛等。帮助中国开发者对接世界最前沿技术，观点，和项目，并将中国优秀开发者或技术推荐给全球云社区。如果你还没有关注/收藏，看到这里请一定不要匆匆划过，点这里让它成为你的技术宝库！

从本期文章开始，我们将一起探索生成式 AI（Generative AI）的另一个进步迅速的领域：文生图（Text-to-Image）领域。我们将用三个系列文章的篇幅，来一起洞察在文生图（Text-to-Image）领域的前世今生、相关论文解读、以及在亚马逊云科技的落地实践和实际代码实现展示等。

CLIP：基于对比文本-图像对的预训练

2021 年之前，在自然语言处理 (Natural Language Processing) 领域有很多预训练方法都获得了成功。例如，GPT-3 的 175B 从网上搜集了近 5 亿 tokens 进行预训练，在很多下游任务上实现 SOTA (State-of-the-Art) 性能和 Zero-Shot Learning。这说明从海量互联网数据 (web-scale) 中学习，是可以超过高质量的人工标注 NLP 数据集的。

但是在计算机视觉 (Computer Vision) 领域的预训练模型还是主要基于人工标注的 ImageNet 数据进行训练。由于人工标注的工作量巨大，许多科学家们开始设想：如何构建更为高效、便捷的方式用于训练视觉表征模型呢？

2021 年 OpenAI 发表的论文《Learning Transferable Visual Models From Natural Language Supervision》提出了 CLIP (Contrastive Language-Image Pre-training) 模型，并在论文中详细阐述了如何通过自然语言处理监督信号，来训练可迁移的视觉模型（其原理架构如下图所示）。

《Learning Transferable Visual Models From Natural Language Supervision》 https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf?trk=cndc-detail

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第1张图片

Source: GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

对于 CLIP，OpenAI 是在 4 亿对图像-文本对上进行训练。关于 CLIP 论文，会在下一期和其它文生图（Text-to-Image）领域的重要论文一起集中解读。以下先简单展示下论文的主要结论（如下图所示）。论文的实验经过 ImageNet 数据集的重新筛选，制作了几个变种的版本。基于 CLIP 训练出来的模型效果非常理想：

Source: GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

在 ImageNet 数据集上训练出来的 ResNet 101 模型准确率是 76.2%，用 CLIP 训练出来的 VIT-Large 模型准确率同样是 76.2%。然而当我们换成其它数据集，严格按照 1000 类的分类头再次训练，ResNet 101 得出的模型准确率却下降得很快。特别是使用上图中最后两行样本（素描画或者对抗性样本）时，ResNet 101 准确度仅为 25.2% 和 2.7%，基本属于随机猜测，迁移效果惨不忍睹。对比使用 CLIP 训练出来的模型，准确率仍然不错。

这说明：因为和自然语言处理的结合，所以导致 CLIP 学出来的视觉特征，和用语言所描述的某个物体，已经产生了某种强烈的联系。CLIP 这种基于文字-图像对的预训练模型对后续生成式AI的重要影响，论文的作者自己在当时都没有足够意识到，从此拉开了生成式 AI 文生图（Text-to-Image）领域波澜壮阔的大幕。

那么 CLIP 是如何训练的呢？

CLIP 是根据图像及其标题的数据集进行训练的。想象一个有 4 亿对的“图像-标题”对的数据集：

图像及其标题的数据集 Source:The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

实际上，CLIP 是根据从网络上抓取的图像以及其 “alt” 标签进行训练的。

CLIP 是图像编码器和文本编码器的组合，我们分别使用图像和文本编码器对图像本身、图像标题进行编码，如下图所示：

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第4张图片

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

然后，我们使用余弦相似度（cosine similarity）比较生成的嵌入向量（embeddings）。当我们最初启动训练过程时，相似度可能会很低，即使文本实际上已经正确描述了图像的内容。

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第5张图片

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

接下来，我们将更新这两个模型，以便下次嵌入它们时，生成的嵌入是相似的。

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第6张图片

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

通过在数据集中重复这一点并进行大批量处理，我们最终使编码器能够生成狗的图像和 “a picture of a dog” 句子相似的嵌入向量。另外还需要考虑的是，训练过程还需要包括不匹配的图片和文本的负面示例，并且模型需要为它们分配较低的相似度分数。

OpenCLIP：CLIP 的开源实现

CLIP 使计算图像和文本的表示形式以测量它们的相似程度成为可能。CLIP 模型以自我监督的方式在数亿或数十亿图像-文本对上进行训练。例如：LAION-5B 数据集，包含 58 亿个密切相关的图像-文本对。2022 年 9 月，LAION 利用这个数据集的 OpenCLIP 项目，对 CLIP 论文完成了开源实现。

OpenCLIP 的 GitHub 网址：

GitHub - mlfoundations/open_clip: An open source implementation of CLIP.

LAION 使用 OpenCLIP 训练了三个大型 CLIP 模型：ViT-L/14、ViT-H/14 和 ViT-g/14（与其他模型相比，ViT-g/14 的训练周期仅为三分之一左右），并在其官方网站上称它自己是当年开源 CLIP 模型之最佳，如下图所示：

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第7张图片

Source: Large scale openCLIP: L/14, H/14 and g/14 trained on LAION-2B | LAION

Stable Diffusion v2 版本的文本编码器就是用 OpenCLIP 训练的文生图（Text-to-Image）模型。该文本编码器由 LAION 在 Stability AI 的支持下开发，与之前的 V1 版本相比，它极大地提高了生成的图像的质量。此版本中的文生图（Text-to-Image）模型可以生成默认分辨率为 512 x 512 像素和 768 x 768 像素的图像，如下图所示：

Source: Stable Diffusion 2.0 Release — Stability AI

OpenCLIP 得以发展起来的重要原因，我觉得离不开开源这个重要话题。尽管 Open AI 的 CLIP 模型是开源的（共享了模型权重），在其包含 4 亿对图像-文本对的内部数据集上训练了许多模型变体，但没有共享用于训练的数据集。

而 OpenCLIP 这个开源实现，可以让研究人员在研究和优化模型时获得更大的透明度，这有利于生成式 AI 生态的长期健康发展。

DALL-E-2 模型概述

还记得在 2022 年 4 月，第一次读完 DALL-E-2 论文《Hierarchical Text-Conditional Image Generation with CLIP Latents》，那时的感觉是：惊为天人。只不过没想到在之后的一年里，这个文生图（Text-to-Image）领域发展得如此之快。

DALL-E-2 论文我们下集再展开分析，这次先带大家看这篇论文里结构图里面的名词，是不是有些术语我们有些熟悉呢？是的，就是 CLIP。

《Hierarchical Text-Conditional Image Generation with CLIP Latents》 https://arxiv.org/pdf/2204.06125.pdf?trk=cndc-detail

Source: https://arxiv.org/pdf/2204.06125.pdf?trk=cndc-detail

上图是 DALL-E-2 模型主要架构。

上部是一个 CLIP，输入为文本图像对，文本信息和图像信息分别经过文本编码器和图像编码器提取文本特征 C 和图像特征 C，文本特征 C 和图像特征 C 也是成对存在。

下方作为 DALL-E-2 主体部分，主要由 prior 和 decoder 两阶段。首先，文本信息经过文本编码器提取文本特征 D，然后 prior 根据文本信息 D 生成图像特征 D。训练过程中，图像特征 C 作为图像特征 D 的 ground truth 进行训练，也就是说训练时 DALLE2 生成的图像特征 D，会参考 CLIP 生成的对应文本的图像特征 C。最后通过一个解码器 decoder 根据图像特征 D 生成图像。

为了把 DALL-E-2 说得更加通俗易懂，我找到了这样的一张图：

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第10张图片

Source:AIGC：新世界正在到来｜真格投资人专栏

概括而言，DALL-E-2 训练了 3 个模型来完成文生图（Text-to-Image）：

CLIP 模型：负责将文本和视觉图像联系起来
GLIDE 模型：负责从视觉的描述中产生图像
PRIOR 模型：负责把文本描述映射到视觉描述

这里再次强调我们在第一集中，就提及的 Transformer 模型的重要性。

Transformer 模型是上面提到的三个模型的知识底座。因为首先要找出图片和文字的重点，才能够搭建 CLIP 模型，然后才有之上的 PRIOR 先验模型和 GLIDE 扩散模型。

Stable Diffusion 模型概述

1.Stable Diffusion 的组件概览

来自 Stability AI 的 Stable Diffusion 是一个由多个组件和模型组成的系统。它不是一个单一的模型。其主要组件如下图所示：

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第11张图片

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

我们从高级视图开始，我们将在本文后面详细介绍更多细节。首先，这个文本编码器其实是一种特殊的 Transformer 语言模型（技术上：CLIP 模型的文本编码器），它接受输入文本并输出代表文本中每个单词/标记的数字列表（每个标记的向量）。

然后，该信息将呈现给图像生成器，图像生成器本身由几个组件组成。

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

图像生成器经历了两个阶段。

第一阶段：图像信息创建者（Image Information Creator）

这种组件是 Stable Diffusion 的秘诀。与以前的模型相比，它在性能上有很大提升。此组件运行多个步骤以生成图像信息，这是 Stable Diffusion 接口和库中的步骤参数，通常默认为 50 或 100。

图像信息创建者完全在图像信息空间中工作，这个空间还有一个更学术的词：潜在空间（latent space）。此特性使其比以前在像素空间中运行的扩散模型（Diffusion Models）更快。用技术术语来说，这个组件由一个 UNet 神经网络和一个调度算法（scheduling algorithm） 组成。

“扩散”（diffusion）一词形象地描述了该组件的作用，即对信息的分步处理。最终将由下一个组件图像解码器（image decoder），去生成高质量的图像。

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

第二阶段：图像解码器（Image Decoder）

图像解码器根据从信息创建者那里获得的信息来绘制图片，如下图所示：

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第14张图片

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

接下来，我们来看看构成稳定扩散的三个主要组成部分（每个组成部分都有自己的神经网络）：

ClipText：用于文本编码

输入: 文字/文本

输出: 77 个 token 嵌入向量（embeddings vectors），每个向量的维度为 768
UNet + Scheduler：逐步处理/扩散信息（潜在）空间的信息

输入: 文本嵌入（text embeddings）信息，和由噪声组成的起始多维数组（数字的结构化列表，也称为张量 tensor ）

输出: 经过处理的信息数组
Autoencoder Decoder：使用处理后的信息数组绘制最终图像

输入: 处理后的信息数组（维度：(4,64,64)）

输出: 生成的图像 (维度: (3, 512, 512) which are (红/绿/蓝, 宽 ,高)

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第15张图片

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

2.扩散（Diffusion）概览

写到这里，可能有读者会问：在 Stable Diffusion 中提及的扩散（Diffusion），到底是什么呢？

扩散是发生在粉红色 “图像信息创建器” 组件内部的过程，如下图所示：

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

通过使用表示输入文本的标记嵌入和随机的起始图像信息数组（image information array），也称为潜在数组（latents）。该过程会生成一个信息数组，图像解码器使用该数组来绘制最终图像。

这个过程是分步进行的，每个步骤都会添加更多相关信息。为了直观地了解这个过程，我们可以检查随机潜在数组（random latents array），看看它是否会转化为视觉噪声（visual noise）。在这种情况下，视觉检查是通过图像解码器（image decoder）进行的，如下图所示：

Generative AI 新世界 | 走进文生图（Text-to-Image）领域_第17张图片

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

扩散分多个步骤进行，每个步骤都对一个输入潜在数组（latents array）进行操作，然后生成另一个潜在数组，该数组希望更相似于输入文本和从模型训练的所有图像中获得的视觉信息，如下图所示：

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

我们可以将其中一组潜在数组可视化，以查看在每个步骤中添加了哪些信息。

Source: The Illustrated Stable Diffusion – Jay Alammar – Visualizing machine learning one concept at a time.

关于 Diffusion Model 背后的工作原理，会涉及到一系列的论文研究成果，比如：DDPM、DDIM、Stable Diffusion 的论文等，我们会在下一篇的论文解读专题中做详细探讨。

本期文章，我们开始探讨生成式 AI（Generative AI）的另一个进步迅速的领域：文生图（Text-to-Image）领域。本期简述了 CLIP、OpenCLIP、扩散模型、DALL-E-2 模型、Stable Diffusion 模型等基本内容，希望读者对接下来对我们详细解读相关论文，以及最后进行文生图（Text-to-Image）领域的动手实验，有一个原理上的初步了解和基础知识储备。

下一期内容将进行文生图（Text-to-Image）方向的主要论文解读，敬请期待。

请持续关注 Build On Cloud 微信公众号，了解更多面向开发者的技术分享和云开发动态！

往期推荐

#机器学习洞察

#开发者生态

#亚马逊的开源文化

作者黄浩文

亚马逊云科技资深开发者布道师，专注于 AI/ML、Data Science 等。拥有 20 多年电信、移动互联网以及云计算等行业架构设计、技术及创业管理等丰富经验，曾就职于 Microsoft、Sun Microsystems、中国电信等企业，专注为游戏、电商、媒体和广告等企业客户提供 AI/ML、数据分析和企业数字化转型等解决方案咨询服务。

文章来源：https://dev.amazoncloud.cn/column/article/645c5c3f4b2abb2a7506e229?sc_medium=regulartraffic&sc_campaign=crossplatform&sc_channel=CSDN

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
[实践应用] 深度学习之优化器 YuanDaima2048 深度学习工具使用 pytorch 深度学习人工智能机器学习 python 优化器
文章总览：YuanDaiMa2048博客文章总览深度学习之优化器1.随机梯度下降（SGD）2.动量优化（Momentum）3.自适应梯度（Adagrad）4.自适应矩估计（Adam）5.RMSprop总结其他介绍在深度学习中，优化器用于更新模型的参数，以最小化损失函数。常见的优化函数有很多种，下面是几种主流的优化器及其特点、原理和PyTorch实现：1.随机梯度下降（SGD）原理:随机梯度下降通过
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
损失函数与反向传播 Star_. PyTorch pytorch 深度学习 python
损失函数定义与作用损失函数(lossfunction)在深度学习领域是用来计算搭建模型预测的输出值和真实值之间的误差。1.损失函数越小越好2.计算实际输出与目标之间的差距3.为更新输出提供依据（反向传播)常见的损失函数回归常见的损失函数有：均方差（MeanSquaredError，MSE）、平均绝对误差（MeanAbsoluteErrorLoss，MAE）、HuberLoss是一种将MSE与MAE
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
【深度学习】训练过程中一个OOM的问题，太难查了 weixin_40293999 深度学习深度学习人工智能
现象：各位大佬又遇到过ubuntu的这个问题么？现象是在训练过程中，ssh上不去了，能ping通，没死机，但是ubunutu的pc侧的显示器，鼠标啥都不好用了。只能重启。问题原因：OOM了95G，尼玛！！！！pytorch爆内存了，然后journald假死了，在journald被watchdog干掉之后，系统就崩溃了。这种规模的爆内存一般，即使被oomkill了，也要卡半天的，确实会这样，能不能配
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
两种方法判断Python的位数是32位还是64位 sanqima Python编程电脑 python 开发语言
Python从1991年发布以来，凭借其简洁、清晰、易读的语法、丰富的标准库和第三方工具，在Web开发、自动化测试、人工智能、图形识别、机器学习等领域发展迅猛。 Python是一种胶水语言，通过Cython库与C/C++语言进行链接，通过Jython库与Java语言进行链接。 Python是跨平台的，可运行在多种操作系统上，包括但不限于Windows、Linux和macOS。这意味着用Py
全自动解密解码神器 — Ciphey K'illCode python_模块 python vscode
Ciphey是一个使用自然语言处理和人工智能的全自动解密/解码/破解工具。简单地来讲，你只需要输入加密文本，它就能给你返回解密文本。就是这么牛逼。有了Ciphey，你根本不需要知道你的密文是哪种类型的加密，你只知道它是加密的，那么Ciphey就能在3秒甚至更短的时间内给你解密，返回你想要的大部分密文的答案。下面就给大家介绍Ciphey的实战使用教程。1.准备开始之前，你要确保Python和pip已
埃隆·马斯克表示特斯拉“没有必要”授权 xAI 模型喜好儿网人工智能 AIGC 马斯克
埃隆·马斯克近日在社交媒体上对《华尔街日报》的一篇报道进行了反驳。该报道指出，马斯克旗下的电动汽车公司特斯拉可能与人工智能初创公司xAI达成了一项收入分享协议，以便特斯拉能够使用xAI的人工智能模型。据称，这些模型将被集成到特斯拉的全自动驾驶（FSD）软件中，并可能用于开发特斯拉汽车的语音助手以及人形机器人擎天柱的软件。喜好儿网然而，马斯克否认了这一说法，他在社交媒体平台上表示，尽管特斯拉确实与x
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

Generative AI 新世界 | 走进文生图（Text-to-Image）领域

CLIP：基于对比文本-图像对的预训练

OpenCLIP：CLIP 的开源实现

DALL-E-2 模型概述

Stable Diffusion 模型概述

1.Stable Diffusion 的组件概览

第一阶段：图像信息创建者（Image Information Creator）

第二阶段：图像解码器（Image Decoder）

2.扩散（Diffusion）概览

往期推荐

你可能感兴趣的:(人工智能,深度学习,计算机视觉)