马鹤宁

【文生图系列】文生图大模型合集与效果对比

文章目录

- DELL · E
- - DELL · E 1
  - DELL · E 2
- ERNIE-ViLG
- - ERNIE-ViLG 1
  - ERNIE-ViLG 2
  - Paddlehub
- Imagen
- Midjourney
- Stable Diffusion
- AltDiffusion
- eDiff-I
- 阿里通义

DELL · E

DALL·E到目前为止有两个版本，2021年1月，OpenAI发布了DALL·E；2022年,DALL·E 迎来了升级版本-DALL·E 2。与 DALL·E 相比，DALL·E 2 在生成用户描述的图像时具有更高的分辨率和更低的延迟。

DELL · E 1

DALL-E 只开放了使用图像重建部分 d-VAE 训练的 CNN 编码器和解码器部分，而 Transformer 代码部分还没有公开。

DALL·E是GPT-3的120亿参数版本，训练文本-图像对数据集从文本描述中生成图像。与GPT-3一样，DALL·E也是一个语言Transformer模型，它接受文本和图像作为包含1280 tokens的单独数据流，使用最大似然训练去一个接一个地生成所有的tokens。这种训练程序允许DALL·E不仅从头开始生成图像，还可以依据文本提示词生成存在图像的任何区域扩展到该图像的右下角。

一个token是离散词汇表里面的任何符号。DALL·E的此汇报包含文本和图像概念的tokens。文本词汇表里的token总数是16384，每个图像标题使用最大256 BPE编码的tokens表示；图像词汇表里的token总数是8192，每个图像使用1024个token表示（1024+256=1280）。

DALL·E训练一个Transformer，将文本和图像tokens作为单个数据流进行自回归建模。训练采用了两个阶段策略。

第一阶段：训练一个离散变分自动编码器（discrete variational autoen coder，dVAE）将每个256x256大小的RGB图像压缩为32x32网格大小的图像tokens，其中网格中的每一个元素可假设有8192个可能值。这样就可以将上下文大小减少了192倍（256x256x3=192x32x32）却不会导致视觉质量大幅下降。
第二阶段：合并256 BPE编码的文本tokens和32x32=1024图像token，训练一个自回归transformer模型建模文本和图像tokens的联合分布。

DELL · E 2

DALL · E 2体验需要有OpenAI的账号，目前OpenAI对中国地区不提供服务，注册OpenAI需要科学上网，并且需要验证手机号。我在淘宝上买了一个美国的手机号验证码，才注册成功。DALL·E 2需要收费，15美元115 credits，一个credit就是一条成功的请求。

DALL · E 2仅仅具有35亿参数量，但是生成的图像分辨率却是DALL · E 的4倍。而且相比于DALL · E，DALL · E 2可以综合文本描述中给出的概率、属性与风格等三个元素生成更真实和更准确的图像。

假设图像为 $x$ ，与图像相对应的文本为 $y$ ，文本-图像对为 $\left(x, y \right)$ 。对于给定的图像 $x$ ， $z_{i}$ 和 $z_{t}$ 分别为此图像对应的CLIP图像嵌入向量和文本嵌入向量。DALL · E 2从文本生成图像包含两个组件：

先验 $P\left( z_{i} | y \right)$ 输出给定文本 $y$ 的CLIP图像嵌入向量 $z_{i}$ 。
解码器 $P\left( x | z_{i}, y \right)$ 生成以上述图像嵌入向量为条件的图像 $x$ 。

ERNIE-ViLG

ERNIE-ViLG是百度文心系列的生成模型，目前已到2.0版本。文心ERNIE-ViLG是全球最大规模中文跨模态生成模型。

ERNIE-ViLG 1

文心 ERNIE-ViLG 参数规模达到100亿，它构建了包含1.45亿高质量中文文本-图像对的大规模跨模态对齐数据集，该模型首次通过自回归算法将图像生成和文本生成统一建模，增强模型的跨模态语义对齐能力，显著提升图文生成效果。文心 ERNIE-ViLG模型可以做文本生成图像任务、图像描述（Image Captioning）任务和生成式视觉问答（Generative VQA）任务。

ERNIE-ViLG 使用编码器-解码器参数共享的 Transformer 作为自回归生成的主干网络，同时学习文本生成图像、图像生成文本两个任务。基于图像向量量化技术，文心 ERNIE-ViLG 把图像表示成离散的序列，从而将文本和图像进行统一的序列自回归生成建模。在文本生成图像时，文心 ERNIE-ViLG 模型的输入是文本 token 序列，输出是图像 token 序列；图像生成文本时则根据输入的图像序列预测文本内容。两个方向的生成任务使用同一个 Transformer 模型。视觉和语言两个模态在相同模型参数下进行相同模式的生成，能够促进模型建立更好的跨模态语义对齐。

ERNIE-ViLG 2

文心 ERNIE-ViLG 2.0 通过视觉、语言等多源知识指引扩散模型学习，强化文图生成扩散模型对于语义的精确理解，以提升生成图像的可控性和语义一致性。同时，ERNIE-ViLG 2.0 首次引入基于时间步的混合降噪专家模型来提升模型建模能力，让模型在不同的生成阶段选择不同的“降噪专家”网络，从而实现更加细致的降噪任务建模，提升生成图像的质量。

基于语言和图像知识的知识增强算法。为提升生成图像的语义一致性和可控性，ERNIE ViLG 2.0 将知识增强算法融入扩散模型学习，在扩散模型学习过程中，引入语言、视觉等多源知识指引模型更加关注文本和图像中的核心语义元素，同时针对训练数据噪声带来的训练图文样本语义偏差问题提出了文本语义补全的方法，对图文的语义一致性进行针对性学习，进而实现精准的细粒度语义控制。
混合降噪专家网络。针对模型建模能力不足，导致图像质量不够好的问题，ERNIE ViLG 2.0 提出了针对不同阶段选择不同网络（降噪专家）进行建模的框架，有效地解决了不同阶段对模型能力要求不一致的问题，减少降噪任务的互相干扰，提升图像生成的质量。由于每个生成阶段只选取一个专家进行生成，实现了在不增加模型预测计算量的情况下对模型建模能力的扩充。

Paddlehub

paddlehub中提供了ERNIE-ViLG的模型API预测，需要安装paddlepaddle和paddlehub。

命令行预测如下所示，事先需要申请API key和Secret key。style参数可选如下风格：古风、油画、水彩、卡通、二次元、浮世绘、蒸汽波艺术、 low poly、像素风格、概念艺术、未来主义、赛博朋克、写实风格、洛丽塔风格、巴洛克风格、超现实主义、探索无限

hub run ernie_vilg --text_prompts “火焰，凤凰，少女，未来感，高清，3d，精致面容，cg感，古风，唯美，毛发细致，上半身立绘” --style “古风” --output_dir ernie_vilg_out --ak ‘your API key’ --sk ‘your Secret key’

提示词	生成的图片1	生成的图片2	风格
巨狼，飘雪，蓝色大片烟雾，毛发细致, 烟雾缭绕，高清，3d，cg感，侧面照			写实风格
人间四月芳菲尽，山寺桃花始盛开			古风
A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome			写实风格
火焰，凤凰，少女，未来感，高清，3d，精致面容，cg感，古风，唯美，毛发细致，上半身立绘			古风

Imagen

Imagen是谷歌推出的，谷歌发现在纯文本预料库上预训练的通用大型语言模型对于文本到图像的生成人物非常有效。

文本被输入到一个冻结的预训练Transformer 编码器，该编码器输出向量队列（文本编码）
文本编码器被传递到图像生成扩散模型中，该模型从高斯噪声逐渐去除噪声，生成反映文本内语义信息的新图像，该模型的新图像是一个64x64大小的图像。
之后，再使用两个扩散模型（STM和MTL），以第一步的文本编码为条件，将图像超分成一个1024x1024的图像。

Imagen的文本编码器是T5的编码器。图像生成器是扩散模型。Small-to-Medium（STM）超分模型以64x64的图像为输入，超级解析生成256x256的图像，STM也是一个扩散模型。Medium-to-Large（MTL）超分模型以256x256的图像为输入，超级解析生成1024x1024的图像，MTL和STM模型相似，也是一个扩散模型。

imagen只开源了pytorch版的imagen实现，但是并没有公布模型参数，所以需要自己训练数据集生成模型才能够推理使用。

Midjourney

Midjourney是一个由Midjourney研究实验室开发的人工智能绘图程序，Midjourney应用托管到聊天应用Discord，用户注册Discode并加入Midjourney的服务器就可以开始AI创作了。Midjourney在2023年三月已经迭代到V5版本，V5版本生成的图片分辨率更高，写实风格人物主体塑性更加准确。

国内用户想要使用Midjourney，一是科学上网，注册验证Discord账号，然后进入MidJourney官网找到Join the Beta绑定Discode账号，接受邀请，进入Midjourney社区。二是需要付费。

可在Discode中添加个人服务器，再邀请Midjourney机器人进入个人服务器即可。在底部对话框中输入指令/imagine + prompt就可生成图像。

Midjourney V5版本凭借如下的一张情侣照片"火出圈"，逼真地就像人类拿着摄像机照出的相片。相比较于V4，V5版本细节更加逼真；拥有更多的风格；能画手，在有面部特写时，也能搞定各种肌肤纹理以及光影效果；对提示词更加敏感，用更少更精简的文本生成更好更有效的图片。风格可以从0-1000中选择，越靠近1000，越艺术。

2023年6月底，Midjourney又推出了5.2版本，最令人心动的新功能是Zoom out 功能，通过1.5倍、2倍以及自定义缩放，将相机拉出，并填充所有侧面细节，达到重构图像的效果。

Stable Diffusion

Stable Diffusion，该项目由初创公司 StabilityAI 和慕尼黑大学机器视觉学习组和 AI 视频剪辑技术创业公司 Runway 合作开发，并得到了黑客组织 EleutherAI和德国非盈利组织 LAION 的支持。

Stable Diffusion不是一个整体模型，它由几个组件和模型组成。首先是文本理解组件（text-understanding component），将文本信息转换成数字表示，以捕捉文本中的想法。其次是图像生成器（image generator），图像生成器包括两步，图像信息创建者（ Image information creator）和图像解码器（Image Decoder）。

下图是stable diffusion的一个流程图，包含了上述描述的三个组件，每个组件都有相应的神经网络。

文本理解组件：Clip Text为文本编码器。以77 token为输入，输出为77 token 嵌入向量，每个向量有768维度。
图像信息创建者：UNet+Scheduler，在潜在空间中逐步处理扩散信息。以文本嵌入向量和由噪声组成的起始多维数组为输入，输出处理的信息数组。
图像解码器：自动编码解码器，使用处理后的信息数组绘制最终的图像。以处理后的维度为4x64x64的信息数组为输入，输出尺寸为3x512x512的图像。

Stable Diffusionv1-v2版本都已开源，SD模型可微调，常见的微调方法：DreamBooth、textual inversion、hypernetwork和LoRA。

Stable Diffusion的图像生成很吃prompt。本来想所有提示词都一样，好对所有模型进行一个效果对比，但是SD的表现太拉跨，所以SD模型只展示有效prompt下生成的最好图片。

提示词	图片
In this photography, the rose and mulberry background is set against the backdrop of a misty garden with tiny water droplets glistening on the leaves and petals

a highly detailed and whimsical concept art illustration of a white rabbit cub in a pink and blue school uniform and cute plush hat, sitting on a giant apple made of transparent foam, gl crystals, and cherry blossoms within a magical winter wonderland scene. The rabbit has symmetrical ears, bright big eyes, a sweet smile, and a plump body. The scene has a whimsical and enchanting atmosphere, similar to the art style of Studio Ghibli or Hayao Miyazaki, with soft lighting that creates a magical movie-like atmosphere. The image is rendered in high resolution with Pixar or Unreal Engine rendering software, with exquisite fur details that capture the rabbit’s fluffy texture and realistically recreate the snow-covered landscape.
best quality,extremely detailed CG unity 8k wallpaper, high detailed, a sile view of a giant wolf with fine hair, snowy environment, vast blue smoke
best quality, masterpiece, highly detailed, refined rendering, peach blossom, flowers, tree, petals on waterm floatin petals, full moon in the sky

AltDiffusion

智源研究院首先推出的是双语AltDiffusion，时隔不到一周，智源团队又推出重要升级版 AltDiffusion-m9，全面支持中、英、西、法、日、韩、阿、俄、意等九种不同语言的文图生成任务，后来又推出18种语言文生图模型AltDiffusion-m18。智源团队使用多语言预训练模型和 Stable Diffusion 结合，训练多语言文图生成模型 —— AltDiffusion-m18，支持18种语言的文图生成，包括中文、英文、日语、泰语、韩语、印地语、乌克兰语、阿拉伯语、土耳其语、越南语、波兰语、荷兰语、葡萄牙语、意大利语、西班牙语、德语、法语、俄语。

AltDiffusion使用 AltCLIP（双语CLIP），基于Stable-Diffusion训练了双语Diffusion模型，训练数据来自 WuDao数据集和LAION。AltCLIP 则是 AltDiffusion 模型背后的重要训练技术。利用 OpenAI 发布的预训练的多模态表征模型 CLIP，将其文本编码器更换为预训练的多语言文本编码器 XLM-R（XLM-R是Facebook推出的多语言模型，2.5TB，100种语言，干净的CommonCrawl数据集上训练得到），并通过包含教师学习和对比学习的两阶段训练模式对语言和图像表征进行对齐。这种方法在第一阶段先将其他语言的表征与 CLIP 中的英文表征做对齐，在这个训练阶段不需要多语言的图文对数据，而只需要多语言的平行语料。在第二阶段只需要少量的多语言图文对，就能学到效果很好的多语言图文表征，很大程度上减少了多语言多模态表征模型对于训练数据的依赖。

智源提供体验的平台为flagstudio.，现模型默认是AltDiffusion-m18。包括几十种绘画风格和艺术家风格。AltCLIP-m18模型代码已经在FlagAI/examples/AltCLIP-m18上开源，权重位于modelshub上，此外还提供了微调，推理，验证的脚本

提示词	生成的图片1	生成的图片2	风格
在飘雪和蓝色大片烟雾的环境下，一只毛发细致的巨狼的侧面照			写实风格
人间四月芳菲尽，山寺桃花始盛开			国画+丰子恺
A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome			相机

eDiff-I

eDiff-I出自NVIDIA，与其他通过迭代去噪进行图像合成的生成式文转图模型不同，Nvidia的eDiff-I使用一个专门对生成过程的不同区间进行去噪的强大去噪器集合。

eDiff-I的图像合成管道是由三个扩散模型组成——一个低分辨率扩散模型，可以合成64 x 64分辨率的样本，以及两个高分辨率扩散模型，可以分别将图像逐步上采样到256 x 256和1024 x 1024分辨率。eDiff-I用到了两个文本编码器，T5和CLIP，还有CLIP图像编码器，对文本和图像进行编码后，送入级联扩散模型中，逐渐生成分辨率为1024x1024的图像。

eDiff-I没找到开源的GitHub项目，也没找到可试用的网址或者API，只有youtube上eDiff-I的效果展示video。

阿里通义

阿里文生图模型名称为ModelScope，暂不支持pipeline推理、下载和训练。ModelScope整体参数模型约50亿，支持中英双语输入，输入token最大为500，生成图片尺寸有三种选择，1024：1024，1280：768和768：1280。

文本到图像生成扩散模型由特征提取、级联生成扩散模型等模块组成。通过知识重组与可变维度扩散模型加速收敛并提升最终生成效果。ModelScope模型分为文本特征提取（CLIP）、文本特征到图像特征生成（Transformer）、级联扩散生成模型（UNet）等子网络组成，训练也是分别进行。

文本特征提取使用大规模图文样本对数据上训练的CLIP的文本分支得到。
文本到图像特征生成部分采用GPT结构，是一个width为2048、32个heads、24个blocks的Transformer网络，利用causal attention mask实现GPT预测。
64x64、256x256、1024x1024扩散模型均为UNet结构，在64x64、256x256生成模型中使用了Cross Attention嵌入image embedding条件。为降低计算复杂度，在256扩散模型训练过程中，随机64x64 crop、128x128 crop、256x256 crop进行了multi-grid训练，来提升生成质量；在1024扩散模型中，对输入图随机256x256 crop。

提示词	生成图片
在飘雪和蓝色大片烟雾的环境下，一只毛发细致的巨狼的侧面照
人间四月芳菲尽，山寺桃花始盛开
A young pretty Jewish woman, realistic, 4K, award winning photograph, portrait photography, Kodachrome

班级管理系列——报名谈话 525bfad68727
因为现在报名时间已经确定了，就定于下周二开始报名，于是学校里安排学生带好报名要准备的东西，比如说身份证户口本等类的东西，并且在报名的时候也要分清自己的类别，比如你报的是一般类还是艺术类。班里的常规管理模式下，经常是一旦通知了一件从没有发生过的事情，学生的问题五花八门，学生对自己的选择困惑引发很多后续问题，比如说报名的时候我该选哪个学校什么专业，到底应该报艺术类的还是该报非艺术类。学生自己并不明白艺
Day54 | How dare you are？ keepkeepgoing
YEAH!Identify不同的名字像是代表着不同的身份，也就好像不同的角色，在不停的切换。平行时空的意义好像就在这样的切换中游荡。最近把《蜘蛛侠》几部曲都看完，真的觉得太棒了吧！真的会被高科技高智商所吸引，虽然每次都英雄主义一定会胜利，但是过程的精彩，剧情的丰富就是会被感动呀！下一阶段，继续看《星球大战》系列Feeling1.所有的事到最后都是好事，如果还不是，那它就还没到最后。2.欢迎你来到我
【一张图背论语】Day 029| 为政第二 | 2.13 子贡问君子 Heger_四维脑图
子贡问君子。子曰：“先行其言而后从之。”子贡问怎样才能做一个君子。孔子说：对于你要说的话，先实行了，然后说出来。在孔子的弟子中，子贡在“言语”一科中，这也说明了子贡本人在言辞方面是比较擅长的。子贡虽然善辩，但是也有言多失礼的地方。孔子在此处的这番言论，意在教育子贡，说得再好都不如做得好更让人信服，这也是孔子“因材施教”的典例。
绝佳组合 SpringBoot + Lua + Redis = 王炸！
Java精选面试题（微信小程序）：5000+道面试题和选择题，真实面经，简历模版，包含Java基础、并发、JVM、线程、MQ系列、Redis、Spring系列、Elasticsearch、Docker、K8s、Flink、Spark、架构设计、大厂真题等，在线随时刷题！前言曾经有一位魔术师，他擅长将SpringBoot和Redis这两个强大的工具结合成一种令人惊叹的组合。他的魔法武器是Redis的
高仿浪琴康卡斯一般多少钱(高仿康卡斯拿货价一览表) 潮品会
在手表市场上，浪琴康卡斯系列以其独特的设计风格和卓越的性能深受消费者喜爱。然而，由于正品浪琴康卡斯价格较高，不少预算有限的消费者会选择购买高仿产品【重要提醒】文章最下面有联系方式那么，高仿浪琴康卡斯到底多少钱呢？将为您揭秘其价格区间。一、高仿浪琴康卡斯价格概览高仿浪琴康卡斯的价格因品质、工艺及细节处理的不同而有所差异。一般来说，其价格区间从300元到1700元不等，具体可细分为以下几个档次：1.入
智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
（详细！！）2024最新Neo4j详细使用指南熊猫发电机：miniqq207 neo4j neo4j
Neo4j详细使用指南一、介绍Neo4j是什么Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。程序员工作在一个面向对象的、灵活的网络结构下而不是严格、静态
mysql事物详解
前言：事物是什么？作为一个java程序员，也许我们仅仅只是停留在会使用的程度上，会通过在类上或者方法上使用@Transactional注解的方式来使用事物，但是背后的原理，为什么使用这个注解就能使事物生效可能并不是很清楚。下面本文详细一一介绍事物是什么，事物的特性，怎么使用等等。1.事物是什么所谓事物，在我的理解中就是一系列操作的一个集合，一旦其中一个操作失败，那么整个操作集合必须全部失败，回滚到
黄仁勋链博会演讲实录：脱掉皮衣，穿上唐装，中文开场
黄仁勋一度尝试用中文开场，他说，“我在美国长大，学到了很多汉语。”他表示，像DeepSeek、阿里巴巴、MiniMax、百度，他们开发的产品都是世界级的，推动了全球人工智能的发展。中国的开源AI是全球进步的催化剂，以至于全世界各个行业都有机会加入到AI革命当中。7月16日，黄仁勋身着唐装出席了第三届链博会，在此之前，他身着标志性皮衣出席多个场合活动。在此之前，英伟达官宣获得H20芯片对华的出口许可
JAVAWeb2 DanB24 oracle 数据库
1.数据库设计1.软件的研发步骤数据库设计概念数据库设计就是根据业务系统的具体需求，结合我们所选用的DBMS，为这个业务系统构造出最优的数据存储模型。建立数据库中的表结构以及表与表之间的关联关系的过程。有哪些表？表里有哪些字段？表和表之间有什么关系？数据库设计的步骤需求分析（数据是什么?数据具有哪些属性?数据与属性的特点是什么）逻辑分析（通过ER图对数据库进行逻辑建模，不需要考虑我们所选用的数据库
崔律·100天挑战阅读《奇特的一生》【《奇特的一生》·Day57·如何评价自己的一生（1）冬夜读书YHY
这是“崔律精时力之100天挑战《奇特的一生》阅读”系列，今天是2019年3月30日一个人在离开了这个世界上以后。后人对他的评价是什么样子，在某种程度上也就决定了这个人在他的有生之年对这个世界做出的贡献吧。柳翁一生有一件非常固执的事情，就是长达几十年的时间记录时间统计时间计划。因为他的这种非常近乎于苛刻的这种方式，让他获得了很多的成就。同时，以它在生物学上的一些贡献，让他的后来的后继者会记住。会沿着
华为路由器PPP MP与CHAP验证实验详解神秘人X707 网络服务器
实验拓扑图实验目的R1和R2使用PPP链路直连，R2和R3把2条PPP链路捆绑为PPPMP直连按照图示配置IP地址R2对R1的PPP进行单向chap验证R2和R3的PPP进行双向chap验证实验步骤1.R1和R2使用PPP链路直连，R2和R3把2条PPP链路捆绑为PPPMP直连步骤一在R2上创建MP-GROUP口[R2]intMP-group1步骤二把S1/0和S2/0加入到上一步创建的MP-GR
FPGA自学——整体设计思路 Sunrise黎 fpga自学 fpga 学习
FPGA自学——整体设计思路1.设计定义写一套硬件描述语言，能够在指定的硬件平台上实现响应的功能根据想要实现的功能进行设定（如：让LED一秒闪烁一次）2.设计输入方法：编写逻辑：使用verilog代码描述逻辑画逻辑图使用IP3.分析综合（EDA）逻辑门级别的电路内容：对所写的逻辑描述的内容进行分析4.功能仿真1.目的：使用专门的仿真工具进行仿真，验证设计的逻辑功能能够实现2.仿真工具：models
高仿miumiu女装哪里找高品质货源？高端顶级奢侈品
高仿miumiu女装哪里找高品质货源？MiuMiu（缪缪）率性且充满实验风格，与Prada是同一设计理念的另一种表达方式。MiuMiu成立于1993年，注重优雅精致且不乏趣味，将女性气质发挥到极致。通过成衣、皮具、眼镜、具备突破意义的广告大片，及有独特视角的女人的故事短片系列，使品牌呈现了现代女性的多面特质。MiuMiu于2006年首次于巴黎亮相，时尚风格服饰已开始备受注目。精通时装配搭之道，独具
【AI 赋能：Python 人工智能应用实战】5. 梯度下降家族：SGD/Adam优化器对比实验与选择策略 AI_DL_CODE 人工智能 python 梯度下降优化器 SGD Adam PyTorch
摘要：本文系统解析梯度下降优化器的核心原理与演进脉络，构建从理论到实战的完整知识体系。理论部分梳理优化器发展里程碑，从1951年的SGD到2018年的AdamW，揭示技术迭代逻辑；通过数学公式对比SGD、Momentum、Adam等核心算法的更新机制，解析动量加速、自适应学习率的创新点。结合损失曲面分析，阐释Momentum如何逃离鞍点、Adam如何处理悬崖梯度。实战模块基于PyTorch在MNI
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
《半熟之恋：我与豪门大佬的驭爱之路》江黎、罗靳延已完结小说_江黎、罗靳延(半熟之恋：我与豪门大佬的驭爱之路)全文免费阅读无弹窗大结局霸道推书2
小说名：《半熟之恋：我与豪门大佬的驭爱之路》主角配角：江黎、罗靳延简介：“先生，借个火。”这是她同我讲的第一句话。我本以为，她与那些被金主大佬带上船的庸脂俗粉一样只是为了图钱，毕竟她的皮囊确实一顶一的好。就连我，在初见略有落魄的她时，也不禁暗自称赞好相貌。在她的雪茄被点燃的那一刻，我的悸动也随之暗自生根发芽，我们两人的羁绊也就此开始。推荐指数：✩✩✩✩✩———阅读全文小说内容请翻阅最底部———“你
周三竞足：水晶宫VS南安普敦和阿森纳VS西汉姆联阿东侃球
昨日赛事回顾周二001德甲：斯图加特VS拜仁慕尼黑这场比赛因为看到拜仁的欧赔SP值持续坚挺，并且拜仁的实力过于强大，所以果断选择让负，完美命中。比分看好1-4，还是保守了一点，不过进球数为5球也命中了！周二004荷兰杯：布雷达VS乌德勒支这场比赛一言难尽，欧赔中布雷达的SP值持续走高，各方都看好乌德勒支，上半场乌德勒支也是不负众望打出0-1领跑比分，但下半场直接拉跨，让布雷达3-2翻盘，着实让人惊
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
【大模型】结构化提示词：让AI高效完成复杂任务的“编程语言” JosieBook AI/大数据/云计算人工智能
文章目录前言：提示词一、不同提示词写作方法对比进阶技巧对比表实战组合策略二、三板斧：精准撰写提示词的黄金法则角色设定：为AI精准定位任务描述：明确行动指南输出要求：规范成果呈现三、魔法棒：零基础也能用的“AI需求翻译机”四、结构化：把提示词写成“可插拔的乐高”五、分治法：把“庞然大物”拆成可并行的小任务前言：提示词在人工智能时代，提示词（Prompt）已成为连接人类意图与AI能力的核心媒介。优质的
人工智能视频分析系统人员离岗报警设计方案 liuhu21 人工智能云计算运维
一、方案概述近几年安防监控技术不断的进步，特别是在人工智能推出之后。安防监控系统结合人工智能算法做到了许多以前无法做到的事情。就比如我们今天要说的离岗检测报警监控系统。以前我们只能通过人工值守监控室的方式，通过人的判断去观看现场人员在岗情况。如今有了离岗检测监控系统，系统可以自动监测现场人员是否在岗、离岗时间以及离岗人数等等。这样，大大减少了监控室值班人员的工作量，同时相较人工监管提升了工作效率。
【科研绘图系列】R语言绘制配对散点图连线柱状图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制配对散点图连线柱状图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr)library(patchwork)library(ggprism
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
【舰艇控制】基于matlab具有不确定性和扰动的水面舰艇的自适应有限时间平滑非线性滑模跟踪控制【含Matlab源码 13748期】复现含文献海神之光 Matlab路径规划（进阶版）matlab
欢迎来到海神之光博客之家✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进；个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式Matlab毕设：Matlab毕设系列–说明期刊发表：发表北大核心，SCI不是梦！！⛳️座右铭：行百里者，半于九十。更多Matlab路径规划仿真内容点击①Matlab路径规划（进阶版）②付费专栏Matlab路径规划（初级版）⛳️关注
【科研绘图系列】R语言绘制柱状散点连线图生信学习者1 SCI科研绘图系列 (2024版)r语言数据可视化
文章目录介绍加载R包数据下载导入数据数据预处理画图系统信息参考介绍【科研绘图系列】R语言绘制柱状散点连线图加载R包library(tidyverse)library(ggplot2)library(ggsignif)library(ggpubr)library(patchwork)library(ggprism
抖音商城优惠券在哪看-抖音商城优惠券红包查看方法氧券超好用
抖音商城优惠券在哪看？一键领取红包优惠券！随着抖音的火热，抖音商城也成为了许多用户购物的新选择。在抖音商城购物，优惠券的使用可以为我们省下不少钱。那么，抖音商城的优惠券在哪里看呢？接下来，我就来为大家详细介绍抖音商城优惠券红包的查看方法。第一步：打开抖音APP首先，我们需要打开抖音APP，进入抖音的主界面。第二步：进入抖音商城在抖音主界面，我们可以看到一个购物袋的图标，这就是抖音商城的入口。点击图
也有从认错人开始的恋爱【日剧/1080p超清日语中字】也有从认错人开始的恋爱全集免费在线观看未删减完整版夸克网盘高清迅雷网盘百度云（2024新日腐） e95cfad15310
2024年，日剧市场再次迎来了让人心跳加速的浪漫爱情故事——《从认错人开始的爱情》。这部新日腐作品，以其精致的画面、感人的剧情和甜到发腻的CP组合，迅速吸引了广大观众的目光。《从认错人开始的爱情》2024新日腐，超清1080p，浪漫故事触动人心故事讲述了一对在偶然的机会下相识的男女，因为一系列误会和搞笑的事件，逐渐走进彼此的生活，最终发展出一段令人动容的爱情故事。这部日剧以其独特的视角，展现了从相
三篇AAAI顶级论文带你一键搞懂多模态！
关注gongzhonghao【计算机sci论文精选】！拿捏更多顶会顶刊发文资讯随着人工智能技术的飞速发展，多模态学习逐渐成为研究热点。多模态技术能够整合文本、图像、语音等多种模态的信息，为人工智能的应用带来了更丰富的语义理解和更强大的交互能力。此外，多模态技术在视频和语言任务中的应用也取得了显著进展。这些技术不仅提升了模型的性能，还为人工智能在更多领域的应用提供了新的可能性。今天小图给大家精选3篇
GitLab系列2 GitLab Workhorse weixin_34326558 git 运维前端 ViewUI
GitLabWorkhorse上一回介绍了GitLab的基础功能和架构，但还没具体讲解用户的请求是怎么被处理的，只是将各个组件的功能职责介绍了一遍，本节将简单介绍gitlab-workhorse的功能首先回顾一下：GitLab利用Nginx将前端的http/https请求代理至gitlab-workhorse，gitlab-workhorse再将请求转发至UnicornWeb服务器。默认情况下gi
精时力日志-11 央曰
【第2周实践】这是2018年2月崔律“时间记录app”系列第2周的课后实践。今天是自习打卡第2天。1.我的实践：今天正式返回老家过年。从早上起床，到搭车，到亲戚家吃饭。白天所有的时间都变成“关系类”，吃饭及陪父母玩都没有切换状态，回到家里，我就那样轻易忘记时间记录了。今天的时间记录大块是“睡眠”、“关系”、“交通”。2.实践中的亮点：感觉今天没有亮点。唯一欣慰的是，我还能准时上年前最后一节“一块听
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio