呆呆的猫

【扩散模型】8、DALL-E2 | 借助 CLIP 的图文对齐能力来实现文本到图像的生成

文章目录

- 一、背景
- 二、方法
- - 2.1 Decoder
  - 2.2 Prior
- 三、图像控制
- - 3.1 Variations
  - 3.2 Interpolations
  - 3.3 Text Diffs
- 四、探索 CLIP 的潜在空间
- 五、文本到图像的生成
- - 5.1 先验的重要性
  - 5.2 人类评价
  - 5.3 多样性和保真性的平衡
  - 5.3 在 COCO 上对比

论文：DALLE.2

代码：https://github.com/lucidrains/DALLE2-pytorch

出处：OPENAI

时间：2022.08

DALLE-2 的关键过程：

给定一个文本，先用clip模型生成一个文本特征，这一步是固定的，这里的clip模型是锁死的，接下来就到了两阶段模型
第一阶段：根据文本特征生成图像特征（prior），当然clip在这里也有用，因为clip生成的图像特征是要用做 ground truth 的。
第二阶段：一旦有了图像特征，就需要decoder来生成最后的图像，就完成了从文本到图像的过程。

一、背景

使用类似于 CLIP 的对比学习的模型已经被证明能够很好的学习图像的表达，也能够捕捉语义和风格特征，所以能不能将 CLIP 和扩散模型结合起来，实现文本控制的图像或视频生成呢

本文作者就将这两个方法结合起来，来解决 text-conditional 图像的生成

训练一个 diffusion decoder 来逆转 CLIP 图像编码器。这个逆转过程是非确定性的，也就是说，对于给定的图像嵌入（embedding），它可以生成多个对应的图像。逆转的意思就是将 CLIP 抽取图像特征的过程反过来，从特征恢复图像。
使用 CLIP 的一个好处在于可以通过语音描述来控制生成的图像的特征
为了得到完整生成模型, 作者将 CLIP 的 image embedding decoder 与先验模型结合起来, 根据给定的 text caption 来生成 CLIP image embedding

作者把本文提出的 text-conditional image generation 方法称为 unCLIP，因为这种生成方法其实是 CLIP image encoder 的逆过程

unCLIP模型基于"Contrastive Language–Image Pretraining"（对比语言-图像预训练）技术，这也就是“CLIP”的来源。然而，“un”表示“解开”，所以“unCLIP”实际上意味着该模型可以逆向工作，即不仅可以从文本生成相关图像，还能从图像生成相关文本。

例如，如果你给unCLIP一个描述性词句（如"太阳下山了"），它可能会产生一个与描述匹配的图片。相反地，如果你给它一张图片（如一张夕阳照片），它可能会生成一个描述该图片内容的句子。

二、方法

训练数据：图像 x 和文本描述 y 组成的 pairs (x,y)

给定 image $x$ ，CLIP 的 image 和 text embedding 分别为 $z_i$ 和 $z_t$

本文生成过程包括两个部分：

prior $P(z_i|y)$ ：这是一个条件概率，表示在给定文本描述 $y$ 时产生 CLIP image embedding $z_i$ 的概率。使用文本输入 CLIP 的 text encoder 之后，会得到文本特征，这里的 prior 就是根据这个文本特征来预测对应的图像特征。
decoder $P(x|z_i,y)$ ：这个解码器接收 prior 预测到的 CLIP image embedding $z_i$ 以及可选地接收文本描述，然后生成相应的图像 $x$ 。也就是根据编码来生成图片

根据这两个过程，可以得到在给定文本描述 y 时，产生图像 x 的概率

$P (x ∣ y)$ : 这表示在给定文本描述 y 时，产生图像 x 的概率。也就是说，如果你有一个文本描述（比如"一只黑色的猫在跳跃"），这个模型能够生成符合这个描述的图像。
$P (x, z i ∣ y) = P (x ∣ z i, y) P (z i ∣ y)$ ：这里使用了贝叶斯规则来分解上述概率。在给定文本 y 时，产生图像 x 和嵌入zi 的联合概率可以分解为：在给定 image embedding $z_i$ 和文本 y 时产生图像 x 的条件概率（由解码器计算）和在给定文本 y 时产生 image embedding $z_i$ 的条件概率（由先验计算）。
P(x|zi, y)：这部分是由解码器提供的，在已知 CLIP image embedding $z_i$ 和文本描述 $y$ 的情况下，生成图片 $x$ 的条件概率。
P(zi | y)：这部分是先验，在已知文字说明 y 情况下得到 CLIP 图片嵌入 $z_i$ 的条件概率。
通过将两者相乘，可以得到完整模型 $P (x ∣ y)$ ，它可以根据输入语句生成相关联且符合该语句内容的图片。

2.1 Decoder

作者借鉴了 GLIDE 的结构，将 CLIP embedding 加到了 timestep embedding 中，且将 CLIP embedding 映射到了 4 个额外的 token，和 GLIDE 的text encoder 输出进行 concat。

虽然可以直接从解码器条件分布进行采样，但过去使用扩散模型工作表明使用 conditional information 指导能够大大改善样本质量。所以本文中通过随机将 CLIP embedding 设为零，并在训练期间随机丢弃 50% 的文本字幕来实现无分类器指导。

为了生成高分辨率图像，作者训练两个扩散上采样模型：一个用于从64×64上采样至256×256分辨率图像；另一个进一步把那些图像上采样至1024×1024分辨率。为提高上采样器稳健性，在训练期间轻微破坏图片。对于第一个上采样阶段, 使用高斯模糊, 对于第二个阶段, 我们使用更多元化BSR降级处理。

为减少训练的计算和提高数值稳定性, 我们按照Rombach等人[42]建议在目标尺寸四分之一大小随机裁剪图片进行培训. 在模型里我们只用空间卷积 (也就是说不包含注意力层)，并且在推断时直接应用目标解析度下的模型，观察它是否能很好地适应更高解析度。

2.2 Prior

虽然 decoder 可以通过 CLIP 的逆向操作来从 image embedding $z_i$ 生成图像 $x$ ，但还需要一个先验模型来从文本输入 $y$ 中来预测出需要用到的 image embedding $z_i$ 。

作者对比了两种不同的先验模型：

自回归先验 Autoregressive (AR) prior：将CLIP图像嵌入 $z_i$ 转换为一系列离散编码，并在 $y$ 的条件下自回归预测。
扩散先验 Diffusion prior：直接使用以标题 $y$ 为条件的高斯扩散模型对连续向量 $z_i$ 进行建模。

CLIP 的 text embedding $z_t$ 也可以用作 condition prior

为了提高样本质量，作者在训练过程中随机丢弃10%的文本条件信息，以实现 classifier-free guidance 的AR和扩散先验采样。

对于 AR 先验：

为了更有效地训练和从AR先验中采样，首先通过应用主成分分析（PCA）[37]来降低CLIP图像嵌入zi的维度。当使用SAM [15] 训练CLIP时，CLIP 表示空间的秩大幅降低，并略微改善评估指标。通过只保留原始1024个主成分中的319个主成分，能够保留几乎所有信息。
使用 PCA 后，按照特征值大小递减顺序排列主成分，并将每个319维度量化到1024个离散桶内，并使用带有因果注意力掩码的Transformer [53]模型预测生成序列。这使得推理期间预测 token 数量减少三倍，并提高了训练稳定性。
将文本标题和 CLIP embedding 作为前缀以控制 AR 先验。此外, 在序列前加上一个标记, 标记表示文本嵌入与图像嵌入之间(量化)点积, zi · zt. 这使得模型可以依赖更高点积进行条件设置, 因为更高文字-图片点积对应于更好地描述图片的标题
在实践中, 作者发现从顶部一半的分布中抽取点积更好

对于扩散先验：

在一个序列上训练了一个只有 decoder-only 的 Transformer模型，该序列包含：encoded text、CLIP text embedding、扩散时间步长的嵌入、带噪声的 CLIP image embedding，以及从 Transformer 中输出用于预测无噪声的 CLIP image embedding。
通过生成两个 zi 样本并选择与 zt 点积更高的那个来提高采样时质量。对此预测使用均方误差损失：

三、图像控制

本文的方法可以将任何给定的图像 $x$ 编码为一个双边潜在表达 $z_i, x_T)$ ：

$z_i$ ：使用 CLIP 的 image encoder 编码得到的图像特征
$x_T$ ：使用 diffusion decoder 得到的生成的结果（conditioning on $z_i$ ）

作者这里展示了 3 种不同的方式

3.1 Variations

给定图像 $x$ ，可以通过语言描述来让模型生成和主要元素有关但方向或形状不同的图像

实现的方式就是使用 DDIM 作为扩散模型，使用 $\eta>0$ 来控制采样：

$\eta=0$ 时，扩散模型解码器就是确定的，会产生和原图一样的图片
$\eta$ 越大，就会对采样引入一定的随机性，产生一些变体

3.2 Interpolations

本文方法也支持将两张图片混合，通过将两个图片变换到 CLIP image embedding space 然后通过球面混合来实现

$\theta$ 从 0 到 1，控制着两个图片的。球面插值(slerp)就像一个平滑过渡器，它能帮助我们从苹果（zi1）平滑过渡到香蕉（zi2）。θ值从0到1改变时，我们可以得到中间的各种"混合水果"状态。

第一种方法就是在原始图像对应的DDIM反向潜变量之间进行类似上述球面插值般地过度, 这样会得到一个连续轨迹且起点为苹果、终点为香蕉.
第二种方法则更随机：对于每次插入新元素(即新生成的“混合水果”图片)，都采取随机选择其 DDIM 潜在值。虽然最后得出来结果可能不再完全符合原始图像(可能看起来既不太象苹果也不太象香蕉)，但却能生成无数条独特且多样化的路径.

3.3 Text Diffs

使用 CLIP 和其他方法最大的不同就在于 CLIP 可以把 image 和 text 映射到同一隐空间，所以可以支持使用 language-guided 来控制图像的修改

为了根据文本描述 $y$ 来修改图片，首先获取这个 $y$ 对应的 text embedding $z_t$ ，同时也获得当前图片对应的 CLIP text embedding $z_{t_0}$ ，计算 text diff $z_d=norm(z_t-z_{t_0})$ 。然后使用球面插值来产生中间的 CLIP representation，使用 DDIM 生成对应的图片即可。球面插值公式如下：

四、探索 CLIP 的潜在空间

diffusion decoder 的存在，使得可以直接可视化 CLIP 图像编码器所看到的内容，来探索CLIP潜在空间。作为一个示例用例，我们可以重新审视那些CLIP做出错误预测的情况，比如文字攻击[20]。

在这些反面例子中，一段文字被覆盖在物体上面，导致CLIP预测出文字描述的物体而不是图像中描绘的物体。这段文字实际上在输出概率方面隐藏了原始对象。在图 6 中，我们展示了来自[20]的这种攻击的一个例子，在其中一个苹果可能被误分类为iPod。令人惊讶的是，尽管“Granny Smith”（一种苹果）被预测为近乎零概率事件, 我们发现我们的解码器仍然以很高概率生成苹果图片。此标题（指iPod）有非常高相对预测概率, 但模型从未产生过iPod图片.

PCA重构提供了另一种探索 CLIP 潜在空间结构的工具。在图7中，使用少量源图片的 CLIP 图像嵌入，并使用逐渐增加的 PCA 维度进行重构，然后使用我们的解码器和 DDIM 在固定种子上可视化重构的图像嵌入。这使我们能够看到不同维度编码的语义信息。我们观察到早期PCA维度保留了粗粒度语义信息，例如场景中有哪些类型的物体，而后期PCA维度则编码了更为精细的详情，如物体形状和确切形式等。例如，在第一个场景中，早期维度似乎编码了存在食物和可能存在容器这样的信息，而后面几个维度明确地编码了西红柿和瓶子等特定元素。

五、文本到图像的生成

5.1 先验的重要性

使用 UNCLIP的效果最好，仅使用 caption 作为条件的效果最差，在实验中对 AR 和 diffusion priors 进行了比较，发现 diffusion prior 更胜一筹。

5.2 人类评价

5.3 多样性和保真性的平衡

5.3 在 COCO 上对比

你可能感兴趣的:(扩散模型,扩散模型)

大语言模型LLM原理篇
大模型席卷全球，彷佛得模型者得天下。对于IT行业来说，以后可能没有各种软件了，只有各种各样的智体（Agent）调用各种各样的API。在这种大势下，笔者也阅读了很多大模型相关的资料，和很多新手一样，开始脑子里都是一团乱麻，随着相关文章越读越多，再进行内容梳理，终于理清了一条清晰的脉络。笔者写原理篇时心情是有些惴惴不安的，因为毕竟对大模型的研究有限，缺乏深度。但是，还是觉得有必要记录一下学习理解心得，
大语言模型（LLM）笔记笑衬人心。大模型学习语言模型笔记人工智能
一、什么是大语言模型（LLM）？LLM（LargeLanguageModel）是基于Transformer架构构建，并在海量文本语料上训练出的具备自然语言理解和生成能力的深度神经网络模型。其本质任务是**预测下一个token（词/字/符号）**的概率分布，但通过大规模参数和数据的支持，表现出类人智能的行为。二、核心架构：Transformer由Google在2017年提出，是目前LLM的主流架构。
Milvus向量数据库入门指南 longfei.li milvus 数据库人工智能
一、Milvus简介Milvus是一个开源的向量数据库，专为AI应用和向量相似度搜索而设计，以加速非结构化数据的检索。自2019年创建以来，Milvus专注于存储、索引和管理由深度神经网络和其他机器学习模型生成的海量嵌入向量。其能够处理万亿级别的向量索引任务。Milvus的核心优势在于其高效的索引机制，它支持多种索引类型，包括FLAT、IVF_FLAT、IVF_SQ8、IVF_PQ和HNSW等。这
kotlin协程的使用详解
一、协程是什么协程基于线程，它是轻量级线程。Kotlin协程是一种基于挂起函数（suspendfunctions）和结构化并发（structuredconcurrency）的轻量级并发编程模型，允许开发者以接近同步代码的简洁方式编写异步、非阻塞的逻辑。其核心是通过协作式任务调度（而非抢占式线程切换），在单线程或多线程环境中高效管理并发任务，避免传统线程的资源消耗和复杂性，同时提供直观的错误处理和生
JVM——垃圾回收五月茶 JVM jvm
在Java开发中，JVM不仅负责运行Java字节码，还通过自动内存管理机制帮助开发者避免手动内存管理的复杂性。1.JVM内存模型JVM的内存模型主要包括以下几个部分：方法区(JDK8之后叫元空间):存储类信息，常量池，静态变量堆：所有线程共享的一块内存区域，存放对象实例栈：线程私有程序计数器：线程私有，记录当前线程执行的字节码行号本地方法栈：为Native方法服务2.Java堆的划分年轻代Surv
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记迁移学习人工智能机器学习
【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？文章目录【深度学习|学习笔记】如何在深度学习中使用正则化技术进行模型压缩、稀疏建模和迁移学习调优？✅一、使用正则化进行模型压缩（ModelCompression）目标：方法：L1正则化促使权重稀疏化代码示例：后续压缩步骤
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
Python中Tesseract OCR的中文识别包实操指南
本文还有配套的精品资源，点击获取简介：TesseractOCR是一个开源的光学字符识别引擎，支持多语言包括中文识别。介绍如何在Python中使用pytesseract库进行图像文字识别，并详细说明安装TesseractOCR以及其中文语言包的步骤。提供了一个Python示例代码来展示图像识别的流程，并解释如何通过预处理提高识别准确率。此外，概述了TesseractOCR的高级功能和训练自定义模型的
智能之火，重塑创造：大模型如何点燃新一代开发引擎？黑巧克力可减脂 AIGC 人工智能 AIGC
导言：普罗米修斯之火再现在科技演进的长河中，每一次生产力的跃迁都伴随着工具的质变。从蒸汽机轰鸣到电力普及，再到信息高速公路的铺就，人类驾驭能量的能力不断突破。今天，我们站在一个崭新的临界点上：大语言模型（LLM）正将人工智能的“普罗米修斯之火”引入软件开发的核心腹地。这不再仅仅是效率的优化，更是对开发者角色、开发流程乃至软件本质的深度重塑。GitHubCEOThomasDohmke曾断言：“Cop
电商搜索新纪元：大模型引领购物体验革新大模型教程职场和发展大模型 AI大模型算法人工智能
随着电商行业的蓬勃发展，搜索技术作为连接用户与商品的桥梁，其重要性日益凸显。在技术不断革新的今天，电商搜索技术经历了哪些阶段？面对大模型的飞速发展，企业又将如何把握趋势，应对挑战？为了深入探讨这些问题，京东技术总监翟周伟与InfoQ栏目探讨了电商搜索技术的发展历程、当前的应用状况以及面临的挑战和未来的发展方向。以下是采访的详细内容。InfoQ：在您看来电商搜索经历了哪些阶段？翟周伟：我从技术发展的
LoRA 实战指南：NLP 与 CV 场景的高效微调方法全解析 fairymt 产品经理的AI秘籍自然语言处理人工智能机器学习
大模型已成AI应用的“标配”，但高昂的训练和部署成本让很多企业望而却步。LoRA（Low-RankAdaptation）作为一种轻量级微调方案，正成为NLP与CV场景中低成本定制的利器。本文详细通过详细介绍LoRA的核心原理、在文本与图像任务中的应用场景、主流工具框架与实践方式，帮助你快速掌握这项高性价比技术。国产生态实战：基于LLaMA-Factory+DeepSeek+LoRA+FastAPI
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
智能新纪元：大语言模型如何重塑电商“人货场”经典范式黑巧克力可减脂 AIGC 语言模型人工智能自然语言处理
开篇引言“善战者，求之于势，不责于人。”——《孙子兵法·兵势篇》当全球电商交易额突破6.3万亿美元（Statista2024），增长引擎却显露疲态。流量红利消退、同质化竞争加剧、消费者需求碎片化——传统“人货场”理论正遭遇前所未有的挑战。而大语言模型（LLM）的出现，恰似一柄重铸商业逻辑的“科技之锤”，正在为电商领域开启一场静水深流的革命性变革。基石重塑：当“人货场”遇见大模型智能经典理论再审视：
AI:微调框架 LLaMA-Factory（Large Language Model Factory） xyzroundo AI 人工智能 llama 语言模型 sft llama-factory AI
LLaMA-Factory（LargeLanguageModelFactory）是由北航团队开源的高效大语言模型（LLM）微调框架，旨在简化大型语言模型的定制化训练流程，支持超过100种主流模型和多种先进微调技术。以下从核心功能、安装部署、微调流程和应用场景四个方面详细介绍：一、核心功能与特点广泛的模型支持支持LLaMA3、Mistral、Qwen、ChatGLM、Gemma、Phi、Yi、Bai
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！ Echo_Wish Python 进阶人工智能学习
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！朋友们，今天咱不聊ChatGPT，不聊大模型黑魔法，也不玩Prompt咒语。我想聊一个比“怎么训模型”更底层、更值得思考的问题：如果我们能让模型自己学会怎么更快、更聪明地学习，是不是就能少走很多弯路？这，就是元学习（MetaLearning）要解决的事儿。说白了，元学习是AI给AI上培训课的过程。咱们天天琢磨怎么喂模型数据、调超参、搞迁移
大模型WebUI：Gradio全解系列10——Additional Features：补充特性（上）龙焰智能 Gradio全解教程 gradio queue streaming 提示进度条 alert progress
大模型WebUI：Gradio全解系列10——AdditionalFeatures：补充特性（上）前言本篇摘要10.AdditionalFeatures：补充特性10.1队列10.1.1使用方法10.1.2配置队列演示10.2输入输出流10.2.1输出流1.生成器yield2.流媒体10.2.2输入流1.流事件2.图像滤镜10.2.3统一的输入输出流10.2.4跟踪过去的输入或输出10.3提示及进
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
FastGPT与MCP：解锁AI新时代的技术密码挑战者666888 AI模型应用实战迁移学习集成学习文心一言
一、AI浪潮中的新星：FastGPT与MCP登场在当今科技飞速发展的时代，人工智能（AI）已成为推动各行业变革的核心力量。从智能语音助手到复杂的图像识别系统，AI的应用无处不在，而其中的关键技术——语言模型和集成平台，更是备受关注。FastGPT和MCP（Multi-ComponentPlatform）作为这一领域的新兴代表，正逐渐崭露头角，为AI的发展注入新的活力。FastGPT，以其高效的推理
硬件工程师入门与进阶全攻略攻城狮-鹏哥单片机单片机 stm32 dsp开发 fpga开发 51单片机 mcu 嵌入式硬件
一、硬件工程师成长阶段划分（一）能力成长四象限模型（二）成长阶段对照表阶段理论要求实践技能项目经验典型岗位入门期数电模电基础万用表/示波器使用简单电路焊接硬件助理工程师成长期单片机/嵌入式系统原理图设计/PCBLayout功能模块开发初级硬件工程师成熟期高速电路设计/EMC理论信号完整性分析完整产品硬件开发资深硬件工程师专家期前沿技术跟踪系统级方案设计复杂系统架构设计硬件系统工程师二、入门阶段：夯
前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
《数字孪生+AI：如何模拟人类大脑的智能进化？》嘉图明 AI合伙人人工智能机器学习深度学习大数据物联网
《数字孪生+AI：如何模拟人类大脑的智能进化？》大脑发展的五阶段理论与AI模型发展关系人类大脑在一生中经历五个主要发展阶段，从胎儿期一直到老年期阶段1（孕期0–10月）：大脑迅速增长，大量神经元和神经连接形成这是大脑发育的基础阶段，孕期的营养和环境对神经系统发育至关重要。阶段2（出生–6岁）：幼儿期大脑突飞猛进地构建神经元连接。2-3岁时大脑已达到成人大小的80%，3岁时突触连接数高达1000万亿
鸿蒙应用变现策略：盈利模式全面分析操作系统内核探秘操作系统内核揭秘 harmonyos 华为 ai
鸿蒙应用变现策略：盈利模式全面分析关键词：鸿蒙应用、变现策略、盈利模式、应用内购买、广告盈利、订阅服务摘要：本文旨在全面分析鸿蒙应用的变现策略和盈利模式。随着鸿蒙操作系统的广泛应用，众多开发者希望借助这一平台实现应用的盈利。文章将从背景介绍入手，阐述鸿蒙应用的发展现状和盈利的重要性。接着详细解析核心概念，包括常见的盈利模式及其原理。通过数学模型和公式说明不同盈利模式的潜在收益计算方法。结合项目实战
1、快速上手 [代码级手把手解析diffusers库] Yuezero_ AIGC 人工智能深度学习
快速上手Pipeline内部执行步骤后续更新计划diffusers是HuggingFace推出的一个diffusion库，它提供了简单方便的diffusion推理训练pipe，同时拥有一个模型和数据社区，代码可以像torchhub一样直接从指定的仓库去调用别人上传的数据集和pretraincheckpoint。除此之外，安装方便，代码结构清晰，注释齐全，二次开发会十分有效率。diffusers使用
linux深度学习问题汇总不想改代码备忘录 linux python 深度学习 pytorch 人工智能 1024程序员节
目录一、异常问题1.segementationfault(coredump)2.Illegalinstruction(coredumped)3.死锁4.掉卡二、通用方法1.查看重启记录2.系统性能监控3.后台执行命令4.异常日志三、深度学习技术1.普通网络改DDP训练，单机多卡，pytorch四、专业内容方法1.微调diffusion类模型本文记录一些在使用linux服务器进行深度学习时遇到的问题
量化AI价值的30个关键指标 mao_feng 人工智能 AI
摘要：量化AI的战略价值人工智能（AI）成功集成到业务运营中超越了单纯的技术部署;它需要一种严格、可量化的方法来展示其价值。本报告系统地分类并解释了评估AI优势的基本指标，从核心模型性能到总体战略和道德考虑因素。必须制定多方面的衡量策略，将技术AI指标与运营效率、客户体验、财务绩效、战略优势和负责任的AI实践等有形业务成果直接联系起来。稳健的关键绩效指标（KPI）不仅仅是问责制的工具;它们是持续改
【Actix Web】Rust Web开发实战：Actix Web框架全面指南（2025企业级应用版）知识产权13937636601 计算机前端 rust 开发语言
在2025年高并发、低延迟成为Web服务核心指标的背景下，ActixWeb凭借异步Actor模型与零成本抽象，成为Rust生态中生产环境部署率最高的Web框架。本指南深入解析ActixWeb4.0核心技术，覆盖百万级并发架构设计、内存安全防线构建、云原生集成方案三大实战维度，通过电商秒杀系统、物联网数据平台两大案例，详解如何实现50万QPS下毫秒级响应。提供全链路性能调优清单（包括PGO编译优化+
JSON + 存储过程：SaaS 架构下的统一接口与租户定制之道 nbsaas-boot java 数据库网络
在多租户SaaS系统中，不同客户往往有差异化的业务逻辑、字段要求与流程规则。传统“统一模型+配置参数”的开发模式，虽然具有可控性，但在高度动态、合作多样化的场景下，逐渐暴露出扩展困难、上线周期长、定制成本高等问题。随着数据库对JSON的原生支持日益成熟，以JSON作为统一数据协议+存储过程作为租户可编程执行单元的模式，成为SaaS架构的新选择。该模式不仅保留了统一接口的规范性，还为租户、合作伙伴甚
Mac mini 跑 DeepSeek R1 及 QwQ-32B模型实测报告强哥之神 GPT macos GPU deepseek 人工智能语言模型 LLM
测试对象：2025款Macmini（M4/M4Pro芯片）测试模型：DeepSeek-R1（14B/32B）、QwQ-32B（原版/量化版）测试目标：硬件性能适配性、推理速度、内存占用及优化方案一、Macmini硬件配置概览配置项M4基础款（16GB）M4Pro高配（32GB/64GB）芯片M4（10核CPU/10核GPU）M4Pro（14核CPU/20核GPU）内存16GB统一内存32GB/64
【AI】AI大模型发展史：从理论探索到技术爆发不想当程序汪的第N天 AI 人工智能
一、早期探索阶段—理论与技术奠基1.1符号主义与连接主义的博弈20世纪50-70年代，符号主义AI主导研究方向，通过专家系统模拟人类逻辑推理，但受限于计算能力和数据规模。80年代连接主义AI兴起，以神经网络为核心，反向传播算法的提出为深度学习奠定基础。1.2神经网络初步实践1980年：卷积神经网络（CNN）雏形诞生1998年：LeNet-5模型成功应用于手写数字识别，成为首个商用深度学习模型关键局
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他