猴猴猪猪

Muse: 谷歌基于Transformer的文生图模型

Overview

Muse
- Summary
- Abstract
- 1.Introduction
- 2.Model
- - 2.1.Pre-trained Text Encoders
  - 2.2.Semantic Tokenization using VQGAN
  - 2.3.Base Model
  - 2.4.Super-Resolution Model
  - 2.5.Decoder Finetuning
  - 2.6.Variable Masking Rate
  - 2.7. Classifier Free Guidance
  - 2.8.Iterative Parallel Decoding at Inference
- 3.Results
- - 3.1. Qualitative Performance
  - 3.2 Quantitative Performance
  - - 3.2.1 HUMAN EVALUATION
    - 3.2.2 INFERENCE SPEED
  - 3.3. Image Editing

Muse

Summary

题目: Muse: Text-To-Image Generation via Masked Generative Transformers
机构：谷歌
论文: https://arxiv.org/pdf/2301.00704.pdf
代码：未开源代码 https://muse-model.github.io
任务: 文生图
特点:
方法:
前置相关工作：Imagen, VQ-GAN，MaskGit

Abstract

提出了Muse这样一种文生图的transformer结果，取得了SOTA的效果，但是相较于diffusion model和自回归模型效率更高，Muse利用离散token空间的掩码建模来进行训练，在给定文本特征（从预训练好的LLM提取）的条件下，Muse被训练用来预测随机掩码的图像token。相较于像素空间的扩散模型，比如Imagen / DALL-2，Muse就显得更加高效了，因为使用的是离散的token以及需要更少的采样步数，相较于自回归模型，比如Parti，Muse也是更加高效的，因为用到了并行解码。预训练的LLM的使用，让模型具备了细粒度语言理解的能力，并且转化为高保真度的图像，充分理解诸如：目标，空间关系，姿势，数量等视觉概念。900M参数的模型，在CC3M上取得了新的FID SOTA结果：6.06。3B参数的Muse模型在COCO上取得了7.88的zero-shot FID结果，CLIP score是0.32。Muse也具备不需要finetune或者invert模型，也能进行系列图像编辑的任务，比如inpainting, outpainting, mask-free editing等等。

1.Introduction

在这篇工作当中，提出了基于MaskGit的文本生成图像模型，其中图像decoder以预训练LLM（T5-XXL）的文本特征为条件。与Imagen一致的是，我们发现，如果想要生成逼真的，高质量的图像，预训练好的LLM是非常有必要的。所提出的Muse模型（除了VQ-GAN之外），都是基于Transformer结构来设计的。

我们训练了一系列大小的Muse模型，模型大小从632M到3B不等（主要是图像decoder的参数量变化），T5-XXL有额外的4.6B参数。每一个模型，都由一系列的子模块组成：

VQ-GAN Tokenizer encoder/decoder，将一张输入的图像转化为一系列离散的tokens，并且将token序列反向解码为图像
两组VQ-GAN，一个处理256 $\times$ 256的分辨率（“low-res”)，另一个处理512 $\times$ 512的分辨率（“high-res”）。
基础的掩码图像模型，这占据了模型主要的参数量，以一系列部分掩码的low-res的tokens为输入，然后基于unmasked的tokens以及T5-XXL的文本特征，来预测每一个masked token的边缘分布。
超分transformer模型，将（unmasked）的low-res的tokens转化为high-res的tokens，同样也是基于T5-XXL的文本特征。

相比于Imagen或者DALL-E2这些基于像素空间的扩散模型，由于Muse使用的是离散型的编码，所以效率上就会高不少，相较于自回归模型Parti，Muse由于使用了并行解码，也显得更加高效。在TPU-v4上进行测试，Muse比Imagen-3B和Parti-3B快10倍，比SD 1.4快3倍，所有的比较都是在相同的图像尺寸（224 $\times$ 224或者 512 $\times$ 512）上进行的，尽管与Stable Diffusion一样都是在隐空间上进行的，但是Muse依旧更快，可能的原因是SD 1.4在推理的时候，需要更多的迭代步数。

尽管效率更高，但并不意味着质量有所损失，在多种评价标准下，诸如CLIP得分（评价图文相关性），FID（评价图像质量和多样性）, 3B的Muse模型在COCO zero-shot benchmark上取得了0.32的CLIP得分以及7.88的FID得分，在CC3M以及人类打分等benchmark或者评价方式上，也与各种对比方法进行了对比。

Muse的结果也反映了模型在名词，动词，形容词上的表现能力，也具备多目标理解能力（诸如组合，数量等概念）以及风格的理解能力，除此之外，还具备zero-shot的图像编辑能力，比如in-painting, out-painting，mask-free editing等。

主要贡献：

效果好，CLIP得分，FID等取得SOTA文生图效果
效率高，离散编码，并行解码
zero-shot图像编辑能力

2.Model

模型的整体框架如下图所示：

注意是先训练好base model，然后再训练超分model。

2.1.Pre-trained Text Encoders

对于给定的文本caption输入，将其经过冻住参数的T5-XXL，提取得到4096维度的特征，并且线性映射到base和super-res transformer对应的hidden size大小。

2.2.Semantic Tokenization using VQGAN

VQ-GAN的思路，这儿不赘叙，对于VQ-GAN里面的encoder和decoder模块，用全卷积来实现，用以支持不通的分辨率，给定一张H × W的输入图像，encoder进行下采样，编码的token尺寸是 H/f × W/f ，即下采样的倍率是f。训练了两个VQ-GAN模型，一个f=16，另一个f=8。对于base model而言，采用的是f=16，输入256×256的图像，能够得到的token的空间大小是16×16。对于超分模型，采用的是f=8，输入512×512的图像，能够得到的token的空间大小是64×64，这些离散的编码捕获的是高层语义而忽略浅层的噪声。并且用离散的编码形式，能够在预测掩码时，使用交叉墒损失。

2.3.Base Model

base model是一个masked trasformer结构，输入文本特征以及随机掩码部分图像tokens（将其替换为特殊的[MASK]token），在transformer的输出层，用一个MLP来将每一个掩码的特征转化为一系列的logits（与VQ-GAN的codebook尺寸一致），然后用gt的token label与logit算交叉熵。在训练的时候，base model在每一步同时预测所有的掩码token，但是在推理的时候，掩码的预测，是用一种迭代的方式来进行，这种操作，极大地提高了图像生成的质量。

2.4.Super-Resolution Model

我们发现直接预测512 × 512高分辨率的图像，会导致模型关注low-level的细节而不是语义，然而用一种级联的方式能有所裨益，一个base model生成16 × 16的latent map（与256 × 256 的图像相对应），然后接着一个超分模型，上采样base latent map到64 × 64的latent map（与512 × 512 的图像相对应）。在base model训练好之外，超分模型再进行训练。

超分模块学习将低分辨率的latent map翻译为高分辨率的latent map，具体实现的方式是，将text embedding信息和base latent map信息都concat，作为key, value，注入进cross-attention，得到high-res latent map，然后再解码为高分辨率的图像。

Muse: 谷歌基于Transformer的文生图模型_第2张图片

2.5.Decoder Finetuning

为了进一步提高模型生成细节的能力，我们增加了VQ-GAN decoder的能力，即保持encoder固定，但是让decoder增加额外的residual layer以及channels。然后finetune新的decoder layer，保持encoder, codebook和transformer（base model以及超分model）参数不变。这能够让我们在提高视觉质量的时候，却不必重新训练任何模型组件。

2.6.Variable Masking Rate

像MaskGit那样，我们用一种变量的掩码率来进行训练。对于一个训练样本，我们从从 $p(r)=\frac{2}{\pi} (1-r^2)^{-\frac{1}{2}}$ 分布中采样掩码率 $r$ ，其中 $r\in[0,1]$ ，这个分布关于 $r$ 的期望是0.64，那么意味着倾向于得到更高的掩码率，当然这也让掩码预测这个任务会变得更难一些，相比于自回归方式，在给定固定顺序的token学习条件分布 $P{x_i|x_{Pxi∣x<i$

2.7. Classifier Free Guidance

我们采用了classifier-free guidance来提高生成的质量以及图文的对齐。在训练的时候，我们随机去除10%样例的文本条件，这样能够只关注图像tokens，在测试的时候，对于每一个masked token我们计算了一个条件logit $l_c$ 以及一个无条件的logit $l_u$ ，最终logits $l_g$ 通过如下的guidance scale $t$ 来实现：
$l_g = (1+t)l_c - t l_u$

直观上看来，CFG在多样性和保真度之间做了平衡，不同于之前的方法，我们通过采样过程线性增加引导标度t来减少对多样性的影响。这允许在低引导或无引导的情况下更自由地对早期token进行采样，但增加了条件提示对后期token的影响。

我们同样也探索了 negative prompting机制，通过替换无条件logit $l_u$ 为logit (基于negative prompt”.），能够使得生成的图像拥有与 positive prompt $l_c$ 更相关的特征，但是剔除掉与 negative prompt $l_u$ 相关的特征。

2.8.Iterative Parallel Decoding at Inference

我们的Muse模型能取得很好的推理性能，其中关键的原因是使用了并行解码来预测在一个forward pass预测多个输出tokens。==之所以能用并行解码的关键性假设是在于：马尔可夫性质，即在给定其它tokens的条件下，多个tokens彼此之间是条件独立的。==具体来说，解码是基于一种cosine schedule的策略，即首先在当前step选择固定比例的高置信度掩码tokens，这些tokens在接下来的steps过程中被置为unmasked的状态，这样masked tokens的集合就会适当减少。通过这样的方式，我们在base model里面能够仅用24步就能推理256个tokens，在超分模型里面，仅用8个decoding steps就能推理4096个tokens。（这样相较于自回归模型，就能从256 -> 24，4096 -> 8）极大地减少了推理的迭代解码次数。

3.Results

我们训练了多个参数量的模型（从600M到3B参数），每一个模型都被T5-XXL（4.6B参数）的文本编码作为输入，最大3B参数的base model拥有48层transformer层，（其中图文之间使用了cross-attention，图像tokens之间使用了self-attention），所有的base model都共享相同的图像tokenizer。我们使用19个ResNet blocks的CNN模型，以及8192的codebook来做离散编码。更大的codebook并不会带来效果上的提升。超分模型包含，32 multi-axis Transformer layers (Zhao et al., 2021) ，利用high resolution image和concatenated text and image embedding 做cross-attention，在high resolution image tokens内部做self-attention。模型将16 × 16 tokens的latent space转换到64 × 64 tokens的latent space。接着再把高分辨率的latent space转化到高分辨率的图像空间。

一些实验的设置如下：
Imagen dataset consisting of 460M text-image pairs
1M steps
batch size of 512 on 512-core TPU-v4 chips
This takes about 1 week of training time.
Adafactor optimizer to save on memory consumption which allowed us to fit a 3B parameter model without model parallelization
EMA

3.1. Qualitative Performance

3.2 Quantitative Performance

Muse: 谷歌基于Transformer的文生图模型_第3张图片

Muse: 谷歌基于Transformer的文生图模型_第4张图片

3.2.1 HUMAN EVALUATION

Muse: 谷歌基于Transformer的文生图模型_第5张图片

3.2.2 INFERENCE SPEED

Muse: 谷歌基于Transformer的文生图模型_第6张图片

3.3. Image Editing

其余的一些editing的实验，详见原文，在此不再赘述。

你可能感兴趣的:(人工智能,AIGC,计算机视觉,论文阅读)

第03课：Anaconda 与 Jupyter Notebook 红色石头Will 深度学习 PyTorch 极简入门人工智能深度学习 PyTorch
本文将为大家介绍深度学习实战非常重要的两个工具：Anaconda和JupyterNotebook。Anaconda为什么选择Anaconda我们知道Python是人工智能的首选语言。为了更好、更方便地使用Python来编写深度学习相关程序，可以使用集成开发环境或集成管理系统，最流行的比如PyCharm和Anaconda。本文我推荐使用Anaconda。之所以选择Anaconda，是因为Anacon
AI大模型在智能客服系统中的应用季风泯灭的季节 AI大模型应用技术二人工智能
目录引言1.基于大模型的智能客服系统架构2.对话生成与上下文管理对话生成上下文管理3.提高客服系统响应精度的策略1.使用专门训练的数据集2.引入实体识别和意图分类3.反馈循环和持续优化4.AI大模型在企业中的优化与调优策略1.模型微调（Fine-tuning）2.模型蒸馏（ModelDistillation）3.响应延迟优化4.持续监控与反馈结论引言随着人工智能（AI）技术的不断发展，AI大模型在
深度学习（DL/ML）学习路径 jackl的科研日常深度学习学习人工智能
最近几年，尤其是自从2016年AlphaGo打败李世石事件后，人工智能技术受到了各行业极大关注。其中以机器学习技术中深度学习最受瞩目。主要原因是这些技术在科研领域和工业界的应用效果非常好，大幅提升了算法效率、降低了成本。因而市场对相关技术有了如此大的需求。我在思考传统行业与这些新兴技术结合并转型的过程中，亦系统的回顾了深度学习及其相关技术。本文正是我在学习过程中所作的总结。我将按照我所理解的学习路
基于深度学习的行人检测与识别系统：YOLOv5、YOLOv8、YOLOv10与UI界面的实现 2025年数学建模美赛深度学习 YOLO ui 人工智能分类
引言行人检测与识别技术作为计算机视觉领域的一个重要应用，广泛应用于智能监控、自动驾驶、公共安全等多个领域。行人检测系统的目标是通过图像或视频中的内容，自动识别并定位行人，这项任务在复杂环境中面临着不同的挑战，如多样的行人姿态、遮挡、光照变化等。近年来，深度学习的进步，尤其是目标检测领域的快速发展，为行人检测提供了强有力的支持。YOLO（YouOnlyLookOnce）系列模型，作为目前目标检测领域
基于深度学习的行人检测识别系统：YOLOv8 + UI界面 + 数据集完整实现 2025年数学建模美赛深度学习 YOLO ui 人工智能分类
1.引言行人检测与识别是计算机视觉中的一个重要领域，广泛应用于安防监控、智能交通、自动驾驶等多个领域。传统的行人检测方法面临着许多挑战，如低光照、复杂背景、遮挡等问题。随着深度学习技术的迅猛发展，基于卷积神经网络（CNN）的方法，尤其是YOLO（YouOnlyLookOnce）系列算法，在行人检测中取得了显著的效果。YOLOv8作为YOLO系列的最新版本，继承了YOLO一贯的高效性和准确性，在速度
Python从0到100（八十六）：神经网络-ShuffleNet通道混合轻量级网络的深入介绍是Dream呀 Python python 神经网络网络
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【人工智能】基于Python的机器翻译系统，从RNN到Transformer的演进与实现蒙娜丽宁 Python杂谈人工智能人工智能 python 机器翻译
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界机器翻译（MachineTranslation,MT）作为自然语言处理领域的重要应用之一，近年来受到了广泛的关注。在本篇文章中，我们将详细探讨如何使用Python实现从传统的循环神经网络（RNN）到现代Transformer模型的机器翻译系统。文章将从机
备战美赛！2025美赛数学建模C题模拟预测！用于大家练手模拟！灿灿数模数学建模
完整的思路代码模型见文末2025美赛数学建模C题模拟题：城市交通拥堵指数的预测与管理策略背景随着全球城市化进程的加快，交通拥堵问题成为城市发展的重要挑战之一。交通拥堵不仅影响居民出行效率，还增加了能源消耗和碳排放。近年来，各大城市开始尝试通过实时数据监控和人工智能技术对交通拥堵进行预测和管理。然而，由于城市交通系统的复杂性，现有方法在实际应用中仍面临诸多挑战。任务作为一名数据分析专家，你的任务是基
AI计算的未来：中心化与去中心化的博弈智识微光Intelligence 人工智能去中心化区块链
引言人工智能（AI）技术的迅猛发展正在全球计算格局中。最新发布的DeepSeekr1模型，以远低于传统大模型的成本实现了相当水平的推理能力，甚至能够在工作站上本地运行。一次突破AI计算正在经历从中心化（云计算）到去中心化（本地推理）的重大转变。这种变化不仅影响AI产业的商业模式，还可能构建全球计算基础设施、经济利益格局，并加速人工超级智能（ASI）的到来。因此，本文将探讨人工智能训练成本的降低、推
探索未来AI：飞桨大模型套件PaddleFleetX引领技术新高度窦育培
探索未来AI：飞桨大模型套件PaddleFleetX引领技术新高度PaddleFleetX飞桨大模型开发套件，提供大语言模型、跨模态大模型、生物计算大模型等领域的全流程开发工具链。项目地址:https://gitcode.com/gh_mirrors/pa/PaddleFleetX在人工智能的快速发展中，大模型已经成为推动技术创新的重要力量。如今，我们有幸向您推荐一个全新的开源项目——Paddle
Cursor 的 AI 模型：代码生成与理解的原理 drebander AI 编程 Cursor
引言在当今的软件开发领域，人工智能（AI）正在迅速改变开发者的工作方式。Cursor作为一款智能编程助手，通过集成先进的AI模型，为开发者提供了强大的代码生成、补全和优化功能。Cursor的核心竞争力在于其AI模型的能力，这些模型不仅能够理解代码的上下文，还能生成高质量的代码建议。本文将深入探讨Cursor使用的AI模型（如GPT系列或其他定制模型），并解析这些模型如何理解代码上下文并生成高质量的
AI对接之对话API对接指南我码玄黄 AI 探索 AI 工具教你一招人工智能 AI AI对接前端
AI对接之对话API对接指南本系列AI的API对接均以DeepSeek为例，其他大模型的对接方式类似。在人工智能领域，对话系统是连接人与机器的重要桥梁。DeepSeekAPI提供了一个强大的对话补全功能，使得开发者能够轻松地将智能对话集成到自己的应用中。本文将详细介绍如何对接DeepSeek的对话补全API，并展示几种典型的使用形式。1.API概览DeepSeek的对话补全API通过一个POST请
『OpenCV-Python』Trackbar控件的用法
点赞+关注+收藏=学会了推荐关注《OpenCV-Python专栏》在OpenCV中，Trackbar控件（滑块）是一个非常常用的GUI组件，用于在图像处理和计算机视觉任务中进行交互式调整参数。比如说，加载一个图片，通过一个滑块调整图片的亮度，这样便于我们用肉眼观察图片的变化。Trackbar允许用户通过拖动滑块来调整参数的值，并且会实时更新显示结果。比如上图这个例子，创建了3个Trackbar控件
AI人工智能代理工作流 AI Agent WorkFlow：在物流与供应链中的应用 AI架构设计之禅大数据AI人工智能 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：在物流与供应链中的应用1.背景介绍1.1物流与供应链行业面临的挑战物流与供应链行业是现代经济的重要组成部分,涉及原材料采购、产品生产、仓储配送、销售等多个环节。随着全球化进程加快,供应链日益复杂,企业面临着成本控制、效率提升、风险管理等诸多挑战。传统的物流与供应链管理模式已难以适应市场变化,亟需引入新技术和创新方法。1.2人工智能在物流供应链中
YOLOv10：面向下一代目标检测模型的创新探索 AgriTube YOLO
随着计算机视觉技术的飞速发展，目标检测模型在各类应用场景中的重要性与日俱增。从自动驾驶到智能监控，目标检测的准确性和实时性都直接影响着应用的效果和用户体验。YOLO（YouOnlyLookOnce）系列作为实时目标检测的代表性模型，自发布以来便因其速度与精度的平衡性得到了广泛关注和应用。如今，随着YOLOv10的即将推出，我们站在技术的前沿，思考如何对这一模型进行革新，使其在面对复杂多变的场景时表
强化学习在自动驾驶中的实现与挑战 Echo_Wish 人工智能前沿技术自动驾驶人工智能机器学习
强化学习在自动驾驶中的实现与挑战自动驾驶技术作为当今人工智能领域的前沿之一，正通过各种方式改变我们的出行方式。而强化学习（ReinforcementLearning,RL），作为机器学习的一大分支，在自动驾驶的实现中扮演了至关重要的角色。它通过模仿人类驾驶员的决策过程，为车辆提供动态、灵活的导航与控制能力。然而，强化学习在实际应用中并非一帆风顺，还面临着诸多技术和现实挑战。本文将从原理、实现与挑战
AI：263-强化学习在自动驾驶领域的应用与前沿挑战一键难忘精通AI实战千例专栏合集自动驾驶汽车强化学习人工智能
强化学习在自动驾驶中的应用与挑战自动驾驶汽车是当前人工智能和机器学习的热门研究方向，而强化学习（ReinforcementLearning，RL）因其在复杂动态环境中的决策能力，成为推动自动驾驶技术的重要工具。本文将探讨强化学习在自动驾驶中的应用、面临的挑战，并提供一个简单的代码实例以展示如何在自动驾驶中应用强化学习。1.强化学习的基础概念强化学习是一种通过试错的方式来学习最佳策略的机器学习方法。
强化学习在自动驾驶技术中的应用与挑战电气_空空自动驾驶人工智能机器学习
摘要：围绕强化学习在自动驾驶领域的应用进行了多方面的概括和总结。对强化学习原理及发展历程进行了介绍；系统介绍了自动驾驶技术体系以及强化学习在自动驾驶领域的应用所需的基础；按不同的应用方向分别介绍了强化学习在自动驾驶领域中的应用案例；深入分析了现阶段强化学习在自动驾驶领域存在的挑战，并提出若干展望。关键词：强化学习；自动驾驶；人工智能近年来，人工智能在各个领域得到了广泛应用。其快速发展为智能交通系统
强化学习：在无人驾驶中的应用 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
强化学习：在无人驾驶中的应用作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着科技的飞速发展，无人驾驶技术逐渐成为汽车工业和人工智能领域的热点。无人驾驶汽车被认为是未来交通系统的重要组成部分，它能够提高道路安全性、缓解交通拥堵、降低环境污染等。然而，实现无人驾驶面临着诸多挑战，其中最为关键的是如何让汽车在复杂多变的交通环
基于强化学习的自动驾驶决策规划算法 AI天才研究院 LLM大模型落地实战指南 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于强化学习的自动驾驶决策规划算法作者：禅与计算机程序设计艺术1.背景介绍自动驾驶技术是当前人工智能领域最受关注和投入的方向之一。自动驾驶汽车需要在复杂多变的交通环境中做出安全、舒适和高效的决策和行动。传统基于规则和模型的决策规划方法已经难以满足自动驾驶的需求。近年来,基于强化学习的决策规划算法越来越受到关注,它能够在复杂动态环境中学习出高效的决策策略。2.核心概念与联系强化学习是一种通过与环境的
原创prompt：员工加班助手姚瑞南 prompt实战应用案例 prompt
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）#Role:员工加班填报助手##Profile:你是一个在公司内部帮助员工填报加班信息、审批的办公室助手，主要任务是通过友好且礼貌的引导员工对话填报加班方式来帮助员工完成加班信息填报
深入探讨：如何在Python中使用流式传输技术高效调用大型语言模型 m0_57781768 python 语言模型 microsoft
深入探讨：如何在Python中使用流式传输技术高效调用大型语言模型在现代人工智能应用中，大型语言模型（LargeLanguageModels,LLM）已经成为了强大的工具，能够生成高质量的自然语言文本，并且被广泛应用于各种任务中，如对话系统、文本生成、内容总结等。然而，如何更加高效地调用这些模型，特别是在实时交互的应用中，往往是开发者面临的挑战。流式传输（Streaming）技术提供了一种解决方案
从0到1：C++ 开启游戏开发奇幻之旅（二）小周不想卷艾思科蓝学术会议投稿 c
目录游戏开发核心组件设计游戏循环游戏对象管理碰撞检测人工智能（AI）与物理引擎人工智能物理引擎性能优化技巧内存管理优化多线程处理实战案例：开发一个简单的2D射击游戏项目结构设计代码实现总结与展望游戏开发核心组件设计游戏循环游戏循环是游戏运行的核心机制，它就像是游戏的“心脏”，不断地跳动，驱动着游戏世界的运转。在游戏循环中，程序会不断地重复执行一系列的操作，包括处理用户输入、更新游戏状态、进行物理模
【Python】解决UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9A in position xxx: illegal multibyte 云天徽上 python运行报错解决记录 python numpy 机器学习深度学习 pandas
【Python】解决UnicodeDecodeError:‘gbk’codeccan’tdecodebyte0x9Ainpositionxxx:illegalmultibytesequence博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人
新零售社交电商系统小程序功能开发详细解析 v.15889726201 零售小程序
现在的购物方式是越来越有趣了，新零售社交电商系统是互联网、大数据、人工智能的技术和咱们熟悉的传统零售深度结合后产生的。它整合线上线下渠道及数据，带来全方位、多渠道、个性化购物体验。借助实时库存管理、智能推荐和无缝购物体验等功能，打破传统电商与实体店界限，其具备以下显著特点：一、系统主要功能分销管理独家推广代码机制：在这个新零售社交电商系统里，每个经销商都有一个只属于自己的推广代码。把这个代码分享给
什么是数字图像？图像识别
点赞+关注+收藏=学会了什么是数字图像？本文可在公众号「德育处主任」免费阅读弄懂数字图像的概念对学习计算机视觉很有帮助。那么，什么是数字图像？字面意思，数字图像就是有数字组成图像。通常由像素（Pixel）组成，每个像素包含颜色或亮度信息。数字图像的格式包括位图和矢量图两种主要类型：位图图像（Bitmap/RasterImage）：由一个个小的像素点组成，每个像素有固定的颜色或灰度值，排列组合形成完
[碎碎念] 重启学习与博客之旅-我的每日计划言午coding 碎碎念碎碎念
好久没在写博客了，今天我下定决心，要重新开始。我给自己定了个小目标，从今天起，每天都要写一篇博客，然后发布到CSDN和掘金上。以下是我的计划。一、每天学点新东西以后每天早上，我都得抽出至少一个小时专门用来学新技术。我打算先列个学习清单，把一直想学但没时间学的技术都写上去，然后按照自己的兴趣和工作需要，一项一项地去攻克。比如说，我最近对人工智能和大数据分析特别感兴趣，所以打算每天看点相关的专业书，或
Python学习笔记 - 探索5种数据类型 Mr数据杨 Python 编程基础 python 数据类型
在当今的数字时代，编程已经成为一种基本技能，不仅适用于软件开发人员，更广泛地应用于数据分析、人工智能、自动化和科学研究等领域。Python作为一种强大且易于学习的编程语言，因其简洁的语法和广泛的应用场景，成为了初学者学习编程的首选语言。在学习Python编程的过程中，理解和掌握数据类型是至关重要的。数据类型决定了程序中可以进行的操作类型，以及如何存储和处理信息。理解不同数据类型的特性和使用场景，不
[特殊字符]【计算机视觉必杀技】三行代码实现文档智能校正（附完整代码）我的青春不太冷计算机视觉人工智能科技学习 Python opencv
文章目录基于四点透视变换的文档图像校正技术1.实现效果2.技术原理2.1透视变换数学模型2.2算法流程3.核心代码解析3.1.1坐标点排序3.1.2透视变换矩阵4.实验结果分析4.1中间过程可视化4.2性能指标5.应用场景5.1纸质文档电子化5.2车牌识别预处理5.3AR场景平面检测5.4工业视觉中的平面定位6.总实现代码7.结论基于四点透视变换的文档图像校正技术在计算机视觉领域，图像几何变换是实
讯飞智作 AI 配音技术浅析（一）爱研究的小牛 AIGC—技术综述 AIGC—概述 AIGC—音频人工智能 AIGC 机器学习深度学习
一、核心技术讯飞智作AI配音技术作为科大讯飞在人工智能领域的重要成果，融合了多项前沿技术，为用户提供了高质量的语音合成服务。其核心技术主要涵盖以下几个方面：1.深度学习与神经网络讯飞智作AI配音技术以深度学习为核心驱动力，通过以下关键模型实现语音合成：Tacotron模型：该模型采用端到端的编码器-解码器架构，将输入文本直接转换为梅尔频谱（Mel-spectrogram），再通过声码器生成语音信号
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他