扩散模型对于文字的渲染已不再是难题

近段时间,人工智能在图像生成方面取得了长足的进步,各种图像生成模型层出不穷,比如最近大火的Stable diffusion,midjourney还有最近和GPT4深度结合的DALL-E3,然而在这些AI生成图像有一个通病,就是对文字渲染不友好。无论是图片中的文字,还是AI直接生成的文字,往往存在着无法渲染出来的问题,或者即使渲染出来,其中的文字也是支离破碎的。这主要是由于现有的图像生成模型难以捕捉并合成细节较高的文字。

当然,有市场就必然有需求,有需求就必然会有人去做这件事情,今天给大家带来两种AIGC文字渲染的方法,简单易用,直接让生产力提升几个档次

第一个就是近几天出来的TextDiffuser: Diffusion Models as Text Painters,

扩散模型对于文字的渲染已不再是难题_第1张图片


TextDiffuser可以生成视觉诱人的文字图像,而且文字内容与背景协调一致。它非常灵活且可控,可以仅使用文本提示、配合文本模板图像、文本提示就可以创建高质量的文字图像,而且可以对含有文本但是不完整的图像进行文字补全。

扩散模型对于文字的渲染已不再是难题_第2张图片

TextDiffuser 由两阶段组成。

第一个阶段是生成布局,基于Transformer的编码器-解码器模型从文本提示生成字符级分割掩膜来表示图像中关键词的布局,特征掩膜可以覆盖整个图像或部分图像,对应整体图像生成和部分图像生成。

第二个阶段就是图像扩散:通过去噪和字符感知损失,逐步学习去噪特征。扩散模型在潜空间中运行,使用图像像素可以获得更好的可视化效果。

接下来就是体验环节,有三种方式,一种是在google colab,一种是官方的demo在线体验

google colab:textdiffuser.ipynb - Colaboratory (google.com)

逐步运行每一段代码即可,结果如下:

扩散模型对于文字的渲染已不再是难题_第3张图片

扩散模型对于文字的渲染已不再是难题_第4张图片

另外一种方式,我们可以直接在线体验demo:TextDiffuser - a Hugging Face Space by JingyeChen22

扩散模型对于文字的渲染已不再是难题_第5张图片

把你想要渲染的文字放在单引号中,然后点击generate:

扩散模型对于文字的渲染已不再是难题_第6张图片

第三种方式就是本地部署,需要clone git仓库以及下载对应的模型

conda create -n textdiffuser python=3.8
conda activate textdiffuser
pip install -r requirements.txt
git clone https://github.com/JingyeChen/diffusers
cp ./assets/files/scheduling_ddpm.py ./diffusers/src/diffusers/schedulers/scheduling_ddpm.py
cp ./assets/files/unet_2d_condition.py ./diffusers/src/diffusers/models/unet_2d_condition.py
cp ./assets/files/modeling_utils.py ./diffusers/src/diffusers/models/modeling_utils.py
cd diffusers && pip install -e .

然后下载并解压模型,模型链接如下:

https://huggingface.co/datasets/JingyeChen22/TextDiffuser/resolve/main/textdiffuser-ckpt-new.zip

然后运行如下指令

CUDA_VISIBLE_DEVICES=0 python inference.py \
  --mode="text-to-image" \
  --resume_from_checkpoint="textdiffuser-ckpt/diffusion_backbone" \
  --prompt="A sign that says 'Hello'" \
  --output_dir="./output" \
  --vis_num=4

有兴趣且电脑配置过硬的同学可以试试

接下来为大家介绍另外一种AIGC文字渲染的方式,我们进入如下网站Ideogram: Helping people become more creative.

扩散模型对于文字的渲染已不再是难题_第7张图片

大家可以发现,这里也能生成风格迥异的文字,你可以挑选你喜欢的风格并复制prompt,然后将prompt中渲染的文字替换成你自己的即可,当然你也可以通过prompt创建你自己的文字风格。

例如输入如下prompt:Text two name "lady miss" in gold pink flowers, elegant diamond font, shiny, magestic, with colorful some flowers,hearth and diamonds, with a delicate pink princess crown, 3d render, typography, photo

生成图像如下:

扩散模型对于文字的渲染已不再是难题_第8张图片

两种扩散模型对于文字的渲染方式大家可以尝试下,喜欢的小伙伴一键三连哟

你可能感兴趣的:(人工智能)