ID保持的人像生成

目录

1. facechain

2. EasyPhoto:高质量SDWebui艺术照插件​​​​​​​

3.  PhotoVerse

4. 无需Lora炼丹也能保持同一人物?ControlNet新功能Refrece Only测评​​​​​​​

AIGC真实人像写真,也即输入一些图片,生成图片里对应人物在不同场景和风格下的图片。妙鸭相机作为AIGC领域一款成功的收费产品为大家展示了如何使用AIGC技术只需要少量的人脸图片建模,即可快速提供真/像/美的个人写真,在极短的时间拥有了大量的付费客户. 目前面临很多的挑战: 超长的训练微调时间、大的存储需求、需要输入多张图(落地时期望只输入一张)、在保持ID和风格可编辑间进退维谷、此消彼长.

妙鸭相机是图像生成式AI在国内的首款现象级应用,由阿里和优酷内部孵化而来。团队对妙鸭相机的定位是「每个人的AI摄影师」,希望可以帮助用户「便宜、快捷、安全地追求美」。而社交媒体上的晒图热情也体现了大众对妙鸭生成效果的肯定。「表情自然」「像自己又比自己美一点」是常见的对其的评价.

目前可以公开体验的包括facechain、EasyPhoto和PhotoVerse​​​​​​​​​​​​​​

1. 妙鸭相机

​​​​​​​对话「妙鸭」产品负责人:AIGC 的产品第一天不收钱,就可能收不到钱|​​​​​​​

无论在哪里,对于美和摄影的需求是存在的,因为人们总是希望为自己留下值得纪念的照片

妙鸭为什么会走红?最重要的因素是团队成员的坚定和努力。团队氛围简单、直接,目标清晰,追求极致的风格。我们花了三个月以上的时间打磨一个效果,以获得更好的用户体验和效果。第二是公司对创新的鼓励、支持、包容,以及看到一些阶段性成果之后,进一步的支援

怎么平衡出片的真实和美? 七八分像,两三分美。我们在定写实人像的业务方向时,提到真、像、美,这三个方向,一个是无 AI 感,然后能够尽可能像我,但要比我美。不管是美颜相机,还是每一代的拍摄产品,这算是常识

2. facechain

FaceChain人物写真生成软件,AI在线生成人物写真照

功能近似“秒鸭相机”?从代码层面一探究竟阿里达摩院 FaceChain

 阿里出品,优点: 分成两个Lora,离线训练的风格Lora和需要在线训练ID Lora模型。生成的照片与原始照片非常相似,可以轻松分辨出同一张脸。这款应用实际上是一个换脸软件,它将原始人物的脸换成了指定的面孔。与其他换脸软件不同的是,它可以生成指定风格的图片。

缺点 训练时间长(数十分钟级)、推理时间长(数分钟级)、显存要求高(20G+)、GPU利用率有待提升,界面复杂,同时依赖和国内网络,下载体验差;不能处理风格图片,只能用于写真

​ facechain原理

个人写真模型的能力来源于Stable Diffusion模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。考虑影响个人写真生成效果的主要因素:写真风格信息,以及用户人物信息。为此分别使用线下训练的风格LoRA模型和线上训练的人脸LoRA模型以学习上述信息。个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调Stable Diffusion模型的图像与文本标签数据,得到人脸LoRA模型;推断阶段基于人脸LoRA模型和风格LoRA模型生成个人写真图像

3. EasyPhoto:高质量SDWebui艺术照插件

视频教程: 8张照片训练个人LoRA,一分钱不花打造“AI写真”

​​​​​​​EasyPhoto 人像训练与生成原理详解

推理流程

4.  PhotoVerse

ID保持的人像生成_第1张图片

5. 无需Lora炼丹也能保持同一人物?ControlNet新功能Refrece Only测评​​​​​​​

参考模式这项新功能需要我们将插件更新到1.1.153版本及以上

只在controlnet中上传一张狗狗的图片,引导词也非常简练,仅仅是 "a dog running on grassland, best quality, ...",然后就得到了主体相似、风格也相似,但是动作符合引导描述的图像,效果可以说非常惊艳

如果能够省去lora训练的成本确实很有诱惑,毕竟训练lora需要很好的显卡还要大量时间处理图片

  • 参考模式可以将给定的一张图作为生成图的参照物,通过相对简单的引导词即可用参考图的内容生成到新图中
  • 相比controlnet草稿模式,参考模式拥有很多的随机发挥的灵活性
  • 参考模式可以大大减轻编写引导词的工作量
  • 结合open pose或者多次迭代修正,可以实现类似lora的效果
  • 参考模式能够比重绘更轻易的实现2d,2.5d,3d的转换

6. AI重磅更新!一张图就能实现画风迁移!腾讯团队出品IP-Adapter支持ControlNet 

IP-Adapter:用于文本到图像扩散模型的文本兼容图像提示适配器 - 知乎

IP Adapter,我愿称之它为SD垫图 

ID保持的人像生成_第2张图片 输入一个大卫雕像,它就相当于一个image prompt,加上不同的controlnet及不同的sd模型,也会出现不同的效果

你可能感兴趣的:(AIGC)