【基于FaceChain体验aigc创意应用】阿里云机器学习Pai-DSW服务器部署facechain模型

文章目录

  • FaceChain技术解析
    • 个人写真概述
    • 基于文生图模型的个人写真生成基础框架
    • 个人写真模型技术解析
      • 训练阶段
      • 推理阶段
  • 部署并运行FaceChain项目
  • 参考资料

FaceChain技术解析

个人写真概述

生成个人写真需要的信息包括风格信息和人物信息

基于文生图模型的个人写真生成基础框架

文生图模型Stable Diffusion结构
【基于FaceChain体验aigc创意应用】阿里云机器学习Pai-DSW服务器部署facechain模型_第1张图片
AutoEncoder(左):像素空间和潜空间的相互转换,潜空间维度更低,节省计算量,提高模型稳定性
TextEncoder(右):编码prompt,通过cross-attention将prompt注入去噪过程
Denoising U-Net(中):扩散模型的反向去噪过程,得到output的潜空间表示
文生图
input:文本(text)或提示词(prompt)
output:包含文本内容的图像
轻量级微调模型loRA(Low-Rank Adaption)结构
【基于FaceChain体验aigc创意应用】阿里云机器学习Pai-DSW服务器部署facechain模型_第2张图片
通过loRA结构实现原始训练(通用图像的文生图任务)的模型适用到下游任务(特定风格/人物的文生图任务)中
模型loRA结构训练思路

  1. 模型性能主要依赖于低秩维度的内容
  2. 通过在原始训练权重上增加一个降维再升维的旁路,可以实现保证模型性能的同时减少微调参数
  3. 相比于全参微调(full-finetune),loRA模型适合只有少量数据的微调(这里的写真生成即是一个只有几张图片、一些prompt文本少量数据的训练)

个人写真模型技术解析

【基于FaceChain体验aigc创意应用】阿里云机器学习Pai-DSW服务器部署facechain模型_第3张图片
分为训练阶段和推理阶段
训练阶段
input:用户上传的图像
output:人脸LoRA模型
推理阶段
input:用户输入的prompts
output:个人写真图像

训练阶段

人脸图像预处理
集成ModelScope中多个模型 人脸检测关键点模型(解决人脸歪斜的问题)、人体解析(提取人脸mask)、人像美肤、人脸关键点置信度模型(筛选模型)
训练人脸LoRA模型
使用modelscope中的人脸属性模型结合标签后处理,改善文本标注模型生成标签的质量

推理阶段

使用文生图模型生成候选图
再后处理和筛选阶段使用modelscope中的人脸质量模型、图像人脸融合模型和人脸识别模型得到更稳定的结果

部署并运行FaceChain项目

使用夜景港风生成的写真图片

参考资料

  1. FaceChain技术解析与使用演示
  2. Datawhale零基础部署教程

你可能感兴趣的:(#,深度学习实践,机器学习,人工智能,学习,笔记,stable,diffusion,aigc)