三、让照片说话

    如何用一张照片做出连贯视频?研究人员认为,这需要时序生成对抗网络(Temporal GAN)来帮忙。这是一个端对端的语音驱动的面部动画合成模型,通过静止图像和一个语音生成人脸视频。模型由时间生成器和3个鉴别器构成,这个生成器由内容编码器(Content Encoder),一个鉴别编码器(Identity Encoder)、一个帧解码器(Frame Decoder)和声音解码器(Noise Generator)组成,不同模块组合成一个可嵌入模块,通过解码网络转换成帧。
    开源项目地址:https://github.com/DinoMan/speech-driven-animation
    观看示例动画:https://sites.google.com/view/facial-animation
1、项目下载
    git clone https://github.com/DinoMan/speech-driven-animation
2、下载模型库
    进入下载地址:https://drive.google.com/drive/folders/17Dc2keVoNSrlrOdLL3kXdM8wjb20zkbF
    将模型文件放在sda/data/
3、安装库
    cd /home/project/speech-driven-animation
    pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
    pip install . 
4、在linux上运行程序
    模型已经在 GRID、TCD-TIMIT、CREMA-D 和 LRW 数据集上进行了训练。默认模型是 GRID,可以指定TIMIT,CRE

你可能感兴趣的:(AI图像处理模型与应用,ai,虚拟现实,python,深度学习,图像处理)