Text-to-Video(T2V)是指从自然语言提示中,生成连续视频帧的技术。它结合了 Stable Diffusion 的生成能力、视频补帧插值技术(如RIFE)、以及字幕驱动、3D建模等工具,构成了多模态AI生成链条。
程序员能做的:
模型 | 机构 | 优势 | 调用方式 |
---|---|---|---|
ModelScope T2V | 阿里 | 中文适配好,免费可用 | Python SDK、Web |
Runway Gen2 | Runway ML | 效果惊艳,支持图片+文字 | API |
Pika Labs | Pika | 高帧率、动画感强 | 在线生成 |
SVD | Stability AI | 开源,支持本地部署 | Diffusers |
本文以 ModelScope T2V 为入门实战例子。