【arxiv 2024】T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

【arxiv 2024】T2V-CompBench: A Comprehensive Benchmark for Compositional Text-to-video Generation

  • 一、前言
  • Abstract
  • 1 Introduction
  • 2 Related work
  • 3 Benchmark Construction
    • 3.1 Prompt Generation
    • 3.2 Prompt Categories
    • 3.3 Prompt Suite Statistics
  • 4 Evaluation Metrics
    • 4.1 MLLM-based evaluation metrics
    • 4.2 Detection-based Evaluation Metrics for Spatial Relationships and Numeracy
    • 4.3 Tracking-based Evaluation Metrics for Motion Binding
  • 5 Experiments
    • 5.1 Experimental Setup
    • 5.2 Evaluation Metrics
    • 5.3 Human Evaluation Correlation Analysis
    • 5.4 Quantitative Evaluation
    • 5.5 Qualitative Evaluation
  • 6 Conclusion and Discussions

一、前言

Authors: Kaiyue Sun, Kaiyi Huang, Xian Liu, Yue Wu, Zihan Xu, Zhenguo Li, Xihui Liu

概述:
✔️ 对组合文本到视频生成进行首次系统研究,并提出基准 T2V-CompBench。
✔️ 通过精心设计的指标评估组合性的各个方面,涵盖 7 个类别和 700 个文本提示。
✔️ 提出专为组合 T2V 生成而设计的评估指标,并通过人工评估进行验证:基于 MLLM 的评估指标、基于检测的评估指标和基于跟踪的评估指标。
✔️ 对 20 个文本到视频生成模型进行基准测试和分析,强调当前模型组合文本到视频生成的重大挑战,旨在指导未来的研究。
【Paper】 > 【Github_Code】 > 【Project】

Abstract

mitivation: 文本到视频

你可能感兴趣的:(视频生成/视频理解,T2V,Sora,人工智能,python,职场和发展)