多模态文档理解综述:Pix2Struct

Overview

  • Pix2Struct
    • 总览

Pix2Struct

总览

题目: Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding
机构:谷歌
论文: https://arxiv.org/pdf/2210.03347.pdf
代码: https://github.com/google-research/pix2struct
任务:
特点: 预训练与指令微调只用非常少的数据(8张A100训练一天),就可以超过InstructBLIP和千问-VL。

方法: 研究数据、模型和图像输入分辨率的规模影响;
前置相关工作:LLaVA,千问-VL,InstructBLIP

你可能感兴趣的:(人工智能,计算机视觉,论文阅读,深度学习)