关注公众号,发现CV技术之美
ChatGPT、GPT4发布以来,国内外已经出现了许多纯文本多模态的工作,在部分指标上也有着逼近甚至超越的势头。然而其中一个在GPT4技术报告中展示的能力“文档理解”却一直没有模型涉足。前几天,阿里巴巴达摩院发布了多模态大语言模型mPLUG-Owl的升级版mPLUG-DocOwl,专注提升通用文档理解能力,并在ModelScope上线了体验Demo。我们赶紧去看下文档理解这个难题被解决得怎么样了。
Github: https://github.com/X-PLUG/mPLUG-DocOwl
Paper: https://arxiv.org/abs/2307.02499
Demo: https://modelscope.cn/studios/damo/mPLUG-DocOwl/summary
点击https://modelscope.cn/studios/damo/mPLUG-DocOwl/summary就可以立刻体验了。
我先尝试了让它读一下GPT-4的维基页面。问了两个文中的内容,模型都能准确的抽取出答案来。
看来这个抽取能力还不错。我再给它一个MDETR的论文图,看它能不能解释一下。
看起来模型能识别到图中的各个模块以及它们之间的大致关联,但在细节上仍然有一些错误和遗漏。
我们再来看下它读论文图表的能力
这里不仅对图表的目的识别正确,而且对图表中哪种objective更好也回答正确了。
这里我又测试了一下模型理解代码的。
按论文里的说法,这个模型并没有在代码图像上训练过。尽管如此,DocOwl还是有一定的代码理解能力的,比如它能识别到这时Python编写的代码,但却认不出是什么算法。但比纯文本直接输入代码,它的理解效果还是不够理想的。
最后我们再试一下让它直接根据图片解释一下GRiT这个方法的优点。
可以看出它对图像内容的理解非常准确,并且也能结合自然语言知识做出详细的解释。
从Demo体验来看,mPLUG-DocOwl已经能处理高分辨率的文档图片并能给出合适的回复了。但和GPT-4比在准确性和生成能力上还有明显差距。我们再来看一下DocOwl是如何达到这种文档理解能力的。
mPLUG-DocOwl是在mPLUG-Owl的基础上将6种类型的图片汇总成了一个统一范式的Instruction Tuning数据集。在这个基础上做进一步的指令微调,这使得模型即能识别文档,也能理解用户指令和意图,并做出自由回复。
实验结果表明mPLUG-DocOwl已经比肩甚至超越了文档专用模型Donut和Pix2Struct。
模型在各类图片类型上都能有良好的表现。
但同时也能发现,模型在复杂推理、数学计算以及创作性上仍然有不少局限性,有待未来的研究继续解决。
mPLUG-DocOwl是既GPT-4后首个具备视觉文档理解能力的多模态大语言模型,通过文档类数据的指令微调,它让多模态模型mPLUG-Owl具备了理解文档图片的能力。实验也表明它不仅具备卓越的性能,还具有很强的泛化和指令理解能力。
END
欢迎加入「大语言模型」交流群备注:LLM