【多模态】27、Vary | 通过扩充图像词汇来提升多模态模型在细粒度感知任务(OCR等)上的效果
论文:Vary:ScalinguptheVisionVocabularyforLargeVision-LanguageModels代码:https://github.com/Ucas-HaoranWei/Vary出处:旷视时间:2023.12一、背景当前流行的大型视觉-语言模型LargeVision-LanguageModels(LVLMs)一般都使用共享的visionvocabulary,这个词