Notion – The all-in-one workspace for your notes, tasks, wikis, and databases.
1.1对各个模态之中的语义信息进行有效的挖掘;embedding & knowledge injection & extraction
1.2建立各模态之间的准确关联和对齐;alignment
1.3高效地融合模态信息和答案推理。Fusion & inference
2.1在RSVQA数据集中没有对象注释,这使得模型很难利用信息区域表示。小痛点,attention解决
2.2在RSVQA任务中,每个图像都有不同难度的问题。 直接用随机顺序的问题训练模型可能会混淆模型并限制性能。Easy 2 Hard inference 标注形式,问题塑造解决
2.3 难标注问题,语义信息获取不直观 & 长尾问题。(种类和QA形式,例如:Yes/No)
2.4 RSVQA要从驳杂的遥感图像中提取信息,非专家可以直接获得高阶信息。(RSVQA实际价值,小小点)
2.5数据集缺乏多样性,且多为半自动标注。(数据集驱动)
待定
4.1 VQA可以和retrieval做联合学习(无人做,大点 Supervise injection)
类似label smooth,把QA文本做自注意力得到软提示embedding,再把其feature map作为一种监督信息(外部知识)引入到retrieval下游中。
4.2 Segmentation与RSVQA做联合学习(无人做,大点 Supervise injection结合2.1)
4.3 以chain of thought形式进行推理结合,需要细标数据集的软推理过程。其中推理语义可以做semantic smooth ,推理过程可引导复杂性问题。(巨大点,范式类工作inference,但对数据集有严格要求)
4.4 分类问题和VQA做联合(有人做)但RSVQA无人做(中点Supervise injection)
4.5 双transformer解耦后做下游,融合特征方法(锦上添花,小点 Fusion)
4.6 自监督(中点,效果可能不好)
4.7 引入权威外部知识库作为引导源(大点,需要结合4.3难度较大inference & knowledge injection)类似4.1的阉割版
4.8 单词注意力引导,挖掘图文信息(中点,一个中等trick embedding & extraction)
4.9 充分利用嵌入在问题答案中被现有模型忽略的语义信息,候选答案作为知识注入(中点,一个中等trick alignment)
4.10多模态关系注意力网络,用以对问题文本和视觉目标之间的关系信息进行建模并进行有效的关联,在获取问题单词之间潜在的语义关系的同时也能精确提取视觉目标之间的空间语义关系信息。此外,该方法能够有效地结合视觉图像中的表观特征和关系特征,从而获取更好的视觉表征。(巨大点,范式类工作inference,但对数据集有严格要求)
4.11 渐进,同一地区的遥感图,做逐帧拆分的VQA推理。(巨大点,范式类工作inference,但对数据集有严格要求,需要卫星数据并处理)
4.12 translation & VQA做联合学习 caption和 translation做联合学习
4.13 prompt作为判定条件(通常在多模态生成任务中),但是可以作为一个小点,很novel,其中prompt需要设计。
4.14 可以用Partial Distance Correlation 去解决多任务联合学习的小痛点。(小点,解耦工作,性价比高,概念新颖);从letent space入手,Disentanglement作为处理原则,Distance Correlation for nuisance variables to figurer out the influence of the main variables(去伪存真);多网络场景下删除随机变量问题转化为网络在Partial Distance Correlation上学习到独有的特定知识。(Eg. VIT & Res)
4.15把4.5的各种引导机制结合,作为骨干网络提取出全局、局部特征进行下游,两个维度的对齐。(中点,一个中等trick & alignment)
4.16 大范式,Clip具有同一个预训练多模态语义空间,可以用遥感数据集微调(KD),生成遥感多模态空间,最后以prompt方式进行下游。(大点,一个中等trick 引导 & alignment)
4.17 纯语义&ATT做下游,融合特征方法(锦上添花,小点 Fusion&视角)
4.18 对比学习(巨大点,范式类工作inference,但对coding有严格要求)
当然,也可以把对比学习当成传统Retrieval的弱信号监督。
4.20
·对话式开放式问题回答
·Multi-task encoder-decoder模型(可以做联合学习)
·处理共指信息(e.g, with question re-writing)
·改善结果的可解释性,以分割和文本的方式对问题做新定义
·显示支持答案的信息:缺乏对视觉信息的推理能力
·提高对空间关系和视觉的理解,捕捉对象间的空间关系、不同场景的特征,可以捕获空间关系和组合型的图像构建表示。即常规区域的区域表示或场景图。每种图对应一种稀疏表示。
·场景组合性
·基于场景图的中间表示
·扩大规模(例如,通过调整CLIP等模型,通用多模态预训练)