第六十周学习笔记

第六十周学习笔记

论文阅读概述

  • Cap2Det:Learning to Amplify Weak Caption Supervision for Object Detection: This article exploits whole caption sentences to do weakly supervised object detection by encoding caption to predict ground truth image-level object detection labels with the help of traditional unsupervised object detection supervision.

论文复习

  • Top-down Visual Saliency Guided by Captions回顾
    • 使用high-level来引导low-level的文章
    • 引导的方式很特别,以caption model计算出的词的分布作为gt,然后考察平均视觉特征时仅仅用某个key,对这个分布的影响,用KL散度的大小来度量这个key的重要程度(KL散度大,说明仅仅使用这个key对分布影响大,所以这个key是相对不重要的,KL散度小,说明当前的key里包含了之前生成的分布的重要信息,所以它的重要性大)
    • 本文特别之处就是,即便使用了fc特征(由spatial的特征平均得到),也可以通过计算分布的差别来重构出某个Key的重要程度
  • Boosted Attention: Leveraging Human Attention for Image Captioning回顾
    • 文中提到top-down attention 关注的是non-salient 的背景区域的例子,指出了unsupervised attention的不足之处
    • 文中提到human attention对目标仅仅是局部的关注而非整体的关注
    • 本文用saliency boost image captioning的方法是融合模型原有attention结果和saliency检测结果
  • Paying Attention to Descriptions generated by Image Captioning Models
    • 本文的结论是与人类attention相似的模型有更好的表现,但这里的attention是根据模型生成句子的seq得到,而非attention模型中的权值
    • 本文也用saliency map来boost image captioning,具体的做法就是在language model之前对CNN encode的卷积层特征用saliency map的预测结果进行加权

Coding

鹏城的medical caption api

results

ROI attention模型的部分评估结果
第六十周学习笔记_第1张图片

本周小结

  • 完成了api
  • 完成了ROI attention度量
  • 完成了论文回顾

下周目标

  • 完成ROI attention可视化
  • 读论文>5篇

Appendix(日记)

9月23日TODO

bottom-up模型度量

9月23日小结

未完成,下午开始试图对齐生成的caption数据,结果发现存在很大的问题

9月24日TODO

要做的事情有点多,心态小崩,咸鱼了一天=_=

9月25日TODO

  • 鹏城的api写完

9月25日小结

  • api完成,在这里

9月26日TODO

  • 重新建立baseline
  • 检查数据分布
  • 减少checkpoint间隔

9月26日小结

  • Top-down Visual Saliency Guided by Captions回顾
    • 使用high-level来引导low-level的文章
    • 引导的方式很特别,以caption model计算出的词的分布作为gt,然后考察平均视觉特征时仅仅用某个key,对这个分布的影响,用KL散度的大小来度量这个key的重要程度(KL散度大,说明仅仅使用这个key对分布影响大,所以这个key是相对不重要的,KL散度小,说明当前的key里包含了之前生成的分布的重要信息,所以它的重要性大)
    • 本文特别之处就是,即便使用了fc特征(由spatial的特征平均得到),也可以通过计算分布的差别来重构出某个Key的重要程度
  • Boosted Attention: Leveraging Human Attention for Image Captioning回顾
    • 文中提到top-down attention 关注的是non-salient 的背景区域的例子,指出了unsupervised attention的不足之处
    • 文中提到human attention对目标仅仅是局部的关注而非整体的关注
    • 本文用saliency boost image captioning的方法是融合模型原有attention结果和saliency检测结果
  • 结果v1

9月27日TODO

  • ROI attention

9月27日小结

  • Paying Attention to Descriptions generated by Image Captioning Models
    • 本文的结论是与人类attention相似的模型有更好的表现,但这里的attention是根据模型生成句子的seq得到,而非attention模型中的权值
    • 本文也用saliency map来boost image captioning,具体的做法就是在language model之前对CNN encode的卷积层特征用saliency map的预测结果进行加权
  • 完成了对部分bu模型的评估
  • 读了这个礼拜唯一的一篇论文=_=
  • 结果v2
  • ROI attention 未完成

9月28日TODO

  • 完成v3(specific word threshold and cider optimization)
  • 完成ROI attention的可视化

9月28日小结

  • cider效果不好
  • ROI未完成

你可能感兴趣的:(学习笔记)