image caption generation系列博文整理

cvpr 2018 image caption generation论文导读(含workshop)

这里只是简单整理一下image caption generation相关资料的出处,首先整理出自己在知乎上相关问题的回答:
现在的计算机视觉:图像字幕(image caption)领域发展到什么程度了呢?
个人觉得刚起步没多久,当然,也可能是本人知识水平有限。从我浅薄的认识来看,image caption的问题从传统的分类问题一脉相承过来的,简单的二分类任务,之后有了多分类任务,在这个基础上,把多分类任务的标签级别降低到像素级,就成了语意分割,但是这样数据库不好构建,耗费心神,然后怎么办呢?那就不用构建专门的数据库,利用网络上存在的大量数据,构造图片-文本的数据库,利用这个数据库来进行分类,或者叫image caption(要和多分类做区别,多分类类别没有顺序,而caption是要生成有意义的句子),但是目前,生成的句子其实很难有创新,最终效果上看,基本上和从数据库中抽取没有什么不同。评价标准也很匮乏,基本上是从机器翻译那里过来的,因为本身可以说是一个不确定的任务,有点真正的人工智能的意思,但真正的人工智能,我一直认为处在起步状态。
image caption目前的研究现状,有什么地方可以改进的?
可以改进如果是理论上那就太多了,但实践上如何改进是非常困难的。

首先:

评价指标是一个硬伤,因为是从机器翻译那里过度过来的,所以很多时候,和数据库本身依赖性非常大,无论是bleu, rouge,还是相对靠谱的meter, cider,比较新的spice,个人觉得都无法按照人的思路去判定一个caption的产生句子的好坏。可能人工智能必须要相当成熟,才能达到我想要的阶段,所以这是一句废话。

其次:

方法上,我看不到什么真正基于问题的创新,尤其是做图像,基本上改改框架,为什么要这么改?效果为什么好?谁也不知道,解释的相对比较清楚的,应该就是attention的show, attend and tell了,比较好的解释了为什么使用卷积层的特征,但是其实呢?如果换成全连接层的,效果会更好(被人科普的,没有实验验证),所以本身创新比较难。

最后:

除了英文的之外,中文的最近也做了很多,除了自然图像和视频(video caption)之外,遥感影像(exploring modes and data for remote sensing image caption generation)也开始做了,发展思路基本上是一样的,所以现阶段能做的,是在刷新数据库的基础上,努力突破关键性问题。

接下来是一些,资料,个人认为,如果不了解,想要入门,可以看这个翻译过来的资料
一周论文 | Image Caption任务综述。
大概的历史了解了之后,可以看一些知乎上整理的相关专栏:
Image Caption 深度学习方法综述
图文互搜论文综述
看完了上面的内容,基本大概就都了解了,但只是大概,想要细节性的了解一些算法,可以参见下面的几篇博客:
attention机制的caption系列博文

说到底,上面这些都是入门了解大概的,根本还是论文,根本的根本,是论文的相关代码。

你可能感兴趣的:(论文阅读,迁移学习,NLP)