图像生成文本(一) —— 引入 & 应用

图像生成文本是CNN和RNN的综合应用

CNN用来处理图像,RNN用来处理文本


引入

在深度学习出现之前,我们是没有方法提取出图像中的抽象信息的(抽象信息就指的是图像里有只鸟,图像中是个湖面等)

除此之外呢,深度学习还带来了另一种能力,能够通过循环神经网络去灵活地生成一段有意义的文本

所以,基于这两种限制,我们在deep learning出现之前,做图像生成文本的做法是把它看成是一个检索问题,给定一张图片,从候选句子中选择最匹配的句子

但是这样显然是没有泛化能力的, 对新图像没有结果

 

图像生成文本的应用

①图像搜索

丰富图像搜索元数据,增强搜索效果 

之前的做法是,给输入图像计算一个特征,给图片库中中的所有图片计算一个特征,然后选择特征相似度返回最相近的几张图片

有了图像生成文本之后,就可以将图像生成它的文本描述,然后用这些文本去做搜索

用文本去搜索的结果一般来说会比图像搜索的结果要好

②盲人导航

③少儿教育

 

你可能感兴趣的:(图像生成文本(一) —— 引入 & 应用)