《基于深度学习的图像标题生成算法及应用》 阅读笔记

Reference:

      朱丹翔. 基于深度学习的图像标题生成算法及应用[D].哈尔滨工业大学,2017.

           意义:已有研究都着眼于标题句子中单词和图像内容对应,尚缺乏已输出图像内容对于后续输出的影响。传统验证码识别系统大多都是需要先使用数字图像处理的方法对验证码图片进行处理,需要人工操作,系统的移植性也不高。本文基于标题生成的算法,将验证码图片作为输入,字符作为标题句子,把该问题转换为验证码标题识别问题,发挥深度学习端对端优势。

深度学习相关基础知识

    1. 多层感知机

    归根结底,深度学习就是神经网络。一个标准的神经网络包含了许多简单的相互连接的小处理器,小处理器通常被称为神经元。已有的神经元不断叠加下一层神经网络,形成多层神经网络。

    2. 卷积神经网络

      卷积神经网络是对通过卷积和池化来提取特征的神经网络的统称。

      2.1 卷积操作

        卷积和池化。

      卷积数学本质是定积分,一个函数在另一个函数上的加权叠加。对应到神经网络中,卷积操作的第一个函数是图片或特征图,第二个函数是卷积核,将特征图在卷积核上加权叠加就能生成新的特征图。卷积核有多个就会生成多张特征图。

      公式(2-6)是卷积在神经网络中的前向传播公式(此处未给出)。卷积神经网络中的卷积核可以自动发现图像中的细节纹理特征,细节纹理特征不断组合可以生成更加高级的抽象特征。如一例子,底层图像特征是图像纹理信息,随层数增多,特征抽象程度逐渐增加,高级抽象特征对最终图像分类任务很有帮助。

      2.2 池化操作

        池化是卷积神经网络中第二种常见的网络层,也称为下采样或子采样操作。常见类型:最大和平均池化。后者能保留更多图像背景信息,前者为更多纹理信息。

        公式(2-7)此处未给出。

      2.3 VGG网络

        VGG网络于2014提出,在本课题中被采用为图像特征提取器。VGG网络的作者在论文中由浅到深提出了五种网络结构。A-E五种网络包含不同数量卷积层,E的层数最多效果最佳,但层数越多也会有随之而来的训练时间过长,梯度弥散或爆炸导致训练不稳定等问题。为解决训练不稳定的问题,作者在论文中采用权值初始化来训练神经网络。

   3. 循环神经网络 (语音和自然语言处理 Elman-RNN LSTM)

小结:本课题用到的多种深度学习算法,具体为以上三种,叙述每个算法概念定义和公式推导,并着重讲述了梯度弥散和爆炸问题。后续会在基础知识的基础上进行算法设计和应用。

标题生成算法的研究

      1. 编码器-解码器的整体框架

          在编码器-解码器框架下进行,通过编码器将图像信息编码,然后使用编码器的输出循环解码成一句话。

          本文基于的两种编码器-解码器框架结构。第一种如图(VGG+LSTM)(1) 编码器部分,编码器使用卷积神经网络中的VGG网络提取图像特征作为编码输出,图像特征通常选择VGG网络中的最后一层卷积层特征或者第一层全连接层特征。(2)如图像特征输入后,使用LSTM作为解码器变为句子“a man saw a dog”。

          第二种,与第一种不同的是,在解码过程加入了注意力向量\alpha

       2. 基于past-feeding的图像标题生成算法

          2.1 算法基本思想

          2.2 公式推导

           本质是对输入的词向量求和。

       3. 基于past-attention的图像标题生成算法

          3.1 算法基本思想

                注意力模型是图像标题生成算法中重要的一部分,解码过程中输出的每一个单词都对应到图像中的每一部分,每次预测时关注的图像内容越少,被其它无用信息干扰的可能性就越少。本文使用软注意力算法,向量实数值越接近于1代表越关注,接近0代表不关注。

          3.2 公式推导

          3.4 结果可视化 

             3.4.1 实验环境、数据与整体流程

 

       4. 验证码图像标题生成系统的设计与实现(未完待续······)

 

   初步小结:虽然有很多具体内容看不懂,但大概了解了深度学习和卷积神经网络的相关基础知识,已经在课题中运用神经网络的基本步骤(如选取网络,系统分模块的设计与实现,数学本质的公式推导,结果可视化等等)。

 

你可能感兴趣的:(科研立项)