深度学习——CNN+RNN

文章目录

  • CNN,RNN
    • 图片标注
    • 视频行为识别
    • 图片/视频问答

CNN,RNN

深度学习——CNN+RNN_第1张图片
相同点

  • 都是传统神经网络的拓展
  • 前向计算产生结果,反向计算更新模型
  • 每层神经网络横向可以多个神经元共存,纵向可以有多层神经网络连接
    不同点
  • CNN空间扩展,神经元与特征卷积;RNN时间扩展,神经元与多个时间输出计算
  • RNN可以用于描述时间上连续状态的输出,有记忆功能,CNN用于静态输出
  • CNN高级100+深度,RNN深度有限
    组合后
  • 大量信息同时具有时间空间特性:视频,图文结合,真实的场景对话
  • 带有图像的对话,文本表达更具体
  • 视频相对图片描述的内容更完整

图片标注
CNN特征提取,RNN语句生成

视频分类
RNN特征提取,CNN内容分类

图片问答
CNN特征提取用于对话问答

  1. 特征提取
    LSTM输出,FC层输出
  2. 特征合并
    Concatenate层,Attention相乘
  3. 结果输出
    连续语句输出LSTM,组合分类回归DNN

图片标注

有大量图片及标注信息,能否通过学习建立一个能自动图片标注的模型?
产生标注语句 —— 语句生成任务,考虑LSTM
描述对象:图像 —— 图像信息表达,考虑CNN
CNN网络中全连接层特征描述图片,特征与LSTM输入结合。
深度学习——CNN+RNN_第2张图片
步骤

  1. 图片CNN特征提取
    运用迁移学习
  2. 图片标注生成Word2Vec向量
  3. 生成训练数据:图片特征+第n单词向量:第n+1单词向量
    最终输出模型为LSTM,参数设定:梯度上限(gradient clipping),学习率调整(adaptive learning)。

Loss:
目标探测Loss
目标识别Loss
区域标注Loss

优化:
SGD,Adam

视频行为识别

方法一: CNN特征简单组合
方法二: 3D版CNN
存在问题:没有学到图像特征的前后关系
深度学习——CNN+RNN_第3张图片
方法三:RNN用于CNN特征融合

  1. CNN特征提取
  2. LSTM融合
  3. Linear regression + Softmax分类
    深度学习——CNN+RNN_第4张图片
    方法四:RNN用于CNN特征筛选+融合
  4. 不是所有视频图像包含确定分类信息
  5. RNN用于确定哪些frame有用
  6. 对有用的图像特征融合

方法五:RNN用于目标监测

  1. CNN直接产生目标候选区
  2. LSTM对产生候选区融合(邻近时刻位置近似)
  3. 确定最终精确位置

为了达到更好效果,可能会是多种模型组合模式。

图片/视频问答

给定一张图片,提出图片内容相关问题,问答模型给出答案。
问题类型
深度学习——CNN+RNN_第5张图片
图片问答:

  1. 对纯文本语言问答系统的扩展
  2. 图片理解和语言处理的深度融合
  3. 提高人工智能应用范围

图片特征同语言特征融合
深度学习——CNN+RNN_第6张图片
1 背景故事特征生成(word embedding) - CNN
建立CNN特征的fisher特征,提高特征表达效率,更容易同encoding特征组合
或者用问题作为候选区域,原始CNN特征图局部识别
2 问题特征生成
3 背景,问题特征融合
4 标准答案回归
不同的优化结构方便不同类型的问题回答,数字/种类/抽象/二值判断等。
深度学习——CNN+RNN_第7张图片

你可能感兴趣的:(深度学习——CNN+RNN)