2018-06-27

一、

  • dnn当前现状:need large corpus,当数据量很少时很难训练处一个泛华能力较强的模型。
  • 考虑:如何扩充直接/间接性的扩充数据集,提高模型泛华、拟合能力?

二、对文本多分类任务,作者提出了基于RNN的三种不同的共享信息机制来对文本进行建模,且取得了较好的成果。

  • 共享何种信息:相似任务在训练过程中产生的隐层特征。
  • 本文在实验中用到的相似任务:
    SST-1:5个情绪类别的电影影评,来自斯坦福情感数据库
    SST-2:2分类电影影评,来自斯坦福数据库
    SUBJ:主观性数据集,任务目的是将句子分为主观和客观
    IMDB:2分类的电影影评,大多数评价为长句子

传统RNN:


2018-06-27_第1张图片

2018-06-27_第2张图片

作者提出的三种多任务RNN架构:


2018-06-27_第3张图片

模型一:

  • 任务m、n共享lstm层,最后一步输出各自的预测结果
  • xm为task m的输入,xs为一个可训练的随机向量


  • 为什么要在词向量的基础上加上一个随机向量?

模型二:
每个任务均有一个lstm层,但两个lstm layer之间存在连接,从而共享彼此的隐层信息。每一时刻所有任务的hidden state会和下一时刻的x一起作为输入。

在设计模型架构时,作者借鉴了GRU的部分思想,在两个lstm layer之间引入了gate门控单元。调整后的记忆单元计算方式:


2018-06-27_第4张图片

模型三:
每个任务均有一个lstm层,另外引入双向lstm作为共享层来捕捉所有任务的有用信息用于共享。


2018-06-27_第5张图片

三、训练
Fine Tuning:对于模型1和模型3,具有一个共享层,在联合学习之后可以进行针对性的微调,优化模型效果。

Pre-training of the shared layer with neural language model:对于模型3,共享层可以通过无监督学习进行与训练,用四个数据集进行语言模型的训练。

结果比较:


2018-06-27_第6张图片

结论:
论文的创新点主要在于:作者将多任务学习框架引入RNN,缓解了dnn在训练时数据量不够的问题

参考:

  1. Recurrent Neural Network for Text Classification with Multi-Task Learning
  2. Recurrent Neural Network for Text Classification with Multi-Task Learning https://zhuanlan.zhihu.com/p/27562717

你可能感兴趣的:(2018-06-27)