【Deep Learning学习笔记】A Unified Architecture for Natural Language Processing_ICML2008

题目:A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning

作者:Ronan Collobert

单位:NEC

发表于:ICML2008


主要内容:

用DNN的方法,将language model, pos-tag, NER, chunk, SRL(Semantic Role Labeling )统一到一个框架中,最终利用language model, pos-tag, NER, chunk等任务中自动学习的feature来提升SRL的性能,实验结果与state-of-the-art相当。


具体内容:

系统总体架构:

【Deep Learning学习笔记】A Unified Architecture for Natural Language Processing_ICML2008_第1张图片


词向量表示组成语言模型。输入是一个分词之后的语句,词语替换成词向量表示形式(这部分由非监督学习训练而成,借鉴Bengio的工作),在词语基础上,是Pos-tag、NER、Chunk、SRL等工作,这些工作通过训练语料,用有监督的学习方式得到。这其中存在一个问题:输入语句是变长的,而NN的输入是定长的,如何解决这个矛盾?

方法1:用固定的窗口,来采集上下文特征。如预测位置i的词语对应的pos、NER标记等等,采用[i-d, i+d]区间的词语,作为特征来预测。这种方法与ME、SVM的使用方法是一样的。不过不能够利用更远距离的信息。

方法2:这篇文章采用TDNN(Time-Delay Neural Networks,Waibel et al., 1989)的模型,基本思路是对于变长序列做了一个卷积变换,输出一个固定长度的序列,这个序列长度由kernel决定。


语言模型训练过程中的准则函数是:

【Deep Learning学习笔记】A Unified Architecture for Natural Language Processing_ICML2008_第2张图片


相关工作:

a unified approach在从前也有很多工作。一种方法是Cascading的方法,即先做完分词,然后用分词的结果做pos-tag,然后是NER等等。另一种方法是上述过程并不分离,而是统一用一种过程(如:CRF)来同时输出多个结果,如:即是分词边界,又是词性信息,又是NER边界等等。



你可能感兴趣的:(DL)