词嵌入的复用

文献:Labutov I, Lipson H. Re-embedding words[C]//ACL (2). 2013: 489-493.

主要思想:

一方面,词的嵌入表示形式与学习任务密切相关(dramatic (term X) and pleasant (term Y ) to correlate with a review of a good movie (task A),而在dating profile的场景中,则表现出相反的情感极性);另一方面,词嵌入学习涉及海量数据,从而计算代价非常之高。再者,许多产生于海量数据的词嵌入表示库可以免费获取。本文从词嵌入知识库的改造与嵌入着手展开研究。

问题形式化

给定源字典 VS , 目标字典 VT , 令 VSVT=V , 源嵌入字典 ΦSR|V|×K , 生成目标嵌入字典 ΦTR|V|×K

方法描述

(1)建立有监督模型

文档 djD 具有情感极性 sj , 学习的实质就是最大化如下条件概率(目标函数):

  • p(s1,,s|D||D;ΦT)=djDwidjp(sj|ΦT(wi)) , 其中 p(sj=1|ΦT(wi))=11+exp(φΦT(wi)) , φ 是词嵌入表示的权重向量。

(2)正则化有监督模型

为了充分利用现有的词嵌入知识库,对上述目标函数做如下改造:
- argmaxφ,ΦTdjDwidjp(sj|ΦT(wi))λΦTΦS2F

考虑到该目标函数在参数 φ ΦT 是凸的,故可其唯一解。

你可能感兴趣的:(词向量化)