面对稀疏噪声的有标签数据时如何改造通用词嵌入表示

文献:RF Astudillo , S Amir , W Lin , M Silva , I Trancoso. Learning Word Representations from Scarce and Noisy Data with Embedding Sub-spaces[C]. ACL 2015:1074–1084

Motivation

NLP中有监督学习任务的通常做法是:利用无监督词嵌入算法完成词嵌入层的初始化,然后利用应用领域内的有标签数据进行基于误差反向传播的词嵌入更新。当面临有标签数据非常稀疏且噪声很大时,使得模型有严重的学习过度问题、未知单词无法实现嵌入向量的更新,也即是传统方法难以适用。

方法

考虑到结构化skip-ngram模型要优化的概率是 p(wp=j|w=i)=exp(CpjEwi) , w=i 表示当前窗口中心词是vocabulary中的第 i 个词, wp=j 表示当前窗口中心词的语境词 wp 是vocabulary中的第 j 个词. E 为嵌入矩阵, Ewi 表示提取 wi 的嵌入表示, Cpj 就是第 j 个单词的输出矩阵。 ERe×v , CpjRv×e .
学习 S 并以 S E 进行低维投影,提出非线性子空间嵌入模型NLSE (Non-Linear Sub-space Embedding)如下:
给定文本序列 m=[w1,,wn] , 分类学习对应的概率为 p(y=k|m)exp(Ykh1) , 其中 h=σ(SEm) , h{0,1}e×n

你可能感兴趣的:(面对稀疏噪声的有标签数据时如何改造通用词嵌入表示)