code-switch---WORD AND CLASS COMMON SPACE EMBEDDING FOR CODE-SWITCH LANGUAGE MODELLING 新加坡国立大学

新加坡国立大学

WORD AND CLASS COMMON SPACE EMBEDDING FOR CODE-SWITCH LANGUAGE MODELLING
 

摘要 :  由于有限的语言资源和较难预测的单词序列,代码转换语言建模具有挑战性。许多最先进的系统依赖于语言信息,如词性(词性)或类来概括词汇。这类系统通常使用多任务学习或条件网络,通过提供更好的单词预测来改进超过基线的RNN语言模型。为了克服连续空间建模和回退机制带来的数据稀疏性问题,我们提出了一种通过跨语言单词嵌入的方法将单词和类嵌入约束在一个公共空间中,并在单词预测模型较弱时利用预测类嵌入作为回退方案。提出的词和类公共空间嵌入语言模型(CSLM)能够较好地对词的预测进行建模,在只有稀疏训练数据时具有较强的鲁棒性。CSLM在代码转换SEAME语料库上的性能比最先进的语言模型高出9:7%

 

3. EXPERIMENT

      OpenSubtitle[24]和TedTalk[25]中的并行语料库用于训练跨语言单词嵌入。合并后的语料库包括1.47亿令牌和总词汇量(51 + 260)K,分别为中文和英文。语料库涵盖了92%的英语词汇和100%的汉语词汇。将SEAME训练集添加到语料库中,完成对英语词汇的覆盖。用于训练语言模型的语料库为SEAME(东南亚普通话-英语)语料库[26],是在随意交谈或访谈的背景下记录下来的自发会话语料库。为了建立语言模型,我们使用了音频转录。在预处理步骤中,去除犹豫、副语言标记和标点符号,对汉语文本进行[27]分割。数据集的组成如表1所示

       我们为单词嵌入选择了300个维度,为类嵌入选择了200个集群。嵌入空间是使用前面提到的覆盖SEAME火车集合词汇表的预先训练的单词嵌入初始化的,并使其不可训练。我们使用LSTM[28],这是神经语言建模的最新技术。将字典和类的递归层设置为2,在嵌入维之后分别设置隐藏状态维600和300。层数和维数也与之前的基准比较,其中类似的LSTM模型[19]使用了2个重复层和500个隐藏维数。

       此外,将drop-out of 0:4应用于递归层之间,而不是在递归时间步之间,以强制前面的递归层提供更健壮的表示,同时保持递归神经元[29]之间的信息流。辅助类预测采用MSE作为损失函数,词典预测采用交叉熵。交叉熵损失为

 

 

结论 :

实验结果表明,本文提出的CSLM算法能够有效地解决代码转换语言建模中的稀疏性问题。消融分析证明使用预测类包埋ct+1作为单词预测的后退,并限制单词输入和类输出之间共享的包埋空间是正确的。我们在基线的基础上实现了10:7%的困惑减少,在之前的最先进的模型上实现了9:7%的困惑减少。结果表明,该方法对SEAME Eval集的码转换词序列有较大的改进,为码转换语言建模提供了一种良好的方法

你可能感兴趣的:(code-switch---WORD AND CLASS COMMON SPACE EMBEDDING FOR CODE-SWITCH LANGUAGE MODELLING 新加坡国立大学)