神经语言模型相关论文整理

语言模型现已广泛应用于自然语言处理的多个领域,具有广阔的应用前景,尤其是近两年通用语言模型在多个自然语言处理任务的应用中获得了显著的提升,更是让我们看到语言模型的广阔应用场景。基于神经网络的语言模型是当前效果最好,也是当前应用最为广泛的模型之一,在本文将介绍神经网络语言模型中的一些代表性工作。

  • 2000年,徐伟等人首次提出使用神经网络训练语言模型,提出一种使用前馈神经网络构建二元语言模型的方法:《Can Artificial Neural Networks Learn Language Models》。

  • 2003年,Bengio等人在论文《A neural probabilistic language model》提出使用三层前馈神经网络对语言模型进行建模,其发现第一层的参数用作单词的特征向量表示具有较好的语义形式,同时也解决了词向量表示维度灾难的问题,为后续语言模型的重要应用——产生词向量奠定基础。但此模型仍基于马尔科夫假设,与统计语言模型相比未体现出其优势。

  • 2010年,Mikolov等人首次提出使用循环神经网络对语言模型进行建模:《Recurrent neural network based language model》,文中表明循环神经网络不再依赖于马尔科夫假设,能够更加充分的利用长文本的上下文进行建模,其训练的语言模型对比N-gram模型困惑度下降约50%,同时应用于语音识别能显著地降低其错误率。

  • 2011年,Mikolov等人首次在神经网络语言模型中使用基于词频的层次Softmax模型,其根据词频对单词进行划分簇,对Softmax运算进行加速,其结果显示运算速度大幅提升的情况下只造成困惑度的轻微上升:《Extensions of recurrent neural network language model》。

  • 2016年,Inan等人与Press等人提出了权值共享(Weight Tying)技术,其同期工作表明,将神经网络语言模型中的Embedding层的参数与Softmax分类器的参数共享,不仅能够减少模型的参数,同时也能提升低频词的准确率:《Tying Word Vectors and Word Classifiers: A Loss Framework for Language Modeling》& 《Using the Output Embedding to Improve Language Models》。

  • 2016年,Jozefowicz等人在论文《Exploring the limits of language modeling》中提出CNN Softmax,通过一个Char-CNN网络生成输出层的词向量,而后与上下文产生的向量计算其概率,从而避免了庞大的词向量矩阵参数同时解决了未登录词(Out Of Vocabulary,OOV)的问题。CNN Softmax虽降低了模型参数,但仍需要对整个词汇表作Softmax操作,计算上并没有提升。故而文中还提出使用Char LSTM对于输出词概率进行预测,但是模型参数与计算复杂度都明显下降,模型性能并不理想。

  • 2018年,Merity等人提出AWD-LSTM模型,使用DropConect等一系列正则化技术降低神经网络语言模型中的过拟合问题,同时提出一种平均随机梯度下降的变形的优化方法。该模型在评估指标困惑度上得到了显著提升:《Regularizing and Optimizing LSTM Language Models》。

  • 2018年,Yang提出AWD-LSTM-Mos模型,首次提出Softmax的低秩限制:其表明,若将不同的上下文得到的输出概率拼接成一个预测概率矩阵,在使用Softmax情况下该预测概率矩阵的秩将受限于词向量维度的大小,这限制了模型的表达能力,故而其提出混合Softmax(Mixture of Softmax,Mos),通过训练在同个模型中训练多个Softmax层,对其进行加权求和以提升预测概率矩阵的秩,实验表明模型效果得到显著提升:《Breaking the Softmax Bottleneck: A High-Rank RNN Language Model》。

  • 2018年,Khandelwal等人在论文《Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context》中对神经语言模型中如何使用上下文进行了探究,其通过对上下文进行扰动查看中心词预测的变化进行分析。文中对LSTM语言模型中利用的上下文长度、顺序、实词与虚词的重要性等多个方面进行了分析。

  • 2018年,Gong等人在论文《FRAGE: frequency-agnostic word representation》表明自然语言处理任务中,使用神经网络模型训练所得的词向量的分布会受词频的影响,通过主元素分析法对词向量进行降维后可视化,可以明显看到高频词汇和低频词汇明显分布在不同区域。为了降低上述现象对于模型泛化能力的影响,其通过对抗训练的形式抑制学习词向量中的词频信息,模型在多个任务上显示出效果的提升。

  • 2018年,Peters等人提出使用语言模型的隐含层作为词向量表达ELMo(Embeddings from Language Models),其相对于word2vec等传统词向量,能够更好的表达上下文相关语义,其训练了一个2层BLSTM结构的语言模型,将各层隐藏层合并后作为词向量表达,并在6个NLP任务上获得了性能提升:《Deep contextualized word representations》。

  • 2018年,Radford等人提出了在具体NLP任务中使用语言模型作为附属任务训练目标的GPT模型(Generative Pre-Training,GPT),同时其使用Transformer网络替代LSTM,以更好的提升并行性能和捕抓长距离语言结构,在12个任务上进行了实验,9个任务获得了最佳效果:《Improving language understanding by generative pre-training》。

  • 2018年,Devlin等人提出BERT模型,使用双向Transformer编码器作为语言模型,并且在训练时提出两个新任务——遮挡语言模型(Mask Language Model,MLM)和预测下一个句子的任务,将模型的隐藏层作为特征表示在11个任务上取得了最佳效果:《Bert: Pre-training of deep bidirectional transformers for language understanding》。

你可能感兴趣的:(自然语言处理)