梳理文本表示(词嵌入技术:Word Embedding)相关方法

梳理文本表示(词嵌入技术:Word Embedding)相关方法

概述

文本的表示是自然语言处理领域重要的工作,如何更好地表示文本语义是自然语言处理领域实际应用的重要基石。通过训练得到的词嵌入向量表示,可以认为其即代表单词本身其含义。单词在不同语境下的含义不一样,不同的语境下涉及到一词多义问题,如何准确表示词嵌入向量以适应不同的语境也是目前研究的热点。目前词嵌入技术还处于初级阶段,还有很多问题值得深入研究。

将文本数据转换为计算机可以识别的表示是自然语言处理中非常重要的一个环节。词嵌入技术的表示方法是目前流行且有效的方法,如何找到通用的词嵌入表示方法成为近年来学者研究的热点问题。文本的词嵌入表示也很大程度上决定了具体应用任务的性能。

目前词嵌入的技术包括早期的传统的词表示法,如独热表示(one-hot representation)TF-IDF 等,以及词的分布式表示法(distributed representations ),如ELMo、Bert 等。

传统的词表示法

独热表示

缺点1一个问题是独热表示的向量为稀疏表示,词汇表的大小决定了向量的维度大小,而当词汇表里单词很多时,向量的维度也就会很大,则会存在维数灾难的问题。且其表示能力弱,N 维度大小的向量仅能表示 N个单词。

缺点2另一个问题是,不同单词使用独热表示得到的向量之间是相互独立的,这就造成了“语义鸿沟”的现象,即独热表示也不能表示一个单词与另一个单词的语义相似度

TF-IDF

TF-IDF 是一种用来计算每个单词重要性的关键词抽取的方法。通过计算词频和逆文本频率,TF-IDF 在考虑效率的同时也得到了比较满意的效果

缺点由于 TF-IDF 仅仅考虑与词频相关的统计,没有关注单词与单词之间的联系。与独热表示相同,TF-IDF 依然存在向量维度较高、不能准确表示文本语义的缺点

......

词的分布式表示法

Word Embeddings are dense,distributed, fifixed-length word vectors, built using word co-occurrence statistics as per the distributional hypothesis

相比传统的词表示法,词的分布式表示法较好地解决了以上问题。与简单的词嵌入表示如 TF-IDF 相比,词的分布式表示[1] 是一种维度大小相对较低的稠密向量表示,且每一个维度都是实数。分布式表示将所有信息分布式的表示在稠密向量的各个维度上,其表示能力更强,且具备了不同程度上语义表示的能力。

[1]Hinton G.E. Learning Distributed Representations of Concepts[C]. Eighth Conference of the Cognitive Science Society,1989.

静态的词嵌入表示

NNLM

NNLM 是由 Bengio 等人在 2003 年提出的模型[2]。NNLM 模型中的思路较为简单,我们认为句子中某个单词的出现与其上文存在很大的相关性,其中 N 元语言模型即表示这个单词与其前面的 N-1 个单词有关。即输入是目标单词上文的单词,学习任务是要求准确预测这个单词。模型在拟合过程中,优化目标是使得预测概率最大似然化.

[2]Bengio Y.,Ducharme R.,Vincent P. A Neural Probabilistic Language Model[J]. Journal of Machine Learning Research,2003(3):1137-1155.

在 NNLM 模型中,词嵌入映射矩阵是作为参数而存在的,训练这个语言模型时,词嵌入表示也在不断地被训练。即模型不仅可以根据上文预测后面接的单词,还得到了单词的词嵌入这个副产品。

NNLM 使用稠密向量作为单词的词嵌入表示,解决了简单词嵌入表示如 TF-IDF 的向量稀疏等问题。TF-IDF 不具备不同语境下表示不同语义的功能,而NNLM 可以在相似的语境下预测相似的单词,具备了一定表示语义的功能。

Word2Vec

Word2Vec 是谷歌开源的训练词嵌入向量的工具,其中又包括 CBOW 和 Skip-Gram 两种不同的训练模式[3]。

[3]Mikolov T.,CHEN K.,Corrado G.,et al. Efficient Estimation of Word Representations in Vector Space[J]. arXiv Preprint:1301.3781,2013.

和 NNLM 顺便得到词嵌入表示的方法不一样,学习每个单词的词嵌入表示是 Word2Vec 的主要任务。

Word2Vec 的缺点是,由于其训练出来的词嵌入向量表示与单词是一对一的关系,一词多义问题还是没有解决。

单词在不同上下文中是具有不一样含义的,而Word2Vec 学习出来的词嵌入表示不能考虑不同上下文的情况。

动态的词嵌入表示

通过 NNLM、Word2Vec 等技术方法得到的静态的词嵌入表示,其本质上就是当模型训练好之后,在不同的上下文语境中,单词的词嵌入表示是一样的,不会发生改变。为了解决一词多义问题,考虑上下文而选择不同语义,动态的词嵌入方法提供了研究的思路和方向

ELMo

2018 年,Peters 等人首次提出了 ELMo 模型[4]。与静态的词嵌入表示得到固定向量表示不一样,ELMo 首先通过语言模型进行学习,得到单词的一个词嵌入表示,在实际使用词嵌入时,根据上下文单词的语义再去调整单词的词嵌入表示,从而使得单词在不同的上下文语境中得到不同的词嵌入表示

[4]Peters M.E.,Neumann M.,Iyyer M.,et al.Deep Contextualized Word Representations[J]. arXiv Preprint arXiv,2018(1802):5365.

其网络结构采用了双层双向 LSTM 网络。其中前向双层 LSTM 和逆向双层 LSTM 分别代表正方向编码器和反方向编码器,输入的分别是单词的上文和下文。一个句子输入到训练好的网络中,最终将得到每个单词三个不同的嵌入表示:双向 LSTM 中的两层词嵌入表示以及单词的词嵌入表示。其中双向 LSTM 中的两层词嵌入表示分别编码了单词的句法信息语义信息。在做实际任务时,网络中单词对应的词嵌入表示将被提取出来作为新特征补充到实际任务中去。

优点与之前的静态词嵌入表示方法相比,ELMo 最大的创新之处就在于,ELMo 可以依据不同上下文来动态地生成相关的词嵌入表示。

缺点1对比后来出现的 BERT 等模型,ELMo 的不足之处有两点:一是 ELMo 模型中使用 LSTM 来提取特征,而LSTM 提取特征的能力没有后来的 Transformer 好

缺点2二是其采取的是用双向简单的拼接来融合特征,而后来的 BERT 一体化融合特征表现更好。

OpenAI GPT

在基于无监督方式进行预训练时,GPT[5] 仍然是使用标准的语言模型来训练,学习出来单词的词嵌入表

示,然后可以在通过很小的调整之后应用到不同的任务中去。与 ELMo 相比,ELMo 模型中的特征提取器是

使用的 LSTM ,GPT 采用的则是 Transformer , Transformer 是谷歌团队在 2017 年提出的模型[6],其中最主要的是自注意力机制。自注意力机制是注意力机制的另一种形式。在 Transformer 公布之前,自然语言处理领域的神经网络,大多数是浅层的,而 Transformer 公布以来,才将其网络层数上升到几十乃至上百层。Transformer 摒弃了如 RNN、LSTM 等时序类模型结构,而相比 RNN 等时序类模型又有更多的优点,如并行化地更快速的处理,以及能学习更长距离的依赖关系等。GPT 的不足之处在于,其采取的语言模型是单向的,未考虑下文

[5]Rajpurkar P.,Zhang J.,Lopyrev K.,et al. Squad:100,000+Questions for Machine Comprehension of Text[J]. arXiv PreprintArxiv,2016(1606):5250.

[6]Vaswani A.,Shazeer N.,Parmar N.,et al. Attention Is All You Need [C]. Advances in Neural Information Processing Systems,2017:5998-6008.

BERT

2018 年 10 月,谷歌团队提出了 BERT 模型[7]。作为自然语言处理领域近几年来研究成果的集大成者,BERT 也为词嵌入表示的研究提供了很好的思路。

[7]Devlin J.,CHANG M.W.,Lee K.,et al. Bert:Pre-Training of Deep Bidirectional Transformers for Language Understanding[J]. arXivPreprint arXiv:1810.04805,2018.

和 GPT 一样,在 BERT 中,特征提取器也是使用的Transformer。且 BERT 与 ELMo 在最高层进行简单的拼接特征不一样,BERT 模型是真正在双向上深度融合特征的语言模型可以认为,BERT 同时拥有 ELMo 和GPT 两个模型的优势。

在 BERT 出现之前的词嵌入技术,如 Word2Vec 中,一个句子的嵌入表示,往往简单的使用 Word2Vec 得到的各个单词的词嵌入表示进行平均或加和得到,这就导致无法得到包含深层语义的词嵌入表示,实际任务中效果也较差。而通过BERT 得到的词嵌入表示融入了更多的语法、词法以及语义信息,而且动态的改变词嵌入也能够让单词在不同语境下具有不同的词嵌入表示。

虽然目前 BERT 模型效果已经很好,但也存在不足的地方,主要有两点:一是数据规模要求较高,如果

没有足够大的语料,则很难达到期望的效果。二是开销较大,其计算量很大,所需成本较高。

结语

在自然语言处理领域任务中,文本的词嵌入表示是很重要的一环,大量的研究针对其进行展开。从传统的基于统计的 TF-IDF 表示,到静态词嵌入表示如NNLM、Word2Vec,再 到 动 态 词 嵌 入 表 示 如 ELMo、BERT 等,词嵌入技术也随着深度学习技术以及自然语言处理领域的发展而渐趋成熟。同时词嵌入技术也是自然语言处理领域产业实际落地的重要支撑力量,未来也还有许多问题值得深入地研究。

想更深入的了解可以参考以下论文

Word Embeddings: A Survey

A Survey on Contextual Embeddings

Pre-trained Models for Natural Language Processing: A Survey

你可能感兴趣的:(梳理文本表示(词嵌入技术:Word Embedding)相关方法)