自然语言处理(NLP)之路——概念理解——从 Google AI 的 BERT 看自然语言处理(NLP)的预处理

2018 年 10 月 11 日,谷歌 AI 团队在 arXiv 提交了论文,发布了 BERT 模型。BERT(Bidirectional Encoder Representations from Transformers)的中文意思是:语言理解中深度双向转换模型的预训练模式。
BERT 在机器阅读理解顶级水平测试 SQuAD 1.1 中表现出惊人的成绩。毋庸置疑,BERT 模型开启了 NLP 的新时代!

迁移学习与预训练

预训练是迁移学习的第一步。
在神经网络中,我们原先的训练是对以后的任务是有好处的。可以直接“拿来主义”。但是拿来的部分是根据应用场景的变化而不同。

在图片识别中,通常采用神经网络的前几层作为预训练层。
在语音识别处理中,通常采用神经网络的后几层能作为预训练层。
在自然语言处理中,因为词库非常巨大,使用 One-Hot 编码的方式很难计算和处理词的含义,NLP 的预处理其实就是 Word Embedding 的过程。

Word Embedding 文本/单词表示方法的发展历程

说白了,NLP 做的工作就是想办法将文字或者说词语转变为计算机可以处理的数字化向量的过程,即单词向量化的一个过程。

之前的文章也提到过,文本/单词表示方法可以化为两个大方向:离散表示和分布表示。
离散表示主要是 one-hot 表示和 n-gram表示,分布式表示主要是基于矩阵的分布表示,例如GloVe和基于神经网络的分布表示,例如
Word Embedding (词嵌入)。

因此,要明确一个观点:词嵌入≠词向量表示,只是词向量其中的一种表示方法而已

自然语言处理(NLP)之路——概念理解——从 Google AI 的 BERT 看自然语言处理(NLP)的预处理_第1张图片具体可以参考:https://blog.csdn.net/Robin_Pi/article/details/103845731

后续 BERT 部分参考:
https://gitbook.cn/books/5c0cae8c5ded757dd52f5157/index.html

你可能感兴趣的:(自然语言处理(NLP))