人工智能AI面试常用技术-自然语言2-WORD2VEC

人工智能AI面试常用技术WORD2VEC

先介绍一下我自己,我有过5年以上机器学习的工作经验,主要工作内容有图像分析,自然语言,模式识别。我认为该领域最稀缺的人才是NLP专业,然后是图像分析(CV),我准备做一个系列的文章,把我在面试过程中遇到的各种技术性问题,每个问题分别讲解。上次我们讲到了最常问的LSTM问题

也常常会问的问题: 现在讲解下WORD2VEC

在自然语言中中,词是表义的基本单元。在机器学习中,如何使用向量表示词

顾名思义,词向量是用来表示词的向量,通常也被认为是词的特征向量。近年来,词向量已逐渐成为自然语言处理的基础知识。

word2vec

2013年,Google团队发表了word2vec工具。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。值得一提的是,word2vec词向量可以较好地表达不同词之间的相似和类比关系。

word2vec自提出后被广泛应用在自然语言处理任务中。它的模型和训练方法也启发了很多后续的词向量模型。将重点介绍word2vec的模型和训练方法。

模型

跳字模型

在跳字模型中,我们用一个词来预测它在文本序列周围的词。例如,给定文本序列”the”, “man”, “hit”, “his”, 和”son”,跳字模型所关心的是,给定”hit”,生成它邻近词“the”, “man”, “his”, 和”son”的概率。在这个例子中,”hit”叫中心词,“the”, “man”, “his”, 和”son”叫背景词。由于”hit”只生成与它距离不超过2的背景词,该时间窗口的大小为2。

连续词袋模型

连续词袋模型与跳字模型类似。与跳字模型最大的不同是,连续词袋模型中用一个中心词在文本序列周围的词来预测该中心词。例如,给定文本序列”the”, “man”, “hit”, “his”, 和”son”,连续词袋模型所关心的是,邻近词“the”, “man”, “his”, 和”son”一起生成中心词”hit”的概率。


我之后会在专栏和视频中免费给大家具体讲解细节的技术。包含

负采样,

近似训练法等等




你可能感兴趣的:(机器学习,自然语言处理)