词向量 Word2vec 详解

NLP的常见任务

自动摘要

指代消解                          小明放学了,妈妈去接

机器翻译                           世界,你好             Hello world

词性标注                          Heat(v.) water(n.) in (p.) a (det.)  pot(n.)

分词                                 /喜欢//火锅

主题识别

文本分类

NLP处理方法

传统基于规则

现代:基于统计机器学习

HMM,CRF,SVM….

CNN,RNN….

在计算机中表示一个词

要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数值化词向量技术就是将抽象的词用矩阵向量表示以供计算机处理的技术。

向量空间子结构

     VKing  - VQueen  + VWomen  = VMan        

 VParis  - VFrance  + VGerman  = VBerlin

最终目标:词向量表示作为机器学习、特别是深度学 习的输入和表示空间

表示形式

       离散表示:

        One–hot,   Bag of Words,   N-gram

     分布式表示:

        共现矩阵,Word2Vec,  Fasttext

离散表示:One-hot表示

语料库

John likes to watch movies. Mary likes ,too.

John also likes to watch football games.

词典:

{“John”:1,”likes”:2,”to”:3,”watch”:4,”movies”:5,”also”:6,

“football”:7,”games”:8,”Mary”:9,”too”:10}

One-hot表示:

John:[1,0,0,0,0,0,0,0,0,0]

likes:[0,1,0,0,0,0,0,0,0,0]

         ….

too:[0,0,0,0,0,0,0,0,0,1]

词典包含10个单词,每个单词有唯一索引

在词典中的顺序和在句子中的顺序没有关联

离散表示:Bag of Words

文档的向量表示可以直接将各词的词向量表示加和:

John likes to watch movies. Mary likes ,too.

John also likes to watch football games.

[1,2,1,1,1,0,0,0,1,1]

[1,1,1,1,0,1,1,1,0,0]

词权重:TF-IDF(Term Frequency – Inverse Document Frequency

tTF"词t的TF:

你可能感兴趣的:(知识储备,机器学习)