NLP的常见任务
自动摘要
指代消解 小明放学了,妈妈去接他
机器翻译 世界,你好 Hello world
词性标注 Heat(v.) water(n.) in (p.) a (det.) pot(n.)
分词 我/喜欢/吃/火锅
主题识别
文本分类
NLP处理方法
传统:基于规则
现代:基于统计机器学习
HMM,CRF,SVM….
CNN,RNN….
在计算机中表示一个词
要将自然语言交给机器学习中的算法来处理,通常需要首先将语言数值化。词向量技术就是将抽象的词用矩阵向量表示以供计算机处理的技术。
向量空间子结构
VKing - VQueen + VWomen = VMan
VParis - VFrance + VGerman = VBerlin
最终目标:词向量表示作为机器学习、特别是深度学 习的输入和表示空间
表示形式
离散表示:
One–hot, Bag of Words, N-gram
分布式表示:
共现矩阵,Word2Vec, Fasttext
离散表示:One-hot表示
语料库
John likes to watch movies. Mary likes ,too.
John also likes to watch football games.
词典:
{“John”:1,”likes”:2,”to”:3,”watch”:4,”movies”:5,”also”:6,
“football”:7,”games”:8,”Mary”:9,”too”:10}
One-hot表示:
John:[1,0,0,0,0,0,0,0,0,0]
likes:[0,1,0,0,0,0,0,0,0,0]
….
too:[0,0,0,0,0,0,0,0,0,1]
词典包含10个单词,每个单词有唯一索引
在词典中的顺序和在句子中的顺序没有关联
离散表示:Bag of Words
文档的向量表示可以直接将各词的词向量表示加和:
John likes to watch movies. Mary likes ,too.
John also likes to watch football games.
[1,2,1,1,1,0,0,0,1,1]
[1,1,1,1,0,1,1,1,0,0]
词权重:TF-IDF(Term Frequency – Inverse Document Frequency
词t的TF:"词t的TF: