NLP--Doc2Bow简介与实践Demo(五)

NLP资料PDF链接

 

参考文章:https://blog.csdn.net/qq_16633405/article/details/80578804

总结文章参考:sklearn+gensim︱jieba分词、词袋doc2bow、TfidfVectorizer

Doc2Bow是Gensim中封装的一个方法,主要用于实现Bow模型,下面主要介绍下Bow模型。

1、BoW模型原理
Bag-of-words model (BoW model) 最早出现在自然语言处理(Natural Language Processing)和信息检索(Information Retrieval)领域.。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词(words)来表达一段文字或一个文档.。近年来,BoW模型被广泛应用于计算机视觉中。 
基于文本的BoW模型的一个简单例子如下: 
首先给出两个简单的文本文档如下:

    John likes to watch movies. Mary likes too.
    John also likes to watch football games.
1
2
基于上述两个文档中出现的单词,构建如下一个词典 (dictionary):

 {"John": 1, "likes": 2,"to": 3, "watch": 4, "movies": 5,"also": 6, "football": 7, "games": 8,"Mary": 9, "too": 10}
1
上面的词典中包含10个单词, 每个单词有唯一的索引, 那么每个文本我们可以使用一个10维的向量来表示。如下:

     [1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
     [1, 1,1, 1, 0, 1, 1, 1, 0, 0]
1
2
该向量与原来文本中单词出现的顺序没有关系,而是词典中每个单词在文本中出现的频率。 
也是通过余弦定理计算两个句子的相似度。

2、实践Demo

NLP--Doc2Bow简介与实践Demo(五)_第1张图片

NLP--Doc2Bow简介与实践Demo(五)_第2张图片

NLP--Doc2Bow简介与实践Demo(五)_第3张图片

分之一:BOW词袋模型
由doc2bow变为词袋,输出的格式为:

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (4, 1), (5, 1), (7, 1), (8, 1), (9, 2), (10, 1)], [(0, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (10, 1)]]
1
例如(9,2)这个元素代表第二篇文档中id为9的单词“silver”出现了2次。
--------------------- 
作者:悟乙己 
来源:CSDN 
原文:https://blog.csdn.net/sinat_26917383/article/details/71436563 
版权声明:本文为博主原创文章,转载请附上博文链接!

你可能感兴趣的:(机器学习,NLP自然语言处理)