一、停用词
1、含义:在语料中大量出现,但对我们分析没什么用的词,但对分析有干扰作用,需要剔除后再计算词频;比如:标点符号,量词等
2、停用词表百度搜索就有一堆了
二、TF-IDF
前言:
比如对《中国的蜜蜂养殖》进行词频统计,去掉停用词后计算词频发现“中国”、“蜜蜂“、“养殖” 三个词出现的次数一样多,但重要性一样吗?“中国”常见,但“蜜蜂“、“养殖” 不常见,对此案例来说,“蜜蜂“、“养殖” 更重要
定义:
TF:词频的缩写
IDF:逆文档频率; 如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文档的特性,这正是我们需要的关键词
计算公式:TF - IDF=词频(TF)* 逆文档频率(IDF) ( 该值越大,说明越重要 )
-- 词频(TF)= 某个词在文章中出现的次数 / 该文所有词出现的次数总和
-- 逆文档频率 ( IDF )= log( 语料库的文档总数 / ( 包含该词的文档数 + 1) )
举例:
《中国蜜蜂养殖》:假定该文有1000个词,“中国”、“蜜蜂“、“养殖” 各出现20次,则这三个词的T F为0.02;
搜索Google发现,包含“的”字的网页共有250亿张,假定这就是中文网页总数,包含“中国”的网页共有62.3亿张,包含“蜜蜂”的网页为0.484亿张,包含“养殖”的网页为0.973亿张
进行TF-IDF关键词提取:TF - IDF=词频(TF)* 逆文档频率(IDF) ( 该值越大,说明越重要 )
包含该词的文档数(亿) | IDF | TF-IDF | |
中国 | 62.3 | 0.603 | 0.0121 |
蜜蜂 | 0.484 | 2.713 | 0.0543 |
养殖 | 0.973 | 2.410 | 0.0482 |
三、文本相似度(常用余弦相似度)
步骤
1、原始句子:
句子A:我喜欢看电视,不喜欢看电影
句子B:我不喜欢看电视,也不喜欢看电影
2、分词:
句子A:我/喜欢/看/电视/,/不/喜欢/看/电影
句子B:我/不/喜欢/看/电视/,/也/不/喜欢/看/电影
3、提取语料库(词典):我,喜欢,看,电视,电影,不,也
4、计算词频:(计算句子里出现语料库里词的次数)
句子A:我1,喜欢2,看2,电视1,电影1,不1,也0
句子B:我1,喜欢2,看2,电视1,电影1,不2,也1
5、转为词频向量:
句子A:[1,2,2,1,1,1,0]
句子B:[1,2,2,1,1,2,1]