NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度

词的过滤:删除没有用的词,具体包括两类:

1、停用词过滤,对理解文本没意义的词,a\an
2、出现频率低的词过滤

过滤要考虑自己的应用场景:比如好、很好等词,在情感分析中这些词很重要,在有些地方是作为停用词的
一般是使用别人已经定义好的停用词库,然后进行自己的修改
NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第1张图片
低频词作用不大,还有可能是噪声,所以没必要考虑
NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第2张图片

stemming 英文需要标准化

词的标准化操作有两种:stemming,lemmazation
比如将went\go 转换为go
但是stemming不保证转换出的单词是一个有效的原型,
lemmazation会比stemming严格,转换出的单词必须是单词表存在的
NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第3张图片
Porter Stemmer
英文文本如何做stemming:https://tartarus.org/martin/PorterStemmer/java.txt

NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第4张图片
这种stemming的规则是要依靠语言学家的经验来确定的,程序员去把这种规则运用到实际

文本表示

1、词的表示:可以使用one-hot representation
词典中每个单词是有顺序的,每个单词都使用one-hot去表示
NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第5张图片
2、句子表示
1)Boolean representation
使用已经用分词工具分好的句子
按照词典中词的顺序,如果句子中出现这个单词,就1表示,否则0表示。最终句子向量维度与词典长度相同
注意:不管句子中一个单词出现几次,那个位置上只能是出现为1,否则为0
NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第6张图片
2)count based representation
考虑词频
NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第7张图片
上述文本表示的缺陷:下边第二个句子中,denied出现一次,he出现两次,但是denied在这个句子中是最重要的
而he并不是很重要,所以只根据词频来判断单词的重要性太片面

NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第8张图片

tf-idf表示方法解决文本表示缺陷

tdidf几乎所有文本分析,分类任务最为常见的,面试也常考
tf指一个词在当前文档出现的频数,idf是在考虑这个单词的重要性,如果它在很多文章都出现了,那么它的重要性不高
相反,如果w在一个文档出现,那么N/Nw的值是很大的,也就是重要性大。加log是避免这个比值过大
NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第9张图片

tfidf实例

NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第10张图片
首先要建立词典,
然后开始计算每个句子的tfidf向量
虽然现在深度学习火,很多人希望用词向量,句子向量来表达句子,但是tfidf还是目前最流行,效果好的这么一种文本表示法
上边基于boolean,基于count,基于tfidf的文本表示法,都归为one-hot representation

文本相似度

1、欧氏距离,d越大,句子越不相似
缺点:向量是有方向的,但是欧式距离没有考虑到
NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第11张图片
2、余弦相似度:考虑方向和大小
在文本分析中使用最多
d越大,句子相似度越大。 区别于欧式距离
NLP学习03_停用词过滤、stemming、文本表示tf-idf、文本相似度_第12张图片

你可能感兴趣的:(nlp)