矩阵A(m x n)的含义:
m:文章数
n:单词数
A[i][j]=2代表在文章i里单词j出现了2次。
one-hot矩阵:矩阵中,用1代表该单词在该文章中存在,用0表示不存在。
TF矩阵:在每一行上,向量的每一个值标志对应的词语出现次数归一化后的频率。比如:
TF-IDF矩阵:
首先计算IDF向量
文章总数为m,对于某个单词,统计出它在j篇文章中出现过,则IDFj=log(m/(1+j)),之所以在分母中加1是为了防止某些没有出现过的单词,使得分母为0的情况。
然后在TF矩阵中,每一个元素赋值为:
tfidf[i][j]=tf[i][j]*idf[j],例如:
IDF 数值有什么含义?TF-IDF 数值有什么含义?
当某个词在语料库中各个文档出现的次数越多,它的 IDF 值越低,当它在所有文档中都出
现时,其 IDF 计算结果为 0,而通常这些出现次数非常多的词或字为“的”、“我”、“吗”
等,它对文章的权重计算起不到一定的作用。tfidfi,j 表示词频 tfi,j 和倒文本词频 idfi 的乘
积,TF-IDF 值越大,说明这个单词唯独在该文章中出现次数很多,而在其他文章中基本不出现,则表示该特征词对这个文本的重要性越大。