one-hot&TF&TF-IDF

矩阵A(m x n)的含义:

m:文章数

n:单词数

A[i][j]=2代表在文章i里单词j出现了2次。

one-hot矩阵:矩阵中,用1代表该单词在该文章中存在,用0表示不存在。

TF矩阵:在每一行上,向量的每一个值标志对应的词语出现次数归一化后的频率。比如:

TF-IDF矩阵:

首先计算IDF向量

文章总数为m,对于某个单词,统计出它在j篇文章中出现过,则IDFj=log(m/(1+j)),之所以在分母中加1是为了防止某些没有出现过的单词,使得分母为0的情况。

one-hot&TF&TF-IDF_第1张图片

然后在TF矩阵中,每一个元素赋值为:

tfidf[i][j]=tf[i][j]*idf[j],例如:

one-hot&TF&TF-IDF_第2张图片

 IDF  数值有什么含义?TF-IDF  数值有什么含义?
当某个词在语料库中各个文档出现的次数越多,它的 IDF 值越低,当它在所有文档中都出
现时,其 IDF 计算结果为 0,而通常这些出现次数非常多的词或字为“的”、“我”、“吗”
等,它对文章的权重计算起不到一定的作用。tfidfi,j 表示词频 tfi,j 和倒文本词频 idfi 的乘
积,TF-IDF 值越大,说明这个单词唯独在该文章中出现次数很多,而在其他文章中基本不出现,则表示该特征词对这个文本的重要性越大。

你可能感兴趣的:(one-hot&TF&TF-IDF)