TF-IDF算法

1.TF(Term Frequence):词频

​ 即某个词在整个文本中出现的次数。通常归一化(词频/文本总词数),防止其偏向篇幅长的文章。

T F w = 文 本 中 w 出 现 的 次 数 文 本 总 词 数 TF_{w} = \frac{文本中w出现的次数}{文本总词数} TFw=w

2.IDF(Inverse Document Frequency):逆向文档频率

​ 如果包含词条t的文档越少,IDF越大,则说明词条具有很好的类别区分能力。某一特定词语的IDFD的计算公式为:

I D F w = l o g ( 语 料 库 文 档 总 数 包 含 词 w 的 文 档 数 + 1 ) IDF_{w} = log(\frac{语料库文档总数}{包含词w的文档数+1}) IDFw=log(w+1)

分母+1防止分母为0。

3.TF-IDF(Term Frequency-Inverse Document Frequency)

​ 一种常用于信息检索的加权技术。评估一个词对于一个文档集,或者一个语料库中的一份文档的重要程度。

TF-IDF倾向于过滤掉常见的词语,保留重要的词语。公式:

T F − I D F = T F × I D F TF-IDF = TF\times IDF TFIDF=TF×IDF

4.TF与TF-IDF的关系

​ 对于TF:一些通用的子词对于主题并没有太大的作用,一些出现频率较少的子词才能够表达文章的主题,所以单纯的使用TF是不合适的。比如菜谱中的“油”、“水”、“盐”等词出现频率很高,但并不能代表某个菜谱。

​ 对于TF-IDF:一个子词在一篇文章中出现的次数越多,同时在所有文章中出现的次数越少,则这个词越能代表这篇文章。比如在一本菜谱中,宫保鸡丁中鸡丁这个词出现次数多,在其他几个比如番茄炒蛋,水煮牛肉这些菜谱中出现频率很低。“鸡丁”相比于“油”、“盐”等词更能够代表宫保鸡丁这个菜谱。

​ 权重设计的规则为一个子词预测主题的能力越强,其权重越大;反之,则权重越小。所以在所有统计的文章中,一些子词只是在其中很少几篇文章中出现,那么这样的子词对文章的主题的作用很大,这些子词的权重应该设计的较大。比如“宫保”,”鸡丁“这些词权重应该更大。

你可能感兴趣的:(NLP学习笔记,算法,自然语言处理)