Datawhale零基础入门NLP赛事——新闻文本分类Task3

TF-IDF  

 对TF-IDF的理解:

          一个词语在一篇文章中出现次数越多,在所有文档中出现次数越少,越能代表该文章

   词频:如果“学习”在一篇文章中出现次数为5次,文章中所有词语个数为1000,那么TF=5/1000

           逆文档频率:“学习”在100个文档中出现,总文档数为400,那么IDF=log(400/100)

           最后相乘

https://www.52nlp.cn/tag/tf-idf

 Datawhale零基础入门NLP赛事——新闻文本分类Task3_第1张图片

你可能感兴趣的:(Datawhale零基础入门NLP赛事——新闻文本分类Task3)