文本分析-关键词提取

1.概念理解:
词频(TF):指某一个给定词在该文档出现的次数
逆文档频率(IDF):IDF指每个词的权重,他的大小和词的常见程度成反比
TF-IDF:权衡某个分词是否是关键词指标,该值越大,是关键词的可能性越大。
计算公式:TF-IDF=TF*IDF,其中,IDF=log(文档总数/包含该词的文档数+1)

2.提取关键词python包:jieba.analyse.extract_tags(content.tooK=n)
.content:文章内容
.提取n个关键词

案例代码:

import os,codecs,pandas
import jieba.analyse
#创建一个数据框存储数据
tagkey=pandas.DataFrame(columns=['filepath','content','tag1','tag2','tag3','tag4'])
for root,dirs,files in os.walk('文件夹路径'):
      for name in files:
            filepath=root+'/'+name
            f=codecs.open(filepath,'r','utf-8')
            content=f.read()
            f.close()
            tags=jieba.analyse.extract_tags(content,topK=4)
            tagkey.loc[len(tagkey)+1]=[filepath,content,tags[0],tags[1],tags[2],tags[3]]
文本分析-关键词提取_第1张图片
代码输出结果

你可能感兴趣的:(文本分析-关键词提取)