关键字提取

关键词提取

import pandas as pd
import jieba.analyse #导入关键词库

读取文本

fn = open('d:/collect.txt',encoding='UTF-8')
string_data = fn.read()
fn.close()

关键词提取

"TF-IDF(term frequency-inverse document frequency)是一种针对关键字的统计分析方法,用来评估关键字或词语
对于文档、语料库和文件集合的重要程度。关键字的重要程度和它在文档中出现的次数成正比,同时跟它出现的频率
呈反比。使用TF-IDF做词频统计的基本思路和方法,也是做词语向量化,以及基于文本向量的聚类、分类等应用方法。"

tags_pairs = jieba.analyse.extract_tags(string_data, topK=5, withWeight=True, allowPOS=['ns', 'n', 'vn', 'v', 'nr'],
withFlag=True) # 提取关键字标签
tags_list = [] # 空列表用来存储拆分后的三个值
for i in tags_pairs: # 打印标签、分组和TF-IDF权重
tags_list.append((i[0].word, i[0].flag, i[1])) # 拆分三个字段值
tags_pd = pd.DataFrame(tags_list, columns=['word', 'flag', 'weight']) # 创建数据框
print (tags_pd) # 打印数据框

你可能感兴趣的:(关键字提取)