python 使用jieba.analyse提取句子级的关键字

安装所需要的库

jieba(pip install jieba)

方法参数解释

jieba.analyse.extract_tags(sentence, topK=5, withWeight=True, allowPOS=())
参数说明 :
sentence 需要提取的字符串,必须是str类型,不能是list
topK 提取前多少个关键字
withWeight 是否返回每个关键词的权重
allowPOS是允许的提取的词性,默认为allowPOS=‘ns’, ‘n’, ‘vn’, ‘v’,提取地名、名词、动名词、动词

原理

jieba.analyse.extract_tags()提取关键字的原理是使用TF-IDF算法

python 使用jieba.analyse提取句子级的关键字_第1张图片

python 实现使用jieba.analyse提取句子级的关键字

# -*- coding: utf-8 -*-
# @Time    : 2019/5/11 11:18
# @Author  : 未来战士biubiu!!
# @FileName: __init__.py.py


# python提取句子中的关键字
import jieba.analyse
import random,os

os.chdir('D:\DOCUMENT/U1\Python3_Demo\TL_NER\DATA')

f_tar = open('fenci_data_target.txt', 'r', encoding='utf-8')

data_tar = f_tar.readlines()

#随机从txt文件中提取50行
ran_tar = random.sample(data_tar, 50)

for src in ran_tar:
    src_temp = src.strip()
    print('src_temp',src_temp)
    print(jieba.analyse.extract_tags(sentence=src_temp,topK=10,allowPOS=('ns','n')))


运行结果

python 使用jieba.analyse提取句子级的关键字_第2张图片
感觉效果还是不错的,我只提取了名词和地点。
文件是我一个旅游项目的数据,从中随机抽取了50行作为备选文字。

你可能感兴趣的:(计算机,python)