jieba

对于从txt文本读取是出现不能解码,可以用记事本打开文本,复制文本在sublime打开再保存,写文件是加“wb”,

import jieba
from jieba.analyse import *

# s="我是一只小小鸟,想要飞,却怎么也飞不高。"
# k=jieba.cut(s)
# print(list(k))

# 数据清洗,去除空格
s=''
i=0
f=open('566.txt','rb')
y=f.readlines()
for i in y:
    s=s+i.decode('utf-8').strip().strip('\n')
# print(s)
# 去除关键词
gg=open('22.txt','wb')
gg.write('没有'.encode())
gg.close()
jieba.analyse.set_stop_words('22.txt')

# # 默认分词模式,返回一个generator,
# kk=jieba.cut(s)
# print(list(kk))

# 提取关键词--TF-IDF
for k ,v in extract_tags(s,topK=30,withWeight=True):
    print('{}>>{}'.format(k,v))
print('.......................')

# # 提取关键词--TextRank
# for l,m in textrank(s,withWeight=True):
#   print('{}>>{}'.format(l,m))

你可能感兴趣的:(小应用)