jieba分词

找个射雕英雄传的其中一个片段来做个实验

import jieba
import jieba.analyse
import re
import pkuseg
doc = '''钱塘江浩浩江水,日日夜夜无穷无休的从两浙西路临安府牛家村边绕过,东流入海。江畔一排数十株乌柏树,叶子似火烧般红,正是八月天时。村前村后的野草刚起始变黄,一抹斜阳映照之下,更增了几分萧索。两株大松树下围着一堆村民,男男女女和十几个小孩,正自聚精会神的听着一个瘦削的老者说话。
  那说话人五十来岁年纪,一件青布长袍早洗得褪成了蓝灰带白。只听他两片梨花木板碰了几下,左手中竹棒在一面小羯鼓上敲起得得连声。唱道:“小桃无主自开花,烟草茫茫带晚鸦。
  几处败垣围故井,向来一一是人家。'''
jieba.analyse.extract_tags(doc)

jieba分词_第1张图片
分词结果也还好对吧,看一下每个词的权重

jieba.analyse.extract_tags(doc,withWeight=True)#返回权重值

jieba分词_第2张图片

from sklearn.feature_extraction.text import TfidfTransformer
import pandas as pd
f=pd.read_csv(r'射雕_chapter.csv',engine='python',encoding = 'utf-8',index_col = 0)
f.head()
#去停用词
with open(r"D:\bigtwo\bigthere\停用词2.txt",encoding='utf-8') as f2:
    stopword_list = f2.readlines()
    stopword_list = list(map(lambda x: re.sub(r'\n', ' ',x), stopword_list))

new = list(map(lambda x: re.sub(r'[^\u4e00-\u9fa5]', ' ',x), f['txt']))  #去标点 
seg=pkuseg.pkuseg()
word_list = [word for word in seg.cut(''.join(new)) if word not in stopword_list]

jieba分词_第3张图片

jieba分词_第4张图片
jieba分词_第5张图片

你可能感兴趣的:(jieba分词)