Python开发 之 Jieba分词示例

文章目录

  • 1、唠唠叨叨
  • 2、先看一下效果吧
  • 3、核心代码
    • 3.1、分词
    • 3.2、读取Excel文件
    • 3.3、去除数组中的\n符
  • 4、Github源码分享
  • 5、其它小知识
    • 5.1、在github.com的README中添加image图片

1、唠唠叨叨

之前讲述过关于Jieba分词的内容,最近又有关于这方面的需求,于是做了一个小示例来学习。此示例先获取xlsx文件的语料内容,然后再针对语料进行分词。

回顾一下:

  • Python第三方库jieba(中文分词)入门与进阶(官方文档)

2、先看一下效果吧

Python开发 之 Jieba分词示例_第1张图片

3、核心代码

3.1、分词

  • 全模式
seg_list = jieba.cut(label, cut_all=True) 
  • 精确模式
seg_list = jieba.cut(label, cut_all=False)
  • 搜索引擎模式
seg_list = jieba.cut_for_search(label)
  • 默认模式(默认是精确模式)
seg_list = jieba.cut(label)
  • TextRank 关键词抽取,只获取固定词性
words = jieba.analyse.textrank(label, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
  • 去除标点符号(去除所有半角全角符号,只留字母、数字、中文)
rule = re.compile(u"[^a-zA-Z0-9\u4e00-\u9fa5]")
label = rule.sub('',label)
  • 去除标点符号(手工指定标点符号)
punctuation ="""!?。"#$%&'()*+-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""
re_punctuation ="[{}]+".format(punctuation)
label = re.sub(re_punctuation, "", label).strip() 

3.2、读取Excel文件

  • 打开文件
workbook = xlrd.open_workbook(path)
  • 根据sheet索引或者名称获取sheet内容
sheet = workbook.sheet_by_index(page) 
  • sheet的名称,行数,列数
print("Sheet的名称:", sheet.name, ",行数:", sheet.nrows, ",列数:", sheet.ncols)
  • 获取Excel内容
sheet.cell_value(rown, coln)

3.3、去除数组中的\n符

s = [x.strip() for x in item_arr]

4、Github源码分享

https://github.com/ShaShiDiZhuanLan/Demo_Jieba_Python

5、其它小知识

5.1、在github.com的README中添加image图片

先上传图片到项目中,然后提交完图片之后在项目中找到图片的url
Python开发 之 Jieba分词示例_第2张图片
makedown 写 README:

# 6、运行效果 
![image](在github上的图片url)

效果:
Python开发 之 Jieba分词示例_第3张图片

你可能感兴趣的:(//Demo小锦集,//Python)