自然语言中最好中文分词 -- jieba

美图欣赏:
自然语言中最好中文分词 -- jieba_第1张图片
一.jieba介绍

“结巴”中文分词:做最好的Python中文分词组件

“ Jieba”(中文为“ to stutter”)中文文本分割:内置为最好的Python中文单词分割模块。

二.jieba特征

支持典型分词模式:

精确模式,试图将句子最精确地切开,适合文本分析;

全模式,把句子中所有的可以成词的短语都扫描出来,速度非常快,但是不能解决歧义;

搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

paddle模式,利用PaddlePaddle深度学习框架,训练序列标注(双向GRU)网络模型实现分词。同时支持词性标注。paddle模式使用需安装
paddlepaddle-tiny,pip install paddlepaddle-tiny==1.6.1。

支持繁体分词

支持自定义词典

jieba的github:https://github.com/fxsjy/jieba

jieba的官网:https://pypi.org/project/jieba/

三.jieba安装

命令:

import install jieba

四.代码实现

import jieba
import jieba.analyse as Jackson #取一个别名


#1 分词全模式
#全模式:把句子中所有可能的词都扫描切分,速度非常快,不能解决歧义;
text = "我热爱学习NLP,热爱学习人工智能"

#cut_all=True表示开启全模式,
#print("[1. 全模式]"+"/".join(jieba.cut(text,cut_all=True)))
Full_mode_list = jieba.cut(text,cut_all=True)
# list = []
# for full_mode in Full_mode_list:
#     list.append(full_mode)
# print(list)

#join连接任意数量的字符串。以"/"作为分割符
print("[1. 全模式]"+"==".join(Full_mode_list))

#2.精确模式 用的较多(试图将句子最精确的切开,适合文本分析。)
#cut_all=False 写不写,精确模式默认为False
Full_mode_list = jieba.cut(text,cut_all=False)
print("[2. 精确模式]"+" ".join(Full_mode_list))

#3.jieba 搜索引擎模式 在精确模式的基础上,适用于搜索引擎,对长词再次切分
sousuo_list = jieba.lcut_for_search(text)
print("[3. 搜索引擎模式 ]"+"--".join(sousuo_list))

#4.繁体分词
text = "香港和台灣是中國的壹部分"
fanti_list = jieba.cut(text,cut_all=False)
print("[4. 繁体分词 ]"+" ** ".join(fanti_list))

#5. 自定义用户词典,jieba内部有自己的词典,可以有自己识别新词的能力
jieba.load_userdict("userdict.txt")
zidingyi_list = jieba.cut(text,cut_all=False)
#jieba可以动态增加词,缺点:只在当前程序起作用
jieba.add_word("高富帅")
jieba.add_word("理想主义者")
jieba.add_word("现实主义者")
jieba.add_word("有钱人")
jieba.add_word("无钱人")
print("[5. 自定义用户词典之后,繁体分词 ]"+" -- ".join(zidingyi_list))


#6 关键词的抽取
t = "马云是国家的骄傲,是民族的脊梁,是一匹骏马永不停歇," \
    "在创新的浪潮中,永立潮头!有人说以后的传奇只有西方的美国比尔盖茨,东方的中国马云。" \
    "而这一次上海的进博会,马云再度谱写传奇,他的智慧,他的见识,让我们惊羡。" \
    "今天分享的是马云经典励志语录25句,不是你没能力,而是别人太强,早就走在你前面,想要更强," \
    "只有不断的学习"
#topK是选中6个,withWeight表示权重值
keyword_list = Jackson.extract_tags(t,topK=6,withWeight=True) #返回的是List
#输出
for keyword,weight in keyword_list:
    #%s是一种格式,里面放着内容
    print("%s %s"%(keyword,weight))

print("textrank")

#pagerank对网页做排名
#textrank对词排名,更深一步
keywords = Jackson.textrank(t,topK=6,withWeight=True)
print(keywords)

运行结果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\李庆\AppData\Local\Temp\jieba.cache
Loading model cost 0.672 seconds.
[1. 全模式]==热爱==学习==NLP==,==热爱==学习==人工==人工智能==智能
Prefix dict has been built successfully.
[2. 精确模式]我 热爱 学习 NLP , 热爱 学习 人工智能
[3. 搜索引擎模式 ]--热爱--学习--NLP--,--热爱--学习--人工--智能--人工智能
[4. 繁体分词 ]香港 **** 台灣 **** 中國 ****** 部分
[5. 自定义用户词典之后,繁体分词 ]香港和台灣 ---- 中國 ---- 壹部分
马云 0.701547733282264
传奇 0.29555668165018867
永立 0.24919868813962265
比尔盖茨 0.23612043945094338
25 0.2255616509981132
惊羡 0.22304219076037735
textrank
[('经典', 1.0), ('博会', 0.8880339361970131), ('传奇', 0.8880255842287333), ('谱写', 0.8667851011701004), ('浪潮', 0.8572273633619661), ('脊梁', 0.8464178235019462)]

Process finished with exit code 0

               ————保持饥饿,保持学习
                   Jackson_MVP

你可能感兴趣的:(#,NLP,中文自然语言处理)