疫情宅在家,只能静下心来弄毕设~
话不多说,直接上干货,本篇博客包含:
环境:
在安装有python3 和 pip 的机子上,安装jieba库很简单,使用pip即可:
pip install jieba
1、支持三种分词模式:
2、支持繁体分词
3、支持自定义词典
4、代码对Python2和Python3均兼容
5、支持多种编程语言,包括Java、C++、Rust、PHP、R、Node.js等
Jieba工具主要使用的算法包括:
(1)通过基于前缀词典实现高效的词图扫描,构建句子中汉字所有可能生成词情况的有向无环图;
(2)采用动态规划查找最大概率路径,寻找基于词频的最大切分组合;
(3)对于未登录词,采用基于汉字成词能力的HMM模型结合Viterbi算法。
参考:https://blog.csdn.net/Eastmount/article/details/97612578
① 何为分词?
由于中文词语之间是紧密联系的,一个汉语句子是由一串前后连续的汉字组成,词与词之间没有明显的分界标志,所以需要通过一定的分词技术把句子分割成空格连接的词序列,这就是所谓的中文分词技术。
中文分词(Chinese Word Segmentation)指将汉字序列切分成一个个单独的词或词串序列,它能够在没有词边界的中文字符串中建立分隔标志,通常采用空格分隔。中文分词是数据分析预处理、数据挖掘、文本挖掘、搜索引擎、知识图谱、自然语言处理等领域中非常基础的知识点,只有经过中文分词后的语料才能转换为数学向量的形式,继续进行后面的分析。同时,由于中文数据集涉及到语义、歧义等知识,划分难度较大,比英文复杂很多。
② 基本用法
首先看一段简单的结巴分词代码,主要调用两个函数实现。
#encoding=utf-8
import jieba
text = "小杨毕业于北京理工大学,从事Python人工智能相关工作。"
data = jieba.cut(text,cut_all=True)
print("【全模式】:","/".join(data)) #全模式
data = jieba.cut(text,cut_all=False)
print("【精确模式】:","/".join(data)) #精确模式
data = jieba.cut(text) # 默认是精确模式
print("【默认模式】:","/".join(data))
data = jieba.cut_for_search(text) # 搜索引擎模式
print("【搜索引擎模式】:","/".join(data))
#返回列表
seg_list = jieba.lcut(text, cut_all=False)
print("【返回列表】: {0}".format(seg_list))
输出结果如下所示
最终的分词结果比较理想,其中精确模式输出的“小/杨/毕业/于/北京理工大学/,/从事/Python/人工智能/相关/工作/。”比较精准。下面简单比较一下结巴中文分词的三种分词模式。
③ 基于HMM模型的中文分词
隐马尔可夫模型(Hidden Markov Model, HMM)是一种基于概率的统计分析模型,用来描述一个系统隐性状态的转移和隐性状态的表现概率。到目前为止,HMM模型被认为是解决大多数自然语言处理问题最为快速、有效的方法之一。它成功解决了语义识别、机器翻译等问题。
在Jieba工具中,对于未登录到词库的词,使用了基于汉字成词能力的 HMM 模型和 Viterbi 算法,其大致原理是采用四个隐含状态,分别表示为单字成词、词组的开头、词组的中间和词组的结尾。通过标注好的分词训练集,可以得到 HMM的各个参数,然后使用 Viterbi 算法来解释测试集,得到分词结果。
# encoding=utf-8
import jieba
text = "他来到了网易杭研大厦工作,我继续去北理读研。"
# 精确模式
data = jieba.cut(text, cut_all=False, HMM=False)
print("[精确模式]: ", "/".join(data))
# 精确模式+HMM
data = jieba.cut(text, cut_all=False, HMM=True)
print("[精确模式]: ", "/".join(data))
输出结果如下图所示,未启用HMM模型时,它无法识别“杭研”、“北理”词语,将其拆分成了“杭”、“研”和“北”、“理”,而启用HMM模型时,它有效识别了新词“杭研”、“北理”。
④繁体中文分词
Jieba工具支持中文繁体字的识别,将前面示例转换为繁体字,即“小楊畢業於北京理工大學,從事Python人工智能相關工作。”,调用Jieba分词的代码如下所示。
# encoding=utf-8
import jieba
text = "小楊畢業於北京理工大學,從事Python人工智能相關工作。"
# 全模式
data = jieba.cut(text, cut_all=True)
print("【全模式】: ", "/".join(data))
# 精确模式
data = jieba.cut(text, cut_all=False)
print("【精确模式】: ", "/".join(data))
# 搜索引擎模式
data = jieba.cut_for_search(text)
print("【搜索引擎模式】: ", "/".join(data))
输出结果如下所示:
①添加词典
在进行中文分词过程中,通常会遇到一些专用词语无法精准的切分,比如“云计算”会被分割为“云”、“计算”,“贵州财经大学”会被分割为“贵州”、“财经大学”等。虽然Jieba工具有新词识别能力,但也无法识别出所有Jieba词库里没有的词语,但它为开发者提供了添加自定义词典功能,从而保证更好的分词正确率。其函数原型如下:
load_userdict(f)——该函数只有一个参数,表示载入的自定义词典路径,f 为文件类对象或自定义词典路径下的文件。词典的格式为:一个词占一行,每行分为三部分:
word freq word_type
其中,word为对应的词语,freq为词频(可省略),word_type为词性(可省了),中间用空格隔开,顺序不可以改变。注意,文件必须为UTF-8编码。
下面举例讲解,第一个代码是未导入自定义词典的中文分词。
# encoding=utf-8
import jieba
text = "小杨在贵州财经大学工作,擅长大数据、云计算,喜欢乾清宫、黄果树瀑布等景区。"
# 精确模式
data = jieba.cut(text, cut_all=False)
print(u"[原始文本]: ", text)
print(u"[精确模式]: ", "/".join(data))
输出结果未将“贵州财经大学”、“大数据”、“云计算”、“乾清宫”、“黄果树瀑布”等词汇正确分割。
接着导入自定义词典,其本地词典命名为“dict.txt”,如图所示,包括设置“贵州财经大学”的词性为机构名词“nt”,“大数据”、“云计算”的词性为名词“n”,,也有省略词性和词频的“乾清宫”。
文件保存为utf-8格式:
完整代码如下:
#encoding=utf-8
import jieba
text = "杨秀璋在贵州财经大学工作,擅长大数据、云计算,喜欢乾清宫、黄果树瀑布等景区。"
#导入自定义词典
jieba.load_userdict("dict.txt")
#精确模式
data = jieba.cut(text, cut_all=False)
print("[原始文本]: ", text)
print("[精确模式]: ", "/".join(data))
此时的输出结果有效地提取了“贵州财经大学”、“云计算”、“乾清宫”。但也有两个未识别出的词语,“黄果树瀑布”不在词典中,故被拆分成了“黄果树”和“瀑布”,“大数据”虽然在词典中,却仍然拆分成了“大”和“数据”。
②动态修改词典
在Jieba工具中,可以在程序中动态修改词典,通过add_word(word, freq=None, tag=None)函数添加新词语,通过del_word(word)函数删除自定义词语。
#encoding=utf-8
import jieba
text = "小杨在贵州财经大学工作,擅长大数据、云计算,喜欢乾清宫、黄果树瀑布等景区。"
#导入自定义词典
jieba.load_userdict("dict.txt")
#添加自定义词语
jieba.add_word("小杨")
jieba.add_word("黄果树瀑布")
jieba.add_word("自然语言处理", freq=10, tag="nz")
#删除自定义词语
jieba.del_word("北理工")
#精确模式
data = jieba.cut(text, cut_all=False)
print("[原始文本]: ", text, "\n")
print("[精确模式]: ", "/".join(data))
该代码增加了新词语“小杨”、“黄果树瀑布”和“自然语言处理”,删除了“北理工”,其运行结果如下所示,它有效地将“小杨”和“黄果树瀑布”进行了精准识别。
此时,我们可能会有一个疑问,为什么“大数据”被拆分成了“大”和“数据”呢?这是因为Jieba词库中“大”和“数据”的重要程度更高,我们可以使用suggest_freq(segment, tune=True)函数调节单个词语的词频,使其被分割出来。
代码如下所示:
#encoding=utf-8
import jieba
text = "小杨在贵州财经大学工作,擅长大数据、云计算,喜欢乾清宫、黄果树瀑布等景区。"
#导入自定义词典
jieba.load_userdict("dict.txt")
#添加自定义词语
jieba.add_word("小杨")
jieba.add_word("黄果树瀑布")
jieba.add_word("自然语言处理", freq=10, tag="nz")
#删除自定义词语
jieba.del_word("北理工")
#调节词频
jieba.suggest_freq('大数据', True)
#精确模式
data = jieba.cut(text, cut_all=False)
print("[原始文本]: ", text, "\n")
print("[精确模式]: ", "/".join(data))
最终的输出结果为“小杨/在/贵州财经大学/工作/,/擅长/大数据/、/云计算/,/喜欢/乾清宫/、/黄果树瀑布/等/景区/。”
终于将“小杨”、“贵州财经大学”、“大数据”、“云计算”、“乾清宫”、“黄果树瀑布”等专有词语识别出来。同时,如果自定义词典存在很多专用名词,并且需要设置它们的高权重,可以使用下面的代码循环设置每一个词语的词频。
#循环设置词频重要程度
fp = open("dict.txt", 'r', encoding='utf8')
for line in fp:
line = line.strip()
jieba.suggest_freq(line, True)
#第二种方法
[jieba.suggest_freq(line.strip(), True) for line in open("dict.txt",'r',encoding='utf8')]
词性标注(Part-Of-Speech Tagging, POS Tagging)也被称为语法标注(Grammatical Tagging)或词类消疑(Word-category Disambiguation),是将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。通过词性标注处理,可以将分词得到的词序列中每个单词标注一个正确的词性。
在Jieba工具中,调用jieba.posseg.POSTokenizer(tokenizer=None)函数新建自定义分词器。tokenizer参数可指定内部使用的jieba.Tokenizer分词器,jieba.posseg.dt为默认词性标注分词器。Jieba工具采用和Ictclas 兼容的标记法,标注句子分词后每个词的词性通过循环输出。Jieba工具的各个词性及含义如下表:
巧记词性对照表
名词 (1个一类,7个二类,5个三类)
名词分为以下子类:
时间词(1个一类,1个二类)
处所词(1个一类)
方位词(1个一类)
动词(1个一类,9个二类)
形容词(1个一类,4个二类)
区别词(1个一类,2个二类)
状态词(1个一类)
代词(1个一类,4个二类,6个三类)
数词(1个一类,1个二类)
量词(1个一类,2个二类)
副词(1个一类)
介词(1个一类,2个二类)
连词(1个一类,1个二类)
助词(1个一类,15个二类)
叹词(1个一类)
语气词(1个一类)
拟声词(1个一类)
前缀(1个一类)
后缀(1个一类)
字符串(1个一类,2个二类)
标点符号(1个一类,16个二类)
官方文档给出的示例如下所示,通过“import jieba.posseg as pseg”语句导入扩展包,接着循环输出word(词语)和flag(词性)值。
#官方例程
#encoding=utf-8
import jieba.posseg as pseg
#词性标注
words = pseg.cut("我爱北京天安门")
for word, flag in words:
print('%s %s' % (word, flag))
输出结果如图所示,其中“我”表示代词,对应“r”;“爱”对应动词,对应“v”,“北京”和“天安门”对应地点名词,对应“ns”。
上面小节的示例对应的词性标注代码如下所示。
#encoding=utf-8
import jieba
import jieba.posseg
import jieba.analyse
text = "小杨在贵州财经大学工作,擅长大数据、云计算,喜欢乾清宫、黄果树瀑布等景区。"
#导入自定义词典
jieba.load_userdict("dict.txt")
#添加自定义词语
jieba.add_word("小杨")
jieba.add_word("黄果树瀑布")
#调节词频
jieba.suggest_freq('大数据', True)
#精确模式
data = jieba.cut(text, cut_all=False)
print("[原始文本]: ", text, "\n")
print("[精确模式]: ", "/".join(data), "\n")
#词性标注
sentence_seged = jieba.posseg.cut(text)
outstr = ' '
for x in sentence_seged:
outstr += '\n'+"{}/{} ".format(x.word, x.flag)
print('[词性标注]:', outstr)
输出结果如图所示:
关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。
除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文档看成一个团簇,可以大大提高聚类算法的收敛速度;从某天所有的新闻中提取出这些新闻的关键词,就可以大致了解那天发生了什么事情;或者将某段时间内几个人的微博拼成一篇长文本,然后抽取关键词就可以知道他们主要在讨论什么话题。
总之,关键词就是最能够反映出文本主题或者意思的词语。但是网络上写文章的人不会像写论文那样告诉你本文的关键词是什么,这个时候就需要利用计算机自动抽取出关键词,算法的好坏直接决定了后续步骤的效果。
关键词抽取从方法来说大致有两种:
目前大多数领域无关的关键词抽取算法(领域无关算法的意思就是无论什么主题或者领域的文本都可以抽取关键词的算法)和它对应的库都是基于后者的。从逻辑上说,后者比前着在实际使用中更有意义。
从算法的角度来看,关键词抽取算法主要有两类:
jieba分词系统中实现了两种关键词抽取算法,分别是基于TF-IDF关键词抽取算法和基于TextRank关键词抽取算法,两类算法均是无监督学习的算法,下面将会通过实例讲解介绍如何使用jieba分词的关键词抽取接口以及通过源码讲解其实现的原理。
①基于TF-IDF:jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
②基于TextRank:jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
TF-IDF算法应用到关键词抽取:
1. 预处理,首先进行分词和词性标注,将满足指定词性的词作为候选词;
2. 分别计算每个词的TF-IDF值;
3. 根据每个词的TF-IDF值降序排列,并输出指定个数的词汇作为可能的关键词;
TextRank算法应用到关键词抽取:
1. 预处理,首先进行分词和词性标注,将单个word作为结点添加到图中;
2. 设置语法过滤器,将通过语法过滤器的词汇添加到图中;出现在一个窗口中的词汇之间相互形成一条边;
3. 基于上述公式,迭代直至收敛;一般迭代20-30次,迭代阈值设置为0.0001;
4. 根据顶点的分数降序排列,并输出指定个数的词汇作为可能的关键词;
5. 后处理,如果两个词汇在文本中前后连接,那么就将这两个词汇连接在一起,作为关键短语;
<1>基于TF-IDF算法进行关键词抽取的示例代码如下所示,
from jieba import analyse
# 引入TF-IDF关键词抽取接口
tfidf = analyse.extract_tags
# 原始文本
text = "线程是程序执行时的最小单位,它是进程的一个执行流,\
是CPU调度和分派的基本单位,一个进程可以由很多个线程组成,\
线程间共享进程的所有资源,每个线程有自己的堆栈和局部变量。\
线程由CPU独立调度执行,在多CPU环境下就允许多个线程同时运行。\
同样多线程也可以实现并发操作,每个请求分配一个线程来处理。"
# 基于TF-IDF算法进行关键词抽取
keywords = tfidf(text,topK=20,withWeight=True)
print("keywords by tfidf:")
# 输出抽取出的关键词
for keyword in keywords:
print(keyword[0],keyword[1])
控制台输出,
<2>基于TextRank算法进行关键词抽取的示例代码如下所示,
from jieba import analyse
# 引入TextRank关键词抽取接口
textrank = analyse.textrank
# 原始文本
text = "线程是程序执行时的最小单位,它是进程的一个执行流,\
是CPU调度和分派的基本单位,一个进程可以由很多个线程组成,\
线程间共享进程的所有资源,每个线程有自己的堆栈和局部变量。\
线程由CPU独立调度执行,在多CPU环境下就允许多个线程同时运行。\
同样多线程也可以实现并发操作,每个请求分配一个线程来处理。"
# 基于TextRank算法进行关键词抽取
keywords = textrank(text,topK=20, withWeight=True)
print("\nkeywords by textrank:")
# 输出抽取出的关键词
for keyword in keywords:
print(keyword[0], keyword[1])
控制台输出,