在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,这样能更好的分析句子的特性,这个过程叫就叫做分词。由于中文句子不像英文那样天然自带分隔,并且存在各种各样的词组,从而使中文分词具有一定的难度。
不过,中文分词并不追求完美,而是通过关键字识别技术,抽取句子中最关键的部分,从而达到理解句子的目的。
Jupyter Notebook是一个交互式的笔记本工具,重点有两点
- “交互式” 让你随时随时运行并暂存结果,
- “笔记本” 记录你的研究过程
想象一下,在这之前你是如何使用Python的?
有了JN之后,你可以:
jieba模块安装请参见官方说明
jieba 是一个python实现的中文分词组件,在中文分词界非常出名,支持简、繁体中文,高级用户还可以加入自定义词典以提高分词的准确率。
它支持三种分词模式
另外它还自带有关键词摘取算法。
pandas 是基于NumPy 的大数据处理工具,基本数据结构有(二维表)DataFrame,(一维数组)Series。
本次实验中,我们主要使用pandas的DataFrame,加载、保存csv数据源,处理数组进行去重、统计。
实验数据为百度随意打开的新闻,请读者自行按下表格式准备
id | title | content |
---|---|---|
1 | 文章标题 | 文章内容 |
2 | 文章标题 | 文章内容 |
3 | 文章标题 | 文章内容 |
第一行将代码标记为utf-8编码,避免出现处理非ascii字符时的错误
# -*- coding: UTF-8 -*-
载入需要用到的模块,as是给模块取个别名,输入的时候不用输那么长的单词。
嗯,反正你别问我为什么不给jieba取别名
import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs
默认情况下,pd显示的文本长度为50,超出部分显示为省略号,我们修改一下,以方便观察数据(文章内容)
#设置pd的显示长度
pd.set_option('max_colwidth',500)
读取我们的实验数据,将所有列设置为string,编码指定utf-8,第一行为列头
#载入数据
rows=pd.read_csv('datas1.csv', header=0,encoding='utf-8',dtype=str)
我们直接在下一个Cell中输入变量rows
,观察载入的结果
对于普通分词,我们需要将停用词载入到一个数组中,在分词后逐一比较关键词是否为停用词
stopwords = [line.strip() for line in codecs.open('stoped.txt', 'r', 'utf-8').readlines()]
对于TF-IDF,我们只需要告诉组件停用词库,它将自己载入词库并使用它
#载入停用词
jieba.analyse.set_stop_words('stoped.txt')
接下来我们就要对所有文章进行分词了,先声明一个数组,用于保存分词后的关键字,此数组每行保存一个关键字对象。
关键字对象有两个属性:
# 保存全局分词,用于词频统计
segments = []
for index, row in rows.iterrows():
content = row[2]
#TextRank 关键词抽取,只获取固定词性
words = jieba.cut(content)
splitedStr = ''
for word in words:
#停用词判断,如果当前的关键词不在停用词库中才进行记录
if word not in stopwords:
# 记录全局分词
segments.append({'word':word, 'count':1})
splitedStr += word + ' '
for index, row in rows.iterrows():
content = row[2]
#TextRank 关键词抽取,只获取固定词性
words = jieba.analyse.textrank(content, topK=20,withWeight=False,allowPOS=('ns', 'n', 'vn', 'v'))
splitedStr = ''
for word in words:
# 记录全局分词
segments.append({'word':word, 'count':1})
splitedStr += word + ' '
观察分词后的关键字,发现全是utf-8编码后的文字,暂时不管,我们先将这个数组转换为DataFrame对象,调用groupby方法和sum方法进行统计汇总。
# 将结果数组转为df序列
dfSg = pd.DataFrame(segments)
# 词频统计
dfWord = dfSg.groupby('word')['count'].sum()
输出结果
#导出csv
dfWord.to_csv('keywords.csv',encoding='utf-8')
完整代码
# -*- coding: UTF-8 -*-
import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs
#设置pd的显示长度
pd.set_option('max_colwidth',500)
#载入数据
rows=pd.read_csv('datas1.csv', header=0,encoding='utf-8',dtype=str)
segments = []
for index, row in rows.iterrows():
content = row[2]
#TextRank 关键词抽取,只获取固定词性
words = jieba.analyse.textrank(content, topK=50,withWeight=False,allowPOS=('ns', 'n', 'vn', 'v'))
splitedStr = ''
for word in words:
# 记录全局分词
segments.append({'word':word, 'count':1})
splitedStr += word + ' '
dfSg = pd.DataFrame(segments)
# 词频统计
dfWord = dfSg.groupby('word')['count'].sum()
#导出csv
dfWord.to_csv('keywords.csv',encoding='utf-8')
本次实验,我们学习了如何使用jieba模块进行中文分词与关键字提取,结果各有千秋:
总之,我们应根据我们的目标去选择适当的分词方法。
jieba 开源仓库 https://github.com/fxsjy/jieba
Python大数据:商品评论的情感倾向分析