中文分词:
我的家乡可以分为 我 的 家乡
停用词
数据处理,需要过来的词语和子 如web,网址等 语气助词、副词、介词、连接词等
通过jieba中文分词包
import jieba;
for w in jieba.cut("我爱Python"):
print(w)
输出为:
我
爱
Python
例如:
for w in jieba.cut("""
工信处女干事
每月经过下属科室都要亲口交代
24口交换机等技术性器件的安装工作
"""):
print(w)
输出:
工信处
女干事
每月
经过
下属
科室
都
要
亲口
交代
24
口
交换机
等
技术性
器件
的
安装
工作
jieba包导入新的词库
jieba.load_userdict(
'D:\\PDM\\2.2\\金庸武功招式.txt'
);
中文分词统计
第一步构建语料库
import os;
import os.path;
import codecs;
filePaths = [];
fileContents = [];
for root, dirs, files in os.walk(
"D:\\PDM\\2.2\\SogouC.mini\\Sample"
):
for name in files:
filePath = os.path.join(root, name);
filePaths.append(filePath);
f = codecs.open(filePath, 'r', 'utf-8')
fileContent = f.read()
f.close()
fileContents.append(fileContent)
import pandas;
corpos = pandas.DataFrame({
'filePath': filePaths,
'fileContent': fileContents
});
第二步:通过jieba分词统计
import jieba
segments = []
filePaths = []
for index, row in corpos.iterrows():
filePath = row['filePath']
fileContent = row['fileContent']
segs = jieba.cut(fileContent)
for seg in segs:
segments.append(seg)
filePaths.append(filePath)
segmentDataFrame = pandas.DataFrame({
'segment': segments,
'filePath': filePaths
});