Python学习笔记-3群18组-杜杜狼-2017.8.2

Lesson 6 词频统计 - 中文分词

中文分词(Chinese Word Segmentation):将一个汉子序列切分成一个一个单独的词
停用词(Stop Words):数据处理时,需要过滤调某些词或字

  • 泛滥的词,如web, 网站
  • 语气助词,副词,介词,连接词
#分词方法
jieba.cut(content)
#优化分词效果: 增加自定义分词
jieba.add(word)
#优化分词效果: 导入自定义词典
jieba.load_userdict(filePath)

如何找相关领域的词库?

Lesson 7 词频统计-实现

Term frequency 某个词在该文档中出现的次数

分组统计函数
DataFrame.groupby(
by=列名数组
)[统计列名数组].agg({
'统计项名称':统计函数
})

列表包含
DataFrame.Column_name.isin(数组)

取反
df[~df.列名.isin(数组)]

你可能感兴趣的:(Python学习笔记-3群18组-杜杜狼-2017.8.2)