#Python3组数据挖掘实战总结#

数据挖掘实战课程

章节1 课时2

定义

Data mining, DM

大量的数据中,通过统计学、人工智能、机器学习等方法挖掘出未知的、且有价值的信息和知识的过程。

  • 案例:啤酒与尿布

  • 可视化

  • 算法

  • 数据库

  • 机器学习

  • 统计学

  • 市场营销

  • 其他学科

数据挖掘工程师往往是熟悉和理解业务的人

数据挖掘 VS 数据分析

  • 分析重统计,挖掘偏预测
  • 分析[现状、原因、预测]
  • 挖掘[分类、聚类、关联、预测]
  • 分析[对比、分组、交叉、回归]
  • 挖掘[决策树、审计网络、关联规则、聚类分析]
  • 分析[指标统计量]
  • 挖掘[输出模型或规则]

模型VS规则

  • 模型:Y=f(X)
  • 规则:Y={y|age>30 & income>10000}

算法则是求解模型的步骤与方法

章节1 课时3

常见问题

商业角度的问题->数据挖掘

  • 用户流失,促销活动 -> 分类
  • 目标市场 -> 聚类
  • 交叉销售 -> 关联
  • 未来销量 -> 预测

各方法特点

  • 分类:有监督学习,已知目标分类的样本训练
  • 决策树、贝叶斯、KNN等
  • 用户流失,促销响应等
  • 聚类:无监督,物以类聚的思想
  • 层次、网格、密度等
  • 目标市场细分、现有客户细分等
  • 关联:无监督,别称购物篮分析,识别频繁发生的模式
  • Aprior、Carma、序列
  • 交叉销售
  • 预测:有监督学习
  • 线性回归、时间序列
  • 气温、GDP、收入、用户数预测等

章节1 课时4

CISP-DM

1. 商业理解

  • 确定商业目标:商业背景,成功标准
  • 确定挖掘目标:口径,数据,维度,成功标志
  • 制定项目方案:算法,时间安排

2. 数据理解

  • 收集
  • 描述
  • 探索
  • 质量描述

3. 数据准备

  • 导入、抽取、清洗、合并、变量计算

4. 模型构建

  • 训练集,验证集
  • 建模技术
  • 建立模型
  • 模型对比

5. 模型评估

  • 技术层面:设计对照组比较;评估指标要设计合理[命中率、覆盖率、提升度]
  • 业务经验

6. 模型部署

  • 营销过程跟踪
  • 观察模型衰退变化
  • 引入新的特征优化模型
  • 程序固化

章节2 课时5

文本挖掘

案例

常用词汇统计

语料库

待分析文档的集合

  • 通过循环将路径全部读入
filePaths = []
for root, dirs, files in os.walk(
    "D:\\PDM\\2.1\\SogouC.mini\\Sample"
):
    for name in files:
        filePaths.append(os.path.join(root, name))

章节2 课时6

中文分词

  • jieba

利用命令行pip install jieba即可

  • jieba.cut('我在用文本分析')
  • jieba.add_word('文本分析')

增加自定义分词,词库构建

  • jieba.load_userdict()

章节2 课时7

词频统计

  • 词频:Term Frequency

dataframe.groupby()

  • 词云
  • 无效词语的过滤
  • 最终统计剔除~isin(stopwords)
  • 分词时直接剔除

章节2 课时8

词云绘制

  • 词云:图形化表达词频
  • word cloud

章节2 课时9

词云梅花

  • 词云配合形状
  • 准备好词频数据
wordcloud
mask
  • 调整图片质量,尺寸

章节2 课时10

关键词提取

jieba.analyse.extract_tags(content, topK)

章节2 课时11

关键词提取原理

TF-IDF原理

  • 词频TF
  • 逆文档频率(权重),log(文档综述/(包含该词的文档数+1) IDF
  • TF-IDF = TF * IDF

文档向量化

  • d_m 文档
  • w_n 分词
  • f_{ij}: 第i篇文章,分词j出现的次数

正则表达式

import re
re.complile(u'[\u400-u9fa5]+')

章节2 课时12

sklearn

scikit-learn, bsd-开源许可

  • 利用空格人工先做分词,仿照英文
  • 保留最短长度:中文单字可成词
  • sort by TF-IDF方法
  • 向量化:sklearn.feature_extraction.text.CountVectorizer
  • TF-IDF计算:sklearn.feature_extraction.text.TfidfTransformer

章节2 课时13

相似文章推荐

推荐

  • 好的人+事物,相似推荐+协同过滤推荐
  • 相似推荐:用户表现出对某人/物的兴趣,为它推荐类似的人/物--人以群分,物以类聚
  • 协同过滤:已有用户群历史的行为与偏好,预测当前用户的偏好

理论依据:余弦相似度

  • pairwise_distance

章节2 课时14

自动摘要

短文,全面准确反映

  • 原理:类似余弦定理
  • 算法:
  • 获取到需要摘要的文章
  • 对该文章进行词频统计
  • 对该文章进行分句(跟进标点)
  • 计算分句与文章之间的余弦相似度
  • 取相似度最高的分句,作为文章的摘要

章节3 课时15

  • 相关系数

关联程度的基本测度之一

  • 相关分析基本特征
  • 方向:正、负相关
  • 量级:低度(0,0.3) 中度 [0.3,0.8) [0.8,1]
numpy.corrcoef(X,Y)

你可能感兴趣的:(#Python3组数据挖掘实战总结#)