Python学习笔记-3群18组-杜杜狼-2017.8.1

What a heck! 终于开始学习数据挖掘实战课程了!!!

Lesson 2 数据挖掘概况

数据挖掘(data mining),指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的,且有价值的信息和知识的过程。
数据挖掘是人们处理商业问题的某些方法,我们通过它来获得有价值的结果

模型
定量:数学公式 e.g. Y = a*X
定性:规则 e.g. (年龄>30岁 and 收入>1万元)

算法
实现数据挖掘技术、模型的具体步骤与方法

Lesson 3 数据挖掘常见问题

从商业角度,需要解决哪些问题?

  • 用户流失预测 (分类问题)
  • 促销活动响应 (分类问题)
  • 目标市场细分 (聚类问题)
  • 交叉销售提升 (关联问题)
  • 未来销量预测 (预测问题)

分类问题

分类型目标变量(Y) -- 有监督学习
使用已知目标分类的历史样本来训练
需要对未知分类的样本预测所属的分类

常见分类方法:决策树,贝叶斯,KNN, 支持向量机,神经网络,逻辑回归
解决的商业问题:预测用户流失,促销活动响应,用户信用评估


聚类问题

无分类目标变量(Y) -- 无监督学习
物以类聚思想

常见分类方法:划分聚类,层次聚类,密度聚类,网格聚类,基于模型聚类
解决的商业问题:目标市场细分,指定营销发展策略
现有客户细分


关联问题,又称购物篮问题

无目标变量(Y)
基于数据项关联,描述数据项之间的密切程度,识别频繁发生的模式
解决的商业问题:哪些商品同时购买的几率高,如何提高商品销售和交叉销售


预测问题

数值型目标变量(Y)-- 有监督学习
需有已知目标值的历史样本来训练模型
对未知的样本预测其目标值
常见预测方法:简单线性回归分析,多重线性回归分析,时间序列
解决的商业问题:未来气温预测,GDP增长预测,收入、用户数预测

Lesson 4 数据挖掘流程

CRISP-DM数据挖掘方法论

  1. 商业理解
  • 确定商业目标 (商业背景,成功标准)
  • 确定挖掘目标 (相关数据统计口径,数据时间窗口成功标准)
  • 制定项目方案(项目计划,确定建模工具,选用算法)
  1. 数据理解
  • 数据收集:形成收集报告
  • 数据描述:求 均值,最大值,最小值等,形成数据描述报告
  • 数据探索:形成直方图
  • 质量描述:形成数据质量报告
  1. 数据准备 (数据宽表,又称一维表)
  • 数据导入
  • 数据抽取
  • 数据清洗(缺失,重复,异常)
  • 数据合并 (记录合并,字段合并,字段匹配)
  • 变量计算 (求均值,占比,标准化值
  1. 模型构建
  • 准备模型的训练集和验证集
  • 选择并使用建模技术和算法
  • 建立模型
  • 模型对比(调整参数)
  1. 模型评估
  • 技术层面:设计对照组进行比较,评估指标:命中率,覆盖率,提升度
  • 业务经验
  1. 模型部署
  • 营销过程跟踪记录
  • 观察模型衰退变化
  • 引入新的特征优化模型
  • 模型写成程序固化到平台

Lesson 5 文本挖掘

语料库 (Corpus)

要分析的所有文档的集合

语料库的构建

构建方法

os.walk(fileDir)
#fileDir是文件夹路径

文件读取

codecs.open(filePath, method, encoding)
#filePath: 文件路径
#method: 打开方式,r, w, rw
#encoding: 文件的编码,中文文件使用UTF-8编码打开

你可能感兴趣的:(Python学习笔记-3群18组-杜杜狼-2017.8.1)