【BitTiger读书会】·第二期《数据挖掘导论》

【BitTiger读书会简介】

BitTiger读书会，以书会友。以报告方式，加强组织表达力；以讨论方式，激荡思考判断力，期能扩充知识领域，养成读书习惯。

每周一本好书，一年阅读50本书，集众智，挑好书，留精华内容，创优质社群。

BitTiger读书会，欢迎您的加入！

在上一期的读书活动中，我们读了吴军博士的《智能时代》。接下来四月份的读书活动，我们将以数据为主题，和大家分享《数据挖掘导论》，《Recommender System Handbook》（推荐系统手册）和《Bad Data Handbook》（坏数据处理实用宝典）这三本书的精华。

【分享书籍】

图片发自App

《数据挖掘导论》

【书籍介绍】

豆瓣评分8.4的Data Mining经典读物；

无需数据库背景也可以读懂的数据挖掘书；

从数据、分类、关联分析、聚类和异常检测五个方面，

全面解析数据挖掘；

在一小时的时间里，数据分析师田华与你分享此书的精华、心得和实例。

【嘉宾介绍】

田华（数据分析师）

【电子书下载】

点击此处下载：数据挖掘导论完整版.pdf

或者从Google网盘下载（国内需翻墙）：

https://drive.google.com/file/d/0Bzu4H4u37WXSRDBDcXRmQU1JajA/view

【加入读书会】

获取BitTiger读书会系列读书分享信息，请添加微信ID: saraincs，备注“读书”加入BitTiger读书会活动群

图片发自App

【分享文稿】

《数据挖掘导论》，本书主要分5个主题：数据、分类、关联、聚类、异常检测。这是一本很不错的数据挖掘入门教材，有些地方还是需要结合自己实际的业务去补充知识。

我是按照自己需要的东西去看的，初略的看了一遍，用了关联和聚类的K-MEANS算法。

数据部分:

我分数据预处理、数据汇总统计、数据可视化三个部分去补充书本外的东西。

大概的总结方法：数据预处理的方法:1.值清洗（确定缺失值范围、去除不需要的字段、填充缺失内容、重新取数），2.内容清洗（时间、日期、数值、全半角显示格式不一致，内容中有不该存在的字符，内容与该字段应有内容不符），3.逻辑错误清洗（去重、去除不合理值、修正矛盾内容，4.非需求数据清洗（看上去不需要实际对业务很重要的字段删了）。————也可以按照少多乱的思路去总结自己的数据处理工作。

数据探索：数据特征分析：分布分析、对比分析、统计量、周期性、贡献度

相关性分析:散点图、散点图矩阵、偏相关性、简单相关分析（pearson、spearman、判定系数）—————这部分还是需要看统计学的课本。

数据可视化:原则：最短时间获取信息，尽量的展现最多的信息，图表内容近可能少。————可视化基础报表主要是研究别人做的好的表做模板学习。

分类部分

分类任务就是通过学习一个目标函数（分类模型）f,把每个属性集x映射到预先定义的类标号y。主要的目标是建立很好的泛化功能，即建立能够预测未知样本类标号的模型。这部分挺重要的，实际应用的地方也多。

分类法的例子：决策树分类法、基于规则的分类法、神经网络、支持向量机和朴树贝叶斯分类法。

关联部分

关联规则：如果两个或者多个事物之间存在一定的关联关系，其中一个事物就可以通过其他事物预测。这部分常用的就是购物篮分析，可以拿找订单数据练手，我反正是这么做的。

聚类部分

组内的对象相互之间是相似的(相关的)，而不同组中的对象是不同的（不相关的）。组内相似性越大，组间差别越大，聚类就越好。常见的聚类方法:K均值、层次聚类和DBSCAN。

我用的是K均值，容易上手，做了一个基于RFM的客户分群的分析。

客户分群建模步骤:

1.变量预处理（缺失、极值），分类变量转化哑变量（0/1数值）——聚类不支持缺失值。

2.变量标准化:变量的量纲不一样会引起计算距离的偏差。比如年龄（18-100）

3.变量筛选：变量相关、多个维度、商业意义

4.确定分类的个数（3-8个）以下5个指标：ccc值越大越好，差别越大越好，分群越好；F值:F值越大越好；保证分群结果的覆盖率；重复多次分群，看结果稳定；结合业务场景。