数据挖掘简介及学习路径介绍

1.数据挖掘经典案例

1、预测未来一段时间用户是否会流失
2、某个促销活动用户是否会响应参加
3、评估用户信用度是好还是差
4、细分现有的目标市场
5、对现有客户群进行群体细分
6、提升商品销售及交叉销售
7、一群用户购买了很多商品之后,哪些商品同时购买的几率比较高
8、预测未来的销量
9、天气预报中预测明天的气温是怎样的
10、国家的年底规划中,预测明年的GDP增长率是怎样的
数据挖掘要做的就是把上述类似的商业问题转化为数据挖掘问题

2.数据挖掘问题分类

  1. 分类问题
    促销活动响应,评估用户度都属于数据挖掘的分类问题,常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等。
  2. 聚类问题
    细分市场,细分客户群体都属于数据挖掘的聚类问题,常见的聚类算法:划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。
  3. 关联问题
    交叉销售问题等属于关联问题,关联分析也叫购物篮分析,常见的关联分析算法:Aprior算法、Carma算法,序列算法等。
  4. 预测问题
    通常,预测是通过分类或估值起作用的其目的是对未来未知变量的预测,常用的方法:简单线性回归分析、多重线性回归分析、时间序列等。

3.数据挖掘过程

  1. 确定业务对象
    清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步.挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的.
  2. 数据准备
    1)、数据的选择
    搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据.
    2)、数据的预处理
    研究数据的质量,为进一步的分析作准备.并确定将要进行的挖掘操作的类型.
    3)、数据的转换
    将数据转换成一个分析模型.这个分析模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.

  3. 数据挖掘
    对所得到的经过转换的数据进行挖掘.除了完善和选择合适的挖掘算法外,其余一切工作都能自动地完成.

  4. 结果分析
    解释并评估结果.其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术.
  5. 知识的同化
    将分析所得到的知识集成到业务信息系统的组织结构中去.

4.如何学习数据挖掘

一、用何种工具实操数据挖掘

  1. 达到理解入门层次
    了解统计学和数据库即可
  2. 达到初级职场应用层次
    数据库+统计学+SPSS(也可以是SPSS代替软件)
  3. 达到中级职场应用层次
    SAS或R
  4. 达到数据挖掘师层次
    SAS或R+Python(或其他编程语言)

二、利用Python学习数据挖掘

  1. Pandas库的操作
    Panda是数据分析特别重要的一个库,我们要掌握以下三点:
    1)pandas 分组计算;
    2)pandas 索引与多重索引;
    索引比较难,但是却是非常重要的
    3)pandas 多表操作与数据透视表
  2. numpy数值计算
    numpy数据计算主要的应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:
    1)Numpy array理解;
    2)数组索引操作;
    3)数组计算;
    4)Broadcasting(线性代数里面的知识)
  3. 数据可视化-matplotlib与seaborn
    1)Matplotib语法。
    2)seaborn可视化工具的使用
    3)pandas绘图功能
  4. 数据挖掘入门
    这部分是最难也是最有意思的一部分,要掌握以下几个部分:
    1)机器学习的定义
    2)代价函数的定义
    3)Train/Test/Validate
    4) Overfitting的定义与避免方法
  5. 数据挖掘算法
    最简单的,最核心的,最常用的算法:
    1)最小二乘算法;2)梯度下降;
    3)向量化;4)极大似然估计;
    5)Logistic Regression;6) Decision Tree;7) RandomForesr;8) XGBoost
  6. 数据挖掘实战
    通过机器学习里面最著名的库scikit-learn来进行模型的理解

你可能感兴趣的:(数据挖掘简介及学习路径介绍)