数据挖掘思路

1.数据取样标准:

可靠性,相关性,有效性。

抽取数据的常见方式有:随机抽样,等距抽样,分层抽样,从起始顺序抽样分类抽样。

2.数据探索:

异常值分析,缺失值分析,相关性分析和周期性分析等。

3.数据预处理:

数据筛选,数据变量转换,缺失值处理,坏数据处理,数据标准化,主成分分析,属性选择,数据规约等。

4.选择构建的模型:

分类,聚类,关联规则,时序模式或者智能推荐等。

5.模型评价。

6.常用数据挖掘建模工具:

SAS,SPSS Modeler,SQL Server,Python等等,都是几种大家了解的工具。

 

 

你可能感兴趣的:(Python数据分析)