数据挖掘建模过程

1.目标定义
明确本次的挖掘目标是什么,针对餐饮行业目标可定义为:
1)实现动态菜品智能推荐

2)对餐饮客户进行细分

3)综合考虑节假日、气候等影响因素,对菜品销量进行预测

4)基于餐饮大数据,优化新店选址
2.数据取样
抽取数据的标准:相关性;可靠性;有效性
任何时候都不能忽视数据质量,衡量数据质量的标准包括:资料完整无缺,各类指标齐全;数据准确无误,反映的都是正常状态下的水平。

对获取的数据可从中做抽样操作,常见的抽样方式如下:
1)随机抽样:在采用随机抽样方式时,数据集中每一组观察值都有相同的概率。如按10%的比例对一个数据集进行随机抽样,则每一组观察值都有10%的机会被取到。
2)等距抽样:按照5%的比例对有100组观测值的数据集进行等距抽样,则100/5=20个数据被取出,那么等距抽样的方式是取第20、40、60、80、和第100组这5组观测值。

3)分层抽样:首先将样本总体分成若干层次,每个层次中的观测值都具有相同的被选用的概率,但对不同层次可设定不同的概率,这样的抽样结果通常具有更好的代表性,进而使模型具有更好的拟合精度。

4)按起始顺序抽样:这种抽样方式是从输入数据集的起始处开始抽样。抽样的数量可以给定一个百分比,或者直接给定选取观测值的组数。

5)分类抽样:前述几种并不考虑抽样的具体取值,分类抽样依据某种属性的取值来选择数据子集,如按照地址区域分类。

3.数据探索

主要包括异常值分析、缺失值分析、相关分析、周期性分析等。

4.数据预处理

主要包括数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、数据规约等。

5.挖掘建模

分析建模应用的问题是分类、聚类、关联规则、时序模式还是智能推荐?

6、模型评价

对分类与预测模型和聚类分析模型的评价方法是不同的,具体后面学习。
 

你可能感兴趣的:(数据分析,数据挖掘,机器学习,人工智能)