预测型挖掘

预测型挖掘(转)

5月份,我又有一个新的挖掘任务,就是根据历史销售记录来分析将来的销售情况。所以需要预先研究一下这个方面的挖掘,以下是我的学习笔记。

预测型知识挖掘:
顾名思义就是由历史数据和当前数据来推测出未来数据的一种挖掘方式。
从上面一句话中的历史,当前,未来三个关键字,我们可以看出时间概念在这次挖掘中将会起到非常重要的作用。 从预测的主要功能上来看,主要是对未来数据的分类和趋势的输出。

统计学中的回归方法等可以通过历史数据直接产生对未来数据的预测的连续值(这个应该就是我要的功能)

预测型知识的挖掘可以借助于经典的统计方法,神经网络和机器学习技术。

一般来说常见的预测应用模型由如下4种:

1, 趋势预测模型
针对那些具有时序性的数据,比如销售记录,股票价格,发现长期的趋势变化。有许多来自于统计学的方法经过改造可以用于数据挖掘中,如基于n阶移动平均值,n阶加权(加权,又是加权,加权无处不在)移动平均值。还有一些研究较早的,比如分类(分类的方法太多了,之前我在文本分类中使用的是vsm,在这些纯数据的挖掘中,象bayes,decision等方法应该能比较有效果),关联规则等技术也被应用到趋势预测中。

2, 周期分析模式
主要是针对那些数据分布和时间依赖性很强的数据进行周期模式的挖掘。例如,服装在某个季节或所有季节的销售周期。近年来这方面的研究备受注目,有比如快速傅立叶变换等统计方法及其改造算法。看来我要着重研究这个周期分析模式。

3, 序列模式
主要针对历史事情发生的次序的分析形成预测模式来对未来行为进行预测。例如,预测“3年前购买计算机的客户有很大的概率会购买数字相机”。我怎么就觉得这个和推荐算法有千丝万缕的联系呢。

4, 神经网络
在预测型知识挖掘中,神经网络也是很有用的一个模式结构。我一直觉得这个是最玄的一个东东,目前我也没有对它进行什么深入的研究。

通过以上的一些权衡,我觉得周期分析模式应该是我这次任务的主攻方向,希望我能圆满完成任务。

你可能感兴趣的:(数据结构,算法,数据挖掘,网络应用)