基本内容概述 (一)预测分析的概述 经济预测是把预测的理论和方法应用于经济领域,对经济现象的未来进行判断和预测。经济预测既是科学又是艺术。 预测分析的分类:①按经济预测的空间范围分为:宏观经济预测、中观经济预测和微观经济预测;②按经济预测的时间长短不同分为:近期经济预测、短期经济预测、中期经济预测和长期经济预测;③按经济预测的方法不同分为:定性经济预测和定量经济预测。 预测分析的基本原理:①惯性原理:通过研究经济现象的过去和现在的状态,找出其变化的规律,向未来延续,从而预测其未来状态的原理,称为“惯性原理”;②相关原理。通过深入分析研究预测对象与相关现象的依存关系和影响程度,揭示其变化规律和特征,以此预测经济现象未来状态的原理,称为“相关原理”;③类推原理。通过寻找并分析与预测对象类似事物的规律,根据已知事物的变化规律及特征,推断预测对象未来的状态或特征的原理;④概率推断原理。所谓概率推断原理就是根据小概率原理做出合理的推断的原理。 预测分析的基本程序:①确定经济预测的目的;②调查、收集、整理经济预测所需资料(历史资料和现实资料);③对资料进行分析,选择适当的预测方法;④建立预测模型;⑤根据经济预测模型计算预测值,并测定预测误差;⑥评价预测值,得出预测结论。 预测分析的精确度分析:①经济预测误差及其产生的原因。经济预测误差,是指预测结果与实际值之间的偏差。产生经济预测误差的原因主要有:经济预测资料的限制; 经济预测对象影响因素的复杂性;预测方法不合适。②经济预测误差的测定。常用的测定指标有:单个预测误差et;单个相对误差st;平均绝对误差MAE;预测误差的方差MSE;预测误差的标准差RMSE。③经济预测误差的利用。根据模拟误差最小可以选择最佳预测方法;根据模拟误差最小可以选择预测模型的参数;修正预测值;根据预测误差绘制控制图,用来判断预测模型是否适用。 预测分析的方法及其选择:①预测分析方法的种类:定性预测法;相关回归分析预测法;时间序列预测法。②预测分析方法的选择。 (二)定性预测分析法 德尔菲预测法:又称专家判断预测法,它是以匿名方式通过逐轮函询,征求专家们的预测意见,然后汇总整理得出预测结论的一种方法。德尔菲预测法的主要过程:①准备阶段;②逐轮征询阶段;③数据处理阶段。德尔菲预测法具有匿名性、反馈性、收敛性的特点。 主观概率预测法:主观概率预测法是指利用主观概率对各种预测意见进行集中整理,得出综合性预测结论的一种预测方法。常用的主观概率预测法包括:主观概率加权平均法和累计概率中位数法。主观概率加权平均预测法是以主观概率为权数,对各种预测意见进行加权平均,综合求得预测结论的方法。累计概率中位数法是根据累计概率,确定专家预测意见的中位数,对经济现象的未来进行点估计和区间估计的方法。 PERT预测法:PERT预测法是向具有预测判断能力的销售人员和管理人员进行调查,获取每一个被调查者对销售量的三个估计值,然后,进行综合整理计算出销售量的期望值和标准差,作出点预测或区间预测。 (三)时间序列平滑预测法 时间序列,是将预测对象的历史资料按时间先后顺序排列而形成的一列数。 时间序列分析预测法的假定前提是:①假定预测对象存在着“惯性”,它的发展是依时间序列所反映出来的变化规律发展变化的,未来同过去一样,发展变化规律保持不变;②假设预测对象的变化仅与时间有关。但实际上包含了所有因素的作用,可以理解为它是把所有影响因素综合地归结为一个因素—时间。 时间序列的因素分析:从影响因素发生作用的效果看,通常可以把时间序列的变动分为四种类型,即:①长期趋势,它是指时间序列观察值,即经济现象,在较长一段时期内持续存在的变化趋势;②季节变动,一般是经济现象以年为周期,随着季节的更替,每年都重复出现的有规律的周期性变动。广义的季节变动还包括以季度、月份甚至更短时间为周期的有规律的变动;③循环变动,是指以数年为周期的一种波浪起伏式的变动;④不规则变动,是指由于随机因素和突发事件的作用而引起的变动。时间序列数据的结构模式有乘法模式、加法模式、混合模式。 移动平均预测法:移动平均预测法是根据时间序列资料,逐项移动,依次计算包含一定项数的序时平均数,以反映长期趋势的方法。 一次移动平均预测法:一次移动平均预测法是在原始时间序列的基础上,计算移动平均数,根据移动平均数序列,进行趋势分析和预测的方法。一次移动平均预测法的关键是移动平均的时期长度 的选择。 简单移动平均预测法:根据时间序列中最近 期数据计算简单算术平均数作为下一期预测值的方法。 加权移动平均法:根据时间序列的最近 期数据计算出加权算术平均数作为下一期预测值的方法。利用加权移动平均法进行预测时,不仅要选择好移动平均的时间段长度n,而且还要选择好权数wi。确定权数wi的一般原则是:离预测期愈近权数愈大,离预测期愈远权数愈小。通常取wi=n-i+1,i=1,2,…,n。 二次移动平均预测法:二次移动平均预测法是指在经过一次移动平均形成的新序列基础上,再做一次移动平均,利用移动平均滞后偏差的规律建立直线趋势预测模型进行预测的方法。二次移动平均预测法的特点:①二次移动平均预测法最适宜对呈直线升降趋势的经济现象进行预测;②利用最新数据能够及时地计算出新的系数at和bt,从而能及时改变直线的斜率,调整预测对象的变化趋势,做出比较准确的预测;③由于预测模型中at和bt的值并不是长久不变的,因此,它仅仅适宜作短期预测。 一次指数平滑预测法:一次指数平滑法是以预测对象的本期实际值和本期预测值为基数,分别给两者不同的权数,计算出指数平滑值,作为下期预测值的一种方法。一次指数平滑法的特点:①指数平滑法所要存贮的数据达到了最低限度,有时只需两个数据; ②指数平滑值的实质是全部观察值的线性组合,并且,近期数据给予较大权数,远期数据给予较小权数,反映了近期数据比远期数据对未来更重要。 确定平滑系数 的原则:①如果时间序列波动不大,比较平稳,且呈水平趋势时, 的值应取小一些; ②如果时间序列具有迅速且明显的(升降)变动倾向,则 的值应取大一些;③如果时间序列波动很大,呈水平趋势时,为了削弱不规则波动的影响, 的值应尽量地取小一些; ④不便确定时,可同时取几个值进行计算,然后比较预测误差,选取预测误差最小的 值。 二次指数平滑预测法:在一次指数平滑的基础上,再作二次指数平滑,利用滞后偏差的规律来建立直线趋势模型进行预测的方法。二次指数平滑法很重视近期数据,当得到了一个新的实际数据,就能很快地计算出直线趋势方程中at和bt的值,及时调整趋势直线的截距和斜率,使得趋势方程比较接近实际。 (四)时间序列趋势线模型预测法 常用趋势线模型有:直线模型、 二次抛物线模型、三次抛物线模型、 双曲线模型 、指数曲线模型 、对数直线模型 、修正指数曲线模型、龚珀兹曲线模型、逻辑曲线模型。 趋势线模型的选择方法:①目估法;②数量特征法;③ 残差平方和最小法。 模型参数的估计方法:①最小平方法。 最小平方法也称最小二乘法,它是以各期观测值与模型的估计值之间的离差平方和作为目标函数,寻求并确定使得此目标函数达到最小值时预测模型中各参数值,并由这些参数建立起较为理想的趋势线模型的方法;②三和法。三和法又称三段和法,它是把时间序列平均分成三等段,每段含有m个数据,假定每期数据均在所求趋势线上,分段求和建立方程组,求得模型参数估计值。 直线模型预测法的应用:①预测模型是 ;②数量特征是:一阶差分为一常数;③用最小平方法估计参数。 二次抛物线模型预测法的应用:①预测模型是: ;②数量特征是:二阶差分为一常数;③用最小平方法估计参数。 三次抛物线模型预测法的应用:①预测模型 ;②数量特征:三阶差分为一常数;③用最小平方法估计参数。 指数曲线模型与对数直线模型预测法的应用:①指数曲线预测模型是: ;②指数曲线预测模型的数量特征:环比发展速度为一常数;③对数直线预测模型是: 或 ;④对数直线预测模型的数量特征是:对数的一阶差分为一常数;⑤这两种模型均用最小平方法估计参数。 修正指数曲线模型预测法的应用:①预测模型: ;②数量特征:一阶差分的环比为一常数;③用三和法估计参数。 龚珀兹曲线模型预测法的应用:①预测模型: ;②模型的特征:对数的一阶差分的环比为一常数。因此,当经济变量由开始增长缓慢,随后增长加快,达到一定程度后,增长率逐渐减慢,最后达到饱和状态的过程,可用龚珀兹曲线模型进行预测;③参数的估计方法:把龚珀兹模型改写为对数形式: ,( ),再仿照修正指数曲线用三和法估计参数。 逻辑曲线模型预测法的应用:①预测模型: ;②模型的特征:是其倒数的一阶差分的环比为一常数。它的图形也是一条S形曲线,且对于拐点对称。因此,当经济变量由开始增长缓慢,随后增长加快,达到一定程度后,增长率逐渐减慢,最后达到饱和状态的过程,可用逻辑曲线模型来描述;③参数的估计方法:把逻辑模型改写为倒数形式: ,再仿照修正指数曲线用三和法估计参数。 原文地址:http://202.193.80.54/dchshjfx/z8.htm |
# posted by wfeel @ 2006-07-04 16:21 评论(0) |
(转载)合理选择数据挖掘工具(1) |
摘要:数据挖掘作为一项从海量数据中提取知识的信息技术引起了国内外学术界和产业界的广泛关注,它在商业方面的成功应用使得软件开发商不断开发新的数据挖掘工具,改进现有的数据挖掘工具,一时之间数据挖掘工具可谓琳琅满目,于是出现了如何合理选择挖掘工具的问题。鉴于此,本文提出并讨论了五点关于合理选择数据挖掘工具的技巧。 关键词:数据挖掘;数据挖掘工具;数据仓库 随着数据库和计算机网络的广泛应用,加上先进的数据自动生成和采集工具的使用,人们拥有的数据量急剧增大。然而数据的极速增长与数据分析方法的改进并不成正比,一方面人们希望在已有的大量数据的基础上进行科学研究、商业决策、企业管理,另一方面传统的数据分析工具很难令人满意的对数据进行深层次的处理,这样二者之间的矛盾日益突出,正是在这种状况下,数据挖掘应运而生。数据挖掘作为一项从海量数据中提取知识的信息技术是一个"以发现为驱动"的过程,已经引起了学术界和产业界的极大重视。特别是从1989年8月在美国底特律召开的第11届国际人工智能联合会议上首次出现数据库中的知识发现概念以来,数据挖掘在国际国内都受到了前所未有的重视,目前数据挖掘广泛应用于各个领域,如地理学、地质学、生物医学等等,总之数据挖掘的出现使数据库技术进入了一个更高级的阶段,不仅能对过去的数据进行查询和遍历,还能够找出以往数据间潜在的联系,促进信息的传播。 数据挖掘技术概述 1、数据挖掘的定义 数据挖掘是一个从数据中提取模式的过程,是一个受多个学科影响的交叉领域,包括数据库系统、统计学、机器学习、可视化和信息科学等;数据挖掘反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是一种决策支持过程。通过预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。由于传统的事物型工具(如查询工具、报表工具)无法回答事先未定义的综合性问题或跨部门/机构的问题,因此其用户必须清楚地了解问题的目的。数据挖掘就可以回答事先未加定义的综合性问题或跨部门/机构的问题,挖掘潜在的模式并预测未来的趋势,用户不必提出确切的问题,而且模糊问题更有利于发现未知的事实。 2、数据挖掘的主要方法和途径 数据挖掘有很多种分类方法,如按发现的知识种类,挖掘的数据库类型,挖掘方法,挖掘途径,所采用的技术等等。下面只讨论四个应用比较广泛的方法: ·关联规则(AssociationRule) 在数据挖掘领域中,关联规则应用最为广泛,是重要的研究方向。表示数据库中一组对象之间某种关联关系的规则,一般来讲,可以用多个参数来描述一个关联规则的属性,常用的有:可信度,支持度,兴趣度,期望可信度,作用度。 ·离群数据(Outlier) 离群数据就是明显偏离其他数据、不满足数据的一般模式或行为、与存在的其他数据不一致的数据。数据挖掘的大部分研究忽视了离群数据的存在和意义,现有的方法往往研究如何减少离群数据对正常数据的影响,或仅仅把其当作噪音来对待。这些离群数据可能来源于计算机录入错误、人为错误等,也可能就是数据的真实反映。 ·基于案例的推理(case-basedreasoning,CBR) 基于案例的推理来源于人类的认知心理活动,它属于类比推理方法。其基本思想是基于人们在问题求解中习惯于过去处理类似问题的经验和获取的知识,在针对新旧情况的差异作相应的调整,从而得到新问题的解并形成新的案例。CBR方法的应用越来越受到人们的重视,在许多领域都有较好的推广前景,例如,在气象、环保、地震、农业、医疗、商业、CAD等领域;CBR也可用在计算机软硬件的生产中,如软件及硬件的故障检测;CBR方法尤其在不易总结出专家知识的领域中,应用越来越普遍,也越来越深入。 ·支持向量机(SupportVectorMachine,SVM) 支持向量机是近几年发展起来的新型通用的知识发现方法,在分类方面具有良好的性能。SVM是建立在计算学习理论的结构风险最小化原则之上,主要思想是针对两类分类问题在高位空间中寻找一个超平面作为两类的分割,以保证最小的分类错误率。 数据挖掘工具 伴随越来越多的软件供应商加入数据挖掘这一行列,使得现有的挖掘工具的性能得到进一步的增强,使用更加便捷,也使得其价格门槛迅速降低,为应用的普及带来了可能。当然数据仓库技术的发展同样功不可没。数据仓库是将海量复杂的客户行为数据集中起来建立的一个整合的、结构化的数据模型,是实施数据挖掘的基础,这里不作为讨论的重点。 1、数据挖掘工具分类 一般来讲,数据挖掘工具根据其适用的范围分为两类:专用数据挖掘工具和通用数据挖掘工具。专用数据挖掘工具是针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑了数据、需求的特殊性,并作了优化;而通用数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。 2、数据挖掘工具的选择 数据挖掘是一个过程,只有将数据挖掘工具提供的技术和实施经验与企业的业务逻辑和需求紧密结合,并在实施的过程中不断的磨合,才能取得成功,因此我们在选择数据挖掘工具的时候,要全面考虑多方面的因素,主要包括以下几点: |
数据挖掘的功能和方法 即是否可以完成各种数据挖掘的任务,如:关联分析、分类分析、序列分析、回归分析、聚类分析、自动预测等。我们知道数据挖掘的过程一般包括数据抽样、数据描述和预处理、数据变换、模型的建立、模型评估和发布等,因此一个好的数据挖掘工具应该能够为每个步骤提供相应的功能集。数据挖掘工具还应该能够方便的导出挖掘的模型,从而在以后的应用中使用该模型。 ·数据挖掘工具的可伸缩性 也就是说解决复杂问题的能力,一个好的数据挖掘工具应该可以处理尽可能大的数据量,可以处理尽可能多的数据类型,可以尽可能高的提高处理的效率,尽可能使处理的结果有效。如果在数据量和挖掘维数增加的情况下,挖掘的时间呈线性增长,那么可以认为该挖掘工具的伸缩性较好。 ·操作的简易性 一个好的数据挖掘工具应该为用户提供友好的可视化操作界面和图形化报表工具,在进行数据挖掘的过程中应该尽可能提高自动化运行程度。总之是面向广大用户的而不是熟练的专业人员。 ·数据挖掘工具的可视化 这包括源数据的可视化、挖掘模型的可视化、挖掘过程的可视化、挖掘结果的可视化,可视化的程度、质量和交互的灵活性都将严重影响到数据挖掘系统的使用和解释能力。毕竟人们接受外界信息的80%是通过视觉获得的,自然数据挖掘工具的可视化能力就相当重要。 ·数据挖掘工具的开放性 即数据挖掘工具与数据库的结合能力。好的数据挖掘工具应该可以连接尽可能多的数据库管理系统和其他的数据资源,应尽可能的与其他工具进行集成;尽管数据挖掘并不要求一定要在数据库或数据仓库之上进行,但数据挖掘的数据采集、数据清洗、数据变换等等将耗费巨大的时间和资源,因此数据挖掘工具必须要与数据库紧密结合,减少数据转换的时间,充分利用整个的数据和数据仓库的处理能力,在数据仓库内直接进行数据挖掘,而且开发模型,测试模型,部署模型都要充分利用数据仓库的处理能力,另外,多个数据挖掘项目可以同时进行。 当然,上述的只是一些通用的参考指标,具体选择挖掘工具时还需要从实际情况出发具体分析。 数据挖掘工具的现状 比较著名的有IBMIntelligentMiner、SASEnterpriseMiner、SPSSClementine等,它们都能够提供常规的挖掘过程和挖掘模式。 1、IntelligentMiner 由美国IBM公司开发的数据挖掘软件IntelligentMiner是一种分别面向数据库和文本信息进行数据挖掘的软件系列,它包括IntelligentMinerforData和IntelligentMinerforText。IntelligentMinerforData可以挖掘包含在数据库、数据仓库和数据中心中的隐含信息,帮助用户利用传统数据库或普通文件中的结构化数据进行数据挖掘。它已经成功应用于市场分析、诈骗行为监测及客户联系管理等;IntelligentMinerforText允许企业从文本信息进行数据挖掘,文本数据源可以是文本文件、Web页面、电子邮件、LotusNotes数据库等等。 2、EnterpriseMiner 这是一种在我国的企业中得到采用的数据挖掘工具,比较典型的包括上海宝钢配矿系统应用和铁路部门在春运客运研究中的应用。SASEnterpriseMiner是一种通用的数据挖掘工具,按照"抽样--探索--转换--建模--评估"的方法进行数据挖掘。可以与SAS数据仓库和OLAP集成,实现从提出数据、抓住数据到得到解答的"端到端"知识发现。 3、SPSSClementine SPSSClementine是一个开放式数据挖掘工具,曾两次获得英国政府SMART创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准--CRISP-DM。Clementine的可视化数据挖掘使得"思路"分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。 其它常用的数据挖掘工具还有LEVEL5Quest、MineSet(SGI)、Partek、SE-Learn、SPSS的数据挖掘软件Snob、AshrafAzmy的SuperQuery、WINROSA、XmdvTool等。 结束语 经过十多年的发展,数据挖掘工具的性能获得了显著的改善,不论是自动化程度还是适用范围都发生了巨大变化,价格的门槛迅速降低,对于推进数据挖掘在企业和电子商务中的应用具有特殊的意义。但是还应该看到,现在的数据挖掘工具还存在许多的不足,1999年的调查显示多数的数据挖掘工具只使用了有限的几种技术,且集中在比较简单的数据挖掘技术种类上。 所以我们呼吁每个企业都必须结合自己的实际情况,充分考虑本企业在数据挖掘领域的实施经验,避免踏进仅仅是"选择工具"的陷阱,从而获得一个完善的数据挖掘解决方案,真正把数据挖掘融入到企业的经营决策中。 |