最近在实际的项目中有些困惑,感觉数据挖掘的目标确定是很棘手的问题,数据质量也阻碍了项目的进行,在网上发现了这篇文章,感觉作者分析确实是目前数据挖掘项目在国内遇到的问题。
台资餐饮企业“一茶一座”在内地发展迅猛,几年下来已经开了34家连锁店, 历史数据累积到三千多万条;本土生产型企业“乐百氏”的门店几乎已铺遍全国, 总部十分重视原始数据的采集,为加强对各区域门店和经销商的管理,需要上一套 分销系统。
两家企业都是中等规模,信息基础设施较为完备,信息化项目的负责人也既懂 业务又懂技术;巧的是,他们今年都选择了部署商务智能系统。接受采访时两位CIO均表示,迄今为止企业的数据主要集中在销售方面,财务、库存数据还没有整合到 系统中,以企业目前的运营规模和数据流量来看,没有实施数据挖掘的必要。
1998年,数据挖掘带着“啤酒加尿布”的光环来到中国,引起理论界一阵热 炒;紧接着,一些大牌IT企业也加入炒作的行列,大有企业救世主的风范。然而经过几年的实践,数据挖掘的应用和实施仍处困境,即便在电信、税务、金融等领域,成功案例也屈指可数。数据挖掘何以炒着热吃着冷?数据挖掘是大忽悠还是懵懂少年?
尴尬处境:大企业成功案例少 中小企业需求小
“一茶一座”和乐百氏公司的看法,颇有代表性。至今,企业普遍使用的数据挖掘手段仍然只是报表分析或OLAP信息钻取,情况好点的也不过是一些第三方建立的在实际运用中效果相当有限的客户流失预测模型。
中科院研究生院软件学院潘辛平教授一直关注着数据挖掘技术的进展,他常问项目参与者:哪些信息是真正通过挖掘才展现出来的,而哪些信息是本来就已知的,往往得不到令人满意的答复。期间还有人告诉他,某证券公司数据挖掘项目的结论之一竟然是:凡在深交所开户的投资者必然也在上交所开户,消息传开,圈里的朋友都拿它当饭桌上的笑话讲。
笑话归笑话,对于企业客户而言,数据挖掘的应用存在大量天然障碍是不争的事实!日处理数据达到Tb(1024G)级才有意义;平台软件或解决方案动不动得花费上千万元,哪怕租用两年也得几百万;企业必须专门配备一支IT队伍,在项目建成后负责数据分析与挖掘工作。如果企业的经营规模不够大,年营业额不够高,没有一定的信息技术基础,是不敢染指数据挖掘的。因此,更多的企业最终选择的是把数据仓库、在线分析处理(OLAP)、数据挖掘等技术打包在内的整套商务智能系统,而这种商务智能系统的数据挖掘能力偏弱。
数据是数据挖掘应用的依据,中科院金融科技研究中心首席科学家刘世平认为,即便在大型企业,由于数据搜集起步普遍比较晚,数据可得性和完备性都不高。很多行业的生产、财务、销售等敏感数据,由于用户的选择性输入或漏输、错输,难以为数据挖掘工具所用。
企业需要具备什么基础才能应用数据挖掘技术呢?SPSS数据挖掘项目经理戴庆祝表示,理想的起点是建立一个数据仓库,里面保存好所有客户的数据,以及市场竞争对手的相关数据。如果数据仓库还没有建起来就直接上数据挖掘应用,结果很可能中途夭折,因为数据挖掘前期几乎80%的工作都是在准备数据,把数据整合、抽取、清洗、转换、装载。如果给出的最初数据质量不高,模型再好,最后做出的预测也难如人意。
另一方面,开发商提供的软件自身也存在缺陷,例如模型与实际要求偏差大,缺乏主动预警机制等。数据挖掘工具引入国内时间不长,并没有分行业推出不同版本,很多系统实施顾问也只能够提供简单通用的算法,用起来似隔靴搔痒。在流行的数据挖掘解决方案中,多以“页面浏览”的方式将信息传达给用户,缺乏主动出击、危险预警的理念。例如某企业财务指标超出正常范围时,系统页面会采用指示灯闪烁的形式提示危险信息,如果相关人员没有浏览该数据分析页面,就无法获取这一重要信息。
复合型项目人才一将难求
目前的数据挖掘市场,基本处在跨国巨头的垄断之下,至今未出现类似于ERP、SCM等领域的本土知名企业,连提供解决方案与咨询的厂商,其骨干及项目经验也多来自外企或国外。无论是软件开发商、咨询服务提供商或实施方,人才匮乏问题成为企业发展的一大瓶颈。
刘世平对这点深有体会。他本是IBM全球银行数据挖掘咨询组组长,有丰富的数据挖掘项目经验,怀着创业的梦想,他从IBM出来,在中科院带研究生的同时,也办了一家提供数据挖掘解决方案和咨询业务的公司――吉贝克信息技术(北京)有限公司。刘世平遇到的最大难题不是找不着业务需求,而是招不到合格的项目从业人员,哪怕是跑到国内顶尖院校,见着的仍是流于书本理论毫无项目实践的高才生。没办法,他只好立足于自己培养,现在的数据挖掘团队都是刘世平花了几年心血一手带出来的。这样的例子在业界举不胜举。
如果说成功的数据挖掘项目是一串钻石项链,那么数据收集和整理是挑选含有钻石的矿石,统计建模和数据分析则是钻石的开采,而项目管理就是把一颗颗钻石连接起来的金线。与其他信息系统对项目管理人员的要求不同,数据挖掘要求项目管理者不仅具备项目管理能力、软件设计能力、超强的理解和沟通能力,还要具备相当的数据分析能力。
数据挖掘项目的实施人员,除了项目管理者之外,还需要三类具有不同专长的人员,一是业务分析人员,精通业务,能够解释业务对象,并根据业务对象确定用于数据定义和挖掘算法的业务需求;二是数据分析人员,精通数据分析技术,熟练掌握统计学,能把业务需求转化为具体操作,并为每步操作选择合适的技术;三是数据管理人员,精通数据管理技术,了解数据源,负责数据准备过程。
同样,要成功完成一次数据挖掘过程,用户也既要熟悉业务,也要熟悉算法和模型,才能知道取出来的数据代表什么,算出来的结果又代表什么。而电信、金融等行业主导数据挖掘系统建设的大都是工科出身,不但业务不熟悉,对统计学也很生疏。由于双方面都对复合型人才有极大的需求,以致常出现用户挖厂商墙角、厂商再花大价钱回挖的人才拉锯战。
国内大型企业的数据挖掘成功案例凤毛麟角,很大一部分原因就在于用户过分依赖厂商,自身没有形成一支懂技术、懂业务、懂管理的核心团队。这点可以从宝钢的例子中吸取一点经验。宝钢领导普遍都很重视数据仓库的项目建设,亲自参与项目的整体或阶段性规划,并狠抓IT团队建设。几年下来,宝钢培养出一批掌握SAS核心技术的员工,保证了数据挖掘在业务上的较好应用。
实施过程中CEO的心头疙瘩
数据挖掘本身并不产生价值,实施数据挖掘后产生的结果才有价值。项目实施过程中,用户与厂商之间存在着某些解不开的结。数据挖掘人员口里念叨的尽是些稀奇古怪的技术名词,他们的出身复杂,既不完全是学计算机的,也不像统计学家,更不像营销策划人员,他们搭建的模型五花八门,他们挖掘的结果不容易理解。商业直觉强烈的企业用户CEO们很容易产生抵触情绪,常常在四方面向数据挖掘人员开炮。
其一,争议自变量的选择权。企业CEO一般对预测模型的建立都比较感兴趣,预测的目标也比较好确定,比如要预测客户流失,那么“客户是否流失”就是目标变量;要预测股票涨跌,那么“收市价是否上升”就是目标变量。但确定哪些变量作为自变量则颇费周折,换句话说,要确定哪些因素与目标变量有关系,往往是双方各执一词。
自变量该由企业用户一方来决定,还是该由数据挖掘人员决定呢?企业用户人员拥有长期的业务经验,能敏锐感觉到哪些因素与目标变量密切相关,不过他们有时会遗漏很多表面无关但实际上很重要的因素,这正是数据挖掘人员可以发挥作用的地方。理想的方式是双方结合决定,但谁主谁辅则常常争执不休。
其二,CEO喜欢把客户群体分得越细越好。与传统的经验细分相比,数据挖掘产生的客户细分能够考虑客户更多的行为属性,每个客户群体具有更鲜明的行为特征。但什么样的客户细分结果才算好的?将客户分成多少个群体是最合适的?群体之间的人数相差悬殊是否就意味着细分结果不够好?
预测性模型的好坏有很多衡量指标,上述问题却没有一定的衡量标准。客户细分模型的好坏,更多地要从业务角度来评判。CEO喜欢将客户分成上百个群体,总想更细致地了解各群体客户的行为特征,但客户经理多半要忙吐血也顾不过来,现有的客户管理系统也很难支撑过多客户群体的处理。因此,数据挖掘人员的应对措施就难以让CEO满意。
第三,质疑数据挖掘的结果。数据挖掘建立的预测模型,是对真实世界的模拟,依据企业数据库中储存的客户行为信息建立的预测模型无法得出确定性结果,只能以概率值示人。例如,电信运营商要求挖掘出某个客户流失究竟是因为对网络质量不满、对服务质量不悦、还是对资费政策有怨言,但挖掘出来的结果只会是诸如“如果最近一个月漫游通话次数小于25次、交往圈人数三个月均值小于97个……则符合这样条件的客户其流失概率为46%”的判断。
这样以概率值提交的结果最容易招来企业CEO的不满。他们通常会问,我要对我的客户流失做出预测,为什么不能准确告诉我究竟是哪些客户下个月会流失?只告诉我每个客户流失的概率,这样的数值叫我如何使用?
第四,还有数据挖掘不能解决的问题?CEO在指示业务需求时,常会提出如何优化自己的网络资源、如何对有众多随机因素的不确定系统(物流、供应链、排队系统等)提出最优操作方案、如何根据现状推演未来市场份额的变化等问题。由于相关技术在国内的应用很少,数据挖掘人员会告诉CEO:上述问题分别属于运筹学、离散事件仿真、系统动力学仿真的领域,超出了数据挖掘的能力。这样的回答很容易让CEO愤愤不平,难以释怀。
挖掘结果未必能改善
数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。说白了,数据挖掘只是一个工具,它可以发现一些潜在的用户,但不会告诉使用者为什么,也不能保证这些潜在的用户成为现实。
实际上,数据挖掘只能找出数据上的关联,还不能把这种数据关联关系当成因果关系。例如挖掘发现,“大多数车祸出现在中等行驶速度当中,极少的事故出在高于150公里/小时的速度上。”人们当然不能认为“高速行驶比较安全”,它的真实原因在于“多数人是以中速行驶,因此多数车祸出在中速行驶的车辆上”。
数据挖掘的成功要求CEO对期望解决问题的领域有深刻的理解,理解数据,理解其过程,才能对数据挖掘的结果找出合理的解释。拿啤酒和尿布这一经典例子来说,如何去解释这种现象,是应该将两者放在一起还是分开销售?需要摸透消费者的心理才能做出决定,而无法靠数据挖掘得出结论。
美国有家冰激凌生产商,总是听到顾客对产品的抱怨,而产品的质量又检查不出什么问题,企业CEO也一直不明就里。后来市场部用上数据挖掘软件,通过分析知道问题出在产品的外包装上,由于包装上冰激凌图片里的水果数量较多,而实际产品没有那么多,导致了顾客的不满。市场部随即换上新的包装,顾客的抱怨也就停止了,但销量并没有明显增加。数据挖掘的结果帮助企业解决了一个表面问题,但没有改善企业的经营状况。
数据挖掘提供的是一个辅助决策的系统,它不能代替CEO来进行决策。人在所有的信息系统包括数据挖掘平台中的作用始终是第一位的。不能快速、准确地制定决策方针等于将市场送给对手,不能及时发现业务的潜在信息等于浪费自己的资源。数据挖掘给出的结论仍然只是参考,而不是最终结论,事情的决断和执行仍然要靠CEO的智慧。