中国企业信息化行业是个典型的长尾领域。因为这和中国企业相关。
看似中国方圆960万平方公里,行业成千上万,但其实集群蛮明显的。巨无霸企业一般是央企国企,集中在环渤海一带。而经济最活跃的华南华东主要以民营企业为主。其他如中部、西北、东北、西南经济并不发达。
企业大了,业务就复杂了,层级就多了,产业链就长了。为了让这么多人这么多业务都能按照规则运转,还能加速运转,非得IT工具来帮助。所以,信息化最早、信息化投入最多、信息化最完善、也有钱持续投入,就得说这些大国企大央企了。从中国软件100强所从事的企业信息化解决方案中就可以看出,客户行业相当集中,大部分信息化项目都集中在电信、银行、电力、航空、铁路、石化等等这些大行当。别看这些大行当少,可能也就是30来个行业,也别看这些行业中的客户少,但个顶个都是巨型企业,当然,它们的信息化也建设的相当好,我们中国软件100强,只要做企业信息化解决方案的,也大部分都在盯着这些行当。而其他三教九流的行当,则分担了中国企业信息化这个大盘上的其他残渣,当然也有大量在各行各业默默耕耘的中小型行业信息化专业IT厂商在对口,单子多,每单金额却少,信息化建设参差不齐,一直未能充当我国企业信息化大盘上的主力军。这就是我所说的长尾现象。
有人说,中国企业信息化远未到规模性应用BI的时候。
我不同意。因为中国企业信息化这个大盘中,提供主力份额合同项目的是那些巨型企业。而他们的信息化建设现状,都已经在普遍关注BI了。而大量的发展参差不齐甚至由于政策不断转型的中小型企业,信息化合同份额并不多。所以,我们看份额结构就明白了。
我曾经做过一些这样的项目:
1 系统改造完善
2 数据质量提升
3 系统整合
4 数据集中
5 数据归档
6 数据仓库
7 商业智能
这些项目其实都是关联在一起的。终极目标就是为了做商业智能。而之前的所有项目,都是为了商业智能而做准备。
第一,垃圾的数据输入只能产生垃圾的数据输出,绝对不会产生有价值的商业决策信息。所以,第一步,必须把数据收集有质量的完成。也就是说,信息系统要尽量把业务覆盖全,把业务过程环节中发生的信息都收集全。如果有的业务还在用EXCEL或纸张甚至是电话说一声,这就没法集中统计了。
收集数据满难的。因为数据想收集齐全,必然涉及到录入。录入工作量导致终端用户情绪反弹,信息系统非但没有帮助终端用户减少工作量,相反还加重了日常工作。所以,如何创新性的通过IT应用技术,如RFID、短信、条码扫描、自动图像识别、语音导航等等来尽量缓减信息收集的难度。
第二,数据质量提升。有多个方面:
1输入的准确性。通过自动化的IT手段来自动收集可以加强输入的准确性,尽量减少人为人工录入。另外,在软件输入上设置严格的录入条件校验,防止录入业务逻辑不对。还有些特殊业务要判断重复输入的问题,防止多人多点的时候重复输入数据。
2输入的及时性。要保证数据在业务发生的时候及时输入,而不是业务早几天前发生了,信息现在还没有进入计算机。这就实物和计算机就两套帐了。两者都自我平衡,但两者对不上。这在很多项目中都常见到。
3输入的统一性。一些信息需要下拉框选择,而不是手工录入汉字,这在统计上就能统一口径。
4输入的完整性。很多终端输入用户为了省事,能不填写就不填写,对于选择性的信息,往往选择第一个。
5输入的保鲜性。很多信息需要定期去联系客户后获得最新信息后更新。如果
第三,系统整合。由于公司大了,信息化项目多了,很难只交给一家IT公司来全部开发。多家IT公司的产品互相融合,必然涉及到系统整合。这也是块硬骨头。前端业务层、后端系统管理层、底端数据库层,一涉及到系统整合就头疼,IT公司不合作都藏着掖着表面打哈哈互相推责任和工作量,让项目进展缓慢,也走了许多弯路。确定好要互相整合的信息详细列表、在什么业务功能上整合,在什么条件下触发,多长定时同步,日志如何记录,以后谁来查错维护,这些是最关键的讨论问题。
第四,数据集中。有了前面的数据质量提升和系统整合,数据集中就容易多了。但数据传输的稳定性是个问题。一端要数据发送,一端要数据接收,还得考虑数据包大小、数据包压缩、数据包加密解密、传输协议、穿透防火墙设置。还要有各种传输握手问答状态,用来保证一方出现异常后还能保证事务正常。还要考虑传输的性能、并发。不过现在已经有很成熟的中间件产品解决这个问题。数据上传、集中在了一个海量的企业级数据库里。这里面的数据都是明细数据,非常容易快速膨胀。但偏偏还有总部业务各个部门需要查询这些明细信息。有些信息查的是去年甚至前年的数据,有的是查最近一个月的数据。需求不一。而且最近一个月的数据还不稳定,经常会有更新后重新上传覆盖。于是,归档项目又产生了。让稳定的数据和不稳定的数据分离,让查当前和查历史分离,这样可以加快系统速度。
但是,这样又产生了一个问题。总部业务人员不仅要查明细,还要统计报表。从这些海量的明细数据中出报表,那就真把数据库给累死了。于是,大家根据业务部门的统计需求,做一些统计任务,定时启动。有些统计报表运行三天都运行不出来,所以需要提前运行。如果定时任务在运行过程中出了错,那就麻烦了,到了业务时间领导要数据却提交不出来。
于是,商业智能闪亮登场了。
商业智能要想做好,第一步必须建立数据指标模型。因为业务部门根据业务发展,今天需要这样的报表,明天需要那样的报表,其实从本质上来看,是把一些业务逻辑上关联的指标放在一张纸上统计,这样便于决策会议上报告分析。而我们传统做报表,是生用SQL技术在多个数据源处拼接出来的。这非常需要技术性,而且报表改动极其成本高、复杂、不灵活。
数据指标模型,在商业智能的范畴中应该叫维度,在数据仓库的范畴中应该叫主题。(数据仓库是一个面向主题的、集成的、非易失性的,随时间变化的用来支持管理人员决策的数据集合。所以数据仓库是商业智能的基础)。做过多维分析的人都明白。这样就可以把你想分析的几个指标都轻松的拖动到一起,他们会按照你的意愿做统计。这很灵活,也不需要编程,运行性能也高。
但从海量的数据仓库中按维度组织数据,这就需要到商业智能的另外一个工具,就是ETL。中文就是数据抽取、转换、导入。
现在的商业智能解决方案普遍都已经巨型化。
不仅仅平常查询、报表能做,OLAP多维分析能做,数据挖掘算法能做,和EXCEL整合能做,ETL能做,更加装了数据仓库、数据集成整合工具(甚至BPEL、ESB、MQ中间件都囊括在内),几乎把商业智能从头到尾,我所说的数据质量监控、系统整合、数据集中、数据仓库、数据归档、商业智能,全都一口气干完。
商业智能,要想真正把它用起来,前面的准备工作需要做许多。光在商业智能这一个环节中,维度的建模是最为关键的。这就和元数据一样,设计不好的话,有些分析就出不来或者非常难出。但是设计维度需要和业务息息相关。所以一个精通业务又精通商业智能的专家顾问才能设计成功。这就是行业咨询专家的价值。这是一个商业智能项目不可或缺的项目成员。
商业智能是个漫长的项目周期(尤其是系统整合、数据集中的前面环节,协调平衡多方是磨牙的漫长时间),所以我们需要分为多个子项目里程碑,大家悠着点劲干,不要希望突飞猛进几个月成事。我所经历的BI项目,都在半年之间甚至之上。尤其是,没有做好前面的系统完善、数据统一、数据质量提升、系统整合、数据集中,直接就想让商业智能发挥作用,那纯粹是一项不可能完成的任务。而要想夯实前面几个环节,我说需要一年时间,其实并不多,现实里咱们走着瞧。看似许多巨型企业说起各个系统都建设了好多年,但真正要开展BI项目的过程中才发现,每个业务系统都千疮百孔需要修补。耐着性子,低调点,现实点,会更好。