(作者:明博智创(北京)软件技术有限公司董事长 刘博)


从去年开始,大数据已经快把人们的耳朵吵聋了。几乎每一周都能看到关于大数据的活动,大数据的书籍也是一本接着一本的出版。甚至有出版人来问老刘有没有写一本大数据的书的打算,老刘坚决地回答:NO。为什么呢?


因为现在对大数据的宣传把原本就混乱的大数据概念搞的更混乱了。很像几年前的云计算一样的云山雾罩。其实,概念混乱还不是大问题,大问题是由于某些国外厂商为了卖出更多自己的硬件和软件,拼命告诉大家你的数据大的要爆炸了,你要想利用大数据为你的业务服务,你就得买我的硬件和软件。


其实,在大数据之前,老早就有“海量数据”的概念了。大数据的要点,在于互联网和移动互联网的出现产生了大量无组织、无边际的数据。这种数据包括了UGC(用户产生的内容数据)、用户行为轨迹数据,以及机器自动产生的数据半结构化的和非结构化的。其数据量之大是任何当下的软硬件工具都无法在期望的时间内采集、整理和处理。


但是这些数据是有用的。在人们认识到这一点的时候,大数据的概念就应运而生了。于是,人们的目光都被吸引到网上去了,却忽略了自己家里的“小数据”。


如果把数据大致分类,可以分成组织型数据和非组织型数据。非组织型数据就是前面讲过的在互联网、移动互联网上产生的数据,其余的可以称作组织型数据,其核心组成是由企业和组织的各种信息化系统产生的数据,这些系统包括了办公自动化(OA)、ERPCRM等等,以及各种业务系统。在电信,就是网管系统、付费系统等等;在银行就是清算系统、电话银行等等。后者之所以被称为“组织型”,只因为其数据来源都是可知的,而且是有组织地被存储和管理的,而且大部分是架构化数据。不管其组织多么混乱,用现有的工具是可以找到、管理和处理的。


相对“非组织型数据”,组织型数据是小的,虽然大企业(银行、电信等)的客户数据也会达到T甚至P级,但是一般的非互联网组织和企业的数据远远达不到。


但是,对非互联网组织和企业来说,首先最有价值的数据是组织型数据。譬如你要做精准营销,那么你的CRM系统中的数据和所有用来记录用户和潜在用户的行为轨迹的数据(譬如呼叫中心的记录)就是建立精准营销模型的核心数据依据。如果你要建立经营分析和预测系统,你的历史经营记录就是核心数据依据。之所以说这些数据“最有价值”,是因为数据分析和挖掘的核心目的是“开源节流”,即“增加销售额,降低成本”。那么最直接、最有效的就是通过数据分析和挖掘那这类数据“吃透”。


对非互联网企业来说,现在面临的问题主要来自于两个方面:一个是企业历史数据的混乱。大多数的企业的数据都是因业务而产生,因为缺乏顶层设计,经常是增加一个新业务就增加一个数据库,几年过去之后,发现数据的库结构、表结构错综复杂,没人能说清楚,甚至同一个数据字段在不同的表中定义都不一样。而且因为大多数院士数据不是为分析而设计,数据的完整性很差,尤其在采集客户行为数据方面;第二个问题是多数企业领导对自己的数据有什么价值没有认识,“数据分析”在很多人眼里还是“报表”,而不知道他家里的数据通过挖掘可以为他带来更多的订单和利润,可以减少他的市场、开发、人员的费用。


这两个问题的解决需要时日,也需要所有从事数据行业的同仁们的共同努力。这一步走好了,再谈“大数据”不迟。