在上篇博客中,我们仅仅是从一个简单的利用案例,谈到了大数据的机理和趋势。但我们更多的人,还是对大数据模糊。究竟多少算是“大”?大数据究竟来源于哪些产业?大数据在哪些公司应用更广泛?大数据的价值是什么?大数据阻碍了哪些商业的发展?又究竟给哪些产业带来新的活力?
在前面的几篇博客中,我们已经谈到,大数据,并不在于数据的“大”,而在于我们首先能利用大数据的思维方式的转变。但是问题又接着提出?大数据真的不“大”吗?让我们来看一些数据:
根据国际数据公司(IDC)的测算,2011 年数字世界将产生1800EB 的数据,2012 年会增长40%,达到2500EB。截止2020 年,会达到35000EB,似乎没有足够的磁盘空间存储。就传统IT 企业来看,其结构化和非结构化的数据增长也是惊人的。2005 年企业存储的结构化数据为4EB,到2015 年将增至29EB,年复合增长率逾20%。非结构化数据发展更猛。2005 年为22EB,2015 年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。
这里我们简单的介绍一下,存储单位的换算:
1KB=1024B=10^3,1MB =1024KB=10^6,1GB =1024MB=10^9,1TB =1024GB=10^12,
1PB=1024TB=10^15,1EB=1024PB=10^18,1ZB= 1024 EB=10^21。
我们只介绍到ZB。我想性,稍微懂得一点计算机基础知识的,就会明白10后面的阶乘代表什么意思。从KB到GB到TB再到EB,这中间数据阶乘我们已经超出我们的想象。相比于摩尔定律:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18个月翻一倍以上。这一定律揭示了信息技术进步的速度。但相比于大数据,数据的更迭,摩尔定律已经微乎其微了。
以北京交通为例,北京市的交通智能化分析平台,它的数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车以及省际客运、旅游、运输、停车、租车等运输行业等:4万辆浮动车每天产生2000万条记录﹔交通卡刷卡记录每天1900万条﹔手机定位数据每天1800万条﹔出租车运营数据每天100万条﹔ 高速ETC数据每天50万条……这些,从数据体量和速度上也达到了大数据的规模。
挖掘这些形态各异,快慢不一的数据流之间的相关性,是我们从未涉及的机会,这也正是大数据最重要的特点。
接下来问题的提出?什么样的机构、公司会产生出如此大的数据?这也进入到这篇博客的第一个重点。
当今大数据的来源除了专业机构产生的数据,如:CERN离子对撞机每秒产生高达40TB的数据。除此之外,与企业经营相关的大数据可以分为如下四个来源:
早些年前,实时跟踪器的运用仅限于价值高昂的航天飞机以及气象预测。现在,汽车生产商在车辆中配置监控器,如,GPRS,油耗器,速度表,公里表等可传播信号的监控器。可以连续读取提供车辆机械系统整体的运行情况。以及现在更火的移动可穿戴设备。一旦数据可得,公司就可以从这些数据中提取有用的数据获得价值。
这一类数据可能产生较少的业务,但可以推动某些经营模式实质变革。例如,汽车传感数据用于评价司机行为会推动汽车保险业的深刻变革,以及汽车的节能减排推动环境改善的变革。
我自认为,大数据时代,就是互联网的时代。互联网拥有庞大的数据来源,拥有最先进的大数据存储于分析技术。在某种程度,互联网应运着大数据的带来,也是在这里第一时间体现出大数据的价值。例如,在获悉消费者行为后,可以将发现用于某些改变,如降低成本或增加销售,就会产生价值。以Internet 为核心的公司,如Amazon, Google, eBay, Twitter 和Facebook正在推动大数据的进一步革新。
互联网行业产生的数据包括:包括用户在利用互联网为媒介留下来的浏览信息,包括行动和行为的有趣信息,从而可用通过对他们的日志分析,挖掘出用户的愿望和需求。说的更清楚一点,这就是:个性化推荐,数据挖掘的源泉。更值得可喜的是,这些技术早已经应用在互联网平台中。个性化推荐:Amazon的图书推荐、豆瓣的音乐推荐、淘宝京东等各大电商的商品推荐。我们已经看到,互联网引进了大数据,并在大数据的矿山中分得第一杯羹。 除此之外的,未来技术的引领,如:Google的知识图谱(个性化推荐的终极目标),Facebook的图谱搜索(图形化搜索)等。而这紧紧只是开始,更庞大的爆发还在后面,大家拭目以待吧。
当我们把目光全都聚焦到互联网行业的时候,请不要忘记,还有一种趋势也在磨肩擦掌,决不可小觑。那就是传统行业,这里的传统行业,我们更倾向于一些固定的企业,如:电信,银行,金融,医药、教育,采矿,电力等行业。
电信集中在:移动设备终端所产生的数据与信息,人们通过电邮、短信、微博等产生的文本信息。
银行集中在:用户存款交易,风险贷款抵押,利率市场投放,业务管理升级,还有最近兴起的互联网银行。
金融集中在:俗话说:银行金融不分家。金融源于,银行资本的运作,股票、证券、期货,货币等等市场。通过对金融数据的分析,可以更加具体化,决策化,针对资本的运作。
医药集中在:通过,患者的数据,可以更精确化预测病理所在,以及对疾病的预测。
这里不再具体介绍大数据如何在传统行业中的运用,因为就是单单一点,一个方向也足以让我们大谈几天。在后面的博客中,如有涉及传统行业中大数据方向的利用,我会在具体的谈到它们如何在自己的行业中利用,开发出一片新的疆土。
这些数据可能才是真正隐藏着大数据的核心。这些数据结构松散,数量巨大,但很难从中挖掘有意义的结论和有用的信息。Facebook每天以数10亿张照片的扩大,每天产生多少首音乐,多少部电影,多少文字等。这些最容易我们忽视的数据来源,可能才是真正大数据的来源。从这些资讯,中引发更大的资源与讯息。
总结:
大数据改变了所有行业及全部公司的经营方式。从对市场的理解到如何挖掘经营信息,到大数据能洞察每一项的转变。一个致力于收集和分析大数据的行业一旦形成,它将对现有公司产生了难以想象的影响。据相关调查,有10%的公司认为在过去的五年中,大数据彻底改变了它们的经营方式。46%的公司认同大数据是其决策的一项重要支持因素。通过大数据的分析挖掘,公司可以发现新的经营模式,对工艺加以改进。通过对任意大的数据组中应用相关大数据技术就可以发现有用信息,就可以将这些信息商业化,即刻获益。
我们已经谈了这么多,从数据的大,到产生的影响,未来的趋势,思维,变革。到这里我们才真正开始谈及大数据的根源:
在业界通常给大数据的定义,有四个"V"字开头的特征:Volume(体量大),Velocity(速度快),Variety(种类杂),Value(价值大),这其实也是大数据概念的组成。Volume是指大数据巨大的数据量与数据完整性﹔Velocity可以理解为更快地满足实时性需求;Variety则意味着要在海量、种类繁多的数据间发现其内在关联;Value最重要,它是大数据的最终意义:挖掘数据存在的价值。
挖掘的价值亦是大数据的核心价值:大数据的核心——建立数据之间的整合和关联分析。
Google的搜索:一个关键字就能够把我们想到的文档通过列表的形式给展现出来。淘宝的销售、物流、仓储和制造。而这背后的运作机理,又是我们想涉及又存在壁垒的核心技术。
大数据的火热程度,足以让企业家们已经意识到“大数据”时代的到来。但不容乐观的依旧表现的"找不到点","如何下手","效果低"、"成单低","不适合",成了他们喜闻乐见的代名词。对此,专家分析,导致这一问题的最主要原因,就是对网络电商化的投入基本都是短期行为,缺乏长期运营的意识和战略头脑。企业家们大都希望通过一两次的短期投入而收获即刻回报或长期受益。
SAS首席咨询顾问——张磊,在一次课上谈到:数据仓库的建立应立在一个公司长久发展战略的首要位置。往往很多企业都会意识到数据部门的建立的重要性,却又迟迟不做出决策。原因在于,因为此项工作,可能在成立1至2年都不会有很大的进展或没有突出的效益。问题在于,数据的积累在于一个长期的过程。而一般的公司,考虑资金的问题,又不会白养这一批人这么长时间。以至于,推之又推。
我们不能把所有问题都等同视之。结果可能是一样,但导致结果的原因可能又是多种多样。
中小企业在操纵大数据过程中存在的问题:
一、市场化程度不高。
二、大部分缺乏前瞻性的战略设计,只顾眼前。
三、缺乏后续的跟进和梳理。
四、没有对导致结果原因分析、概况与总结。
五、缺乏应急响应机制及正确管理理念等。
这一切都导致投资的项目,在不久就会烂尾,无人打理。以至于无法适应当今瞬息万变的互联网市场环境的需要。
互联网触及舞台就像天气一样朝令夕改,企业家们亦在紧跟时代的脚步。在抛弃了无数次不可行的模式后,在一次次意外中发现的收益又何其微薄时,最终放弃所有的模式,离自己的目标越来越远。致使在无形中增加了成本,最后对大数据一概而论的定论,就是"没效果","不适合","不知如何下手"。
“大数据”,价值点不再是那些无处不在的数据,因为自互联网诞生以来数据就已经存在,“大数据”最有价值的一点就在于发掘分析数据存在的价值,并以此为企业节约成本、降低费用,开拓新的业务,选取最优运营模式,挖掘最有价值的客户。大数据时代下,企业的前期营销红利将逐渐被企业的精细化管理取代。作为企业应该结合自身定位和评价,“大数据”为企业带来的一种更加精细化管理。
这里谈到"自身定位"和"评价"。如何"自身定位"?如何"评价"?成功的模式自有成果的因素,不可刻意的模仿。而我们更应关注,人员资本的投放该如何与企业产品相结合,以及找到适合自己的核心价值点是如何与最主要的业务相融合。只有建立在自己的核心竞争力之上的变革,才会在这场动荡中明哲保身,以最大的概率延续昨日辉煌。
大数据的兴起,正是在人工智能、机器学习和数据挖掘等技术基础之上发展起来的。而AI、ML又是在为DM服务。致使在整个过程形成了:将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。所以大数据系统真正的关键点,不是越多越好,反而是越少越好,最终变成一个决策,体现出价值。
Write in Beijing
总结参考文献:
http://www.36dsj.com/archives/5609
Copyright ©BUAA