浅谈大数据

一、什么是大数据

大数据概念实际上是从海量数据有效利用的角度对云计算、物联网等概念的综合,它准确地抓住了云计算、物联网的本质,以数据处理和数据中心建设与运维为主要业务的公司是最为贴切的投资者。

目前,对大数据概念没有公认定义。不过,较为普遍的认知是指超过传统数据库系统处理能力的数据,对数据规模和转输速度要求相当高。 从内涵上讲,大数据不仅包含了“海量数据”,还包含复杂类型的数据。大数据包括交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术按照合 理的成本和时限捕捉、管理及处理这些数据集的能力。

二、大数据有多大

“大”是指大型数据集。有人将TB数量级称为“大数据”,一般在10TB规模左右。但在实际应用中,很多用户把多个数据集放在一起,已经形成了PB级的数据量。

目前,医疗卫生、地理信息、电子商务、影视娱乐每天都有大量数据产生。因此,到2012年年底,全球数据总量将达到2.7ZB,到 2015年将达到8ZB。预计到2020年,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。EMC是大数据的构想的积极倡导者之一,它的 一千多个客户在其阵列中使用1PB(千兆兆)以上的数据,这个数字到2020年将增长到10万。另外,一些客户在一两年内还将开始使用数千倍多的数 据,1EB(1艾字节=10亿GB)或者更多的数据。可以想象,物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各 样的传感器,无一不是数据来源或者承载的方式。

三、大数据产业链的形成

伴随着社交媒体、物联网和电子商务的蓬勃发展,社会化数据涌现,结构化数据和非结构化数据并存,其复杂的交互关系,使得现今的传统技术,已无法对其进行高效的分析。因此,捕获、存储、管理和分析大数据极其艰巨。

“大数据”产业链条包含了从数据生成、数据存储、数据处理和数据展示等多个环节。完整的生态系统还应当包括大数据处理结果的应用。 自2010年以来各大IT巨头在大数据领域的产品推出进度,包括EMC、惠普、IBM、微软在内的全球IT巨头纷纷通过收购大数据相关厂商来实现技术整 合,亦可见其对大数据战略布局的重视。根据国内私募基金的初步预算,未来中国大数据产品的潜在市场规模有望接近2万亿元。

大数据开启黄金时代

大数据的产业链的最直接的表现,可以从A股市场的表现看出。如与海量数据存储和处理相关的公司,拓尔思、美亚柏科,与视屏化应用相关的公司 海康威视、大华股份、威创股份,甚至是与数据中心建设和运营维护的公司荣之联、天玑科技,在2012年将作为该板块的核心股。不过,还应提醒的是,部分大 数据概念个股今年以来涨幅过猛,出现了估值泡沫。此外,大数据概念股票也面临着企业降低IT资金投入、政府扶持资金低于预期等风险。

支撑大数据推动因素主要来自于一些大型IT公司,如谷歌、亚马逊、中国移动、阿里巴巴等,他们需要以更加优化的方式存储和分析数据。此外,还有一些来自健康医疗、地理空间遥感和数字媒体等行业的大数据需求。


四、大数据发展阶段

大数据的发展趋势可以简单分为三个阶段,第一阶段是行业内部的数据整合和挖掘,涉及到一些大量数据衍生的行业;第二阶段是企业内部数据融合以及数据挖掘的阶段。第三阶段是以数据驱动以消费者为中心的组织架构变革。

大数据开启黄金时代

大数据所具有的体量大、价值稀疏、时效性强等特点,对现有企业的信息构架和冲击是不言而喻的。首先,大数据将引发政府、公共事业、制造业、 流通企业等领域的全面变革。在这一轮的变革中,首先获益的是IT行业,相关企业在软件应用和互联网、产业应用垂直整合、数据成为资产三大趋势中,将率先获益。


五、IT推动大数据快速发展

大数据的进步,来自于IT行业以及互联网的不断应用和加速推动。各大厂商的又有那些动作呢?在门户类网站,如Google、 360、QQ、新浪微博等,这类型桌面应用软件与浏览器深度结合,所有的数据来自于互联网。它们通过智能手机、平板、笔记本、台式机等不同终端设备上,可 以自然而然的收集用户的行为数据

在IT类公司中,一部分“公共云”平台供应商,如IBM、微软以及甲骨文,已经意识到了云计算数据中蕴含的巨大商业价值,并已涉足“大数据”分析领域和开源项目:Hadoop/MapReduce。

2011年,IBM陆续推出了自己的大数据管理解决方案以及大数据平台愿景,已经正式将大数据纳入其信息管理技术框架之中。针对大 数据的分析,IBM现在有两大产品线,一是Biglnsights,二是Streams。IBM在大数据领域的优势则在于全面,而机器人“沃森”在人机大 战中获胜,更成为IBM为其大数据分析解决方案加分的例证。

2012年1月,Oracle正式发布Oracle大数据机。这是一款集成设计的系统,旨在简化大数据项目的实施与管理。该数据机采用18台OracleSun服务器的全机架式配置,总共拥有864GB主内存、216核CPU、648TB原始磁盘存储空间。

2012年4月,EMC中国卓越研发集团北京研发中心,高调发布EMCGreenplumChorus。 GreenplumChorus最根本的是协作,它可以让更多的人参与数据价值的挖掘。它是首款基于协作分析的大数据平台。对于EMC大数据业务,EMC 团队预测其大数据业务每年翻一番。

事实上,全球互联网巨头都已意识到了“大数据”时代,数据的重要意义。包括EMC、惠普、IBM、微软在内的全球IT巨头纷纷通过收购“大数据”相关厂商来实现技术整合。

 

你可能感兴趣的:(Teradata数据仓库技术)