01-01 大数据概述

1. 大数据产生背景

大数据通常用来形容一个公司创造的大量非结构化和半结构化数据
这些数据在下载到数据库进行分析时,会花费过多时间和金钱。
1996年,SGI公司首席科学家John Mashey第一次提出大数据的概念。
2001年,Gartner分析师Doug Laney首先定义了大数据的三个维度:数据容量、速度、和种类(3V)。
业界把3V扩展到了11V,但主要包括Volume、Velocity、Variety、Value等

2. 大数据定义

指无法在可承受的时间内用软硬件进行捕捉、管理和处理的数据集合,需要新处理模式才能使该数据集合成为具有更强的决策力、洞察力和流程优化等能力的海量、多样化的信息资产。

3. 海量数据的来源

由25%的结构化数据和75%的非结构和半结构化数据构成。

  • 数据类型分为:
    结构化数据:指可以存储在数据库里,可以用二维表结构来逻辑表达实现的数据。
    非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档,文本、图片,XML,HTML,各类报表图像和音频,视频信息等等
    半结构化数据:介于结构化数据和非结构化数据之间的数据。HTML文档就属于半结构化数据。

4. 大数据的价值

对于企业组织,大数据在竞争能力构建、决策分析和成本控制等领域有广泛的应用前景;对于事业组织,大数据在科学探索、知识服务和社会安全等领域也有强烈的需求。
例如:
1.在卫星测绘领域能海量存储数据。
2.在金融领域能盘活归档数据,深挖存量数据价值。
3.在能源勘探领域能进行潜力分析,降低的勘探成本。
4.在媒体娱乐中能进行高清制播

4. 大数据基本特征(4V)

量大(Volume):存储大、计算量大
样多(Variety):来源多、格式多
快速(Velocity):生成速度快、处理速度要求快
价值(Value):价值密度的高低和数据总量的大小成反比,即有价值的数据比重小。

5. 大数据带来的挑战:

网络架构:传统网络架构支持南北向网络流量,不适配大数据应用对东西流量的需求。需要对传统网络进行重构,从垂直访问到水平访问。
数据中心:同时访问子系统压力大。
数据仓库:不适应非结构化数据和半结构化数据在数据处理上的需求。

6. 大数据与云计算的关系:

云计算是底层平台,大数据是应用。
云计算作为底层平台,整合了计算、存储、网络等资源。同时提供基础架构资源弹性伸缩能力。
大数据在云计算平台的支撑下,调度下层资源进行数据源加载,计算和最终结构输出等动作。

你可能感兴趣的:(01-01 大数据概述)