大数据介绍

大数据概述

大数据背景

  1. 大数据诞生于第三次信息化浪潮,以存储空间、计算速度、网络带宽的大幅度提升作为技术支撑,以大数据、云计算、物联网技术作为代表
  2. 信息化浪潮
信息化浪潮 发生时间 标志 解决问题
第一次信息化浪潮 1980年前后 个人计算机 信息处理
第二次信息化浪潮 1995年前后 互联网 信息传输
第三次信息化浪潮 2010年前后 大数据、云计算、物联网 信息爆炸

大数据概念

4V理论
  1. VELOCITY(快速化):数据处理速度快,需要达到秒级决策
  2. VARIETY(多样化):数据的格式、来源不统一,样式各异
  3. VOLUME(大量化):数据量庞大
  4. VALUE(价值密度低):冗余数据、无用数据多
概念

大数据可以简单的理解成由结构化数据(存储于关系型数据库中的数据,占10%以下)和非结构化数据(文本、图像、视频、日志等,占90%以上)组成的数据集合

大数据影响

大数据颠覆传统思维方式

  1. 全样而非抽样
  2. 效率而非精确
  3. 相关而非因果

大数据关键技术

技术层次
  1. 数据采集
  2. 数据存储与管理
  3. 数据处理与分析
  4. 数据隐私与安全
  • 核心:
  • 数据存储与管理:采取“分布式存储”,解决海量数据存储问题
  • 数据处理与分析:采取“分布式处理”,解决海量数据处理问题
技术代表(谷歌)
  1. 分布式数据库:BigTable
  2. 分布式文件系统:GFS
  3. 分布式并行处理技术:MapReduce
计算模式
计算模式 解决问题 代表产品
批处理计算 针对大规模数据的批量处理 MapReduce,Spark等
流计算 针对流数据的实时计算 S4,Storm,Flume,Streams,Puma等
图计算 针对大规模图结构数据的处理 Pregel,GraphX等
查询分析计算 大规模数据的存储管理和查询分析 Dremel,Hive,Cassandra等

你可能感兴趣的:(大数据)