《大数据技术原理与应用》第二版-第一章大数据概述

1.2大数据概念

  • 数据量大
  • 数据类型繁多
  • 处理速度快
  • 价值密度低

1.3大数据影响

  • 研究变化经历了从实验理论计算再到数据
  • 思维的变化
    1. 全样而非抽样
    2. 效率而非精准
    3. 相关而非因果

1.6大数据计算模式

  1. 批处理计算,主要针对于大规模的数据批量处理。MapReduce用于大规模的数据集(1TB)的并行运算。Spark是一个针对超大数据集合低延时的集群分布式计算系统,比MapReduce快许多。
  2. 流计算,流数据或数据流是指在时间分布和数量上无限的一系列动态数据集合,必须采用实时计算方式给出秒级响应。商业级平台:Streams、StreamBase;第二类是开源的计算平台,Storm、Yahoo、S4、Spark Streaming
  3. 图计算。Pregel是实现并行图处理系统,主要用于图遍历、最短路径、PageRank计算,还有其他Giraph、GraphX、PowerGraph、GoldenOrb、Hama
  4. 查询分析计算,需要提供实时或准实时的响应,谷歌的Dremel、Impala、Hive、Cassandra

1.8大数据与云计算

  1. 云计算包括三种典型的服务模式,IaaS(基础设施服务即计算资源和存储)、PaaS(平台即服务)、SaaS(软件即服务)
  2. 公有云、私有云、混合云
  3. 云计算关键技术:包括虚拟技术、分布式存储、分布式计算、多租户。
  4. 物联网是物物相连的互联网的延伸,他利用局部网络或者互联网等通信技术把传感器、控制器、机器、人员和物通过新的方式连接在一起,形成了人与物、物与物相连,实现信息化和远程管理控制。

你可能感兴趣的:(《大数据技术原理与应用》第二版-第一章大数据概述)