大数据生态系统架构

Hadoop

  • MapReduce属于Hadoop生态体系之一,Spark属于BDAS生态体系之一。

    目前Hadoop有两种版本:Apache和CDH版本。

一、优缺点

  1. Apache版本
  2. CDH版本

Kafka和flume对比

  1. kafka和flume都是日志系统。kafka是分布式消息中间件,自带存储。flume分为agent(数据采集器),collector(数据简单处理和写入),storage(存储器)三部分,每一部分都是可以定制的。
  2. kafka做日志缓存应该是更为合适的,但是flume的数据采集部分做的很好,可以定制很多数据源,减少开发量。所以比较流行flume+kafka模式,如果为了利用flume写hdfs的能力,也可以采用kafka+flume的方式。
  3. Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API。
    Kafka:Kafka是一个可持久化的分布式的消息队列。
  4. 典型用法:
    线上数据->flume->kafka->hdfs->MR离线计算

Spark

Spark算子

  • Value数据类型的Transformation算子。
  • Key-Value数据类型的Transformation算子。
  • Action算子。

Spark模块

  1. Spark core // 核心模块
  2. Spark SQL // SQL
  3. Spark Streaming // 流计算
  4. Spark NLlib // 机器学习
  5. Spark graph // 图计算

Spark Streaming

Spark Streaming是核心Spark API的扩展。
- 数据可以从Kafka、Flume、TCP Socekts等许多资源中获取。可以使用复杂的算法处理。最后,可以将处理过的数据推送到文件系统。

  1. 离散流或DStream是有Spark Streaming提供的基本抽象。DStream由一组连续的RDDs表示。
  2. DStream时间窗口。
    时间窗口运行Spark Streaming消费过去一段时间(多个批次)内的数据。

Spark SQL和DataFrame

  • Spark SQL是执行使用基本SQL语法或HiveQL编写的SQL查询。Spark SQL可以从现有的Hive安装中读取数据。
  • DataFrame是一个分布式数据集,相当于关系数据库中一张表。

DataFrame和RDD的区别

  1. RDD是分布式Java对象的集合。
  2. DataFrame是一种以RDD为基础的分布式数据集,也就是分布式Row对象的集合(每个Row对象代表一行记录)。

加载json数据转为DataFrame算子:

scala> val df=sqlContext.read.json("路径/name.json")
scala> df.show()

并行: 集群计算并行计算


并行: 线程,并发执行


你可能感兴趣的:(Hadoop学习,Spark学习)