Spark零基础入门实战(七)Spark生态系统架构

大数据开发总体架构

在正式讲解Spark之前,读者首先需要了解大数据开发的总体架构,如图

Spark零基础入门实战(七)Spark生态系统架构_第1张图片 

 

数据来源层

在大数据领域,数据的来源往往是关系型数据库、日志文件(用户在Web网站和手机App中浏览相关内容时,服务器端会生成大量的日志文件)、其他非结构化数据等。要想对这些大量的数据进行离线或实时分析,需要使用数据传输工具将其导入Hadoop平台或其他大数据集群中。

数据传输层

数据传输工具常用的有Flume、Sqoop、Kafka。Flume是一个日志收集系统,用于将大量日志数据从许多不同的源进行收集、聚合,最终移动到一个集中的数据中心进行存储;Sqoop主要用于将数据在关系型数据库和Hadoop平台之间进行相互转移;Kafka是一个发布与订阅消息系统,它可以实时处理大量消息数据以满足各种需求,相当于数据中转站。

数据存储层

数据可以存储于分布式文件系统HDFS中,也可以存储于分布式数据库HBase中,而HBase的底层实际上还是将数据存储于HDFS中。此外,为了满足对大量数据的快速检索与统计,可以使用Elasticsearch作为全文检索引擎。

<

你可能感兴趣的:(Spark3.X,零基础入门实战,spark,大数据,分布式)