大数据课程K1——Spark概述

文章作者邮箱:[email protected]              地址:广东惠州

 ▲ 本章节目的

⚪ 了解Spark的背景;

⚪ 了解Spark的特点;

⚪ 掌握Spark的生态系统模块、使用模式;

⚪ 掌握Spark的单机模式安装;

一、简介

1. 背景

Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的,后贡献给Apache。是一种快速、通用、可扩展的大数据分析引擎。它是不断壮大的大数据分析解决方案家族中备受关注的明星成员,为分布式数据集的处理提供了一个有效框架,并以高效的方式处理分布式数据集。Spark集批处理、实时流处理、交互式查询、机器学习与图计算于一体,避免了多种运算场景下需要部署不同集群带来的资源浪费。目前,Spark社区也成为大数据领域和Apache软件基金会最活跃的项目之一,其活跃度甚至远超曾经只能望其项背的Hadoop。

2. 特点

Spark是一种分布式的、快速的、通用的、可靠的、免费的计算框架。

目前市面上比较常用和流行的计算框架:

1. Hadoop Map Reduce->离线批处理;

2. Spark->离线批处理->实时流处理;

3. Storm->实时流处理;

4. Flink-

你可能感兴趣的:(大数据,spark,分布式)