大数据与Spark的特点优势

Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于凤巢、大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。
一、Spark 的5大优势:
1、 更高的性能。因为数据被加载到集群主机的分布式内存中。数据可以被快速的转换迭代,并缓存用以后续的频繁访问需求。在数据全部加载到内存的情况下,Spark可以比Hadoop快100倍,在内存不够存放所有数据的情况下快hadoop10倍。
2、通过建立在Java,Scala,Python,SQL(应对交互式查询)的标准API以方便各行各业使用,同时还含有大量开箱即用的机器学习库。
3、与现有Hadoop 1和2.x(YARN)生态兼容,因此机构可以无缝迁移。
4、方便下载和安装。方便的shell(REPL: Read-Eval-Print-Loop)可以对API进行交互式的学习。
5、借助高等级的架构提高生产力,从而可以讲精力放到计算上。
二、MapReduce与Spark相比,有哪些异同点:
1、基本原理上:
(1) MapReduce:基于磁盘的大数据批量处理系统
(2)Spark:基于RDD(弹性分布式数据集)数据处理,显示将RDD数据存储到磁盘和内存中。
2、模型上:
(1) MapReduceL可以处理超大规模的数据,适合日志分析挖掘等较少的迭代的长任务需求,结合了数据的分布式的计算。
(2) Spark:适合数据的挖掘,机器学习等多轮迭代式计算任务。
在Spark中,一个应用程序包含多个job任务
在MapReduce中,一个job任务就是一个应用
大数据
大数据不仅仅是数据的大量化而是包含快速化多样化和价值化等多重属性。他的数据类型繁多,是由结构化和非结构化数据组成的,10%的结构化数据,存储在数据库中,90%的非结构化数据,它们与人类信息密切相关。
特点:
1.大量 大数据的特征首先就体现为“大”,从先Map3时代,一个小小的MB级别的Map3就可以满足很多人的需求,然而随着时 间的推移,存储单位从过去的GB到TB,乃至现在的PB、EB级别。只有数据体量达到了PB级别以上,才能被称为大数据。1PB等于1024TB,1TB等于1024G,那么1PB等于1024*1024个G的数据。随着信息技术的高速发展,数据开始爆发性增长。面对网络大量的数据迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据
2.高速 就是通过算法对数据的逻辑处理速度非常快,1秒定律,可从各种类型的数据中快速获得高价值的信息。数据无时无刻不在产生,谁的速度更快,谁就有优势。
3.多样 广泛的数据来源,决定了大数据形式的多样性。每个地区,每个时间段,都会存在各种各样的数据多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等。
4.价值 这也是大数据的核心特征。现实世界所产生的数据中,有价值的数据所占比例很小。相比于传统的小数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识。

你可能感兴趣的:(笔记)