Hadoop & Spark
首先二者均不是属于产品类别,理解为生态系统或者也有人将其称为“大数据通用处理平台”也是可以的,这种称呼也更为准确
Hadoop是由Apache基金会所开发的分布式系统基础架构
Hadoop主要包括:
Hadoop分布式文件系统:一个分布式的、面向块的、不可更新的、高度伸缩性的、可运行在集群中普通硬盘上的文件系统
MapReduce框架:一个基本的在集群中一组标准硬件上执行的分布式计算框架
YARN :Hadoop生态集群中默认的资源管理器
Hive :构建在MapReduce框架之上的类SQL查询引擎
Hbase:基于HDFS的键值对存储系统为Hadoop提供了联机事务处理(OLTP)能力
图片参自:中国大数据
Spark而言是专为大规模数据处理而设计的快速通用的计算引擎,实际上现阶段其还不够成熟
Spark主要包括:
Spark Core :用于通用分布式数据处理的引擎
Spark Sql :运行在Spark上的SQL查询语句支持一系列SQL函数和HiveQL
Spark Streaming:基于spark的微批处理引擎
MLlib:构建在spark之上的机器学习库
图片参自:中国大数据
三剑客:IaaS 、PaaS、SaaS
其实就是云计算的三类分层服务:
基础设施在最下端:Infrastructure-as-a-Service(IaaS)
平台在中间:Platform-as-a-Service(PaaS)
软件在顶端:Software-as-a-Service(SaaS)
IaaS :Infrastructure as a Service
基础设施即服务
把计算基础(服务器、网络技术、存储和数据中心空间)作为一项服务提供给客户。它也包括提供操作系统和虚拟化技术、来管理资源。消费者通过Internet可以从完善的计算机基础设施获得服务。
PaaS:Platform as a Service
平台即服务
PaaS实际上是指将软件研发的平台作为一种服务,供应商提供超过基础设施的服务,一个作为软件开发和运行环境的整套解决方案,即以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。
SaaS:Software as a Service
软件即服务
是一种交付模式,其中应用作为一项服务托管,通过Internet提供给用户;帮助客户更好地管理它们的IT项目和服务、确保它们IT应用的质量和性能,监控它们的在线业务。
云计算:Cloud Computing
当需要的时候,扭开水龙头,水就来了,我只需要操心交水费就是了!
当你需要用一个软件时,你不用跑去电脑城,打开应用商店,它就下载下来了,你只需要交钱就是了;
当你想看报纸的时候,你不用跑去报刊亭,只要打开头条新闻,新闻唾手可得;
当你想看书的时候,你不用跑去书城,只需要打开阅读软件,找到这样的一本书,在手机上阅读;
当你想听音乐的时候,你不用再跑去音像店苦苦找寻CD光碟,打开音乐软件,就能聆听音乐;
云计算像在每个不同地区开设不同的自来水公司,没有地域限制,优秀的云软件服务商,向世界每个角落提供软件服务——就像天空上的云一样,不论你身处何方,只要你抬头,就能看见!
“云计算”的五大特点:
1.大规模、分布式 2.虚拟化 3.高可用性和扩展性 4.按需服务,更加经济 5.安全
“云计算”已经深深植入到我们生活中的点点滴滴,平时常用的那些APP或网站,基本都离不开“云计算”作为背后的强大服务和技术支持。如剁手党爱恨交加的淘宝、京东,社交痴迷党的微信、微博、快手、秒拍、抖音等等!
于此同时,越来越多的企业机构乃至政务部门,开始使用基于云的平台服务,生活因“云计算”正在发生着革命性的变革和改变!