Hadoop的理解

Hadoop理解

  • hadoop在2.0后将资源管理从MapReduce中独立出来变成了Yarn之后,就演变成了四层架构:
    • 底层 —— 存储层,文件系统HDFS
    • 中间层 —— 资源及数据管理层,YARN以及Sentry等
    • 上层 —— MapReduce、Impala、Spark等计算引擎
    • 顶层 —— 基于MapReduce、Spark等计算引擎的高级封装及工具,如Hive、Pig、Mahout等

ALT

存储层

HDFS已经成为了大数据磁盘存储的事实标准,用于海量日之类大文件的在线存储。

管控层

管控又分为数据管控和资源管控
随着Hadoop集群规模的增大以及对外服务的扩展,如何有效可靠的共享利用资源是管控层需要解决的问题。脱胎于MapReduce的Yarn成为了Hadoop通用资源管理平台。
另一方面大数据的安全和隐私得到了越来越多的关注Hadoop依靠且仅依靠Kerberos来实现安全机制。

计算引擎层

**Hadoop生态和气态生态最大的不同之一就是"单一平台多种应用"的理念。**传统的数据库底层只有一个引擎,只处理关系型应用,所以是"单一平台单一应用";而NoSQL市场有上百个NoSQL软件,每一个都针对不同的应用场景且完全独立,因此是"多平台多应用"的模式。
Hadoop则不然,底层共用一份HDFS存储,上层有很多歌组件分别服务多种应用场景,如:

  1. 确定性数据分析:主要是简单的数据统计任务,例如OLAP,关注快速响应,实现组件有Impala等;
  2. 探索性数据分析:主要是信息关联性发现任务,例如搜索,关注非结构化全量信息收集,实现组件有Search等;
  3. 预测性数据分析:主要是机器学习类任务,例如逻辑回归等,关注计算模型的先进性和计算能力,实现组件有Spark、MapRuduce等;
  4. 数据处理及转化:主要是ETL类任务,例如数据管道等,关注IO吞吐率和可靠性,实现组件有MaoReduce等;

其中,最耀眼的就是Spark了。Spark将会是未来大数据分析的核心,使之让MapReduce、Tez走进博物馆。

服务层

服务层是包装底层引擎的编程API细节,对业务人员提供更高抽象的访问模型,如Pig、Hive等。
其中最炙手可热的就是OLAP的SQL市场。现在,Spark有70%的访问量来自于SparkSQL。

算法及机器学习

实现基于机器学习的自动的智能化数据价值挖掘是大数据和Hadoop最诱人的愿景了,也是很多企业对大数据平台的最终期望。随着可获得的数据越来越多,未来大数据平台的价值更多的取决于其计算人工智能的程度
机器学习的开源项目除了之前的Mahout、MLIib、Oryx等,最近又发生了很多令人瞩目的大事,迎来了数个明星巨头的重磅加入:

  • 2015年1月,Facebook开源前沿深度学习工具"Torch";
  • 2015年4月,亚马逊启动其机器学习平台Amazon Machine Learning,这是一项全面的托管服务,让开发者能够轻松使用历史数据开发并部署预测模型。
  • 2015年11月,谷歌开源其机器学习平台TensorFlow。
  • 同一月,IBM开源SystemML并成为Apache官方孵化项目。
  • 同时,微软亚洲研究院将分布式机器学习工具DMTK通过Github开源。DMTK由一个服务于分布式机器学习的框架和一组分布式机器学习算法组成,可将机器学习算法应用到大数据中。
  • 2015年12月,Facebook开源针对神经网络研究的服务器“Big Sur”,配有高性能图形处理单元(GPUs),转为深度学习方向设计的芯片。

你可能感兴趣的:(Hadoop)