大数据生态

概述

目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:
Apache(最原始的版本,所有发行版均基于这个版本进行改进)、
Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、
Hortonworks版本(Hortonworks Data Platform,简称“HDP”),大多数选择CDH版本,部分选择HDP版本。

大数据集群管理方式分为手工方式(Apache hadoop)和工具方式(Ambari + hdp 或Cloudera Manger + CDH)。

在HADOOP的早期版本,基本启动包含的节点为
SecondaryNameNode(HDFS)
JobTracker
TaskTracker
DataNode(HDFS)
NameNode(HDFS)
现在包含的节点为
SecondaryNameNode(HDFS)
NodeManager
ResourceManager
NameNode(HDFS)
DataNode(HDFS)

Hadoop的MapReduce的Map Task和Reduce Task都是进程级别的;而Spark Task则是基于线程模型的。

一些组件

  • Solr
    和ES类似,基于lucence。数据最终存储于HDFS上。

  • Ranger

Ranger支持对以下的Hadoop组件:HDFS, HBase, Hive, Yarn, Knox, Storm, Solr, Kafka。
外部的大数据组件通过相应的Ranger插件对管理的资源执行授权检查。授权的依据就是存储于DB上的策略,ranger插件会定期从ranger admin出获取最新的policy,默认的轮询周期是30s。
一般使用Solr进行日志存储。

  • NIFI/KETTLE/AIRFLOW
    数据流和ETL工具

  • oozie
    一个能把多个MR作业组合为一个逻辑工作单元(一个工作流),从而自动完成任务调用的工具。

  • Hue/Zeppline
    HUE是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。HUE多部署在CDH上。主要竞争对手是Zeppline。

  • Cassandra
    apache开源项目,分布式key-value存储系统

  • H2O
    H2o开源的机器学习框架,支持glm(广义线性模型),rf(随机森林模型),gbm(推进式回归树模型),深度学习等算法,借助spark计算平台,实现large scale 机器学习

你可能感兴趣的:(java)