Hadoop生态圈初识

  • hadooop提供的功能:
    利用服务器集群,根据用户自定义的业务逻辑(利用hadoop的api),对海量数据进行分布式处理
    • 指的是一套开源软件平台,通常也指一个更广泛的概念-hadoop生态圈

三大核心组件

  • hdfs,分布式文件系统
  • yarn,资源调度
    resourcemanager

  • mapreduce,业务逻辑编程
    maptask,reducetask


zookeeper ,做资源协调,其实并没有管理权限
Hbase hive(sql)
oozie,askaban 工作流调度
mahout,mapreduce->flink
flume数据采集
sqoop,数据导入mysql


nutch+solor,爬虫+搜索引擎=google
google:gfs,mapreduce,bigtable
hadoop最早起源于nutch,hdfs,mapreduce,hbase
hadoop是PasS层解决方案之一(Iaas基础设施,pass平台,saas软件即服务)


  • 应用场景:
  • 网站或app点击流日志数据挖掘系统
    数据采集、数据预处理、导入hive仓库、ETL、报表统计、结果导入mysql、数据可视化(echarts)
  • 推荐:


    Hadoop生态圈初识_第1张图片
    推荐系统架构

    kafka:支持实时快速读写
    storm/sparkstreming:实时处理

你可能感兴趣的:(Hadoop生态圈初识)