简单介绍

hadoop是什么

  • hadoop是一个由Apache基金会所开发的分布式系统基础框架
  • hadoop实现了一个分布式文件系统,hdfs
  • hadoop实现了一个分布式计算系统,mapreduce
  • hadoop实现了一个资源管理系统,yarn

hadoop的特点

  • 高可靠性。hadoop按位存储和处理数据的能力值得人们信赖。
  • 高扩展性。hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便的扩展到数以千计的节点中
  • 高效性。hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • 高容错性。hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
  • 低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本低。

hadoop hdfs核心组件

** hdfs有两个核心角色:name node、data node **

Name Node仅有一个,提供元数据服务;Data Node为hdfs提供存储块。

Name Node的职责:

  • 管理文件系统名称空间和控制外部客户机的访问
  • 负责元数据的信息管理

Name Node的职责:

  • 负责数据存储
  • 定期向Name Node汇报存储的文件信息

mapreduce核心组件

mapreduce是什么

MapReduce是一种编程模型,用于大规模数据集(大于1T)的并行运算。

mapreduce能解决什么问题

逐渐消亡,被cloud dataflow代替

mapreduce计算模型

job tracker 和 task tracker

大数据技术生态体系

  • hadoop(hdfs, mapreduce, yarn):最基础的数据处理框架,擅长离线数据分析。
  • zookeeper: 分布式协调服务基础组件
  • hbase:分布式海量数据库,基于hdfs,离线分析和在线业务
  • hive sql:数据仓库工具,使用方便,功能丰富,基于MR,延迟大
  • sqoop:数据导入导出工具,关系数据库和hdfs的数据桥梁
  • flume:数据采集框架
  • storm:实时流式计算框架
  • spark:基于内存的分布式运算框架,一站式处理。

你可能感兴趣的:(简单介绍)