hadoop-介绍

hadoop的简介

  • 1. 出现背景
  • 2. 核心组件
    • 2.1 Hadoop Common
    • 2.2 Hadoop Distributed File System(HDFS)
    • 2.3 Hadoop YARN
    • 2.4 Hadoop MapReduce
    • 2.5 Hadoop Ozone


1. 出现背景

hadoop最早是为了解决大量网页的存储和索引问题。其原理来源于google发表的三篇论文,GFS、MapReduce和BigTable。
主要是为了解决海量数据的存储与计算。


2. 核心组件

详细介绍见hadoop官网(https://hadoop.apache.org/docs/stable/index.html)。

2.1 Hadoop Common

支持其他hadoop模块的工具包。

  1. CLI Mini Cluster: 用户可以使用该功能,再不要配置环境的情况下,快速的体验hadoop。
  2. Native Libraries: hadoop的本地library。
  3. Proxy User: 用户代理,主要用于在某个用户没有kerberos credentials的情况,使用超级用户的kerberos credentials来访问集群。
  4. Pack Awareness: 机架感知,使用场景,比如hdfs在写入的时候,为了保证数据的高可用,会使用此功能,获取不同的机架,再写入一份副本,提高了hdfs的容灾能力。
  5. Secure Mode: 安全模式。
  6. Service Level Authorization: 服务级别授权。
  7. HTTP Authentication: web控制台的身份验证。
  8. Credential Provider API: 可插拔的身份验证api。
  9. Hadoop KMS: hadoop密钥管理服务器。
  10. Tracing: hdfs请求追踪。
  11. Unix Shell Guide: shell命令。

2.2 Hadoop Distributed File System(HDFS)

hdfs是一个分布式的存储系统,可以对外提供高吞吐量的访问。

2.3 Hadoop YARN

作业调度和集群资源管理的框架。

2.4 Hadoop MapReduce

使用map reduce思想实现的一种并行计算模型,用于大数据量的计算。

2.5 Hadoop Ozone

hadoop新一代的分布式key-value对象存储系统。在继承hdfs优点的同时,解决了hdfs存储小文件的问题。

你可能感兴趣的:(hadoop)