Hadoop学习笔记(一)

前言:我在写这篇博客的时候已经退出了Hadoop 3.x版本的测试版本了,但是我是一个菜鸟,而且学校提供的教学材料是1.x版本的。我还是从手头现有的资料开始学起。

学校提供的大数据学习资料:大数据处理技术教学课件-详细标签

一、Hadoop 1.x架构

Hadoop的基本构成有两个核心子系统和多个扩展子系统组成,如下图:

Hadoop学习笔记(一)_第1张图片

Hadoop系统中的两个核心子系统:

  1. HDFS分布式文件系统—主要负责各个机器节点上的数据存储,并实现高吞吐率的数据读写。
  2. MapReduce编程模型和框架—能够将应用程序分割成许多小的工作单元,并将这些单元放到集群节点上执行,从而完成对大量数据的分布式处理。

Hbase是基于HDFS的一个扩展子系统;Hive、Pig是基于MapReduce的扩展工具。

二、Hadoop集群

  Hadoop集群中,Hadoop系统的作用是协调成千上百的主机有序地工作,从而实现对大批量数据快速而有效地处理。

  一个Hadoop集群中只有一个主节点(Master Node)的主机,其它都是从节点(Slave Node)主机。

主节点是集群的核心,负责协调和管理对所有从节点的数据访问和计算工作;所有数据分布在各从节点上,由HDSF进行统一管理。

注意:无论主、从节点,均安装同样的Hadoop系统,然后通过配置来区分主、从类型。

2.1 主节点架构

Hadoop主节点是集群的核心,负责协调和管理对所有从节点的数据访问和计算工作。

Hadoop学习笔记(一)_第2张图片

有些Java开发经验,都会对服务器,Linux系统与JVM的概念都不陌生,在这里不赘述。

Hadoop实用工具和浏览器:用来访问、查看和监控Hadoop系统正常运行的工具。

NameNode、SecondaryNameNode、和JobTracker:Hadoop主节点上必须的进程。

NameNode进程

  主节点的NameNode进程是HDFS文件系统的守护进程。

NameNode进程负责:

  • 记录文件是如何分割成数据块,以及存储数据块的数据节点的信息。
  • 对内存和I/O进行集中管理

注意:通常情况下,运行NameNode的服务器上是不执行计算任务的,从而避免降低系统性能。另外,NameNode进程时单点的运行的,一旦宕(dang)机,将导致整个系统瘫痪。

SecondaryNameNode

  主节点的SecondaryNameNode进程负责监控HDFS状态的辅助后台进程。因为是监控的辅助进程,所以他不接受或记录任何实时的数据变化。该进程会定期与NameNode通信,并定期保存HDFS元数据的快照,从而降低由于NameNode宕机所带来的损失。同时SecondaryNameNode进程也可以作为备用的NameNode。

JobTracker进程

  主节点的JobTracker进程负责将应用程序与Hadoop系统对接。当执行用户提交的应用程序时,JobTracker负责确定要处理的文件,并未所执行任务分配指定的节点主机。(这里所说的任务,主要指Map任务和Reduce任务)。JobTracker进程还负责监控所运行的任务,一旦发现某个任务失败,将重启该任务。

2.2 从节点架构

Hadoop从节点担任着数据分布式存储和计算工作。

Hadoop学习笔记(一)_第3张图片

DataNode和TaskTracker:Hadoop从节点上必须的进程。

DataNode进程

  从节点都会运行一个DataNode后台进程,来负责将HDFS数据块读写到本地文件系统。

  客户端有读/写要求时,NameNode告诉客户端去哪个DataNode进行读/写操作。这样客户端将直接与这个DataNode服务器的进程进行读/写访问。

TaskTracker进程

  TaskTracker进程与同样位于从节点的负责存储数据的DataNode进程相结合进行工作。

  TaskTracker的作用是独立管理其所在节点上的任务进程。每个从节点上只有一个TaskTracker进程,但它可以产生多个JVM进程,以并行处理多个Map和Reduce任务。

  TaskTracker的一个重要职责是与主节点的JobTracker进程进行定时通讯联络。如果JobTracker不能准时获得TaskTracker的联络信息,则认为该节点已崩溃。这会导致JobTracker将任务重新分配给其他从节点。

三、查看Hadoop控制台

Hadoop系统提供了Web UI接口,可用来查看一NameNode和JobTracker为代表的系统工作情况。

查看NameNode的工作情况:http://<主节点主机名或IP地址>:50070

Hadoop学习笔记(一)_第4张图片

查看JobTracker的工作情况:http://<主节点主机名或IP地址>:50030

Hadoop学习笔记(一)_第5张图片

提示:我已经将我的主机名配置为winstar。

Hadoop学习笔记(一)_第6张图片

 

你可能感兴趣的:(其它)