Hadoop数据分析平台搭建

工欲善其事,必先利其器。

想要学习Hadoop,必须要先把模拟平台架起来才有的玩。Practice makes perfect!!!

废话不多说,一下是转自duwolfde的技术文章:如何用虚拟机搭建Hadoop数据分析平台



一.配置安装环境

1. 在虚拟机Vmware上搭建三台Red Hat Enterprise linux,其中一台为Master,另外两台位Slaves

- 将Master做为Namenonde,将Slave1和Slave2做为Datanode

2. 下载相关的软件,如java jdkhadoop-0.20.2等。

二.安装和配置步骤

1. 要是hadoop能过正常的免密码在各个节点中连接传输数据,最重要的是配置SSH,生成密钥。

2. jdk的安装,修改/etc/profile文件。

3. hadoop安装,同时也要修改hadoopconf目录下的core-site.xmlhdfs-site.xmlmapred-site.xml三个核心文件。

4. 最后是格式化HDFS和启动hadoop

三.Hadoop数据分析平台

1. 查看hadoop集群

Master

在这里,MasterNamenodeSecondaryNamenode和JobTracker。在这里就需说下上面三个单词的意思。

- Namenode:是HDFS的守护进程。记录文件时如何分割成数据块的,以及这些数据块被存储在哪些节点上,同时Namenode是个单点,发生故障会是集群崩溃。

- SecondaryNamenode:是监控HDFS状态的辅助后台程序,每个集群都有一个。它的作用是当Namenode故障时可以作为备用Namenode使用,但需要手动切换。

- JobTracker:是用于处理作业的后台程序,决定哪些文件参与处理,然后切割task并分配节点,每个集群只有一个JobTracker且位于master上。

235050184.png

Slaves

Slave1和Slave2上有DataNode和TaskTracker

- DataNode:负责把HDFS数据块读写到本地文件系统中.

- TaskTrecker:管理各自节点上的task。

235159892.png


整个Hadoop集群

- 三个节点,其中一个Master,两个Slaves

- 使用情况

集群共容量(Configured Capacity) 46.32G

DFS使用容量(DFS Used) 84 KB

活节点数(Live Nodes) 3

235453983.png

235526181.png


2. 测试hadoop集群

235551335.png

235608764.png

通过运行wordcount这个功能来测试,看上图可以只mapreduce的完成度,

得知已经成功运行了一次作业Completed Jobs



你可能感兴趣的:(hadoop,hadoop,hadoop,学习,平台,架设)