Hue(三)集成Hadoop

1. 说明

本篇主要介绍如何配置Hadoop与Hue,来完成从Hue的Web UI中查看并管理HDFS文件系统、查看MapReduce执行状态的目的。配置分为两部分,一个是针对Hadoop集群本身的配置,一个是针对Hue的配置。


2. 配置Hadoop

先对Hadoop集群进行配置,整个Hadoop集群配置文件记得同步,配置完成后需要重启整个集群


2.1 配置HDFS

配置Hadoop集群的hdfs-site.xml,添加如下参数:

<property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
</property>

配置Hadoop集群的core-site.xml,添加如下参数:

<property>
    <name>hadoop.proxyuser.hue.hosts</name>
    <value>*</value>
</property>
<property>
    <name>hadoop.proxyuser.hue.groups</name>
    <value>*</value>
</property>

如果你的Hue安装在Hadoop集群之外的服务器节点上的话则需要启动HttpFS server,并配置httpfs-site.xml添加以下内容:

<property>
    <name>httpfs.proxyuser.hue.hosts</name>
    <value>*</value>
</property>
<property>
    <name>httpfs.proxyuser.hue.groups</name>
    <value>*</value>
</property>


2.2 配置MapReduce

因为我的是MapReduce2所以不需要任何额外的配置。如果是MapReduce1的话请参考官方文档。


3. 配置Hue

配置Hue中关于Hadoop的参数部分。


3.1 配置HDFS

修改【HUE_HOME/desktop/conf】目录下的hue.ini中关于hdfs的配置来集成HDFS,这些配置位于[hadoop].[[hdfs_clusters]].[[[default]]]

# Enter the filesystem uri
fs_defaultfs=hdfs://hadoop-main.dimensoft.com.cn:9000

# NameNode logical name.
logical_name=hadoop-main.dimensoft.com.cn

# Use WebHdfs/HttpFs as the communication mechanism.
# Domain should be the NameNode or HttpFs host.
# Default port is 14000 for HttpFs.
webhdfs_url=http://hadoop-main.dimensoft.com.cn:50070/webhdfs/v1
# This is the home of your Hadoop HDFS installation. It is the root of the Hadoop untarred directory.
hadoop_hdfs_home=/usr/local/cdh-5.2.0/hadoop-2.5.0
# This is the configuration directory of the HDFS
hadoop_conf_dir=/usr/local/cdh-5.2.0/hadoop-2.5.0/etc/hadoop

高能预警:hadoop_hdfs_home和hadoop_conf_dir参数是根据官方文档来添加的,hue.ini中不自带。webhdfs_url这个值换成了http://hadoop-main.dimensoft.com.cn:50070则无法访问HDFS,所以就使用这个默认值了。如果是httpFS的话则为http://hadoop-main.dimensoft.com.cn:14000/webhdfs/v1。


3.2 配置YARN

修改【HUE_HOME/desktop/conf】目录下的hue.ini中关于yarn的配置来集成yarn,这些配置位于[hadoop].[[yarn_clusters]].[[[default]]]

# Enter the host on which you are running the ResourceManager
resourcemanager_host=hadoop-slave1.dimensoft.com.cn

# The port where the ResourceManager IPC listens on
resourcemanager_port=8032

# Whether to submit jobs to this cluster
submit_to=True

# Resource Manager logical name (required for HA)
## logical_name=

# Change this if your YARN cluster is Kerberos-secured
## security_enabled=false

# URL of the ResourceManager API
resourcemanager_api_url=http://hadoop-slave1.dimensoft.com.cn:8088

# URL of the ProxyServer API
proxy_api_url=http://hadoop-slave1.dimensoft.com.cn:8088


4. 验证

【HUE_HOME】目录下启动Hue。

$ build/env/bin/supervisor

使用浏览器访问Hue的Web界面

http://192.168.187.128:8888



首次使用的话会要去你创建一个管理员用户

Hue(三)集成Hadoop_第1张图片


创建用户后登陆进入Hue主页




从File Browser界面中可以查看HDFS中文件系统并修改文件内容,上传文件和删除文件等操作。




从Job Browser界面中可以查看到MapReduce作业的执行情况(这是我刚刚执行的一个wordcount作业,测试一下是否可以从Hue的Web界面查看到作业信息)。




配置成功。

你可能感兴趣的:(mapreduce,hadoop,hdfs,hue)