Hue连接HDFS -- HttpFS

文章目录

  • 1.简介
  • 2.WebHDFS与HttpFS

1.简介

HUE = Hadoop User Experience
Hue是一个开源的 Apache Hadoop UI 系统,由 Cloudera Desktop 演化而来,最后 Cloudera 公司将其贡献给 Apache 基金会的 Hadoop 社区,它是基于 Python Web 框架 Django 实现的。

2.WebHDFS与HttpFS

  • 两者都是基于REST的HDFS API,使得一个集群外的host可以不用安装HADOOP和JAVA环境就可以对集群内的HADOOP进行访问,并且client不受语言的限制。
  • WebHDFS是HDFS内置的、默认开启的一个服务,而HttpFS是HDFS一个独立的服务,若使用需要手动安装(CDH中安装HDFS时将HttpFS勾选上即可;HDP中需要用户手动安装)。
  • WebHDFS是HortonWorks开发的,然后捐给了Apache;而HttpFS是Cloudera开发的,也捐给了Apache。

两者主要差别:

  • WebHDFS是HDFS内置的组件,已经运行于NameNode和DataNode中。对HDFS文件的读写,将会重定向到文件所在的DataNode,并且会完全利用HDFS的带宽。
  • HttpFS是独立于HDFS的一个服务。对HDFS文件的读写,将会通过它进行中转,它能限制带宽占用。
  • 如果访问大文件,HttpFS服务本身有可能变成瓶颈。如果想限制客户端流量,以防其过度占用集群的带宽时,那可以考虑HttpFS。

WebHDFS与HttpFS各有利弊,都能满足基本需要。

虽然两者都支持HTTP REST API,但是Hue只能配置其中一种方式;对于HDFS HA的部署模式,只能使用HttpFS。因为无论NameNode所在ip如何变化,HUE通过HttpFS服务都能够访问到HDFS。

注:

  1. 在Hue中配置webhdfs_url使用HttpFS服务,在集群启用高可用后必须选择使用HttpFS服务。
  2. 无论NameNode是否处于HA状态HUE都可使用HttpFS服务来访问HDFS。

参考:
https://cloud.tencent.com/developer/article/1402020

你可能感兴趣的:(Hue)