hue的基本认识和安装(Ubuntu+hadoop2.7.2+hive2.1.0+hue3.11.0)

最近由于需要,了解了下hue,并在ubuntu下,安装了hue3.11.0,并整合已有的hadoop、hive环境。本文就hue的基本情况以及安装部署(这个很折腾)做个简单介绍。最后也给出了一些非常有参考意义的链接,根据参考链接,安装、配置等常见问题基本可以解决了。


hue的基本认识及功能特性介绍

Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。

对于hadoop生态圈中的几乎所有框架相关功能,都有一定的支持。比如HDFS文件的浏览、上传、下载、删除、移动、拷贝、查看、甚至拖拽式操作。再比如对于hive的支持,只需要将hive的配置文件路径加到hue.ini配置文件中就行,然后就可以在启动hue后通过页面进行hive元数据库、数据的查看、操作等。其他还有如spark、sqoop、Job、ZooKeeper等应用都可以作为一个组件配置进来。

特性:

  • 默认基于轻量级sqlite数据库管理会话数据,用户认证和授权,可以自定义为MySQL、Postgresql,以及Oracle
  • 基于文件浏览器(File Browser)访问HDFS
  • 基于Hive编辑器来开发和运行Hive查询
  • 支持基于Solr进行搜索的应用,并提供可视化的数据视图,以及仪表板(Dashboard)
  • 支持基于Impala的应用进行交互式查询
  • 支持Spark编辑器和仪表板(Dashboard)
  • 支持Pig编辑器,并能够提交脚本任务
  • 支持Oozie编辑器,可以通过仪表板提交和监控Workflow、Coordinator和Bundle
  • 支持HBase浏览器,能够可视化数据、查询数据、修改HBase表
  • 支持Metastore浏览器,可以访问Hive的元数据,以及HCatalog
  • 支持Job浏览器,能够访问MapReduce Job(MR1/MR2-YARN)
  • 支持Job设计器,能够创建MapReduce/Streaming/Java Job
  • 支持Sqoop 2编辑器和仪表板(Dashboard)
  • 支持ZooKeeper浏览器和编辑器
  • 支持MySql、PostGresql、Sqlite和Oracle数据库查询编辑器

对于HDFS操作方面的支持:

  • Download
  • Rename
  • Move
  • Copy
  • Recursive change of permissions
  • Recursive change of ownership
  • Sort by attributes (e.g. name, size, date…)
  • View content of zip/gz text
  • View content of huge files
  • Drag & drop files to upload

对于权限控制方面

  • 做的还是比细粒度的,比如hue的管理员账户,普通账户,可操作的选项(rwx),分组(group),文件权限管理等。

hue的安装部署主要环节(细节可参考相应链接)

  • 下载安装包(因为系统是ubuntu,而且是内网环境,不通外网,而编译的话需要联网,所以只能通过官方预编译的)
    • 可在这里下载(可能需要)
  • 执行安装命令:
    • sudo PREFIX=/usr/share make install
    • sudo yum update gcc g++ libxml2-devel libxslt-devel cyrus-sasl-devel cyrus-sasl-gssapi mysql-devel \
      python-devel python-setuptools python-simplejson sqlite-devel ant libsasl2-dev libsasl2-modules-gssapi-mit \
      libkrb5-dev libtidy-0.99-0 mvn openldap-dev
  • 安装成功后,配置hue.ini, 参考这里, 英文不好的也可以读这个
  • 如果你的版本是hue3.7.0,并且需要认证的情况,可以读这个
  • 如果使用mysql作为元数据库,那么需要安装mysql、新建数据库、用户、授权(用户名可随意,后面在hue.ini中用到):
    • create database hue;
    • 如果用户权限错误,可以: drop user hue@localhost;
    • mysql>CREATE USER hue@'localhost' IDENTIFIED BY 'hue1234';
    • mysql>flush privileges;
    • 为了其他机器可访问(当你安装的hue所在机器和MySql不在同一个机器时),则需要授权:grant all privileges on hue.* to 'hue'@'172.16.13.%' identified by 'hue1234';
  • 基础环境不解释,如Hadoop,Hive,MySql等的安装,自行解决。

参考:

基本介绍,看看就行:

  • http://www.tuicool.com/articles/zIrqemB
  • http://blog.sina.com.cn/s/blog_7c5a82970102vn35.html

hue_3.11.0的安装(截至目前能看到的最新的文章,写的很不错):

  • http://blog.csdn.net/aquester/article/details/52958622
  • http://blog.csdn.net/cuihaolong/article/details/52269551

cloudera的文档,cdh3的版本,但是可以参考, 而且是tarball的方式安装:

  • http://archive.cloudera.com/cdh/3/hue/manual.html#_further_hadoop_configuration_and_caveats

hue3.9 tarball:

  • http://blog.csdn.net/bluishglc/article/details/48393291

常见问题:

  • 参考1,主要是一些基本配置方面的
  • 参考2,记录的也比较好
  • 或参考3

用户配置问题:
对于hue的用户管理方面,是和hadoop的用户有一定的区别的,需要注意。下面的博客都已经写明了

  • http://www.cnblogs.com/liuchangchun/p/4658796.html
  • http://www.bubuko.com/infodetail-984466.html
  • http://stackoverflow.com/questions/35187085/hue-failed-to-access-filesystem-root

其他可参考的:

  • 配置代理用户时,可以不用重启集群,使用命令就行(需要在每个nn上面执行):

    • bin/hdfs dfsadmin –refreshSuperUserGroupsConfiguration
    • bin/yarn rmadmin –refreshSuperUserGroupsConfiguration
    • 来源于更好的一篇文章,是董大神写的, 对于hadoop的代理介绍的不错:http://dongxicheng.org/mapreduce-nextgen/hadoop-secure-impersonation/
  • app配置:

    • 修改hue.ini 中的app_blacklist后无法启动,报错:AttributeError: 'Config' object has no attribute 'get'. 原因:app间相互依赖,如oozie和jobsub等。可在app.reg中查看到所有已安装app

你可能感兴趣的:(hadoop,hue)