Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
-h:查看命令用法
-i :指定daemon的地址
-q:指定查询的sql语句
-B:格式化输出* 大量数据加入格式化,性能受到影响
–output_delimiter=character (指定分隔符与其他命令整合,默认是\t分割)
–print_header 打印列名(去格式化,但是显示列名字,默认不打印)
-v:查看版本号
-f :后跟查询文件
建议sql 语句写到一行,因为shell 会读取文件一行一行的命令
-o:数据数据到文件中
-r :刷新所有元数据(当hive创建表的时候,你需要刷新到,才能看到hive元数据的改变)
整体刷新,全量刷新,万不得已才能用;
不建议定时去刷新hive源数据,数据量太大时候,一个刷新,很有可能会挂掉;
rpm -ivh impala-shell-2.5.0+cdh5.7.0+0-1.cdh5.7.0.p0.147.el6.x86_64.rpm
impala-shell -i 127.0.0.1 -q "select msisdn,sum(pv) as pv from test where day=20180706 group by msisdn order by sum(pv) desc" -B --output_delimiter="," -o "/home/test.txt"
rpm下载:http://dl.iteye.com/topics/download/9d1a7fa3-e6d4-3aad-bbfa-4877114dd856