96.hive-testbench与Hive

96.1 演示环境介绍

  • root用户操作
  • RedHat版本:7.3

96.2 操作演示

1.准备环境
clone hive-testbench源码下载:

https://github.com/hortonworks/hive-testbench.git

下载至本地目录

[root@ip-186-31-16-68 ~]# git clone https://github.com/hortonworks/hive-testbench.git

安装hive-testbench编译依赖环境

[root@ip-186-31-16-68 ~]# yum -y install gcc gcc-c++

2.编译hive-testbench并打包
进入hive-testbench目录

[root@ip-186-31-16-68 ~]# cd hive-testbench/
[root@ip-186-31-16-68 hive-testbench]# ll

在hive-testbench目录下执行如下脚本进行编译打包

[root@ip-186-31-16-68 hive-testbench]# ./tpcds-build.sh 

3.生成并加载数据

  • 在hive-testbench目录下执行如下脚本生成并加载测试数据
    • 10表示生成的数据量大小GB单位
    • /extwarehouse/tpcds表数据数据生成的目录,目录不存在自动生成,如果不指定数据目录则默认生成到/tmp/tpcds目录下
[root@ip-186-31-16-68 hive-testbench]# ./tpcds-setup.sh 10 /extwarehouse/tpcds
  • 等待脚本执行成功
    • 如成功生成了测试数据并创建了tpcds_text_10和tpcds_bin_partitioned_orc_10两个数据库
  • 在命令行查看HDFS上的数据是否与指定的量一致
  • 通过Hue验证生成的测试数据

4.总结
在编译hive-testbench项目时需要有外网环境,在编译的过程会下载Maven的安装包、下载Maven依赖以及TPC-DS的源码通过脚本的方式运行TPC-DS的99条SQL来做Hive、Impala、Presto等服务的基准测试

大数据视频推荐:
CSDN
大数据语音推荐:
企业级大数据技术应用
大数据机器学习案例之推荐系统
自然语言处理
大数据基础
人工智能:深度学习入门到精通

你可能感兴趣的:(Hadoop,hive,hadoop,big,data)