HiBench是一个大数据基准套件,它在速度、吞吐量和系统资源利用率方面帮助评估不同的大数据框架。它包含一组Hadoop、Spark和流工作负载,包括Sort, WordCount, TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO等。它还包含了几个用于Spark Streaming, Flink, Storm and Gearpump的流工作负载。本博客主要是介绍对Flink的配置和使用。
本博客主要是说明在Hibench上如何运行flink程序,相关环境配置只是简单提到。
从flink官网上下载flink,修改配置flink的相关master和slave的节点。(在这里就不仔细展开flink的相关集群配置了。)
启动:
cd flink
bin/start-cluster.sh
关闭:
bin/stop-cluster.sh
修改Kafka的相关配置:修改config/server.properties
broker.id=0
zookeeper.connect=slave:2181
启动:(后台启动命令,若要查看日志,采用前台启动命令,下同)
./kafka/bin/kafka-server-start.sh ./kafka/config/server.properties 1>/dev/null 2>&1 &
关闭:
./kafka/bin/kafka-server-stop.sh ./kafka/config/server.properties
注意:zookeeper的启动在Kafka前
启动:(注意:这是zookeeper的后台启动命令,避免占用窗口)
./zookeeper/bin/zkServer.sh start
关闭:
./zookeeper/bin/zkServer.sh stop
Hadoop需要配置相应的环境,特别是注意在/etc/profile对hadoop的环境变量的配置
启动:
cd /hadoop
./sbin/start-dfs.sh
./sbin/start-yarn.sh
关闭:
./sbin/stop-dfs.sh
./sbin/stop-yarn.sh
1.修改Hibench的flink配置,修改文件conf/flink.conf
2.修改文件hibench.conf中的 Kafka for streaming benchmarks
sudo apt install maven
mvn -Pflinkbench -Dspark=2.2 -Dscala=2.11 clean package
以wordcount为例:
bin/workloads/streaming/wordcount/prepare/genSeedDataset.sh
bin/workloads/streaming/wordcount/prepare/dataGen.sh
bin/workloads/streaming/wordcount/flink/run.sh
最后生成报告:
bin/workloads/streaming/wordcount/common/metrics_reader.sh
可参考Hibench官方文档:Hibench