基础环境
- Java8或更高版本
- Linux、Mac OSX或者其它类Unix操作系统,目前不支持Windows操系统
- 8GB内存(内存越高越高)
- 2核虚拟CPU
外部依赖
- 深度存储(Deep Storage),比如HDFS、S3等
- 元数据存储(Metadata Storage),比如Mysql、PostgreSQL
- Zookeeper,用于管理集群状态
对于单机安装,深度存储和元数据存储都会放在本地${DRUID_HOME}/var目录下。
单机实验安装
单机安装Druid适用于本地测试与学习,需要注意Druid目前只支持类Unix系统,所以本地机器应该是Mac OS或Linux系统。
安装Zookeeper
Druid依赖ZK进行集群管理,所以需要先安装Zookeeper。我们可以在本地安装一个节点的ZK,来支持Druid。
Zookeeper下载
Zookeeper下载地址:https://www.apache.org/dyn/closer.cgi/zookeeper/
#下载ZK
wget http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.10/zookeeper-3.4.10.tar.gz
#解压缩
tar -zxvf zookeeper-3.4.10.tar.gz
cd zookeeper-3.4.10
Zookeeper启动
#将ZK提供的事例配置修改为正式配置
cp conf/zoo_sample.cfg conf/zoo.cfg
#启动ZK服务
./bin/zkServer.sh start
通过上面的步骤,ZK单机版本已经简单安装完成了。我们可以通过jps看到ZK线程QuorumPeerMain。
安装Druid
接下来就是Druid的安装,Druid目前release版本为0.12.3。
Druid下载
#下载Druid
curl -O http://static.druid.io/artifacts/releases/druid-0.12.3-bin.tar.gz
#解压缩
tar -zxvf druid-0.12.3-bin.tar.gz
cd druid-0.12.3
ls -l
可以看到Druid安装包目录结构:
文件/目录 | 内容 |
---|---|
LICENSE | 许可文件 |
NOTICE | 公告文件 |
bin/* | 运行相关组件的脚本文件 |
conf/* | 生产环境配置文件 |
conf-quickstart/* | 单机测试部署配置文件 |
extensions/* | 第三方扩展软件包 |
hadoop-dependencies/* | Hadoop相关依赖 |
lib/* | Druid所有核心软件包 |
quickstart/* | 单机测试部署用到的文件 |
Druid启动
初始化Druid,执行该命令后会自动创建log和var目录。var目录存储了集群所有状态信息,比如集群元数据、segment等。
bin/init
接下在打开五个命令行终端,在druid-0.12.3目录中分为执行以下命令来启动所有服务。
java `cat conf-quickstart/druid/historical/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/historical:lib/*" io.druid.cli.Main server historical
java `cat conf-quickstart/druid/broker/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/broker:lib/*" io.druid.cli.Main server broker
java `cat conf-quickstart/druid/coordinator/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/coordinator:lib/*" io.druid.cli.Main server coordinator
java `cat conf-quickstart/druid/overlord/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/overlord:lib/*" io.druid.cli.Main server overlord
java `cat conf-quickstart/druid/middleManager/jvm.config | xargs` -cp "conf-quickstart/druid/_common:conf-quickstart/druid/middleManager:lib/*" io.druid.cli.Main server middleManager
启动完成后,可以通过WEB查看服务是否启动成功。
http://localhost:8081
http://localhost:8090
批量摄入数据
Druid在quickstart目录提供了一些测试数据,我们可以将这些数据批量导入到我们搭建的Druid系统上。quickstart/wikiticker-index.json描述了摄入规范,它会读取quickstart/wikiticker-2015-09-12-sampled.json.gz数据摄入到Druid。
#向overload服务发送摄入数据task
$curl -X 'POST' -H 'Content-Type:application/json' -d @quickstart/wikiticker-index.json http://localhost:8090/druid/indexer/v1/task
#Overload响应请求,并返回任务id
{"task":"index_hadoop_wikiticker_2018-11-13T08:53:23.313Z"}
通过overload控制台(http://localhost:8090/console.html)可以看到摄入任务已经执行成功。
摄入任务执行完成后,摄入数据会加载到Historical节点,并且在一到两分钟之后就可以查询。我们可以通过Coordinator控制台(http://localhost:8081)查看数据加载流程。
查询数据
数据摄入之后,我们可以对摄入的数据进行查询。
Druid在quickstart/wikiticker-top-pages.json中为我们准备了查询JSON,我们可以直接调用查询API即可:
curl -X 'POST' -H 'Content-Type:application/json' -d @quickstart/wikiticker-top-pages.json http://localhost:8082/druid/v2?pretty
查询结果:
[ {
"timestamp" : "2015-09-12T00:46:58.771Z",
"result" : [ {
"edits" : 33,
"page" : "Wikipedia:Vandalismusmeldung"
}, {
"edits" : 28,
"page" : "User:Cyde/List of candidates for speedy deletion/Subpage"
}
...
]
重启服务
如果我们想要重新启动服务,并且想把之前的信息删除,可以直接把var和log目录删除,然后在停止ZK后,再把/tmp/zookeeper删除。
rm log
rm var
./bin/zkServer.sh stop
rm /tmp/zookeeper
#重新进行初始化
bin/init
参考链接
http://druid.io/docs/latest/tutorials/index.html
http://druid.io/docs/latest/tutorials/tutorial-kafka.html
http://druid.io/docs/latest/tutorials/tutorial-query.html