【Druid】Druid 离线数据导入小试

本次操作时参考Druid官网离线文件数据导入指导进行:http://druid.io/docs/0.10.0/tutorials/tutorial-batch.html

首先准备了一份json格式的数据文件,Druid-quickstart为用户准备了一份测试数据,我从中截取了100条数据,方便测试,保存为json文件:wiki-sample.json。

接下来编辑索引任务(indexing task)文件,文件中配置了很多任务信息。
其中两个地方需要注意:

  1. paths字段
    如果Druid是部署在Hadoop上的,需要先把文件上传到HDFS上,paths字段为HDFS路径,有多个文件用逗号分隔;
  2. jobProperties字段
    加入"mapreduce.job.user.classpath.first" : "true",否则会包下图错误:
    【Druid】Druid 离线数据导入小试_第1张图片
    image.png

任务提交命令:

curl -X 'POST' -H 'Content-Type:application/json' -d @wikiticker-index.json OVERLORD_IP:8090/druid/indexer/v1/task

可以通过页面监控任务:http://OVERLORD_IP:8090/console.html
通过Druid DataSource页面查看新增的DataSource: http://Coordinator_IP:8081/#/

你可能感兴趣的:(【Druid】Druid 离线数据导入小试)