Druid实时大数据分析-数据摄入

Druid数据摄入

数据摄入的方式

Druid支持流式(实时)和基于文件(批量)的摄入方法。最流行的配置是:

  • Files - 从HDFS,S3,本地文件或任何支持的Hadoop文件系统批量加载数据。如果您的数据集已经在上述文件系统中,我们推荐使用这种方法。
  • Stream push - 使用Tranquility(一个用于向Druid发送流的客户端库)将数据流实时推送到Druid中。如果您的数据集来自Kafka,Storm,Spark Streaming或您自己的流式处理系统,我们推荐使用此方法。
  • Stream pull - 使用实时节点将数据流从外部数据源直接拉到Druid。

入门

加载数据最简单的方法是下面三个教程。

  • 基于文件系统(批量)的教程向您展示如何从本地磁盘加载文件。
  • 基于流的教程向您展示如何通过HTTP推送数据。
  • 基于Kafka的教程向您展示如何从Kafka加载数据。

混合批量/实时流

您可以在混合批量/流式架构中将批处理和流式方法结合起来。在混合体系架构中,您可以使用流式方法进行初始摄取,然后定期以批处理模式(通常每隔几个小时或每晚)重新提取旧数据。当Druid在一段时间范围内重新摄入数据时,新的数据会自动替换早期摄取的数据。

目前Druid所支持的所有流式摄取方法都会在某些故障情况下丢弃或重复消息的可能性,批量重新摄取解决了历史数据的可能错误来源。

如果您因任何原因需要修改数据,批量重新摄取也可让您选择重新提取数据。

欢迎扫描二维码,关注公众号:

Druid实时大数据分析-数据摄入_第1张图片
公众号二维码.jpg

你可能感兴趣的:(Druid实时大数据分析-数据摄入)