streamset 数据合并_StreamSets使用指南

最近在调研Streamsets,照猫画虎做了几个最简单的Demo鉴于网络上相关资料非常少,做个记录。

1.简介

Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面,实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有:

- 可视化界面操作,不写代码完成数据的采集和流转

- 内置监控,可是实时查看数据流传输的基本信息和数据的质量

- 强大的整合力,对现有常用组件全力支持,包括50种数据源、44种数据操作、46种目的地。

对于Streamsets来说,最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)。创建一个Pipelines管道配置也基本是这三个方面。

常见的Origins有Kafka、HTTP、UDP、JDBC、HDFS等;Processors可以实现对每个字段的过滤、更改、编码、聚合等操作;Destinations跟Origins差不多,可以写入Kafka、Flume、JDBC、HDFS、Redis等。

2.基本安装和基本操作

目前网上的中文资料中,也就这个专题介绍的比较详细,几个常用组件的配置介绍的还可以,我也是按照这个入门的。

3.数据源

kafka单主题单进程消费者

基本使用,配置broker、zookeeper、consumer group、topic

kafka的properties可以在kafka configuration设置

offset管理,offset信息根据kafka版本保存在zookeeper或kafka里

如果没保存o

你可能感兴趣的:(streamset,数据合并)