StreamSets 简介

目录

 

1. 什么是StreamSet Data Collector

2.  如何使用StreamSets Data Collector

3.  StreamSets Data Collector是如何工作的?


1. 什么是StreamSet Data Collector

    StreamSets Data Collector是一个轻量级,功能强大的引擎,可实时传输数据。 使用Data Collector来路由和处理数据流中的数据。

    要定义Data Collector的数据流,就需要配置管道。 管道由多个阶段组成,包括管道的起点和终点以及您要执行的任何其他处理操作。 配置管道后,单击“开始”,Data Collector将开始工作。

    Data Collector在数据到达起点时处理数据,并在不需要时静默等待。 您可以查看有关数据的实时统计信息,在数据通过管道时检查数据,或仔细查看数据快照。

2.  如何使用StreamSets Data Collector

在整个企业数据拓扑中,在数据到达目的地之前需要移动,收集和处理数据。将StreamSets Data Collector用作数据流的管道, 可以提供各个节点之间的关键连接。

实际使用中可以使用单个Data Collector运行一个或多个管道。 或者,您可以安装一系列数据收集器来跨企业数据拓扑流式传输数据。

3.  StreamSets Data Collector是如何工作的?

安装并启动Data Collector后,使用Data Collector UI登录并创建第一个管道。

(1)假设您要从目录中读取XML文件,并在将其移入HDFS之前删除换行符。要执行此操作,请从Directory origin阶段开始,并将其配置为指向源文件目录。 (您还可以将阶段存档处理的文件和未完全处理的文件写入单独的目录以供查看。)

(2)要删除换行符,请将Directory连接到Expression Evaluator处理器并将其配置为从记录中的最后一个字段中删除换行符。

(3)要使数据可用于HDFS,请将Expression Evaluator连接到Hadoop FS目标阶段。该阶段可以将数据以JSON对象输出(可以使用其他数据格式)。

(4)可以预览数据以查看源数据如何在管道中移动,如果某些字段缺少数据,可以添加Field Replacer以替换这些字段中的空值。

(5)现在数据流已完成,可以配置管道错误记录来处理错误记录并将其写入文件,创建数据漂移警报以通知何时更改字段名称,并配置电子邮件警报以通知您何时管道生成100多条错误记录。

(6)此时,就可以启动管道并且Data Collector开始工作。

(7)Data Collector进入监控模式并立即显示汇总和错误统计信息。要仔细查看活动,可以获取管道的快照,以便检查一组数据如何通过管道传递。如果在管道中看到一些意外数据,可以为两个阶段之间的链接创建数据规则以收集有关类似数据的信息,并设置警报以在数字过高时通知您。

 

参考:

https://streamsets.com/documentation/datacollector/latest/help/datacollector/UserGuide/Getting_Started/GettingStarted_Title.html#concept_htw_ghg_jq

你可能感兴趣的:(StreamSet学习笔记)