StreamSets数据操作平台(数据移动及数据清洗强大工具)-第二篇

什么是StreamSets数据收集器?

StreamSets 数据收集器是一个轻量级,强大的引擎,实时流数据。使用Data Collector在数据流中路由和处理数据。

要为Data Collector定义数据流,请配置管道。一个流水线由代表流水线起点和终点的阶段以及您想要执行的任何附加处理组成。配置管道后,单击开始“ 数据收集器开始工作。

Data Collector在数据到达原点时处理数据,在不需要时静静地等待。您可以查看有关数据的实时统计信息,在数据通过管道时检查数据,或仔细查看数据快照。

我应该如何使用Data Collector?

使用StreamSets 数据收集器就像一个管道的数据流。在整个企业数据拓扑结构中,您都有需要移动,收集和处理到目的地的数据流。Data Collector提供流之间的关键连接。

为了解决您的采集需求,您可以使用单个Data Collector运行一个或多个管道。或者,您可能会安装一系列Data Collector来在您的企业数据拓扑中传输数据。

这是如何工作的?

让我们通过它...

安装并启动Data Collector之后,使用 Data Collector UI登录并创建第一个管道。

你想要做什么?假设您想从目录中读取XML文件,并在将其移入HDFS之前删除换行符。要做到这一点,你需要从一个目录原点阶段开始,并将其配置为指向源文件目录。(您也可以将舞台归档文件处理完毕并将未完全处理的文件写入单独的目录中供审阅。)

若要删除换行符,请将目录连接到表达式评估程序处理器,并将其配置为从记录的最后一个字段中删除换行符。

要使数据可用于HDFS,请将Expression Evaluator连接到Hadoop FS目标阶段。您可以将舞台配置为将数据作为JSON对象编写(尽管您也可以使用其他数据格式)。

您可以预览数据以查看源数据如何在管道中移动,并注意到某些字段缺少数据。因此,您添加一个值替代品来替换这些字段中的空值。

现在数据流已经完成了,您可以配置管道错误记录处理,将错误记录写入文件,创建数据偏移警报以通知您字段名称更改的时间,并配置电子邮件警报以通知您管道会生成超过100个错误记录。然后,启动管道,Data Collector开始工作。

该数据采集器进入监控模式,并立即显示摘要和错误统计。为了更仔细地看看这个活动,你可以对流水线做一个快照,这样你就可以检查一组数据是如何通过流水线的。您会看到一些意外的数据,因此您需要为两个阶段之间的链接创建数据规则,以收集有关类似数据的信息,并设置一个警报,以便在数字太高时通知您。

那些写入文件的错误记录呢?他们保存错误的细节,所以你可以创建一个错误管道重新处理该数据。Et瞧!

StreamSets 数据收集器是一个强大的工具,但我们正在尽可能简单的使用它。所以试试看,点击帮助图标获取信息,如果您需要帮助,请联系我们。

登录并创建管道

启动Data Collector后,您可以登录到Data Collector并创建第一个管道。

您可以自定义用于访问Data Collector的地址和登录名。此过程使用默认设置。

1. 要使用用户界面访问数据收集器,请在浏览器的地址栏中输入以下URL

HTTP:// <主机名>:18630 /

2. 如果更改了Data Collector配置文件中的默认Data Collector端口号,$ SDC_CONF / sdc.properties,请使用该号码。

4. “ 登录对话框中,使用以下凭据登录:管理 / 管理

如果您创建了自定义登录,请随时使用它。

5. “ 入门页面上,单击“ 新建管道

6. “ 新建管道窗口中,输入管道名称,可选输入描述,然后单击“ 保存

出现管道画布。属性面板显示管道属性。

7. 有关配置管道的步骤,请继续执行步骤3

相关信息

什么是管道?

数据收集器配置

数据收集器用户界面

Data Collector 提供基于Web的用户界面(UI)来配置管道,预览数据,监视管道和查看数据的快照。

该数据采集器 UI包括以下一般领域和图标:

 


区/图标

名称

描述

1

管道画布

画布用于配置,预览或监视管道。

2

属性面板/预览面板/监视器面板

在配置管道时,“属性”面板将显示管道或所选阶段的属性。您可以调整大小,最小化和最大化面板。

预览数据时,预览面板将显示进入和退出所选阶段或阶段组的数据。它也可以显示舞台属性和预览配置。

监视正在运行的管道时,监视器面板将显示实时指标和统计信息。

注意:某些图标和选项可能不会显示。显示的项目取决于您正在执行的任务和分配给您的用户帐户的角色。


   

配置显示

您可以配置Data Collector UI中的信息显示方式,如联机帮助版本,面板中的信息密度以及管道创建帮助栏。

1. Data Collector UI的右上角,单击帮助 > 设置

2. 设置对话框中,您可以配置以下选项:

显示设定

描述

时区

显示时区。用于在Data Collector UI中显示日期和时间,例如数据预览或快照数据中的日期时间 数据。

您可以选择以下选项之一:

· 世界标准时间

· 浏览器时区,通常使用操作系统时区。

· 当数据收集器运行在不同的机器中,操作系统的时区上数据采集计算机。

显示密度

定义面板中显示的信息的密度。

帮助文档

定义Data Collector使用的帮助项目:

· 本地帮助 - 使用与Data Collector一起安装的帮助项目 

· 托管帮助 - 使用托管在StreamSets网站上的帮助项目。托管帮助包含最新的可用文档。需要互联网连接。

默认托管帮助。当互联网访问不可用时,Data Collector使用本地帮助。

这两个帮助项目提供上下文相关的帮助。

隐藏管道创建帮助栏

当管道不完整时,隐藏默认显示的管道配置帮助栏。

隐藏REST响应菜单

隐藏“REST响应”菜单,以便您不能请求REST API响应信息。

在后台运行预览以显示可用字段

在后台运行预览以显示可用字段的列表,并在配置管线和舞台属性时显示“选择带预览数据的字段”选项。

如果预览导致大量记录,则在后台运行预览可以冻结浏览器。要解决此问题,请清除该属性。

在属性中包装长行

包装您在属性中输入的长长的文本行。例如,您可以在配置舞台的前提条件时输入一长串文本。

清除后,用滚动条显示长长的文本行。

数据收集器用户界面 - 主页上的管道

Data Collector 在主页上显示所有可用管道和相关信息的列表。您可以选择一个管道类别,例如Running Pipelines,以查看所有可用管道的子集。

当您或您的用户组具有管道读取权限或创建管道时,管道将显示在主页上。

查看主页上的管道以执行管道维护,例如复制或共享管道。当您单击页面顶层图标集中的主页图标()时,您可以访问主页。您也可以在配置或监视管道时通过单击管道路径中的管道链接来访问主页。


区/图标

名称

描述

1

管道库

与此Data Collector关联的管道库。

图书馆列出:

· 管道状态 - 选择管道状态以按状态过滤列表中的管道。

· 管道标签 - 选择管道标签以按标签过滤列表中的管道。

2

管道列表

允许您选择一个或多个管道,然后在管道上执行操作,例如启动,停止或导出管道。

3

筛选字段

允许您按名称筛选管道。

4

显示详细资料

显示列表中每个管道的错误消息和警报文本的详细信息。


   

你可能感兴趣的:(streamsets)