streamsets简介

streamsets(官网地址:https://streamsets.com/

    由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立的公司,总部设在旧金山。streamsets产品做大数据ETL工具,支持包括结构化和半/非结构化数据源,拖拽式的可视化数据流程设计界面。

  • streamsets的产品:

         streamsets data collector(核心产品,开源):大数据ETL工具。

         streamsets data collector Edge(开源):将这个组件安装在物联网等设备上,占用少的内存和CPU.

         streamsets control hub(收费项目):可以将collector编辑好的pipeline放入control hub进行管理,可实现定时调度、管理和pipeline拓扑。

 

  • streamsets data collector简介:

       进行streamsets data collector开发:安装collector,创建管道,拖拽配置组件。

        1. 管道(pipeline)类型:

              data collector pipeline:用户普通collector开发。

              data collector Edge Pipeline:将开发好的pipeline上传到对应Edge系统。

              microservice pipeline:提供微服务。

      

      2. streamsets data collector中的各种阶段的处理数据组件:

           origins (extract):数据来源,数据从不同的数据源抽取。(一个pipeline中只能有一个数据来源)

           processor(transform):数据转化,将抽取来的数据进行过滤,清洗。

           destination(load):数据存储,将数据处理完后存入目标系统或者转入另一个pipeline进行再次处理。

           executor:由处理数据组件的事件触发executor,执行相应任务。例如:某个组件处理失败,发送邮件通知。

   

     3.streamsets data collector中事件类型

            pipeline相关事件( pipeline-related events):当pipeline开启(start)或者停止(stop)时会产生事件,可以在pipeline的配置参数中指定consumer,进行事件处理。

           阶段组件相关事件(stage-related events):处理数据的组件会产生事件,指定对应的executor处理事件。

 

    4.指定pipeline启动参数

       在pipeline设置界面中parameters:

 streamsets简介_第1张图片

      组件中用表达式取出:

 

 

你可能感兴趣的:(streamsets简介)