由Informatica前首席产品官Girish Pancha和Cloudera前开发团队负责人Arvind Prabhakar于2014年创立的公司,总部设在旧金山。streamsets产品做大数据ETL工具,支持包括结构化和半/非结构化数据源,拖拽式的可视化数据流程设计界面。
streamsets data collector(核心产品,开源):大数据ETL工具。
streamsets data collector Edge(开源):将这个组件安装在物联网等设备上,占用少的内存和CPU.
streamsets control hub(收费项目):可以将collector编辑好的pipeline放入control hub进行管理,可实现定时调度、管理和pipeline拓扑。
进行streamsets data collector开发:安装collector,创建管道,拖拽配置组件。
1. 管道(pipeline)类型:
data collector pipeline:用户普通collector开发。
data collector Edge Pipeline:将开发好的pipeline上传到对应Edge系统。
microservice pipeline:提供微服务。
2. streamsets data collector中的各种阶段的处理数据组件:
origins (extract):数据来源,数据从不同的数据源抽取。(一个pipeline中只能有一个数据来源)
processor(transform):数据转化,将抽取来的数据进行过滤,清洗。
destination(load):数据存储,将数据处理完后存入目标系统或者转入另一个pipeline进行再次处理。
executor:由处理数据组件的事件触发executor,执行相应任务。例如:某个组件处理失败,发送邮件通知。
3.streamsets data collector中事件类型
pipeline相关事件( pipeline-related events):当pipeline开启(start)或者停止(stop)时会产生事件,可以在pipeline的配置参数中指定consumer,进行事件处理。
阶段组件相关事件(stage-related events):处理数据的组件会产生事件,指定对应的executor处理事件。
4.指定pipeline启动参数
在pipeline设置界面中parameters:
组件中用表达式取出: