StreamSets数据操作平台(数据移动及数据清洗强大工具)-介绍

1、介绍:

StreamSets数据操作平台是唯一旨在简化如何构建,执行和操作企业数据流的平台。构建在开源核心上,开发人员可以轻松构建批处理和流式数据流,而且代码少,而运营商使用云本地产品将数十或数百个数据流聚合到拓扑中,并通过实时可见性和性能控制集中管理。

2、其官网地址:https://streamsets.com

3、其对数据流采用pipeline方式进行处理,源端数据可以来自多个组件,kafka,directory,mysql,redis等,pipeline的destination也可以有丰富的终端组件,kafka,directory,mysql,redis,hdfs等,中间处理节点也有很多丰富的节点,待会儿搭建好之后就可以在 http://hadoop03:18630 的浏览器右端可以看到。

4、每一个新的组件,我们的看看他长什么样的?接下来我们就可以在官网进行下载安装包(https://streamsets.com/opensource/),地址中选择自己平台需要的版本进行下载,我这里以centos6.*为例进行使用

4.1 下载

wget https://archives.streamsets.com/datacollector/3.0.2.0/tarball/streamsets-datacollector-core-3.0.2.0.tgz

4.2 解压安装

$ tar xvzf streamsets-datacollector-core-3.0.2.0.tgz

   

$ streamsets-datacollector-3.0.2.0/bin/streamsets dc

  注:在这个启动的过程中会出现启动报错的情况,错误提示是:最大的文件数为1024,而streamsets需要更大的文件数,因此就要必要的设置一下环境了,设置方式有两种:

1、修改配置文件,然后重启centos永久生效,

2、通过一个命令进行生效:

ulimit -n 65535

Browse to http://:18630/
The default username and password are “admin” and “admin”.

通过这种方式:你就可以看到正真的streamsets真面目了。。。。后面我们看看他真面目里面的一些细节。。。。这个工具主要进行数据移动及数据清洗有很大的帮助。

有问题联系QQ:765120845

你可能感兴趣的:(streamsets)