StreamSets实战之路(二)-环境篇- StreamSets安装与配置

主要介绍StreamSets DC和StreamSets DC Edge的安装以及环境配置。

1.StreamSets DC安装与配置

StreamSets官方网站提供了多种安装方式,包括:手动解压Tarball包安装、通过RPM软件包安装、通过Cloudera Manager安装、通过Docker安装,除了这几种安装方式,还提供了在云服务商上安装或者在MapR集群上安装。当然,你可以安装包括所有阶段库的完整版本的Data Collector,或者,可以安装Data Collector的core版本以仅安装要使用的阶段库,core版本安装使Data Collector可以使用更少的磁盘空间。

(1)安装需求:

组件

最小化需求

硬件组件支持

CPU核数:2

内存:1GB

磁盘空间:6GB

文件打开数:32768

操作系统支持

Mac OS X

CentOS 6.x或7.x

Oracle Linux 6.x 或 7.x

Red Hat Enterprise Linux 6.x 或 7.x

Ubuntu 14.04 LTS 或 16.04 LTS

环境支持

Oracle Java 8

OpenJDK 8

软件支持

谷歌浏览器

火狐浏览器

Safari浏览器

*因为StreamSets DC是java语言开发的,因此java运行环境必须要安装与配置。

(2)设置系统的文件打开数:

Linux操作系默认文件打开数为1024,我们需要将文件的打开数设置为32768或者更大一些。

首先可以通过以下命令查看操作系统的文件打开数:

ulimit -n

文件打开数针对不同的操作系统有不同的配置方式,大家可以参照以下解决方案: https://access.redhat.com/solutions/61334。下面我们针对CentOS Linux做文件打开数的配置:

  • 切换至root用户,使用 ulimit –HSn 32768 命令修改(此时可利用 ulimit –n 查看,发现文件打开数为32768,但是这只能暂时修改,当退出时,文件打开数会变成默认值)
  • 修改配置文件 /etc/security/limits.conf,在文件后加上:

* soft nofile  32768
       * hard nofile  32768

1.1手动解压Tarball包安装

可以安装完整或者核心的Data Collector tarball并在所有受支持的操作系统上手动启动。

手动启动Data Collector时,Data Collector 将以运行启动命令时登录到命令提示符下的系统用户帐户身份运行。

(1)通过下面链接下载完整或核心的Data Collector tarball:

https://streamsets.com/products/dataops-platform/data-collector/download/。

(2)将使用以下命令压缩包解压到所需位置:

tar zxf streamsets-datacollector-all-3.15.0.tgz

解压后会看到下图展示的文件:

介绍几个重要的目录: 

bin目录:是Streamset DC运行脚本目录

etc目录:是Streamset DC默认的配置文件目录,包括系统配置、权限配置、邮件配置、日志配置等;

data目录:是Streamset DC默认的数据目录,用于存储你设计的数据流等;

log目录:是Streamset DC默认的日志目录,包括GC日志和系统日志;

libexec目录:是Streamset DC默认的运行时环境配置目录

streamsets-libs目录:是Streamset DC默认的系统自带组件的目录

user-libs目录:是Streamset DC放置用户自定义开发组件的目录

edge-binaries目录:是Streamset DC存放Streamsets DC Edge的各种类型的安装包。

(3)使用以下命令启动运行Data Collector:

bin/streamsets dc

或者,使用以下命令在后台运行Data Collector:

nohup bin/streamsets dc >/dev/null 2>&1 &

(4)要访问Data Collector UI,请在浏览器的地址栏中输入以下URL:

http://Ip:18630/

登录默认用户密码为:admin/admin。

 

提示:对于生产环境,请在启动Data Collector之前配置用于存储配置文件,数据文件,日志文件和资源文件的目录,以使它们位于$ SDC_DIST(压缩包的位置)和基本Data Collector运行时目录之外。

对于开发或测试环境,可以使用$ SDC_DIST运行时目录中的默认位置。当然,对于所有环境,建议大家都将配置文件,数据文件,日志文件和资源文件的目录设置到$ SDC_DIST目录之外的目录,并确保文件目录的读写权限。

在$ SDC_DIST运行时目录之外创建用于配置,数据,日志和资源文件的目录。

在$ SDC_DIST / libexec / sdc-env.sh文件中,将以下环境变量设置为新创建的目录:

SDC_CONF- 数据收集器配置目录。

SDC_DATA- 数据收集器目录,用于管道状态和配置信息。

SDC_LOG- 日志的数据收集器目录。

SDC_RESOURCES- 运行时资源文件的数据收集器目录。

将所有文件从$ SDC_DIST / etc复制到新创建的$ SDC_CONF目录。

1.2 RPM软件包安装

Data Collector RPM软件包安装主要是将其作为CentOS,Oracle Linux或Red Hat Enterprise Linux上的服务启动。

使用RPM软件包安装,Data Collector使用默认目录并作为默认系统用户和组运行。默认的系统用户和组名为sdc。如果计算机上不存在sdc用户和sdc组,则安装将为您创建用户和组,并为其分配下一个可用的用户ID和组ID。

提示:要为sdc用户和组使用特定的ID,请在安装前创建用户和组,并指定要使用的ID。例如,如果要在多台计算机上安装Data Collector,则可能要在安装之前创建系统用户和组,以确保用户ID和组ID在所有计算机上都一致。安装Data Collector作为服务安装时需要root特权。

(1)通过下面链接下载Data Collector RPM软件包:

https://streamsets.com/products/dataops-platform/data-collector/download/ 。

请下载适用于您的操作系统的RPM软件包:

对于CentOS 6,Oracle Linux 6或Red Hat Enterprise Linux 6,请下载RPM EL6软件包。

对于CentOS 7,Oracle Linux 7或Red Hat Enterprise Linux 7,请下载RPM EL7软件包。

(2)使用以下命令将文件解压到所需位置:

tar xf streamsets-datacollector---all-rpms.tar

例如,要在CentOS 7上解压缩版本3.15.0,请使用以下命令:

tar xf streamsets-datacollector-3.15.0-el7-all-rpms.tar

(3)使用以下命令安装完整的Data Collector RPM软件包:

yum localinstall streamsets*.rpm

(4)将Data Collector作为服务启动,请对您的操作系统使用所需的命令:

对于CentOS 6,Oracle Linux 6或Red Hat Enterprise Linux 6,请使用:

service sdc start

对于CentOS 7,Oracle Linux 7或Red Hat Enterprise Linux 7,请使用:

systemctl start sdc

(5)要访问Data Collector UI,请在浏览器的地址栏中输入以下URL:

http://Ip:18630/

登录默认用户密码为:admin/admin。

1.3 Docker安装

 Docker方式的安装比较简单,环境和默认配置已经在docker镜像中设置,当然安装前你的操作系统上已经安装了docker软件。

(1)可以用以下命令启动Streamset DC:

docker run --restart on-failure -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc

(2)启动过后,要访问Data Collector UI,请在浏览器的地址栏中输入以下URL:

http://Ip:18630/

登录默认用户密码为:admin/admin。

 

当然为了防止你在streamsets中配置数据流丢失,最好将数据文件映射到外部文件系统上:

首先在宿主机上创建一个目录:

mkdir -p /opt/streamset-datas

docker run --restart on-failure –v /opt/streamset-datas:/data -p 18630:18630 -d --name streamsets-dc streamsets/datacollector dc

想了解更多的docker安装信息,请参照:https://hub.docker.com/r/streamsets/datacollector/。

StreamSets实战之路(二)-环境篇- StreamSets安装与配置_第1张图片

 

2.StreamSets DC Edge安装与配置

Edge的安装官方也提供两种安装方式:手动解压缩包安装和docker安装。

Edge是一个轻量级的代理工具,因此占用非常少量的系统资源。使用Go语言开发现在支持操作系统包括:

Darwin AMD64

Linux AMD64,ARMv6,ARMv7和ARMv8

Windows AMD64

当然可以从SDC Edge开源代码在任何其他操作系统构建自己的程序包。详细请参阅:https://github.com/streamsets/datacollector-edge/blob/master/BUILD.md

你现在可以通过两种方式下载Edge压缩包:

从您安装的StreamSets DC UI界面中下载或从StreamSets DC安装的目录中的edge-binaries目录获取,当然您也可以从streamsets 官方网址下载(https://archives.streamsets.com/index.html)。

若是您要从StreamSets DC UI界面中下载的话,需要您创建一个Edge类型的数据流,例如下图:

StreamSets实战之路(二)-环境篇- StreamSets安装与配置_第2张图片

 

2.1手动解压缩包安装

(1)解压下载或获取到的压缩包至相应目录,利用管理员身份使用以下命令将Edge安装到您的系统中:

bin/edge -service install

利用以下命令启动Edge:

bin/edge -service start

利用以下命令重启Edge:

bin/edge -service restart

利用以下命令关闭Edge:

bin/edge -service stop

利用以下命令查看Edge的运行状态:

bin/edge -service status

利用以下命令卸载Edge:

bin/edge -service uninstall

2.2 docker安装

 使用以下命令启动Edge:

docker run --publish 18633:18633 --name edge --rm streamsets/datacollector-edge

至于怎么设计edge数据流,怎么发布Edge数据流到响应的edge上,后续课程或给大家介绍到。

Streamsets实战之路正在更新中,尽情期待!!!

 

 

此文章为博主原创,转载请标明出处和原始链接,谢谢。

你可能感兴趣的:(StreamSets实战之路,大数据)