streamsets自定义插件部署方案

streamsets data collector新增upsert 4 mysql

目录

  • 1.背景简介
  • 2.部署步骤
    • 2.1 cm界面操作
    • 2.2上传驱动包
    • 2.3 上传插件
    • 2.4选择pipeline
    • 2.5 pipeline配置
  • 3.启动界面

1.背景简介

由于sdc缺少由kudu到mysql的upsert操作,前期通过spark-sql定制化开发了一套数据同步程序,但是由于spark-sql同步大量数据,效率十分低下,现基于sdc源码定制化了支持mysql的upsert数据的导入插件。

2.部署步骤

2.1 cm界面操作

streamsets自定义插件部署方案_第1张图片
找到如上图的位置添加如下相应配置
sdc-security.policy 的 Data Collector 高级配置代码段(安全阀):

// custom stage library directory
grant codebase "file:///opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR-3.8.1/user-libs/-" {
   permission java.security.AllPermission;
};

// user-defined external directory
grant codebase "file:///opt/sdc-extras/-" {
  permission java.security.AllPermission;
};

sdc-env.sh 的 Data Collector 高级配置代码段(安全阀):

export USER_LIBRARIES_DIR="/opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR-3.8.1/user-libs"

export STREAMSETS_LIBRARIES_EXTRA_DIR="/opt/sdc-extras"

其中容易遗忘的一步:(登录sdc所在服务器执行如下命令)

chown -R sdc:sdc /opt/sdc-extras

2.2上传驱动包

streamsets自定义插件部署方案_第2张图片
streamsets自定义插件部署方案_第3张图片
在这里插入图片描述

2.3 上传插件

上传插件(/home/tianjun/opensource/yjp-bi-sdc/target/yjp-bi-sdc-1.0-SNAPSHOT.tar.gz)
到上面指定的sdc目录(/opt/cloudera/parcels/STREAMSETS_DATACOLLECTOR-3.8.1/user-libs/)
在这里插入图片描述

2.4选择pipeline

streamsets自定义插件部署方案_第4张图片
streamsets自定义插件部署方案_第5张图片

2.5 pipeline配置

2.5.1 Origin端
streamsets自定义插件部署方案_第6张图片
streamsets自定义插件部署方案_第7张图片
2.5.2 destinations端
streamsets自定义插件部署方案_第8张图片
streamsets自定义插件部署方案_第9张图片

3.启动界面

streamsets自定义插件部署方案_第10张图片

你可能感兴趣的:(数据采集)