实例百度网盘下载(永久有效):
链接: https://pan.baidu.com/s/1ltXeOlMEMYyfJD6eplUg1A 密码: 3ii5
实例下载:
streamsets使用案例.zip
yt50_cancel_record.json
yt50_return_by_statistics.json
yt50_cancle_record_by_statistics_date_partition.json
请解压streamsets使用案例.zip 文件查找压缩文件中的oracle-Hbase.json文件,导入到平台中即可
oracle-Hbase.json
结构化与非结构化名词解释:https://zhidao.baidu.com/question/1541228834938237347.html
本示例主要使用streamsets2.6.0.1版本中的FTP作为数据源读取非结构化数据,FTP组件能读取子目录下的文件,放到HDFS中,如果任务启动此任务会发现新的数据,一直处于等待的状态
请解压streamsets使用案例.zip 文件查找压缩文件中的unstructured-local-to-hdfs-admin.json文件,导入到平台中即可
unstructured-local-to-hdfs-admin.json
结构化与非结构化名词解释:https://zhidao.baidu.com/question/1541228834938237347.html
本示例主要使用streamsets2.6.0.1版本中的FTP作为数据源读取结构化数据,FTP组件能读取子目录下的文件,放到HDFS中,如果任务启动此任务会发现新的数据,一直处于等待的状态
请解压streamsets使用案例.zip 文件查找压缩文件中的structured-local-to-hdfs.json文件,导入到平台中即可
structured-local-to-hdfs.json
本示例主要使用streamsets2.6.0.1版本的FTP组件来把结构化数据导入到HIVE中,可以直接查询HIVE中的数据
请解压streamsets使用案例.zip 文件查找压缩文件中的ftp-hive-hdfs.json文件,导入到平台中即可
ftp-hive-hdfs.json
本示例主要使用streamsets2.6.0.1中的FTP组件把数据导入到KAFKA中,任务启动后,任务便会一直处于等待状态,任务会一直运行
请解压streamsets使用案例.zip 文件查找压缩文件中的YS_Kafka.json文件,导入到平台中即可
YS_Kafka.json
本示例主要私用streamsets2.6.0.1中的Kafka的组件获取kafka中的数据,然后经过Spark Evaluator组件的处理,最后把处理好的数据存放到pg中
请解压streamsets使用案例.zip 文件查找压缩文件中的kafka-spark-pg.json文件,导入到平台中即可
kafka-spark-pg.json
本示例主要使用streamsets2.6.0.1的JDBC Query Consumer组件读取pg数据库中的数据,经过Field Renamer/Value Replacer/Field Type Converter /
Field Masker操作后最后再把数据存放到pg中,当此任务开启后便会一直运行,会发现pg数据源中的新数据进入
请解压streamsets使用案例.zip 文件查找压缩文件中的pg-transformation-pg.json文件,导入到平台中即可
pg-transformation-pg.json
本示例使用streamsets2.6.0.1中的Stream Selector组件来对数据源中的数据进行不同的操作,例如 把每一行中包含12的数据放到其他地方
请解压streamsets使用案例.zip 文件查找压缩文件中的directory-transformation-local.json文件,导入到平台中即可
directory-transformation-local.json
streamsets2.6.0.1版本中的Field Splitter组件对结构化数据按照制定的分隔符对字段分割,并映射成新的字段
请解压streamsets使用案例.zip 文件查找压缩文件中的Field---Splitter.json文件,导入到平台中即可
Field---Splitter.json
本示例主要streamsets3.0.1.0版本中的FTP组件读取数据,经过对数据的分割与类型的转换并数据存放到es中,此任务开启后会一直运行,FTP组件会一直等待新的数据进入
本示例请下载:alexis_to_es.json
alexis_to_es.json
streamsets3.0.10版本中的JavaScript Evaluator组件对每一行的数据进行处理,使用次组件会减小任务的处理速度,此任务开启后任务会一直处于运行的状态
本示例请下载:Ftp_to_hive.json
Ftp_to_hive.json
如果把数据从FTP读出来,经过数据的处理后把数据既要放在Hive又放在Hbase中并且Hbase的表示多个,也就是说一个数据源对应多个目标源
本示例请下载:Ftp2HiveAndHBase.json
使用streamsets2.6.0.1版本中的JDBC组件,读取oracle数据库中的数据,实现每天自动增量到Hive中,
官网详细的介绍: https://streamsets.com/documentation/datacollector/latest/help/#Origins/JDBCConsumer.html 中搜索SQL Query for Incremental Mode关键字,
在JDBC单表消费者写SQL的方式,在SQL中使用${OFFSET}关键字来实现增量,${OFFSET}需要用单引号引入,Query Interval 设置成${24 * HOURS}即可,这样就实现了
每天增量获取oracle数据库中的增量数据
本示例请下载:oracle_IncrementalMode_hive.json
oracle_IncrementalMode_hive.json