StreamSets实战之路(七)-基础篇- StreamSets-Processor类组件使用

主要介绍StreamSets-Processor类组件有哪些、分类、主要用途以及使用方法。

Processor类组件主要包含以下:

Base64 Field Decoder // base64 解码组件

Base64 Field Encoder  // base64 编码组件

Control Hub API // Control Hub 接口调用组件

Couchbase Lookup // Couchbase查询组件,用于从Couchbase系统中读取数据

Data Generator // 数据序列化组件,将Avro、json、protobuf、text、xml等格式的数据序列成bytearray或string

Data Parser // 数据反序列化组件,将bytearray或string数据反序列成Avro、json、protobuf、text、xml等格式的数据

Databricks ML Evaluator // Databricks机器学习组件,使用Databricks机器模型进行数据分析

Delay // 延迟处理组件,用于数据延时处理

Encrypt and Decrypt Fields // 加解密组件,支持多种加解密算法

Expression Evaluator // 表达式组件,可用该组件添加或修改记录标题属性和字段属性

Field Flattener // 数据平铺组件,可以展平整个记录以生成没有嵌套字段的记录

Field Hasher // 哈希组件,可用于计算数据的哈希值,支持多种哈希算法

Field Mapper // 数据映射组件,可用于将表达式映射到一组字段,以更改字段路径,字段名称或字段值

Field Masker // 数据打码组件,可用于将敏感的数据进行打码

Field Merger // 数据合并组件,将List或Map类型的记录中的一个或多个字段合并到记录中的其他路径

Field Order // 数据排序组件,将List或Map类型的记录中的字段进行排序

Field Pivoter // 数据移位组件

Field Remover // 字段删除组件,用于保留或删除记录中的某些字段

Field Renamer // 重命名组件,用于重命名记录中字段的key

Field Replacer // 数据替换组件,用于填充或替换记录中的缺失值

Field Splitter // 字段切割组件,用于将数据按某一分隔符进行切割

Field Type Converter // 类型转化组件,用于数据的类型转化

Field Zip // 拉锁组件,用于将两个数组进行关联

Geo IP // Ip解析组件,用于将ip解析成对应的经纬度、地理信息等数据信息

Groovy Evaluator // Groovy脚本组件,用于自定义Groovy脚本,根据需求编写一些代码实现一个数据处理任务,功能强大

HBase Lookup // HBase 数据查询组件,用于从HBASE查询数据

Hive Metadata // Hive 元数据组件,与Hive Metastore目标以及Hadoop FS或MapR FS目标配合使用,作为Hive漂移同步解决方案的一部分

HTTP Client // Http 客户端组件,用于从http服务中获取获取数据

HTTP Router // Http 路由组件,根据http 请求方式(post put get)和请求路径进行分支路由

JavaScript Evaluator // JavaScript脚本组件,用于自定义JavaScript脚本,根据需求编写一些代码实现一个数据处理任务,功能强大

JDBC Lookup // JDBC 数据查询组件,用于JDBC从数据库中查询数据,适用于通过JDBC方式连接的数据库(Mysql等)的查询

JDBC Tee // JDBC Tee 组件,使用JDBC连接将数据写入MySQL或PostgreSQL数据库表,然后将生成的数据库列值传递给字段。使用JDBC Tee处理器将部分或全部记录字段写入数据库表,然后用其他数据丰富记录

JSON Generator // JSON 序列化组件,用于将数据记录序列化成JSON字符串

JSON Parser // JSON 反序列化组件,用于将JSON字符串数据反序列化成Java对象数据

Jython Evaluator  // Jython脚本组件,用于自定义Jython脚本,根据需求编写一些代码实现一个数据处理任务,功能强大

Kudu Lookup // Kudu 查询组件,用于从Kudu 系统中读取数据

Log Parser // 日志解析组件,支持多种日志格式的的解析,用于将具有一定格式的日志数据,解析成系统平台可处理的结构化格式数据

MLeap Evaluator // MLeap 数据分析组件,使用存储在MLeap捆绑软件中的机器学习模型来生成评估,评分或数据分类

MongoDB Lookup // MongoDB 数据查询组件,用于从MongoDB中查询数据

PMML Evaluator // PMML数据分析组件,使用以预测模型标记语言(PMML)格式存储的机器学习模型来生成数据的预测或分类

PostgreSQL Metadata //PostgreSQL元数据组件,确定其中每个记录应写入PostgreSQL的表,记录结构对表结构进行比较,然后根据需要创建或改变的表

Record Deduplicator // 记录重复数据删除组件,评估记录中是否有重复数据,并将数据路由到两个流中-一个流用于唯一记录,一个流用于重复记录。使用记录重复数据删除器丢弃重复数据或通过不同的处理逻辑路由重复数据

Redis Lookup // Redis数据查询组件,用于从Redis中查询数据

Salesforce Lookup // Salesforce数据查询组件,用于从Salesforce中查询数据

Schema Generator // Schema 生成组件,基于记录的结构生成模式,并将该模式​​写入记录头属性。用于生成Avro Schema

Spark Evaluator // spark 数据处理组件,用于将平台与spark关联实现数据处理的分布式处理

SQL Parser // SQL 解析组件

Start Job // 作业启动组件,需要与Controler Hub 配合使用

Start Pipeline // 数据流启动组件,用于启动指定的数据流

Static Lookup // 静态数据查询组件,执行存储在本地内存中的键/值对的查找,并将查找值传递给字段。使用静态查找将字符串值存储在内存中,管道可以在运行时查找这些值,以用其他数据丰富记录

Stream Selector // 数据分选组件,用于通过设置条件,来将数据分选不同分支进行处理

TensorFlow Evaluator // TensorFlow 数据分析组件,通过TensorFlow训练的数据模型,并模型配置到指定目录下,在系统平台上使用,实现数据分析功能

Whole File Transformer // 全文件转换组件,用于全文件目录或文件的快速拷贝或转换

Windowing Aggregator // 窗口聚合组件,用于指定一定窗口大小实现窗口内部数据的聚合操作,支持滚动和滑动窗口

XML Flattener // XML 平铺组件,用于XML数据的展平,可以展平整个记录以生成没有嵌套字段的记录

XML Parser // XML 解析组件,用于将XML数据进行解析,转换成系统平台易处理的数据格式,类似JSON Parser

  

使用方法:

StreamSets实战之路(七)-基础篇- StreamSets-Processor类组件使用_第1张图片

Streamsets实战之路正在更新中,尽情期待!!!

此文章为博主原创,转载请标明出处和原始链接,谢谢。

你可能感兴趣的:(StreamSets实战之路,大数据,大数据)