有很多同学跟我反映 博客里的很多图都没了,真的很抱歉;
目前CSDN这里的博客不会再维护了,关于NIFI的文章会陆续在
https://nifichina.gitee.io
https://nifichina.github.io
以及公众号更新
将json转换成可执行的SQL;json要求为flat型的,就理解为是简单的key-value形式,没有过深的结构;json是单条,数组都可以;数组的json时,输出是若干个单条json的SQL语句;
配置:
JDBC Connection Pool:数据库连接池HiveConnectionPool,DBCPConnectionPool,DBCPConnectionPoolLookup
Statement Type:UPDATE INSERT DELETE
Table Name
Catalog Name:设置为空就行;
Schema Name:看数据库类型配置,比如gp之类的就有schema
Translate Field Names:如果为真,处理器将尝试将JSON字段名转换为指定表的适当列名。如果为false, JSON字段名必须与列名完全匹配,否则不会更新列
Unmatched Field Behavior:一个字段不匹配,如何处理;可选忽略不匹配字段,或者直接报错;
Unmatched Column Behavior:所有字段都不匹配,如何处理;
Update Keys:惟一地标识数据库中用于UPDATE语句的行。如果语句类型为UPDATE,且未设置此属性,则使用表的主键。在这种情况下,如果不存在主键,那么如果将不匹配的列行为设置为failed,那么转换到SQL的操作将失败。如果语句类型为INSERT,则忽略此属性
Quote Column Identifiers:引用列标识符;启用此选项将导致引用所有列名,允许在表中使用保留字作为列名。
Quote Table Identifiers:同上
SQL Parameter Attribute Prefix:SQL参数属性前缀,sql.args.1.value 那个sql就是前缀
最后:大量数据插入,这个Processor的效率很低的,为什么这么说呢,一个流的数据如果是json,也应该是json数组,但一个json数组通过这个processor得到的结果是若干个insert语句,每一个insert语句中只有一条数据;可以改进成insert into table ()values ()()。。。的形式;也可以使用PutDatabaseRecord 做大量数据的insert,PutDatabaseRecord的优势是内置reader,减少了流程的中间落地(当然PutDatabaseRecord 也没有做到最好,还可以再优化,我自己改过一版PutDatabaseRecordQuicklyForInsert ,有空再更一下)