1032851561

kettle5.3批量插入impala

1.pentaho-big-data-plugin大数据插件

kettle5.3对应的pentaho-big-data-plugin-5.3(大数据插件)里面扩展支持了很多数据库连接，其中就包含了hive,hive2和impala，源码中分别对应以下这几个类：

HiveDatabaseMeta
Hive2DatabaseMeta
ImpalaDatabaseMeta

它们都是通过hive-jdbc去连接的，其实cloudera公司也出了个impala-jdbc。先编译pentaho-big-data-plugin-5.3得到运行包，在5.3版本还是保留着ant+ivy进行编译打包，但是依赖包所在的repo地址已经不再是下载得到的源码中ivysetting.xml中的地址：

"pentaho.resolve.repo" value="http://ivy-nexus.pentaho.org/content/groups/omni" override="false" />
改为：
"pentaho.resolve.repo" value="https://nexus.pentaho.org/content/groups/omni" override="false" />

从dist下将编译好的压缩包解压放到{kettle}/plugins目录下，pentaho-big-data-plugin解压后目录：

kettke启动后会扫描plugins下所有插件根目录以及lib目录下的所有jar包，hadoop-configurations目录放置着不同hadoop版本相关依赖和配置文件：

至于自己需要使用什么版本的hadoop则在pentaho-big-data-plugin/plugin.properties进行配置:

active.hadoop.configuration=cdh53  #对应上图的目录名称，这里自己使用cdh5.3

在编译好pentaho-big-data-plugin后，默认有cdh53、hadoop-20、hdp22、mapr401几个不同的版本，这些不同版本的hadoop都是可以通过编译pentaho-hadoop-shims这个项目来获得，可以看到kettle5.3对应的pentaho-hadoop-shims-5.3远不止这几个hadoop版本，至于想得到更高版本的hadoop可以尝试找对应的pentaho-hadoop-shims来编译，将编译好的shim复制到hadoop-configurations目录然后更改active.hadoop.configuration即可。

上面说到连接impala时是使用hive-jdbc驱动的，但相关的jar是在cdh5.3/lib目录下面的，kettle本身不会加载到这些hadoop版本下的jar包，而且就算大数据插件也是由不同的ClassLoader加载的，忘记了下载kettle的时候有没包含了pentaho-hadoop-hive-jdbc-shim-5.3.jar,反正编译源码得到的kettle是没这个jar，就是通过它去加载了cdh53下的包，需要把它放{kettle}/lib目录下，这个包在编译pentaho-hadoop-shims的子项目hive-jdbc这个项目时会生成，它实现了HiveDirver以及ImpalaDriver并通过大量的反射最终才加载到cdh53下的hive-jdbc驱动。

配置完这些再启动spoon，可以看到数据库连接界面已经多了很多种连接类型：

2.HiveJdbc不支持批量插入/更新

既然kettle的大数据插件已经支持了impala这些数据库连接类型，于是尝试进行插入测试，随意创建一个转换，从一个表读取数据然后插入到impala的表中，如下：

通过监控见到插入到impala的速度居然只有100+每秒，由于数据并不是直接存在hdfs，而是存在kudu，对于kudu表是支持行级的随机读写，但明显不是预期的效果。通过调试kettle的源码发现，在kettle中表输出步骤的实现中使用的是PreparedStatement.executeBatch()进行批量插入的,但是在hive-jdbc中是不支持批量更新的：

//HiveDatabaseMetaData
public boolean supportsBatchUpdates() throws SQLException {
    return false;
}
//HiveStatement
public int[] executeBatch() throws SQLException{
    throw new SQLException("Method not supported");
}

而在executeBatch()之前会先判断j是否支持批量更新，如果不支持就会一条条提交了，根据官方文档提到，insert语句并不适合用在基于hdfs的表：

所以只能是自己写逻辑了，通过insert into table(x,x,x) values(x,x,x),(x,x,x)…..这种方式进行批量更新，参考表输出(TableOutput)，自己实现一下步骤插件。

扯到另一个，hivejdbc中HiveResultSetMetaData.isSigned()其实也是不支持的，但在org.pentaho.di.core.row.value.ValueMetaBase中用到了很多次却没异常，是因为被pentaho-hadoop-shim-xx.jar中的DriverProxyInvocationChain代理了方法并实现了逻辑，类似的还有getMetaData()等其它方法。

自定义插件

参考kettle本身的”表输出”步骤进行修改逻辑，把多条记录拼成一条insert sql执行，对kettle插件原理及开发不太熟悉的可以参考一下https://blog.csdn.net/d6619309/article/details/50020977。

为插件创建一个项目名为kettle-impala-plugin的项目，项目结构如下：

从表输出源码目录中复制文件并命名成以上文件，表输出这个步骤插件是在kettle启动时从自身xml读取到配置信息并加载的，如果以自定义插件还是建议通过注解@Step来声明自己开发的插件，例如：

主要是对ImpalaOutput类进行修改，重点在writeToTable方法，直接贴出修改后的代码：


        if (r == null) { // Stop: last line or error encountered
            if (log.isDetailed()) {
                logDetailed("Last line inserted: stop");
            }
            return null;
        }

        Statement insertStatement = null;
        Object[] insertRowData;
        Object[] outputRowData = r;

        String tableName = null;

        boolean sendToErrorRow = false;
        String errorMessage = null;
        boolean rowIsSafe = false;

        if (meta.isTableNameInField()) {
            // Cache the position of the table name field
            if (data.indexOfTableNameField < 0) {
                String realTablename = environmentSubstitute(meta.getTableNameField());
                data.indexOfTableNameField = rowMeta.indexOfValue(realTablename);
                if (data.indexOfTableNameField < 0) {
                    String message = "Unable to find table name field [" + realTablename + "] in input row";
                    logError(message);
                    throw new KettleStepException(message);
                }
                if (!meta.isTableNameInTable() && !meta.specifyFields()) {
                    data.insertRowMeta.removeValueMeta(data.indexOfTableNameField);
                }
            }
            tableName = rowMeta.getString(r, data.indexOfTableNameField);
            if (!meta.isTableNameInTable() && !meta.specifyFields()) {
                // If the name of the table should not be inserted itself,
                // remove the table name
                // from the input row data as well. This forcibly creates a copy
                // of r
                //
                insertRowData = RowDataUtil.removeItem(rowMeta.cloneRow(r), data.indexOfTableNameField);
            } else {
                insertRowData = r;
            }
        } else if (meta.isPartitioningEnabled() && (meta.isPartitioningDaily() || meta.isPartitioningMonthly())
                && (meta.getPartitioningField() != null && meta.getPartitioningField().length() > 0)) {
            // Initialize some stuff!
            if (data.indexOfPartitioningField < 0) {
                data.indexOfPartitioningField = rowMeta
                        .indexOfValue(environmentSubstitute(meta.getPartitioningField()));
                if (data.indexOfPartitioningField < 0) {
                    throw new KettleStepException(
                            "Unable to find field [" + meta.getPartitioningField() + "] in the input row!");
                }

                if (meta.isPartitioningDaily()) {
                    data.dateFormater = new SimpleDateFormat("yyyyMMdd");
                } else {
                    data.dateFormater = new SimpleDateFormat("yyyyMM");
                }
            }

            ValueMetaInterface partitioningValue = rowMeta.getValueMeta(data.indexOfPartitioningField);
            if (!partitioningValue.isDate() || r[data.indexOfPartitioningField] == null) {
                throw new KettleStepException(
                        "Sorry, the partitioning field needs to contain a data value and can't be empty!");
            }

            Object partitioningValueData = rowMeta.getDate(r, data.indexOfPartitioningField);
            tableName = environmentSubstitute(meta.getTableName()) + "_"
                    + data.dateFormater.format((Date) partitioningValueData);
            insertRowData = r;
        } else {
            tableName = data.tableName;
            insertRowData = r;
        }

        if (meta.specifyFields()) {
            //
            // The values to insert are those in the fields sections
            //
            insertRowData = new Object[data.valuenrs.length];
            for (int idx = 0; idx < data.valuenrs.length; idx++) {
                insertRowData[idx] = r[data.valuenrs[idx]];
            }
        }

        if (Const.isEmpty(tableName)) {
            throw new KettleStepException("The tablename is not defined (empty)");
        }

        insertStatement = data.statements.get(tableName);
        if (insertStatement == null) {
            // String sql =data.db.getInsertStatement( environmentSubstitute(
            // meta.getSchemaName() ), tableName, data.insertRowMeta );
            String sql = ImpalaOutputUtils.getInsertStatement(data.db, environmentSubstitute(meta.getSchemaName()),
                    tableName, data.insertRowMeta);
            data.sqls.put(tableName, sql);
            if (log.isDetailed()) {
                logDetailed("impala insert into table sql: " + sql);
            }
            insertStatement = ImpalaOutputUtils.createStatement(data.db);
            data.statements.put(tableName, insertStatement);
        }

        try {
            // For PG & GP, we add a savepoint before the row.
            // Then revert to the savepoint afterwards... (not a transaction, so
            // hopefully still fast)
            //
            if (data.useSafePoints) {
                data.savepoint = data.db.setSavepoint();
            }

            data.batchBuffer.add(r); // save row

            if (log.isRowLevel()) {
                logRowlevel("cache row before insert: " + data.insertRowMeta.getString(insertRowData));
            }

            // Get a commit counter per prepared statement to keep track of
            // separate tables, etc.
            Integer commitCounter = data.commitCounterMap.get(tableName);
            if (commitCounter == null) {
                commitCounter = Integer.valueOf(1);
            } else {
                commitCounter++;
            }
            data.commitCounterMap.put(tableName, Integer.valueOf(commitCounter.intValue()));

            // Release the savepoint if needed
            //
            if (data.useSafePoints) {
                if (data.releaseSavepoint) {
                    data.db.releaseSavepoint(data.savepoint);
                }
            }

            /***
             * 提交触发点取决于“提交记录数量”,"使用批量插入"的可选项将不再生效
             */
            if ((data.commitSize > 0) && ((commitCounter % data.commitSize) == 0)) {

                try {
                    String batchSql = ImpalaOutputUtils.getBatchSql(data, tableName);
                    insertStatement.execute(batchSql);
                    data.db.commit();
                } catch (SQLException ex) {
                    throw new KettleDatabaseException("Error updating batch", ex);
                } catch (Exception ex) {
                    throw new KettleDatabaseException("Unexpected error inserting row", ex);
                }
                // Clear the batch/commit counter...
                //
                data.commitCounterMap.put(tableName, Integer.valueOf(0));
                rowIsSafe = true;
            } else {
                rowIsSafe = false;
            }

        } catch (KettleDatabaseException dbe) {
            if (getStepMeta().isDoingErrorHandling()) {
                if (log.isRowLevel()) {
                    logRowlevel("Written row to error handling : " + getInputRowMeta().getString(r));
                }

                if (data.useSafePoints) {
                    data.db.rollback(data.savepoint);
                    if (data.releaseSavepoint) {
                        data.db.releaseSavepoint(data.savepoint);
                    }
                    // data.db.commit(true); // force a commit on the connection
                    // too.
                }

                sendToErrorRow = true;
                errorMessage = dbe.toString();
            } else {
                if (meta.ignoreErrors()) {
                    if (data.warnings < 20) {
                        if (log.isBasic()) {
                            logBasic("WARNING: Couldn't insert row into table: " + rowMeta.getString(r) + Const.CR
                                    + dbe.getMessage());
                        }
                    } else if (data.warnings == 20) {
                        if (log.isBasic()) {
                            logBasic("FINAL WARNING (no more then 20 displayed): Couldn't insert row into table: "
                                    + rowMeta.getString(r) + Const.CR + dbe.getMessage());
                        }
                    }
                    data.warnings++;
                } else {
                    setErrors(getErrors() + 1);
                    data.db.rollback();
                    throw new KettleException(
                            "Error inserting row into table [" + tableName + "] with values: " + rowMeta.getString(r),
                            dbe);
                }
            }
        }

        if (sendToErrorRow) {
            // Simply add this row to the error row
            putError(rowMeta, r, data.commitSize, errorMessage, null, "TOP001");
            outputRowData = null;
        } else {
            outputRowData = null;

            // A commit was done and the rows are all safe (no error)
            if (rowIsSafe) {
                for (int i = 0; i < data.batchBuffer.size(); i++) {
                    Object[] row = data.batchBuffer.get(i);
                    putRow(data.outputRowMeta, row);
                    incrementLinesOutput();
                }
                // Clear the buffer
                data.batchBuffer.clear(); //提交后，清空缓存
            }
        }

        return outputRowData;

新增了一个工具类ImpalaOutputUtils，附上源码:

public class ImpalaOutputUtils {

    /**
     * 获取insert into table values语句
     * @param db
     * @param schemaName
     * @param tableName
     * @param fields
     * @return
     */
    public static String getInsertStatement(Database db, String schemaName, String tableName, RowMetaInterface fields) {
        StringBuffer ins = new StringBuffer(128);

        String schemaTable = db.getDatabaseMeta().getQuotedSchemaTableCombination(schemaName, tableName);
        ins.append("INSERT INTO ").append(schemaTable).append(" (");

        // now add the names in the row:
        for (int i = 0; i < fields.size(); i++) {
            if (i > 0) {
                ins.append(", ");
            }
            String name = fields.getValueMeta(i).getName();
            ins.append(db.getDatabaseMeta().quoteField(name));
        }
        ins.append(") VALUES ");

        return ins.toString();
    }

    public static Statement createStatement(Database db) throws KettleDatabaseException {
        try {
            return db.getConnection().createStatement();
        } catch (SQLException e) {
            throw new KettleDatabaseException("Couldn't create statement:", e);
        }
    }

    /**
     * 构建 (value1,value2,value3),(value1,value2,value3),(value1,value2,value3)
     * @param data
     * @param tableName
     * @return
     * @throws KettleDatabaseException
     */
    public static String getBatchSql(ImpalaOutputData data, String tableName) throws KettleDatabaseException {
        StringBuffer sql = new StringBuffer(data.sqls.get(tableName));
        for (Object[] row : data.batchBuffer) {
            StringBuffer rowValues = new StringBuffer();
            for (int i = 0; i < data.insertRowMeta.size(); i++) {
                ValueMetaInterface v = data.insertRowMeta.getValueMeta(i);
                Object cell = row[i];
                try {
                    switch (v.getType()) {
                    case ValueMetaInterface.TYPE_NUMBER:
                        rowValues.append(v.getNumber(cell).doubleValue()).append(",");
                        break;
                    case ValueMetaInterface.TYPE_INTEGER:
                        rowValues.append(v.getInteger(cell).intValue()).append(",");
                        break;
                    case ValueMetaInterface.TYPE_STRING:
                        rowValues.append("\"").append(v.getString(cell)).append("\"").append(",");
                        break;
                    case ValueMetaInterface.TYPE_BOOLEAN:
                        rowValues.append(v.getBoolean(cell).booleanValue()).append(",");
                        break;
                    case ValueMetaInterface.TYPE_BIGNUMBER:
                        rowValues.append(v.getBigNumber(cell)).append(",");
                        break;
                    default:
                        rowValues.append("\"").append(v.getString(cell)).append("\"").append(",");
                        break;
                    }
                } catch (Exception e) {
                    throw new KettleDatabaseException(
                            "Error setting value #" + i + " [" + v.toStringMeta() + "] on prepared statement", e);
                }

            }
            rowValues.setCharAt(rowValues.length() - 1, ' ');
            sql.append("(").append(rowValues).append("),");
        }
        sql.setCharAt(sql.length()-1, ' ');
        return sql.toString();
    }
}

编译并打包插件ant dist

成功后在dist目录下看到jar以及压缩包：

把压缩包解压后并拷贝到spoon工具的plugins目录下，此时pentaho-big-data-plugin应该已经存在：

启动spoon后，如果在左侧的输出目录中可以看到自定义的插件，至少说明插件已经被kettle加载到了，然后测试：

修改后的插入速度达到了3000+每秒，还可以接受

HiveJdbc Vs ImpalaJdbc

上面有说到cloudera公司也出了个ImpalaJdbc，在批量插入impala-kudu表过程中也有尝试使用它，因为在ImpalaJdbc中看到了很多HiveJdbc没有实现的方法它都实现了，例如executeBatch这些都已经实现了，但很奇怪的是，自己写了个demo并使用executeBatch方式进行批量插入测试时依然只有100+的速度，由于ImpalaJdbc不开源，没办法踪具体的原因。

另外对于insert into table(col1,col2,col3) values(v1,v2,v3),(v1,v2,v3),(v1,v2,v3)….这种方式的sql执行，使用ImpalaJdbc的速度只有使用HiveJdbc时的零点几倍。

Spring Cloud: Hystrix请求队列线程不足 MeazZa
在SpringCloud中，Feign可以实现本地化的微服务API调用，Hystrix可以实现调用失败时的fallback处理。问题描述：在实际生产环境中使用时，我们遇到了这样一个错误："...,stacktrace:[com.netflix.hystrix.exception.HystrixRuntimeException:QueryNodeImpalaBdService#getQueryRes
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
【Azure 应用服务】如何查看App Service Java堆栈JVM相关的参数默认配置值？云中路灯
问题描述如何查看AppServiceJava堆栈JVM相关的参数默认配置值？问题解答可以通过AppService的高级管理工具(kudu:)来查看JVM的相关参数，使用命令：java-XX:+PrintFlagsInitial-versionimage鉴于以上输出的参数太多，可以通过命令把结果输出在txt文件中，如：java-XX:+PrintFlagsInitial-version>D:\hom
2024年大数据高频面试题(下篇）猿与禅 Java架构师面试大数据面试 scala 即席查询分桶调度系统数据倾斜
文章目录Scala数据类型函数式编程闭包函数柯里化面向对象样例类对象与伴生对象特质(trait)模式匹配隐式转换即席查询KylinKylin特点Kylin工作原理核心算法Kylin总结Kylin的优点什么场景用KylinKylin的缺点Impala什么是ImpalaImpala为什么快FrontendBackendImpala总结：Presto什么是PrestoPresto的执行过程Presto总
Kettle发送邮件功能如何配置以实现自动化？ DengHua2203 邮件群发服务器邮件营销邮件接口 Kettle发送邮件 API接口触发式邮件
kettle发送邮件如何设置？Kettle配置发送邮件的方法？Kettle发送邮件功能能够帮助用户在数据处理过程中自动发送电子邮件，极大地提高了工作效率。AokSend将详细介绍如何配置Kettle发送邮件功能，以实现自动化操作。Kettle发送邮件：设置对象需要在Kettle中明确指定邮件的收件人和发件人地址。这样，当Kettle发送邮件时，系统就能准确无误地将邮件发送给指定的收件人。这一步骤确
【Azure 应用服务】Python3.7项目在引用pandas 模块后，部署报错云中路灯
问题描述参考“快速入门：在Linux上的Azure应用服务中创建Python应用”文档，在AppServiceForLinux环境中部署Python应用，在添加了pandas，应用本地运行成功，但是部署到AppService后，启动报错：ApplicationError2021051101.png问题分析获取日志：可以通过高级工具（kudu）连接到AppService后台，因为是Linux系统，所
java.io.InvalidClassException(spark任务运行失败） LATASA spark java 大数据
背景：客户集群内偶尔会出现java.io.InvalidClassException:org.apache.kudu.spark.kudu.KuduRDD;localclassincompatible:streamclassdescserialVersionUID=1,localclassserialVersionUID=1738372855795541573，公司集群从未出现。之前一直以为是版本
2020-08-20 Kettle 无法正常启动报错：does not exist, please create it ；Unable to create the database cache 迷光缓存数据库经验分享
当我启动etl的时候出现报错找不到指定文件Lockacquired.Settingstartlevelto100E:\data-integration\system\karaf\deploydoesnotexist,pleasecreateit.于是我进行了百度根据文章我知道是缓存文件导致的这个问题缓存文件造成的错误，只需要找到..\pdi-ce-6.0.1.0-386\data-integrat
第三章可视化ETL平台——Kettle okbin1991 etl 数据仓库数据库
第三章可视化ETL平台——Kettle课程目标能够理解Kettle的主要用途能够搭建Kettle开发环境能够掌握Kettle输入组件的使用能够掌握Kettle输出组件的使用能够掌握Kettle转换组件的使用1.Kettle介绍1.1数据仓库数据仓库是一个很大的数据存储集合，出于企业的分析性报告和决策支持目的而创建的，对多样的业务数据进行筛选与整合。它为企业提供一定的BI能力，指导业务流程
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
MATLAB 编程风格指南 DeepLearning Matlab学习 matlab 编程文档语言测试 documentation
转载自：http://blog.csdn.net/chenyusiyuan/archive/2007/11/19/1892378.aspxMATLAB编程风格指南——RichardJohnsonVersion1.5，Oct.2002版权；Datatool所有翻译：Genial@USTC“Languageislikeacrackedkettleonwhichwebeattunedtodanceto,
【Azure 应用服务】在 App Service for Windows 中自定义 PHP 版本的方法云中路灯
问题描述在AppServiceforWindows的环境中，当前只提供了PHP7.4版本的选择情况下，如何实现自定义PHPRuntime的版本呢?如PHPVersion8.1.9？image.png当AppService创建号值后，并且在门户上设置PHPVersion版本位PHP7.4,然后进入Kudu站点中，进入C:\home\sites\wwwroot目录中，创建一个index.php文件，文
二百二十三、Kettle——从Hive增量导入到ClickHouse(根据day字段判断) 天地风雷水火山泽 Kettle hive clickhouse kettle
一、目的需要用Kettle从Hive的DWS层库表数据增量同步到ClickHouse的ADS层库表中，不过这次的增量判断字段是day字段，不像之前的create_time字段因为day字段需要转换类型，而create_time字段字段不需要转换类型，因此两者的Kettle任务配置有所不同，也踩了一些坑，因此再写一篇博客整理一下，根据day字段判断的情况下kettle如何配置才能从Hive增量导入到
ETL数据集成工具DataX、Kettle、ETLCloud特点对比 RestCloud ETL 数据集成 datax kettle
ETL数据集成工具对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至的端的过程当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多，以下对开源的datax、Kettle、ETLClou
ETL数据集成工具DataX、Kettle、ETLCloud特点对比 etlkettle
ETL数据集成工具对于数据仓库，大数据集成类应用，通常会采用ETL工具辅助完成。ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至的端的过程当前的很多应用也存在大量的ELT应用模式。常见的ETL工具或类ETL的数据集成同步工具很多，以下对开源的datax、Kettle、ETLClou
Impala-架构与设计临江蓑笠翁大数据 #Impala 架构
架构与设计一、背景和起源二、框架概述1.设计特点2.框架优点3.框架限制三、架构图1.ImpalaDaemon2.Statestore3.Catalog四、Impala查询流程1.发起查询2.生成执行计划3.分配任务4.交换中间数据5.汇集结果6.返回结果总结参考链接一、背景和起源现有的大数据查询分析工具Hive更适合长时间批处理查询分析，并不能满足实时交互式场景。因此根据谷歌的Dremel设计思
Linux下删除n天前的文件2019-01-16 dataHunter
#!/bin/bashfind/opt/kettleLogs-mtime+10-typef-name"JOB_H-*.log"-execrm-rf{}\;find/opt/kettleLogs-mtime+30-typef-name"JOB_D-*.log"-execrm-rf{}\;
Kettle发送邮箱并在正文中以表格形式展示内容[升级版] GuangHui
在上一篇关于Kettle发送邮件并在正文中以表格形式展示内容的文章中,已经提到Kettle邮箱正文中支持HTML格式,要在邮箱正文中展示表格,那就行拼出HTML,然后扔到邮箱正文中.方法就是这么简单直接,上一篇文章中拼接HTML是在数据库SQL查询时完成的,而这次咱尝试使用Kettle支持的JavaScript脚本来完成.下面就结合一个小的需求案例,来说明一下.一.需求说明结算系统每天实时接收积分
Kettle 导入优化指南 Kassadar
在“表输出”的“上一个步骤“的组件上右键选择”数据发送……”的方式为”Round-Robin”。在”表输出”组件上右键选择“改变开始复制的数量……”填入并发数量“{d}”。第一次时注意调大弹出框，默认是看不到”确定”按钮的。配置完成后，“表输出”组件左上角会有“x{d}”字样。配置目标”数据源”，在”选项”中配置”命令参数”。
ubuntu22安装和部署Kettle8.2
在Ubuntu22上安装和部署Kettle8.2，你可以按照以下步骤进行：安装Java环境：Kettle需要Java环境来运行。在终端中输入以下命令安装Java：sudoaptupdatesudoaptinstallopenjdk-8-jdk安装完成后，你可以通过命令java-version来验证Java是否安装成功。下载并解压Kettle：从Pentaho官网或者其他可信赖的源下载Kettle8
时区设置引起的一系列问题 flexitime linux
这几天都在一直研究如何使用metabase和Kettle的事，我在一台Centos上使用Docker安装了metabase是，并用Docker部署一个Postgresql作为数据库，在另一台Centos上安装了Kettle当我大概知道如何使用后，我把使用kettle把我们一个Oracle业务数据库连上，通过脚本采集数据到Postgresql上面，后来在写SQL的过程中发现PG上的数据与Oracle
kettle--文本文件输出有空格解决方案刀鋒偏冷 etl
在kettle文本文件输出时，不管如何设置字段类型和长度，导出的数据都会有空格，遇到这一问题，可以在文本文件输出控件中勾选这一项，即可解决这一问题。文本文件输出：
69.Kudu、Spark2、Kafka安装—CDH 大勇任卷舒
69.1演示环境介绍CDH集群运行正常操作系统版本为：CentOS6.5CM和CDH版本为：5.12.1CM管理员为：admin用户操作系统用户为：root用户69.2操作演示Kudu安装Kudu的Parcel部署下载Kudu的Parcel包：http://archive.cloudera.com/kudu/parcels/5.12.1/KUDU-1.4.0-1.cdh5.12.1.p0.10-e
kettle控件-复制记录到结果/ 从结果获取记录的使用刀鋒偏冷大数据 etl
在数据采集过程中，遇到对方数据传送不及时的情况，导致数据漏采集，需要手工反复补采。为了解决这一问题，可以利用kettle的复制记录到结果/从结果获取记录控件。job的整个流程如下：设置变量：创建目录:get_time_id转换：此时的表输入：构建的的时间段的这些时间在表中不存在，即是没有采集到的数据文件。复制记录到结果：这时就是将表输入查询出来的时间复制到结果。load_file是一个job。在高
史上最全OLAP对比只会写demo的程序猿数仓 spark hadoop 数据仓库
目录1.什么是OLAP2.OLAP引擎的常见操作3.OLAP分类MOLAP的优点和缺点ROLAP的优点和缺点4.并发能力与查询延迟对比5.执行模型对比5.OLAP引擎的主要特点5.2SparkSQL、FlinkSQL5.3Clickhouse5.4Elasticsearch5.5Presto5.6Impala5.7Doris5.8Druid5.9Kylin综上所述:1.什么是OLAPOLAP（On
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
【Iceberg学习一】什么是Iceberg？周润发的弟弟 Iceberg 学习
ApacheIceberg是一个面向大型分析数据集的开放表格格式。Iceberg为包括Spark、Trino、PrestoDB、Flink、Hive和Impala在内的计算引擎增加了表格功能，使用一种高性能的表格格式，其工作方式就像一个SQL表一样。用户体验Iceberg避免了不愉快的意外。模式演化功能正常运作，并不会无意中恢复已删除的数据。用户无需了解分区信息也能获得快速查询。模式演化支持添加、
AJ-Report 【开源的一个BI平台】临水逸 java 大数据
AJ-Report是全开源的一个BI平台，酷炫大屏展示，能随时随地掌控业务动态，让每个决策都有数据支撑。多数据源支持，内置mysql、elasticsearch、kudu驱动，支持自定义数据集省去数据接口开发，目前已支持30+种大屏组件/图表，不会开发，照着设计稿也可以制作大屏。三步轻松完成大屏设计：配置数据源---->写SQL配置数据集---->拖拽配置大屏---->保存发布。欢迎体验。
Spark Chapter 8 Spark SQL 深海suke
【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL：MySQL，Oracle，DB2，SQLServer在大数据平台上实现大数据计算：Hive/SparkSQL/SparkCore直接使用SQL语句进行大数据分析hive的问题：底层MR，2.x之后可以用spark应用场景SQLonHadoop:Hive,Shark(不维护了)，Impala（Cloudera，内存使用较多），Pre
【kettle】pentaho/data-integration 报错：org.apache.http.NoHttpResponseException: failed to respond lisacumt apache 大数据
一、版本说明kettle版本：8.2.0.0-342【kettle】pentaho/data-integrationdebug查看日志方法二、报错说明：核心报错内容：org.apache.http.NoHttpResponseException:xxx.com:80failedtorespond执行到某一个请求时候报错，内容：2024/01/1815:24:06-获取json.0-Connecti
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

kettle5.3批量插入impala

1.pentaho-big-data-plugin大数据插件

2.HiveJdbc不支持批量插入/更新

自定义插件

HiveJdbc Vs ImpalaJdbc

你可能感兴趣的:(kettle,kudu,impala)