张小凡vip

kettle案例四使用java脚本进行数据处理

如需转载请标明出处：直到世界的尽头-张小凡-http://my.525.life

本章我们学习使用java脚本进行数据处理。

数据情况

以嵌套Json结构为例进行解析，Json如下:
{
“id”: “0001”,
“name”: “Joe”,
“age”: 88,
“children”: [
{
“id”: “0002”,
“name”: “Jay”,
“age”: 52,
“children”: [
{
“id”: “0003”,
“name”: “zoe”,
“age”: 23,
“children”: []
}
]
}
]
}
保存在test3.json中。

建立转换流程

因为嵌套的Json Input不好处理，所以尝试使用Java代码来做递归处理。建立转换流程为
Json Input—>Java代码—->mongodb output

Json Input输入配置

则Json input的配置如下:
文本配置–>浏览选中test3.json—>增加

字段配置—>输入名称为json，路径为$表示整个根元素作为字段值—>预览查看

Java代码编写试运行

相关参考文献
https://wiki.pentaho.com/display/EAI/User+Defined+Java+Class

点击Code snippits–》Common use—》Main函数增加程序主体如下:
public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException { if (first) { first = false;

/* TODO: Your code here. (Using info fields)

FieldHelper infoField = get(Fields.Info, "info_field_name");

RowSet infoStream = findInfoRowSet("info_stream_tag");

Object[] infoRow = null;

int infoRowCount = 0;

// Read all rows from info step before calling getRow() method, which returns first row from any
// input rowset. As rowMeta for info and input steps varies getRow() can lead to errors.
while((infoRow = getRowFrom(infoStream)) != null){

  // do something with info data
  infoRowCount++;
}
*/

}

Object[] r = getRow();

if (r == null) {
setOutputDone();
return false;
}

// It is always safest to call createOutputRow() to ensure that your output row’s Object[] is large
// enough to handle any new fields you are creating in this step.
r = createOutputRow(r, data.outputRowMeta.size());

/* TODO: Your code here. (See Sample)

// Get the value from an input field
String foobar = get(Fields.In, “a_fieldname”).getString(r);

foobar += “bar”;

// Set a value in a new output field
get(Fields.Out, “output_fieldname”).setValue(r, foobar);

*/
// Send the row on to the next step.
putRow(data.outputRowMeta, r);

return true;
}

可以看到有完整的示例代码，我们只要根据示例代码来获取参数即可。
关键是要完成我们的处理逻辑。

首先我们来尝试读取上步骤输出的字段json(与上一步骤的输出字段名对应)，拼接值形成新的字段json2(任意起字段名，但需要在下面的框中配置)输出到mongodb output中。
代码如下:
public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException { Object[] r = getRow();

if (r == null) {
setOutputDone();
return false;
}

// Get the value from an input field
String foobar = get(Fields.In, “json”).getString(r);

foobar += “bar”;

logBasic(“foobar：”+foobar);

// Set a value in a new output field
get(Fields.Out, “json2”).setValue(r, foobar);

// Send the row on to the next step.
putRow(data.outputRowMeta, r);

return true;
}

此时还需要在下面字段部分设置与输出字段对应的字段名和类型。
否则会报错Unable to find Out field helper for field name ‘json2’。

确认代码无误和输出字段已经配置后点击确定。
mongodb output设置链接端口和库名集合名以及获取字段就不详细说了。

运行转换流程。
查看数据库中保存的记录，运行java代码成功。

说明:
打印日志使用:logBasic(); 例如:logBasic(“foobar：”+foobar);
if (first) {}这段代码块主要是在第一条记录的时候预先查好设置的字段数据类型或者自定义常量等情况。

RowMetaInterface inputRowMeta = getInputRowMeta();

inputRowMeta对象包含了输入行的元数据，包括域、数据类型、长度、名字、格式等等。例如，查找名字为”mysqldb”的域，可以采用如下方式：
Java代码

ValueMetaInterface customer = inputRowMeta.searchValueMeta("mysqldb");

在一个transformation里查找域的名字是很慢的，因为每一条都要查找。建议在第一条记录的时候预先查好，所以一般会使用if(first){}：
例如获取mysql数据库的流程代码数据代码如下:

import java.sql.*; import org.pentaho.di.core.database.*;

public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException
{
Object[] r = getRow();
if (r == null) {
setOutputDone();
return false;
}

//获取数据库名和表名
String dbName = getInputRowMeta().getString(r, “conname”, null );
String tablename = getInputRowMeta().getString(r, “tablename”, null );
if (dbName==null||tablename==null) {
throw new KettleException(“Unable to find field with name “+tablename+” in the input row.”);
}
logBasic(“table—”+tablename);

//数据库连接
Database database=null;
DatabaseMeta databaseMeta=null;
try {
databaseMeta = getTransMeta().findDatabase(dbName);
if (databaseMeta==null) {
logError(“A connection with name “+dbName+” could not be found!”);
setErrors(1);
return false;
}
database = new Database(getTrans(), databaseMeta);
database.connect();
logBasic(“success!”);
} catch(Exception e) {
logError(“Connecting to database “+dbName+” failed.”, e);
setErrors(1);
return false;
}

//查询表数据
String sql=”select id,name from “+tablename;
ResultSet resultSet;
try {
resultSet = database.openQuery(sql);
Object[] idxRow = database.getRow(resultSet);
RowMetaInterface idxRowMeta =null;
if(idxRow!=null){
idxRowMeta=database.getReturnRowMeta();
}
int i=0;
while(idxRow!=null){
r = createOutputRow(r, data.outputRowMeta.size());
int index = getInputRowMeta().size();
// Add the index name
//
r[index++] = idxRowMeta.getString(idxRow, “id”, null);

    // Add the column name

    r[index++] = idxRowMeta.getString(idxRow, "name", null);
    putRow(data.outputRowMeta, r);
      idxRow = database.getRow(resultSet);
      i++;
 }
 logBasic("idxRow--length"+i);

 }

catch(Exception e) {
throw new KettleException(e);
}
//释放连接
if (database!=null) {
database.disconnect();
database.closeQuery(resultSet);
}

return true;

}

我们这里因为知道上一步骤传输的字段类型，所以不需要这样处理。在之后直接指定类型，例如 String foobar = get(Fields.In, “json”).getString(r);即可。

声明外部函数

我们引用的processRow是程序主体，类似于Java的main方法。
当时我们要处理例如递归等处理时，必须引用外部的函数处理递归的数据。
例如针对我们这个Json数据解析，我们需要声明一个处理children解析的外部函数dealChildren()。
整体思路是在processRow中先解析Root，获取到children，判断是否存在children，存在则调用处理dealChildren()。
dealChildren()中也需要获取到children，判断是否存在children，存在则调用处理dealChildren()。这样就完成了递归解决嵌套树的解析。

我们首先尝试怎么声明外部函数，在processRow函数之外再声明一个函数即可。甚至也可以引入其他包Map，HashMap等，还可以定义静态变量。
我们实现一个简单的外部函数给字符串拼接上ABC，代码如下:
import java.util.HashMap; import java.util.Map;

public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException {
Object[] r = getRow();

if (r == null) {
setOutputDone();
return false;
}

// Get the value from an input field
String foobar = get(Fields.In, “json”).getString(r);

foobar += “bar”;

logBasic(“foobar：”+foobar);

foobar=appendABC(foobar);

logBasic(“foobar：”+foobar);

// Set a value in a new output field
get(Fields.Out, “json2”).setValue(r, foobar);

// Send the row on to the next step.
putRow(data.outputRowMeta, r);

return true;
}

public static Map testMap = new HashMap();
public String appendABC(String S){

return S+”ABC”;
}

运行发现外部函数已经生效:

我们发现有两个问题：
1、kettle自带的包里有些数据类型没有。
2、在kettle里写代码没有自动补全，很难调试。
那我们是不是能够引入外部的jar或者我们自己写的jar包来处理呢，答案是肯定的。kettle支持引入外部的jar包。

引入外部jar包处理复杂逻辑

kettle使用的jar包都存放在kettle安装目录的lib文件夹中,旧版本的路径是安装目录的libext中。
如图:

我们在Java的IDE中新建一个jar包项目，我这里使用的是Eclipse。
新建java project命名为three。
新建一个命名为ketllejar的文件夹。
把kettle安装目录的lib文件夹下的jar包都放入ketllejar文件夹中。
对着这些jar包右键选择 Add to Build Path添加引用。
我这里还下载了一个解析json比较好用的jar包
http://central.maven.org/maven2/net/sf/json-lib/json-lib/2.3/

关联包ezmorph-1.0.6.jar
http://mvnrepository.com/artifact/net.sf.ezmorph/ezmorph/1.0.6
把新增的jar包放入ketllejar文件夹中。
对着这个jar包右键选择 Add to Build Path添加引用。
新建类命名为ParseChildren，代码如下:

package three;

import java.util.ArrayList;
import net.sf.json.JSONArray; 
import net.sf.json.JSONObject; 


public class ParseChildren {
     public static final ArrayList> parseChildren(String json){ 
         //resultTables用来存放所有的行,每行是一个节点解析出来的值
         ArrayList> resultTables=new ArrayList>();
         JSONObject root=JSONObject.fromObject(json);
         String id= root.getString("id");
         String name= root.getString("name");
         int age= root.getInt("age");
         JSONArray children=root.getJSONArray("children");
         ArrayList resultRow=new ArrayList<>();
         resultRow.add(id);
         resultRow.add(name);
         resultRow.add(String.valueOf(age));
         resultTables.add(resultRow);
         if(children!=null&&children.size()>0) {
             for(int i=0;i> childrenTables=parseChildren(childrenString);
                resultTables.addAll(childrenTables);
             }
         }
         return resultTables; 
     } 

}

最终的项目结构如图:

对着three右键Export成jar包。命名为three.jar

把three.jar包放在kettle目录的lib文件夹中。
使用到的json-lib-2.3-jdk13.jar，morph-1.1.1.jar也需要放入kettle目录的lib文件中。
如图:

然后我们回到kettle的java脚本，加入对three包的引用。

import three.ParseChildren;

three对应package名，ParseChildren对应class名。
注意:需要重启kettle的spoon.bat才能识别到新添加的jar包。否则会报 not load的错误。
完整代码为:

import java.util.ArrayList;
import three.ParseChildren; 

public boolean processRow(StepMetaInterface smi, StepDataInterface sdi) throws KettleException {
  Object[] r = getRow();

  if (r == null) {
    setOutputDone();
    return false;
  }


 r= createOutputRow(r, data.outputRowMeta.size());

 String jsonStr = get(Fields.In, "json").getString(r);

     logBasic(jsonStr);
 ArrayList resultTables=ParseChildren.parseChildren(jsonStr);
     logBasic(resultTables.toString());




for(int i=0;i

 r= createOutputRow(r, data.outputRowMeta.size());
    ArrayList resultTable=(ArrayList)resultTables.get(i);
   logBasic(resultTable.toString());
logBasic(resultTable.get(0).toString());
logBasic(resultTable.get(1).toString());
logBasic(resultTable.get(2).toString());

 get(Fields.Out, "id").setValue(r, resultTable.get(0));
  get(Fields.Out, "name").setValue(r, resultTable.get(1));
  get(Fields.Out, "age").setValue(r, resultTable.get(2));
 putRow(data.outputRowMeta, r);
  }



  return true;
}

设置输出字段为:
id String
name String
age String

运行如图:

mongodb output设置链接端口和库名集合名以及获取字段就不详细说了。
这里需要重新获取一次字段，删除json字段,保留id和name以及age。

运行转换流程。
查看数据库中保存的记录，运行java代码成功。

如果报错
JSONObject[“children”] is not a JSONArray
说明某个节点没有包含children这个节点，需要补上。或者修改代码逻辑先判空。

如需转载请标明出处：直到世界的尽头-张小凡-http://my.525.life

C++和Python实现SQL Server数据库导出数据到S3并导入Redshift数据仓库 weixin_30777913 c++python 数据库数据仓库 sqlserver
用C++实现高性能数据处理，Python实现操作Redshift导入数据文件。在VisualStudio2022中用C++和ODBCAPI导出SQLServer数据库中张表中的所有表的数据为CSV文件格式的数据流，用逗号作为分隔符，用双引号包裹每个数据，字符串类型的数据去掉前后的空格，数据中如果包含双引号，则将一个双引号替换为两个双引号，创建gzip压缩文件，输出数据流写入到gzip压缩文件包中的
从腾讯云数据仓库TCHouse安全地转移数据到AWS Redshift weixin_30777913 数据仓库腾讯云云计算 python aws
实现从AWSDirectConnect连接到腾讯云数据仓库TCHouse-P、TCHouse-C或TCHouse-D，然后使用AWSGlue读取数据并在AWSRedshift中创建对应表并复制数据，需要按照以下步骤进行操作：网络连接设置AWSDirectConnect配置：在AWS管理控制台中，创建一个DirectConnect连接到你的本地网络或腾讯云所在的网络环境。配置虚拟接口（VIF），确保
【智慧水务】二供数仓功能架构大雨淅淅物联网网络人工智能
目录一、数据采集层（一）设备数据采集（二）水质数据采集（三）用户数据采集二、数据传输层（一）有线传输（二）无线传输三、数据存储层（一）原始数据存储（二）数据仓库存储四、数据分析层（一）实时数据分析（二）历史数据分析（三）预测性分析五、数据展示层（一）可视化界面（二）移动端应用六、系统管理层（一）用户权限管理（二）数据备份与恢复（三）系统维护与升级一、数据采集层（一）设备数据采集传感器数据：在二次供
hive视图与物化视图使用详解达达玲玲 hive hadoop 数据仓库大数据
Hive视图和物化视图都是在数据仓库中处理数据的概念。下面对Hive视图和物化视图进行详细解释：Hive视图：1.Hive视图是一个逻辑表，它是对基础表的查询结果的引用，被视为一个新表。2.视图可以简化复杂查询，隐藏复杂的逻辑，并将查询重用。3.视图不存储数据，而是在查询时动态地返回结果。4.视图可以基于单个表或多个表创建，也可以对其他视图创建。Hive视图的使用方式：1.创建视图：```sqlC
数据分析中的上钻、下钻、切片和切块贾斯汀玛尔斯数据治理数据湖 hadoop 数据分析数据挖掘
“上钻”、“下钻”、“切片”、“切块”是数据分析和数据展示中的常见概念，尤其是在处理多维数据或数据仓库时。以下是每个术语的解释：上钻（DrillUp）：这是指从数据的更详细层级上升到更概括的层级。比如，假设你有一个按时间划分的销售数据，当前在查看按月的销售情况，通过上钻，你可以切换到按季度或年度查看整体情况。这个过程让你可以从详细数据中抽象出更高层次的趋势或概览。下钻（DrillDown）：这是指
破解数据模型相似度计算难题：为数据应用清障秉寒大数据
引言在数字化浪潮下，数据仓库和数据湖已成为企业数据管理的核心基础设施。然而，随着它们在公司运营中服役时间的增长，一个棘手的问题逐渐浮现：相似的数据模型如雨后春笋般涌现，字段属性重复度常常高达80%以上。这不仅造成了数据冗余，还让用户在海量的数据模型中迷失方向，使用体验大打折扣。本文将提出一种计算数据模型相似度的方案，助力企业解决这一难题。问题剖析数据模型的相似性问题，本质上源于企业数据架构缺乏统一
大数据平台建设整体架构设计方案 AI天才研究院 ChatGPT AI大模型企业级应用开发实战大数据AI人工智能大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
《大数据平台建设整体架构设计方案》关键词：大数据平台、分布式存储、分布式计算、数据仓库、数据湖、数据安全、数据质量管理、数据治理、数据挖掘、机器学习、图计算、自然语言处理、Hadoop、Spark、Flink、项目规划、运维管理、最佳实践。摘要：本文将深入探讨大数据平台建设整体架构设计方案，从概述与核心概念、技术栈、建设实践、运维管理以及经验展望等多个方面进行详细阐述。通过梳理大数据平台的核心组成
【数仓】数据仓库高频面试题题英文版(1) 和风与影面试数据仓库
今天更新数据仓库高频面试题英文版，分为三个部分。下面是第一部分。音频文件点击下方获取。【数仓】数据仓库高频面试题题英文版(1)【数仓】数据仓库高频面试题题英文版(2)【数仓】数据仓库高频面试题题英文版(3)WhatisDataWarehouse?Datawarehousing(DW)isamethodofgatheringandanalysingdatafrommanysourcesinord
低代码系统-产品架构案例介绍、伙伴云（十）露临霜低代码
下面介绍的是伙伴云的零代码平台，伙伴云有类似于在线Excel的产品，下面介绍的是零代码产品。依旧是从下至上，从左至右的顺序。开发层应用搭建层面，这里包括的系统架构层面以及底层的技术架构层。可以看到没有提到国产化能力的。但是有数据仓库，也就是能对数据进行管理、加工、和对接。主要是为了在用户视图查看时进行不同纬度的数据展示，比如：大屏展示、报表、甘特图展示等此外，流程是对接的标准BPMN的路程，可以做
探秘数据仓库新势力：网络建模秉寒数据仓库
引言在数据如洪流般奔涌的时代，数据仓库作为企业数据管理和分析的核心枢纽，其建模技术也在不断革新。传统的数据仓库建模方式，如星型模型、雪花模型，曾为企业的数据组织和分析立下汗马功劳，但随着业务的日益复杂和数据关系的千变万化，它们逐渐显露出一定的局限性。而网络建模作为数据仓库领域的新名词，正以其独特的魅力和强大的功能，成为数据仓库技术发展的新方向。网络建模：打破传统的枷锁传统建模的局限传统的数据仓库建
Hive数据仓库中的数据导出到MySQL的数据表不成功 sin2201 出错问题数据仓库 hive mysql
可能的原因：(1)没有下载flume和sqoop(2)权限问题：因为MySQL数据库拒绝了root用户从hadoop3主机的连接请求，root用户没有从hadoop3主机进行连接的权限解决：通过MySQL的授权命令来授予权限mysql>GRANTALLPRIVILEGESONsqoop_weblog.*TO'root'@'hadoop3'IDENTIFIEDBY'2020';QueryOK,0ro
Hive面试题汇总大数据侠客 hive相关问题汇总及解决 hive hadoop 数据仓库面试
Hive定义Hive是建立在Hadoop上的数据仓库基础构架。可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种
数据仓库面试题集锦（附答案和数仓知识体系） 2401_83703951 程序员数据仓库
15、为什么需要数据仓库建模？16、数据仓库建模方法有哪些？17、数仓架构为什么要分层？光阴似箭，岁月如刀。小编已经从刚毕业时堤上看风的白衣少年，变成了一个有五年开发经验的半老程序员。五年——是一个非常重要的时间节点，意味你见过很多套技术构架，学过很多技术组件，写过很多行代码，有了自己的技术理解、知识体系和编码风格。这个时候我们对待技术的态度已经从扩宽广度，慢慢转变成沉淀深度为主了。也是刚刚面试了
“选择最佳数据库解决方案：MySQL、SQL Server 和 PostgreSQL 的比较与实际应用指南“ AMIOKATT 数据库 mysql postgresql
目录典型中高端数据库服务器硬件配置CPU内存存储网络操作系统不同数据库系统在上述硬件上的性能表现MySQLPostgreSQLSQLServer具体硬件配置示例示例配置1：中小型Web应用示例配置2：复杂查询和事务处理示例配置3：企业级数据仓库和分析其他优化建议典型中高端数据库服务器硬件配置CPU型号：IntelXeon或AMDEPYC系列核心数：8至32个物理核心（多线程，通常2倍的逻辑核心）主
【面试宝典】10道数据仓库高频题整理(附答案背诵版) 想念@思恋面试宝典数据仓库面试数据仓库职场和发展
1.简述数据仓库架构？数据仓库架构是数据仓库系统的基础结构，它定义了数据从来源到最终用户如何流动和转换的过程。数据仓库架构通常包括以下几个主要部分：数据源:数据源可以是各种类型的系统，如关系数据库、文件系统或在线事务处理系统。这些源头包含了企业运营中产生的原始数据。数据抽取、转换和加载（ETL）:这是数据仓库的核心部分。数据从原始数据源抽取出来，经过清洗（去除不一致性和错误）、转换（转换为适合分析
数据仓库基础常见面试题兔子宇航员0301 数据开发小白成长笔记数据仓库 spark 大数据
1.数据仓库是什么‌数据仓库（DataWarehouse）是一个面向主题的、集成的、非易失的、随时间变化的数据集合，用于支持企业的管理决策‌。它不同于传统的操作型数据库，后者主要用于处理日常业务交易和实时查询，而数据仓库则侧重于对历史数据的整合、分析和挖掘2.数据仓库和数据库有什么区别数据来源和处理方式不同：数据库通常用于存储、管理和查询交易数据，而数据仓库则是用于处理分析性查询的数据。数据仓库通
2024年大数据最全数据仓库｜数据库面试题总结_面试题数据仓库 2301_82243558 程序员大数据数据仓库数据库
这里值得注意的是不要想着为每个字段建立索引，因为优先使用索引的优势就在于其体积小。索引有哪几种类型？主键索引:数据列不允许重复，不允许为NULL，一个表只能有一个主键。唯一索引:数据列不允许重复，允许为NULL值，一个表允许多个列创建唯一索引。可以通过ALTERTABLEtable_nameADDUNIQUE(column);创建唯一索引可以通过ALTERTABLEtable_nameADDUNI
Apache Doris主要应用场景和一些实际案例临水逸 apache
ApacheDoris是一个现代化的分布式分析型数据库，具备高性能、实时性和高并发性等特点，被广泛应用于多种场景。以下是Doris的主要应用场景和一些实际案例。应用场景1.实时数据分析数据流处理：Doris可以实时ingest（引入）和分析数据流，适用于监控系统、实时用户行为分析等场景。实时仪表盘：Doris适用于构建实时可视化仪表盘，为运营和业务决策提供实时数据支持。2.数据仓库OLAP（在线分
解决redux中state更新是异步的问题 _Kay_ 前端 react redux
在开发的过程中突然发现了一个非常诡异的问题,伪代码如下:this.props.dispatch(updateData(value))//1console.log(this.props.data)//2状态没有更新setTimeout(()=>//3状态发生了更新)于是猜想redux执行action应该是同步的,但是reducer中将新状态返回更新store数据仓库的过程应该是异步的.所以当上面1处
使用Airbyte实现数据集成的详细指南 dagGAIYD python
Airbyte是一个功能强大的数据集成平台，专门用于从API、数据库和文件构建到仓库和数据湖的ELT（Extract,Load,Transform）管道。凭借庞大的ELT连接器目录，Airbyte为数据仓库和数据库提供了广泛的支持。本文将详细介绍如何安装和使用Airbyte，特别是在Python环境中利用langchain-airbyte库进行数据集成。技术背景介绍在现代数据驱动的应用中，数据集成
Azure数据分析Power BI SmallFatMan #Azure azure 数据分析 microsoft 服务器运维面试面试云计算
Azure数据分析PowerBI一、PowerBI简介二、PowerBI如何匹配角色三、PowerBI构建基块四、使用PowerBI服务一、PowerBI简介MicrosoftPowerBI是一系列的软件服务、应用和连接器，这些软件服务、应用和连接器协同工作，将不相关的数据源转化为合乎逻辑、视觉上逼真的交互式见解。不管你的数据是简单的MicrosoftExcel工作簿，还是基于云的数据仓库和本地混
【面试系列】DevOps工程师高频面试题及详细解答野老杂谈全网最全IT公司面试宝典面试 devops 职场和发展
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：公众号：野老杂谈⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。文章目录常见的初级面试题1.什
基于MRS-Hudi构建数据湖的典型应用场景介绍华为云技术精粹云计算华为云
一、传统数据湖存在的问题与挑战传统数据湖解决方案中，常用Hive来构建T+1级别的数据仓库，通过HDFS存储实现海量数据的存储与水平扩容，通过Hive实现元数据的管理以及数据操作的SQL化。虽然能够在海量批处理场景中取得不错的效果，但依然存在如下现状问题：问题一：不支持事务由于传统大数据方案不支持事务，有可能会读到未写完成的数据，造成数据统计错误。为了规避该问题，通常控制读写任务顺序调用，在保证写
MDX语言的语法沈霁晨包罗万象 golang 开发语言后端
MDX（MultidimensionalExpressions）语言是一种用于多维数据库的查询语言，广泛应用于微软的SQLServerAnalysisServices（SSAS）中。MDX的设计初衷是为了对多维数据进行复杂的查询和分析，尤其是在数据仓库和商业智能领域。本文将从MDX的基础知识、语法结构、常用函数以及实际应用等多方面进行详细探讨。一、MDX语言的基础知识MDX语言的核心是对多维数据集
数据仓库，数据集市介绍铜锣湾扛把子-数据数据仓库数据仓库大数据 hive
文章目录定义四大特征面向主题数据仓库中数据和传统数据库中数据的不同之处：每个主题所需要的数据存储集成的非易失随着时间不断变化的数据集市定义数据仓库是一个面向主题的，集成的，非易失性的且随时间变化的数据集合，用于支持管理人员的决策。四大特征面向主题的，集成的，非易失性，随时间不断变化的面向主题主题：特定的数据分析领域与目标（就是业务需求模块，比如用户模块，支付模块等）面向主题：为特定的数据分析领域提
如何建设和维护数据仓库：深入指南数据库数据库开发
摘要数据仓库是企业数据管理的核心，它不仅支持决策制定，还能提供深入的数据分析。本文将详细介绍如何从零开始建设和维护一个高效、可靠的数据仓库，涵盖设计、实施、监控和优化的全过程。通过具体的代码示例和最佳实践，帮助读者深入理解数据仓库的构建和管理。引言数据仓库是企业数据管理的心脏，它集中存储和管理来自不同来源的数据，支持复杂的查询和分析。随着数据量的爆炸性增长，如何高效地建设和维护数据仓库成为企业面临
批量作业调度、数据挖掘，这几款应该是今年 “最值得推荐” 的ETL工具了加菲盐008 taskctl Kettle kettle etl 批量作业调度数据挖掘 taskctl
工具传送门：Taskctl商业付费版(付费)TaskctlWeb商业免费版（永久免费）Kettle（开源免费）Datastage(付费)ETL是数据仓库中的非常重要的一环，是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。下面给大家介绍一下什么是ETL以及
oracle goldengate from mongodb to oracle的实时同步夹心饼2024 数据库运维案例分享 oracle mongodb 数据库
oraclegoldengatefrommongodbtooracle的实时同步近期因公司项目需要，需要将mongodb数据同步到oracle数据库，由于第一次接触到mongodb数据库同步到Oracle的项目，故没有主动获取数据，而且让对方工程师把mongodb数据同步到我方的mongodb数据库，为此新建了一个mongodb数据库。我方工程师把mongodb数据库同步到doris数据仓库。考虑
面试经验分享-回忆版某小公司兔子宇航员0301 数据开发面经分享面试经验分享职场和发展
说说你项目中数据仓库是怎么分层的，为什么要分层？首先是ODS层，连接数据源和数据仓库，数据会进行简单的ETL操作，数据来源通常是业务数据库，用户日志文件或者来自消息队列的数据等中间是核心的数据仓库层，可以细分为DWD，DIM，DWS层。首先是DWD层主要负责对数据进行进一步测清洗规范化的操作，但是应该尽可能保持和ODS层相同的数据粒度，可以通过维度退化等方式，将维度表退化为事实表例如下单表，减少关
一文读懂数据仓库构建流程（超详细）嗨皮一会吧数仓构建数据仓库
相信大家都知道数仓分层架构（ods、dwd、dim、dws等）。但是面对一个从0开始的数仓，我们难免会有一个疑问，应该如何去构建各层，以及数仓规划中要有哪些事实表和维度表，这个理论依据从何而来呢，相信大家看完本篇文章，可以在搭建数仓的时候有一个理论依据。1、数仓构建整体流程数仓构建核心图：我们可以发现其实数据开发占比整个数仓构建流程只是很小的部分，只要我们将前期的数据调研，各种数仓模型设计好，剩下
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

kettle案例四使用java脚本进行数据处理

数据情况

建立转换流程

Json Input输入配置

Java代码编写试运行

声明外部函数

引入外部jar包处理复杂逻辑

你可能感兴趣的:(数据仓库)