slivelight

Kettle源码分析

Kettle 4.2源码分析第一讲--Kettle 简介

1. PDI结构简介

图 1‑1 PDI核心组件

　　Spoon是构建ETL Jobs和Transformations的工具。Spoon可以以拖拽的方式图形化设计，能够通过spoon调用专用的数据集成引擎或者集群。

Data Integration Server是一个专用的ETL Server，它的主要功能有：

功能	描述
执行	通过Pentaho Data Integration引擎执行ETL的作业或转换
安全性	管理用户、角色或集成的安全性
内容管理	提供一个集中的资源库，用来管理ETL的作业和转换。资源库包含所有内容和特征的历史版本。
时序安排	在spoon设计者环境中提供管理Data Integration Server上的活动的时序和监控的服务

　　Enterprise Console提供了一个小型的客户端，用于管理Pentaho Data Integration企业版的部署，包括企业版本的证书管理、监控和控制远程Pentaho Data Integration服务器上的活动、分析已登记的作业和转换的动态绩效。

2. PDI的组成部分

名称	描述
Spoon	通过图形接口，用于编辑作业和转换的桌面应用。
Pan	一个独立的命令行程序，用于执行由Spoon编辑的转换和作业。
Kitchen	一个独立的命令行程序，用于执行由Spoon编辑的作业。
Carte	Carte是一个轻量级的Web容器，用于建立专用、远程的ETL Server。

3. PDI的相关术语和基本概念

图 1‑2 PDI概念模型图

　　要了解Kettle的执行分为两个层次：Job和Transformation。两个层次的最主要区别在于数据传递和运行方式。

3.1. Transformation（转换）

　　Transformation（转换）是由一系列被称之为step（步骤）的逻辑工作的网络。转换本质上是数据流。下图是一个转换的例子，这个转换从文本文件中读取数据，过滤，然后排序，最后将数据加载到数据库。本质上，转换是一组图形化的数据转换配置的逻辑结构。

　　转换的两个相关的主要组成部分是step（步骤）和hops（节点连接）。

　　转换文件的扩展名是.ktr。

3.2. Steps（转换）

　　Steps（步骤）是转换的建筑模块，比如一个文本文件输入或者一个表输出就是一个步骤。在PDI中有140多个步骤，它们按不同功能进行分类，比如输入类、输出类、脚本类等。每个步骤用于完成某种特定的功能，通过配置一系列的步骤就可以完成你所需要完成的任务。

3.3. Hops（节点连接）

　　Hops（节点连接）是数据的通道，用于连接两个步骤，使得元数据从一个步骤传递到另一个步骤。在上图所示的转换中，它像似顺序执行发生的，但事实并非如此。节点连接决定了贯穿在步骤之间的数据流，步骤之间的顺序不是转换执行的顺序。当执行一个转换时，每个步骤都以自己的线程启动，并不断的接受和推送数据。

注意：所以的步骤是同步开启和运行的，所以步骤的初始化的顺序是不可知的。因为我们不能在第一个步骤中设置一个变量，然后在接下来的步骤中使用它。

在一个转换中，一个步骤可以有多个连接，数据流可以从一个步骤流到多个步骤。在Spoon中，hops就想是箭，它不仅允许数据从一个步骤流向另一个步骤，也决定了数据流的方向和所经步骤。如果一个步骤的数据输出到了多个步骤，那么数据既可以是复制的，也可以是分发的。

3.4. Jobs（工作）

　　Jobs（工作）是基于工作流模型的，协调数据源、执行过程和相关依赖性的ETL活动。

　　Jobs（工作）将功能性和实体过程聚合在了一起。下图是一个工作的例子。

　　一个工作中展示的任务有从FTP获取文件、核查一个必须存在的数据库表是否存在、执行一个转换、发送邮件通知一个转换中的错误等。最终工作的结果可能是数据仓库的更新等。

　　工作由工作节点连接、工作实体和工作设置组成。

　　工作文件的扩展名是.kjb。

4. Variable（变量）

　　根据变量的作用域，变量被分为两类：环境变量和kettle变量。

4.1. 环境变量

　　环境变量可以通过edit menu下面的set environment variables对话框进行设置。使用环境变量的唯一的问题是，它不能被动态的使用。如果在同一个应用服务器中执行两个或多个使用同一环境变量的转换，将可能发生冲突。环境变量在所以使用jvm的应用中可见。

4.2. Kettle变量

　　Kettle变量用于在一个小的动态范围内存储少量的信息。Kettle变量是kettle本地的，作用范围可以是一个工作或转换，在工作或转换中可以设置或修改。Set variable步骤用来设置与此变量有关的工作从此设置其作用域，如：父工作、祖父工作或根工作。

5. Kitchen执行器的使用

5.1. Kitchen执行器的参数

　　-rep : Repository name 任务包所在存储名

-user : Repository username 执行人

-pass : Repository password 执行人密码

-job : The name of the job to launch 任务包名称

-dir : The directory (don''t forget the leading / or \)

-file : The filename (Job XML) to launch

-level : The logging level (Basic, Detailed, Debug, Rowlevel, Error, Nothing) 指定日志级别

-log : The logging file to write to 指定日志文件

-listdir : List the directories in the repository 列出指定存储中的目录结构。

-listjobs : List the jobs in the specified directory 列出指定目录下的所有任务

-listrep : List the defined repositories 列出所有的存储

-norep : Don''t log into the repository 不写日志

5.2. Kitchen命令行选项

kitchen.bat 后面可以是-也可以是/然后再加options

Options:

/rep : Repository name

/user : Repository username

/pass : Repository password

/job : The name of the job to launch

/dir : The directory (dont forget the leading /)

/file : The filename (Job XML) to launch

/level : The logging level (Basic, Detailed, Debug, Rowlevel, Error, Nothing)

/logfile : The logging file to write to

/listdir : List the directories in the repository

/listjobs : List the jobs in the specified directory

/listrep : List the available repositories

/norep : Do not log into the repository

/version : show the version, revision and build date

/param : Set a named parameter =. For example -param:FOO=bar

/listparam : List information concerning the defined parameters in the specified job.

/export : Exports all linked resources of the specified job. The argument is the name of a ZIPfile.

而options 后面可以是=也可以是:也可以是空格

kitchen.bat /file d:\ 或者　-file=D:\ 或者/file:D:\等等都可以。

5.3. Windows下kitchen的执行方式的实例

　　kitchen.bat /norep -file=D:/kettledata/mysal2orcle.kjb >> kitchen_%date:~0,10%.log

　　上面的含义是，使用kitchen.bat 命令来执行job文件，job文件的存放路径是D:/kettledata/mysal2orcle.kjb，并且将执行的结果输出到 kitchen_%date:~0,10%.log文件中。

6. Pentahon XUL Framework简介

　　XUL Framework是一个试图为不同UI技术提供统一样式的项目。它的目标是使得多种UI技术（如：Swing、SWT、GWT）能够提交出一个统一的用户接口而不必每次重写描述层。XUL的常见案例有：普通对话框、可定制的菜单和工具栏、新的工具应用。

6.1. XUL文件

　　XUL是英文“XML User Interface Language”的首字母缩写。它是为了支持Mozilla系列的应用程序（如Mozilla Firefox和Mozilla Thunderbird）而开发的使用者界面标示语言。顾名思义，它是一种应用XML来描述使用者界面的标示语言。

6.2. Pentaho XUL的执行步骤

（1）加载XUL文件

（2）添加Event Handlers

（3）为SWT提供菜单栏

（4）为菜单栏添加菜单项

PS:这次仅仅介绍了Kettle的基本概念和术语，这部分是由我同学来完成的。Kettle应该还算比较小众的开源软件资料不多，希望这次的分析能够对大家有一定的帮助。大部分的分析都是自己理解的，所以有所偏差或错误请大家指正。接下来准备分析，Kettle的插件体系结构、转换机制、job运行机制。

Kettle 4.2源码分析第二讲--Kettle插件结构体系简介

1. 插件体系结构

1.1. 插件技术原理

1.1.1. 插件概念说明

　　插件是一种遵循统一的预定义接口规范编写出来的程序，应用程序在运行时通过接口规范对插件进行调用，以扩展应用程序的功能。在英文中插件通常称为plug-in、plugin或者plug in。插件最典型的例子是Eclipse开发平台，Microsoft的ActiveX控件和COM（Component Object Model，部件对象模型）实际上ActiveX控件不过是一个更高继承层次的COM而已。此外还有Photoshop的滤镜（Filter）也是一种比较常见的插件，还有就是Mozilla Firefox，Foobar等等也遵循着插件机制。

　　插件最吸引人的地方当然就是其所实现“运行时(Run-time)”功能扩展。这意味着软件开发者可以通过公布插件的预定义接口规范，从而允许第三方的软件开发者通过开发插件对软件的功能进行扩展，而无需对整个程序代码进行重新编译。运行时是相对于编译时(Assembly-time)而言的。一般来说，软件开发者对软件功能更新时，是在源代码级别进行更新，然后对整个程序进行重新编译，进而发布应用程序的新版本，这就是编译时的软件更新。

　　插件的本质在于不修改程序主体（或者程序运行平台）的情况下对软件功能进行扩展与加强，当插件的接口公开后，任何公司或个人都可以制作自己的插件来解决一些操作上的不便或增加新的功能，也就是实现真正意义上的“即插即用”软件开发。“平台+插件软件结构”是将一个待开发的目标软件分为两部分，一部分为程序的主体或主框架，可定义为平台，另一部分为功能扩展或补充模块，可定义为插件。

　　在进行软件开发之前，是否采用“平台+插件软件结构”进行软件开发，还要依据具体的软件需求情况进行确定，但一般来讲，使用“平台+插件软件结构”进行软件设计会给所开发软件增加新的生命力。当确定“平台+插件的软件结构”之后，就要分析哪些部分功能由主体完成（即平台的基本功能），哪些部分功能由插件完成（即需要扩展的插件功能）。平台所完成的功能应为一个软件系统的核心和基础，这些基本功能即可为用户使用，也可为插件使用，就是又可以把平台基本功能分为两个部分，内核功能和插件处理功能。平台的内核功能是整个软件的重要功能，一个软件的大部分功能因由内核功能完成。平台的插件处理功能用于扩展平台和管理插件，为插件操纵平台和与插件通信提供标准平台扩展接口。插件所完成的功能是对平台功能的扩展与补充，一般插件完成系列化功能。

　　为了实现平台+插件结构的软件设计需要定义两个标准接口，一个为由平台所实现的平台扩展接口，一个为插件所实现的插件接口。这里需要说明的是：平台扩展接口完全由平台实现，插件只是调用和使用，插件接口完全由插件实现，平台也只是调用和使用。平台扩展接口实现插件向平台方向的单向通信，插件通过平台扩展接口可获取主框架的各种资源和数据，可包括各种系统句柄，程序内部数据以及内存分配等。插件接口为平台向插件方向的单向通信，平台通过插件接口调用插件所实现的功能，读取插件处理数据等。

　　平台插件处理功能包括插件注册、管理和调用，以及平台扩展接口的功能实现。插件注册为按照某种机制首先在系统中搜索已安装插件，之后将搜索到的插件注册到平台上，并在平台上生成相应的调用机制，这包括菜单选项、工具栏、内部调用等。插件管理完成插件与平台的协调，为各插件在平台上生成管理信息以及进行插件的状态跟踪。插件调用为调用各插件所实现的功能。平台插件处理功能实现的另一部分功能为平台扩展接口的具体实现。

1.1.2. 插件接口的认识

　　开发支持插件功能的应用程序必须解决一个问题：如何在主程序与插件间正确地互相通信。为了在主程序与插件之间能正确地互相通信，应该先制定一套通信标准，这套通信标准就是接口，主程序与插件只能通过制订好的接口进行通信。软件开发中，接口只是定义功能并规定调用功能的形式，而不包含功能的实现。接口实质上是软件模块的调用规范。在后续章节中我们将会介绍kettle开发的插件中，常用的几种通讯方式。

　　就开发支持插件功能的应用程序而言，一般来说由主程序的开发者来制订接口，如果希望其他的开发人员能开发相关的插件，只要公开相关接口即可。接口功能一般由插件方实现。因为插件的实现也要调用主程序的功能，所以接口功能也可能由主程序来实现。也就是说，主程序与插件的信息流可能是双向的。

　　接口的调用规范与功能实现互相分离有一个很大的优点：尽管不同的插件开发者对同一个接口的具体实现不同，但是在主程序中对这些插件的调用方式是一样的。如果有主程序实现的接口，在不同的插件中也可以用相同的使用方式调用主程序的功能。这极大的提高了应用程序的灵活性。

1.1.3. 程序结构及其运行机制

　　主程序中，插件管理部分用于管理插件的安装和删除，并将所有安装插件的信息保存到适合的地方，例如保存到注册表或配置文件中。主程序启动时，根据插件的配置信息加载插件模块，然后获得插件的输出函数或输出类的指针并加以保存，如果需要的话，可以向主程序增加界面接口元素，如菜单、工具条按钮等。在主程序中当点击与插件相关联的接口元素时，就会触发插件调用函数，在插件调用函数中使用主函数中所保存的插件信息调用插件中实现的功能。在调用插件输出函数时也可以把主程序中实现的接口传递给插件方。

1.2. Kettle体系结构

图 2‑1 Kettle插件架构

　　Kettle分为kettle平台、各类插件。其中kettle平台是整个系统的基础，包括UI、插件管理、元数据管理和数据集成引擎。UI显示Spoon这个核心组件的界面，通过xul实现菜单栏、工具栏的定制化，显示插件界面接口元素。元数据管理引擎管理ktr、kjb或者元数据库，插件通过该引擎获取基本信息。插件管理引擎主要负责插件的注册。数据集成引擎负责调用插件，并返回相应信息。

1.2.1. 插件扩展机制

　　Kettle是众多“可供插入的地方”（扩展点）和“可以插入的东西”（扩展）共同组成的集合体。在我们的生活中，电源接线板就是一种“扩展点”，很多“扩展”（也就是电线插头）可以插在它上面。

　　在Kettle中不管是以后的扩展还是系统集成的功能，本质上来讲都是插件，管理方式和运行机制是一致的。系统集成的功能点也均实现了对应的扩展接口，只是在插接的说明上略有不同。

　　Kettle的扩展点包括step插件、job entry插件、Database插件、Partioner插件、debugging插件，这里我们重点介绍step、job entry、database插件。暴露的扩展点如下表所示：

表 1 Step扩展接口

Java接口	基类	主要功能
StepMetaInterface	BaseStepMeta	存储step设置信息验证step设置信息序列化step设置信息提供获取step类的方法
StepDialogInterface	BaseStepDialog	step属性信息配置窗口
StepInterface	BaseStep	处理rows
StepDataInterface	BaseStepData	为数据处理提高数据存储

表 2 job entry扩展接口

Java接口

基类

主要功能

JobEntryInterface

JobEntryBase

存储job entry设置信息

序列化job entry设置信息

提供获取job entry类的方法

执行job entry任务

JobEntryDialogInterface

JobEntryDialog

job entry属性信息配置窗口

表 3 Database 扩展接口

Java接口	基类	主要功能
DatabaseInterface	BaseDatabaseMeta	访问各类数据库

1.2.2. 插件的建立

　　Kettle中的插件包含两部分，一是系统本身就已经实现的功能点，在源码目录src中说明，如kettle-steps.xml；二是系统之外开发的插件，在plugins目录对应插件目录下的plugins.xml说明，plugins/steps/S3CsvInput/plugins.xml。

系统集成插件定义（step为例）

　　　　　　　　　　　　　　　　表 4 系统自带插件定义

内容	位置
插件说明信息	src/kettle-steps.xml，所有插件集中说明
插件源码	src与src-ui下，org.pentaho.di.steps.插件名
插件图片	插件说明xml中说明
插件界面文字说明	org.pentaho.di.steps.插件名.messages

　　插件说明信息中包括描述信息、类名（包括package，反射用）、父级目录（Spoon左侧栏目录）、提示信息和图片信息。Kettle使用国家化方式编程，所以软件中的所有文字描述均由messages_**.properties提供。

图 2‑2 系统集成插件说明xml结构

扩展插件定义

所以新开发的扩展插件，均放在同一的目录下进行管理，插件管理模块会自动去该目录下进行搜索查找。插件目录结构如下所示：

图 2‑3 扩展插件目录结构

表 5 扩展插件定义

内容	位置
插件说明信息	plugins/插件类型/插件名称/plugin.xml
插件源码	*.jar
插件图片	plugins/插件类型/插件名称/
插件依赖包	plugins/插件类型/插件名称/

扩展插件与系统集成插件的说明内容相似，扩展插件增加ID属性和依赖属性，同时他的目录结构、描述信息和提示信息均能进行国际化配置。

图 2‑4 扩展插件说明xml结构

1.2.3. 插件的注册

　　Spoon在启动的时候会对所有插件进行注册，并保存在PluginRegistry类里面。平台通过查找PluginRegistry注册表获取插件信息。Kettle安装插件需要进行重启，卸载插件也只需简单的删除plugins目录结构下对应的文件即可。

图 2‑5 插件注册时序图

图 2‑6 plugin注册相关的UML类图

　　PluginRegistry首选注册本系统的插件类型处理类，源码中注册了7中类型，我们这里仅介绍3中，并以StepPluginType为例。注册类型处理类后，PluginRegistry按照不同的类型进行插件搜索（模板模式），基类BasePluginType提供了本地搜索、jar搜索、xml信息搜索3种钩子。根据搜索结果，按照不同的插件类型存储在PluginRegistry中。

1.2.4. 插件查找

　　PluginRegistry提供了插件查找功能，准确的来说是插件信息的查找功能。以steps在左侧功能栏里面的显示为例，进行插件查找的说明。提供了getPlugins获取指定插件类型列表、getPlugin获取指定成名插件、getCateories获取目录结构、getClass获取指定插件类等方法。

图 2‑7 Spoon中step列表

　　左侧显示由Spoon.refreshCoreObjects（）函数实现，如果选择时trans相关的内容，将显示所有的step插件。流程图如下所示：

图 2‑8 spoon界面step插件显示流程

1.2.5. 插件调用

　　Kettle中调用插件时，平台通过元素管理引擎获取对应的插件信息，通过反射生成插件对象，调用对应的函数。Kettle以外观模式的方式调用插件，我们以双击某个插件图表，弹出对应配置界面为例进行说明，具体的转换时调用将在后面进一步说明。

　　Spoon界面交互相关的处理器都封装到SpoonDelegates中，根据不同的事件类型调用对应的事件处理函数。UML类图如下所示。

图 2‑9 事件代理类

　　SpoonStepsDelegate提供了与UI交互相关的处理事件，如复制、删除、粘贴、编辑等。双击某个step时会调用编辑功能，编辑功能是对插件StepDialogInterface的封装。时序图如下：

图 2‑10 双击编辑step时序图

　　双击是TransGraph对象注册的时间，双击是根据页面上的坐标信息获取双击的stepmeta对象（来自于*.ktr）。然后，将这个对象传给事件代理类处理，根据stepmeta对象，获取对应的插件类名，通过反射生成StepDialogInterface的实例并调用open（）方法。

1.2.6. 插件间通信

　　Kettle插件之间天生就具有通信共享数据的特点，kettle中最主要通信方式是通过插件时间共同关联一个数据类对象的方式进行通信；使用单例模式实现插件间信息共享。

　　第一种方式还设计多线程同步的问题，在后面的章节中将会进行重点介绍。

1.2.7. 插件生命周期

　　Kettle并不能做到热插拔，每次添加或者删除插件的时候都需要重启。安装或删除插件，只需要在plugins文件夹下添加或删除对应的文件即可。

2. 平台体系结构

2.1. 元数据管理引擎

　　元数据主要包括转换元数据（.ktr）和Job元数据(.kjb)，元数据也可以存储在数据库中，这里我们主要介绍文件存储形式的。

　　元数据管理类包括TransMeta，该类定义了一个转换（对应一个.ktr文件），提供了保存和加载该文件的方法；JobMeta类，同样对应于一个工作(.kjb文件)，提供保存和加载方法。StepMeta类保存的是Step的一些公共信息的类，每个类的具体的元数据将保存在显示了StepMetaInterface的类里面。

　　两个类中主要保存的信息如下：

代码 1 TransMeta类主要属性

 1 private List           steps;
 2 
 3 private List       hops;
 4 
 5 private String              name;
 6 
 7 private Result      previousResult;//上一个jobentry的执行结果。
 8 
 9 private List ;//resultRows;这次trans执行后的数据结果。
10 
11 private List     resultFiles;

　　steps字段对应于.ktr中的节点，hops字段对应于节点。resultRows、previousResult实际上是插件见的通信类。

代码 2 JobMeta类主要属性

1 protected String name;  
2 
3 protected String filename;
4 
5 public List jobentries;//保存jobentry列表
6 
7 public List jobhops;//保存jobentries之间的链接关系。
8 
9 public List databases;

2.2. UI显示

2.2.1. TransGraph类

图 3‑1 TransGraph类与显示

　　选中转换标签后，红框内的编辑区对象对应org.pentaho.di.ui.spoon.trans包中的TransGraph类。

2.2.2. JobGraph类

图 3‑2 JobGraph与显示

　　选中Job标签后，红框内的编辑区对象对应org.pentaho.di.ui.spoon.job包中的JobGraph类。

2.3. 转换执行引擎

2.3.1. Trans类

　　Trans类负责转换执行相关的所有任务，包括转换加载、相关插件的实例化、初始化、运行、监视转换执行，并把内容放置到TransInfo类中。

2.3.2. StepInitThread类

　　Step初始化线程包装类，使用多线程，调用所有StepInterface实现类的Init函数。

2.3.3. StepMetaDataCombi类

　　把插件的主要实现类全部存储在这个类中，方便集中调用。

 1 public class StepMetaDataCombi
 2 
 3 {
 4 
 5     public StepMeta stepMeta;
 6 
 7     public String stepname;
 8 
 9     public int    copy;
10 
11     public StepInterface     step;
12 
13     public StepMetaInterface meta;
14 
15     public StepDataInterface data;
16 
17 }

2.3.4. RunThread类

　　步骤处理线程包装类，这个类能够处理异常并将其记录到日志中。同时，也能够在异常发生或者执行结束后，记录相关内容、关闭相关资源。

2.4. Job执行引擎

2.4.1. Job类

　　Job的执行类，本身实现了Thread是一个单独的线程。Job entry可以是单独的线程，也可以是顺序执行，大多数情况都是顺序执行下一步以上一步的执行结果为基础。Job类也包括转换加载、相关插件的实例化、初始化、运行、监视Job执行。

Kettle 4.2源码分析第三讲--Kettle 转换机制transformation介绍

转换机制

　　每个转换步骤都是ETL数据流里面的一个任务。转换步骤包括输入、处理和输出。输入步骤从外部数据源获取数据，例如文件或者数据库；处理步骤处理数据流，字段计算，流处理等，例如整合或者过滤。输出步骤将数据写会到存储系统里面，例如文件或者数据库。

图 1 转换步骤示例

1. Step类图简介

　　Kettle为扩展插件提供了4个扩展点，这4个扩展点也是每个步骤的组成。每个类都有其特定的目的及扮演的角色。以TableInput为例，下图说明了这4个类的继承体系。

图 2 StepInterface继承体系

　　实现StepInterface接口的类，在转换运行时，将是数据实际处理的位置。每个执行线程都表示一个实现StepInterface的实例。

　　BaseStep实现了StepInterface是各step具体实现类的基类。完成了公用的处理函数，如putRow()，但是对于更具体的processRow()在StepBase的子类中。StepBase的主要成员有

　　public ArrayList inputRowSets，outputRowSets；

　　StepBase的子类每次从inputRowSets中取出一行数据，向outputRowSets中写入一行数据。

图 3 StepDataInterface继承体系

　　实现StepDataInterface接口的类为数据类，当插件执行时，对于每个执行执行的线程都是唯一的。保存于step相关的数据信息，比如行的元数据信息。

图 4 StepMetaInterface继承体系

　　实现了StepMetaInterface接口的类为元数据类。它的职责是保存和序列化特定步骤的实例配置，例如保存步骤的名称、字段名称等，如何生成加载xml或者读写数据库。

图 5 StepDialogInterface继承体系

　　实现了StepDialogInterface接口的类为对话框类，该类实现了该步骤与用户交互的界面，它显示一对话框，通过对话框用户可以根据自己的要求进行步骤的设定。该对话框类与元数据类关系非常密切，对话框里面的配置数据均会保存在元数据类里面。

2. 步骤间交互通信类

2.1. RowSet

图 6 步骤之间通信机制

　　RowSet的实现类，负责步骤之间的相互通信，rowset对象即是前一个step的成员也是后一个step的成员，访问是线程安全的。

图 7 RowSet实现类内存快照

　　RowSet类中包含源step，目标step和由源向目标发送的一个rowMeta和一组data。其中data数据是以行为单位的队列（queArray）。一个RowSet作为此源step的outputrowsets的一部分。同时作为目标step的inputRowsets一部分。源Step每次向队列中写一行数据，目标step每次从队列中读取一行数据。

图 8 RowSet实现类

2.2. 行元数据

　　所有的data均擦除为object对象。步骤与步骤之间以行为单位进行处理，自然需要知道每行的结构，即行元数据。行元数据至少需要包括类型、名称，当然还可能包括字段长度、精度等常见内容。

　　行元数据不仅在执行的时候需要，而且在转换设置的时候同样需要。每个步骤的行元数据都会保存在.ktr文件或者数据库里面，所以可以根据步骤名称从TransMeta对象中获取行元数据。

　　行元数据的UML类图结构如下所示，主要有单元格元数据组成行元数据。在现有的版本中，支持的数据类型有String、Date、BigNumber、Boolean、SerializableType、Binary、Integer、Numberic。

图 9 行元数据UML类图

3. Trans配置及开启

图 10 Trans执行时序图

　　在真正运行trans之前，还需要对运行模式进行一个设置。设置结果，会传给TransGraph.start(executionConfiguration)。配置界面如下所示：

图 11 执行转换模式设置

实例化Trans的基本流程如下，Trans类时最后真正执行转换的类。实例化之前需要配置启动项，保持.ktr文件同步，然后实例化Trans类。最后，开启后台程序，这样不会影响UI的操作，真正的转换在后台执行。

图 12 实例化Trans流程图

4. Trans执行

　　trans类的执行有execute()负责，主要包含两个步骤：转换执行前的准备工作和所有线程的开启。Trans每一个步骤都会对应一个独立的线程，线程之间公国RowSet进行通信交互。

代码 Trans执行代码

1   public void execute(String[] arguments) throws KettleException {
2 
3        prepareExecution(arguments);
4 
5        startThreads();
6 
7 }

4.1. 执行准备(prepareExecution)

该步骤，主要完成对通信类的初始化，对步骤的包装初始化。最后启动各个步骤初始化线程，即调用各个步骤的init()方法。准备结束之后，步骤之间的通信机制完成了，各个步骤的初始化工作也完成了。具体的流程如下所示：

图 13 准备执行流程图

1.4.2. 转换处理执行

Trans转换执行引擎类，通过startThreads（）启动步骤线程。为所有步骤添加监听器，在开启监听进程对所有线程进行监听。具体的步骤如下所示

图 14 启动所有步骤线程

1.4.3. 步骤执行过程

　　实现StepInterface的不同的step各个功能个不一样，但是它们之间也有一定的规律性。下图只列举了两个step，（TextInput）文本输入和Uniquerow(去重)。BaseStep封装了getRow（）和putRow（）方法，从上一个步骤获取数据和将数据输入到下一个步骤。

　　基类BaseStep采取了统一的处理方式，调用子类processRow以行为单位处理，核心代码如下。

　　while (stepInterface.processRow(meta, data)&& !stepInterface.isStopped());

　　processRow( )通用过程是：调用基类BaseStep 的getRow( )得到数据，对一行数据处理，处理之后调用基类putRow( )方法数据保存至outputRowSets（即next step的inputRowSets）

图 15 TextInput与Uniquerow

1.4.4. 元数据与数据关系。

　　Trans中的ETL过程（每个step）以行为单位处理，其中行的元数据信息RowMeta和数据信息统一保存在RowSet对象中。

　　在RowSet中RowMeta的成员的调试结果如下。可见rowMeta储存了每列数据的名称和类型。第一列列名flag，数据是长度为1的String；第二列列名id…

RowSet的数据信息在queArray队列中，调试结果如下：可以看出第一个数据元素是一个Object包含了3列，数据内容为（N，1，a…）

Kettle 4.2源码分析第四讲--KettleJob机制与Database插件简介

1. Job机制

　　一个job项代表ETL控制流中的一项逻辑任务。Job项将会顺序执行，每个job项会产生一个结果，能作为别的分支上job项的条件。

图 1 job项示例

1.1. Job类图简介

图 2 Job entry类图结构

1.1.1. JobEntryInteface接口

　　JobEntryInterface是Job Entry插件的主要实现接口。主要包含以下功能：

1 保存Job Entry设置

　　实现类使用私有变量保存设置的参数，通过get、set方法获取和设置。Dialog实现类会通过这些方法，保存或设置设置界面上的参数。同时，需要提供一个深度拷贝的方法，因为在一些保存参数且可能修改的地方会调用。

图 3 JobEntryTrans配置界面

2 序列化插件

　　插件要实现对本插件的序列化，实现两种方式xml与数据库。

图 4 转换插件xml序列化结果

3 输出信息提供

　　一个job entry支持三种类型的输出：true、flase和无条件。这三种情况不是所有的job entry插件都会同时支持的，例如dummy job entry仅支持true和false。所以，插件必须显现两类函数，来查看支持哪种结果。

　　public boolean evaluates()//是否支持true、false

　　public boolean isUnconditional()//是否支持无条件执行

4 执行任务

　　负责工作的执行。

　　public Result execute()//执行具体的逻辑，需要结果和开始到该项的距离

　　prev_result.setNrErrors()//设置执行过程中的异常数

　　prev_result.setResult()//设置结果，如果不知道true/false,结果不设置

　　最后返回prev_result。

1.1.2. JobEntryDialogInteface接口

　　负责构建和打开参数设置对话框。Spoon通过调用open函数打开该对话框，spoon是使用swt框架的，所以对话框也应使用swt来实现。

1.2. Job entry交互通信类

1.2.1. Result

　　每一个jobEntryInterface的实现类在完成相应功能时，返回结果的类型。

主要成员变量：

1 private boolean result;执行是否出现异常
2 
3 private int exitStatus; 执行结果状态
4 
5 private List rows;一个jobEntry完成处理后的数据（若存在）
6 
7 private Map resultFiles;

1.3. Job配置及开启

图 5 Job开启时序图

　　Job的开启与Trans相类似，配置执行的参数，检查.kjb文件是否发生变化，实例化一个Job对象，开启该线程。

1.4. Job执行

1.4.1. 初始执行excute1（）

　　主要工作是从JobMeta的JobHopMeta找到job入口jobentry信息，根据开始条件调用真正执行jobentry的execute方法2，代码如下所示：

代码 4 Job.excute（）关键代码

 1 startpoint=jobMeta.findJobEntry(JobMeta.STRING_SPECIAL_START, 0,    false);// 找到Job开始组件
 2 JobEntrySpecial jes = (JobEntrySpecial) startpoint.getEntry();
 3 // JobEntrySpecial是启动job的job项目
 4 Result res = null;
 5 while ( (jes.isRepeat() || isFirst) && !isStopped()){
 6 //符合开始条件时，调用execute方法2
 7 isFirst = false;
 8 res = execute(0, null, startpoint, null,
 9 Messages.getString("Job.Reason.Started"));
10 }

1.4.2. 实际执行execute2()

　　execute（）方法包含，的参数有执行次数（START不算，从0开始，顺序执行）、接一个Entry执行结果、当前Entry的拷贝、前一个Entry拷贝和原因。

　　主要功能是根据参数startpoint，提取对应的jobentry，执行对应的jobentry操作，再根据JobMeta的hop信息依次得到下一个jobentry，递归调用。具体的执行步骤如下所示：

图 6 Job执行步骤

1.5. JobEntry执行

1.5.1. JobEntry类

　　具体每个组件的执行体对应org.pentaho.di.job.entries包内每个entry的具体实现。

　　execute()方法2中调用jobEntry的execute()完成jobEntry的具体功能。

1.5.2. 不同jobEntry的实现

　　final Result result = cloneJei.execute(prevResult, nr, rep, this);

　　不同的Job项目（JobEntry）实现差别很大。

JobEntrySpecial

　　功能是开启一个job，只是简单地对传递来的preResult设置它的的result属性值为true，（Job项目据此判断前一结果执行完毕）。返回该对象即可。

JobEntryTableExit

　　功能是判断一个table是否存在数据库中。JobEntryTableExit Job项目有属性tablename和DatabaseMeta（对数据库的元数据信息描述）根据DatabaseMeta得到一个Dabase对象db，建立连接db.connect(); 调用db.checkTableExists(tablename)根据此返回值设置preResult的result属性为否为true。返回preResult对象。

JobEntryTrans

　　JobEntryJob和JobEntryTrans是嵌套job或trans的Job项目（JobEntry）。它们是比较复杂的job项目。

　　作用是执行一个trans。首先实例化一个TransMeta,之后实例化Trans。调用trans.start()，当执行完毕后调用函数trans.getResult()，并把结果加到preResult中，返回该对象即可。

补充说明

　　Result中也可以有处理数据，这些处理数据可以作为下一个Job项目（JobEntry）的输入。但是容量受内存容量限制。

2. 数据库插件

　　PDI使用数据库插件来进行数据库的正确连接、执行SQL，同时也考虑现有数据的各种特殊功能和不同限制。

　　在PDI里面，已经集成了非常多的数据库插件，大部分的插件都会继承自BaseDatabaseMeta。下面所示的方法通常都需要被重写，基类里面并没有相关的实现。要实现的方法主要分成3大主题：连接信息、SQL方言和功能标记。

1 连接详情

当PDI建立数据库连接时将会调用这些函数，或者数据库设置对话框里显示与方言有关的内容时也会调用。

public String getDriverClass()
public int getDefaultDatabasePort()
public int[] getAccessTypeList()
public boolean supportsOptionsInURL()
public String getURL()

2 SQL Generation

构建有效的SQL数据库方言时会调用这些方法。

public String getFieldDefinition()
public String getAddColumnStatement()
public String getSQLColumnExists()
public String getSQLQueryFields()

3 功能标记

查询使用的数据库是否支持该功能。

public boolean supportsTransactions()
public boolean releaseSavepoint()
public boolean supportsPreparedStatementMetadataRetrieval()
public boolean supportsResultSetMetadataRetrievalOnly()

你可能感兴趣的:(数据技术)

06选课支付模块之基于消息队列发送支付通知消息 echo 云清学成在线 java rabbitmq 消息队列支付通知学成在线
消息队列发送支付通知消息需求分析订单服务作为通用服务，在订单支付成功后需要将支付结果异步通知给其他对接的微服务，微服务收到支付结果根据订单的类型去更新自己的业务数据技术方案使用消息队列进行异步通知需要保证消息的可靠性即生产端将消息成功通知到服务端：消息发送到交换机-->由交换机发送到队列-->消费者监听队列，收到消息进行处理，参考文章02-使用Docker安装RabbitMQ-CSDN博客生产者确
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
2020年10月国产数据库排行：GoldenDB跃升异军突起 PolarDB和GaussDB云化融合数据和云微软 informix 分布式存储 microsoft cloudera
墨墨导读：2020年10月国产数据库流行度的前三位由TiDB、达梦数据库、GBase（南大通用）获得，其中TiDB以超过100分的优势领先第二位的达梦数据库。数据技术嘉年华，十周年盛大开启，点我立即报名！大会以“自研·智能·新基建——云和数据促创新生态融合新十年”为主题，相邀数据英雄，总结过往十年历程与成绩，展望未来十年趋势与目标！近60场演讲，大咖云集，李飞飞、苏光牛、林晓斌、黄东旭...，快来
使用python实现微信小程序自动签到光头哥不光头 python
学校：重庆财经职业学院学院：应用技术学院专业班级：大数据技术与应用05班名字：吴雨璇指导老师：张彤老师一：使用python实现微信小程序自动签到意义1.首先对于咱们的APP有很大的作用,那就是当用户点击签到以后,平台就有那么多用户在使用,签到的人越多,产品的活跃度就越高。2.还有一点就是大家应该能够想到,那就是用户点击签到是在首页,有些点开就需要进行签到,点击较多,对于产品销售是非常重要的。3.微
starrocks和clickhouse数据库比较 CodeMaster_37714848 clickhouse 数据库
Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
MySQL数据库运维：深度解析与实践指南野老杂谈数据库 mysql 运维
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：+V:LAF20151116进行更多交流学习⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️全流程数据技术实战指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台和数据仓库的核心技术和方法。⭐
Pinterest：从 Druid 到 StarRocks，实现 6 倍成本效益比提升 StarRocks_labs 数据库大数据
导读：开源无国界，StarRocks自开源以来，近3年的时间里已在全球数据技术领域崭露头角。我们欣喜地发现，越来越多的海外用户正在使用并积极推广着StarRocks。为了促进知识共享，StarRocks中文社区将精选优秀文章与大家共享。本篇文章摘自PinterestEngineering撰写的《DeliveringFasterAnalyticsatPinterest》，欢迎阅读原文深入了解：htt
大数据技术之Hadoop（一） pauls
Hadoop概述1.1Hadoop是什么Hadoop是什么1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2）主要解决，海量数据的存储和海量数据的分析计算问题。3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop生态1.2Hadoop发展历史（了解）Hadoop发展历史1）Hadoop创始人DougCutting，为了实现与Google类似
Hive 的 SerDe 是什么？ Shockang 大数据技术体系大数据 hive
前言本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文hive的SerDe是什么SerDe是Serializer/Deserializer的简写。hive使用SerDe进行行对象的序列与反序列化。最后实现把文件内容映射到hive表中的字段数据类型。为了更好的阐
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
Spark一些个人总结易逑实战数据大数据 spark big data scala
文章目录前言一、Spark是什么二、Spark用来做什么三、Spark的优势是什么四、为什么用Spark五、Spark解决了什么问题总结前言随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。一、Spark是什么Spark是一个用来实现快速，通用的集群
系统架构师考试学习笔记第三篇——架构设计高级知识（13）未来信息综合技术 SheldonK 软件架构师学习分享学习笔记
本课时考点：第13课时主要学习信息物理系统技术、人工智能技术、机器人技术、边缘计算、数字孪生体技术以及云计算和大数据技术等内容。根据考试大纲，本课时知识点会涉及单项选择题（约占3~5分）和下午案例题（25分），论文也会有覆盖。本课时知识架构如图13.1所示。一、信息物理系统技术概述1.信息物理系统的概念信息物理系统（Cyber-PhysicalSystem,CPS),最早由美国国家航空航天局于19
Mac 安装Hadoop教程（HomeBrew安装）追光天使 macos hadoop 大数据
1.引言本教程旨在介绍在Mac电脑上安装Hadoop，便于编程开发人员对大数据技术的熟悉和掌握。2.前提条件2.1安装JDK想要在你的Mac电脑上安装Hadoop，你必须首先安装JDK。具体安装步骤这里就不详细描述了。你可参考Mac安装JDK8。2.2配置ssh环境在Mac下配置ssh环境，防止后面启动hadoop时出现Connectionrefused连接被拒绝的错误。sshlocalhost执
2024年（第7届）“泰迪杯”数据分析技能赛通知泰迪智能科技01 泰迪杯大数据人工智能
由泰迪杯数据分析技能赛组织委员会、广东泰迪智能科技股份有限公司主办，广东省工业与应用数学学会、人民邮电出版社和北京泰迪云智信息技术研究院协办的“泰迪杯”数据分析技能赛（以下简称竞赛）即将开展。竞赛目的在于以赛促学、以赛促教、以赛促改、以赛促创，实现大数据技术技能人才培养的“岗课赛证”融通，深化教学标准与岗位标准、教学过程与生产过程的对接，培养更多升级版的高层次高素质技术技能人才。竞赛时间安排报名起
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据技术之HBase 与 Hive 集成(7) 大数据深度洞察 Hbase 大数据 hbase hive
目录使用场景HBase与Hive集成使用1）案例一2）案例二使用场景如果大量的数据已经存放在HBase上面，并且需要对已经存在的数据进行数据分析处理，那么Phoenix并不适合做特别复杂的SQL处理。此时，可以使用Hive映射HBase的表格，之后通过编写HQL进行分析处理。HBase与Hive集成使用Hive安装https://blog.csdn.net/qq_45115959/article/
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
Hadoop 中的大数据技术：调优篇（3）大数据深度洞察大数据 hadoop 分布式
HDFS—故障排除NameNode故障处理需求NameNode进程崩溃且存储的数据丢失，如何恢复NameNode？故障模拟终止NameNode进程[lzl@hadoop12current]$kill-919886删除NameNode存储的数据[[email protected]]$rm-rf/opt/module/hadoop-3.1.3/data/dfs/name/*问题解决从Se
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
大数据技术之HBase API(3) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBaseAPI环境准备创建连接单线程创建连接多线程创建连接DDLDMLHBaseAPI环境准备新建项目后，在pom.xml中添加如下依赖：org.apache.hbasehbase-server2.4.11org.glassfishjavax.elorg.glassfishjavax.el3.0.1-b06注意：javax.el包虽然会报错不存在，但这仅是一个测试用的依赖，不会影响实际使用。
大数据技术之HBase整合 Phoenix(6) 大数据深度洞察 Hbase 大数据 hbase 数据库
目录HBase整合PhoenixPhoenix简介Phoenix定义为什么使用PhoenixPhoenix快速入门安装1）官网地址2）Phoenix部署PhoenixShell操作Table表的映射数字类型说明PhoenixJDBC操作Phoenix二级索引二级索引配置文件全局索引（globalindex）包含索引（coveredindex）本地索引（localindex）HBase整合Phoen
大数据技术之Zookeeper概述（1）大数据深度洞察 Zookeeper 大数据 zookeeper 分布式云原生
目录Zookeeper入门概述Zookeeper的主要特点包括：Zookeeper的应用场景：Zookeeper的基本概念：架构：Zookeeper工作机制Zookeeper数据结构Znode（ZookeeperNode）Znode的类型Znode路径Znode属性Watcher监听器使用示例总结Zookeeper入门概述Zookeeper是一个分布式的、开放源码的协调服务，用于大型应用中管理和协
综合治税的发展前景 alankuo 人工智能人工智能
综合治税的发展前景较为广阔，主要体现在以下几个方面：-技术应用持续深化：-大数据与人工智能助力精准治税：随着大数据技术的不断发展，税务部门能够整合来自多部门、多渠道的海量数据，包括企业的财务数据、交易数据、银行流水等，通过对这些数据的深度分析和挖掘，可以精准识别税收风险点和潜在的偷逃税行为。例如，利用大数据分析企业的销售数据与申报纳税数据的匹配度，发现异常及时预警和查处。人工智能技术则可以辅助税务
Kylin的工作原理及使用分享操作指南 vvvae1234 kylin
ApacheKylin是一个分布式的分析引擎，专为大数据环境中的快速分析和查询而设计。它通过构建OLAP（联机分析处理）立方体，使得对海量数据的实时分析成为可能，极大地提升了数据查询的效率。本文将详细介绍Kylin的工作原理，结合实际操作案例，分享如何有效使用Kylin进行大数据分析。1.Kylin概述Kylin是一个开源项目，支持SQL查询，兼容与Hive和MapReduce等大数据技术的集成。
《未来二十年，AI、区块链、云与大数据技术引领全球变革》久绊A 文献/论文人工智能区块链云计算大数据
摘要在未来二十年，全球社会与经济将深刻受到人工智能（AI）、区块链（Blockchain）、云计算（Cloud）和大数据（Data）四大核心技术的驱动。这些技术不仅从宏观上重塑产业结构，更在微观层面显著提升生活品质与效率。本文通过详尽的案例分析，结合国内外最新研究成果，深入剖析这四大技术如何在教育、智能家居、农业、金融等多个关键领域产生深远影响。关键字人工智能（AI）、区块链（Blockchain
向量数据库 Faiss 的搭建与使用 eqa11 数据库
向量数据库Faiss的搭建与使用一、引言在人工智能和大数据技术飞速发展的今天，向量数据库作为处理高维数据检索的关键技术，越来越受到重视。Faiss，作为由MetaAI（原FacebookAIResearch）开源的高效相似性搜索库，以其卓越的性能和灵活性，成为众多技术选型中的佼佼者。本文将深入探讨Faiss的搭建和使用，旨在为读者提供一个全面而详细的指南。二、Faiss简介与环境搭建1、Faiss
知识分享系列三：大数据技术（上） jinruimeng 知识分享大数据
本文系统地介绍了大数据技术的相关知识，由于篇幅比较长，分为上下两部分，其中上半部分先介绍基本概念、核心领域，下半部分介绍主要技术、平台架构，以及相关企业案例。目录一、基本概念1.1从数据资源到大数据1.2从大数据到数据要素二、核心领域2.1概述2.2数据存储与计算2.2.1发展历程2.2.2发展特点2.2.2.1云化改造全面加速2.2.2.2融合一体化持续加深2.2.2.3安全能力快速补强2.2.
Distrii办伴：空间+科技+服务解决企业办公全生命周期需求娱扒小公主
ToC市场风口之后，ToB的春天眼看来临。在消费级市场，中国BAT力抗欧美的谷歌、脸书、亚马逊。然而拥有相当体量企业市场的中国，却没有一个知名的企业服务巨头。随着人工智能、大数据技术的应用场景逐步扩大，更丰富、更落地的企业服务场景将在不远的未来不断涌现。作为一家自创立之初就专注于提供智慧办公解决方案的科技公司，Distrii办伴始终坚持以科技为内核，为企业带来更便捷高效的服务。三年来，办伴率旗下三
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。