省略号的搬运工

datax、dataxweb、kettle的安装与简单使用及常见报错处理

一 DataX简介

1.1 DataX

1.1.1 Data X概览

1.1.2 DataX3.0框架设计

1.1.3 DataX3.0插件体系

1.1.4 DataX3.0六大核心优势

1.2 DataX-Web

二 DataX及DataX-Web部署

2.1 DataX安装

2.1.1 解压安装

2.1.2 验证安装

可能遇到的问题：

解决办法

2.2 DataX-Web安装

2.2.1 基础软件

2.2.2 打包安装

2.2.3 配置

2.2.4 验证安装

2.2.5 运行简单任务

2.3 增量同步

2.3.1 主键自增进行增量同步（MySQL->MySQL）

可能遇到的问题：

问题原因

解决办法

2.3.2 时间自增进行增量同步（MySQL->MySQL）

2.4 分区表写入

2.4.1 修改源码加入自动创建分区功能

2.4.2 运行分区实例

三 Kettle

3.1 Kettle简介

3.2 下载及配置

3.3 简单运行

总结

1、DataX

3、Kettle

实例 datax在常见数据库之间的测试

1、mysql <-> mysql <-> hive <-> hive

可能遇到的问题：

解决办法：

问题原因：

解决办法：

问题原因：

解决办法：

问题原因：

解决办法：

一 DataX简介

1.1 DataX

1.1.1 Data X概览

DataX 是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。

为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。

1.1.2 DataX3.0框架设计

DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。

Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework。

Writer： Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。

Framework：Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

1.1.3 DataX3.0插件体系

类型	数据源	Reader(读)	Writer(写)	文档
RDBMS 关系型数据库	MySQL	√	√	读、写
	Oracle	√	√	读、写
	OceanBase	√	√	读、写
	SQLServer	√	√	读、写
	PostgreSQL	√	√	读、写
	DRDS	√	√	读、写
	达梦	√	√	读、写
	通用RDBMS(支持所有关系型数据库)	√	√	读、写
阿里云数仓数据存储	ODPS	√	√	读、写
	ADS		√	写
	OSS	√	√	读、写
	OCS	√	√	读、写
NoSQL数据存储	OTS	√	√	读、写
	Hbase0.94	√	√	读、写
	Hbase1.1	√	√	读、写
	MongoDB	√	√	读、写
	Hive	√	√	读、写
无结构化数据存储	TxtFile	√	√	读、写
	FTP	√	√	读、写
	HDFS	√	√	读、写
	Elasticsearch		√	写

1.1.4 DataX3.0六大核心优势

1、可靠的数据质量监控

1）完美解决数据传输个别类型失真问题

2）提供作业全链路的流量、数据量运行时监控

3）提供脏数据探测

2、丰富的数据转换功能

3、精准的速度控制

4、强劲的同步性能

5、健壮的容错机制

6、极简的使用体验

1.2 DataX-Web

DataX Web是在DataX之上开发的分布式数据同步工具，提供简单易用的操作界面，降低用户使用DataX的学习成本，缩短任务配置时间，避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务，支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源，RDBMS数据源可批量创建数据同步任务，支持实时查看数据同步进度及日志并提供终止同步功能，集成并二次开发，可根据时间、自增主键增量同步数据。

任务"执行器"支持集群部署，支持执行器多节点路由策略选择，支持超时控制、失败重试、失败告警、任务依赖，执行器CPU、内存、负载的监控等等。数据转换UDF、表结构同步、数据同步血缘等更为复杂的业务场景。

简单来说用户可以通过图形化web，构建DataX Json，可以轻松调度各Job启停，DataX-Web也提供了诸如阻塞处理、超时警告等等功能辅助生产，对于少量数据同步任务，DataX-Web完全可以胜任，并且大大减少了工作量。

二 DataX及DataX-Web部署

2.1 DataX安装

2.1.1 解压安装

从github（https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202210/datax.tar.gz）

下载安装包或者下载源码打包（在这里使用下载安装包的方式），上传到服务器运行tar –zxvf安装

2.1.2 验证安装

datax/job文件夹下自带一个简单job任务，可以以此测试是否安装成功，

python /usr/datax/bin/datax.py ../job/job.json。具体使用在后文中介绍。

可能遇到的问题：

（1）Description:[DataX引擎配置错误，该问题通常是由于DataX安装错误引起，请联系您的运维解决.].- 获取作业配置信息失败:/usr/datax/job/job,json - java.io.FileNotFoundException: File '/usr/datax/job/job,json' does not exist

解决办法

rm -rf /usr/datax/plugin/*/._* 删除插件文件夹中的隐藏文件

（2）Description:[DataX引擎配置错误，该问题通常是由于DataX安装错误引起，请联系您的运维解决.]. - 在有总bps限速条件下，单个channel的bps值不能为空，也不能为非正数

解决办法

修改datax/conf/core.json, core -> transport -> channel -> speed -> "byte": 2000000，将单个channel的大小改为2MB即可。

2.2 DataX-Web安装

2.2.1 基础软件

（1）MySQL (5.5+) 必选，对应客户端可以选装, Linux服务上若安装mysql的客户端可以通过部署脚本快速初始化数据库

（2）JDK (1.8.0_xxx) 必选

（3）Maven (3.6.1+) 必选

（4）DataX 必选

（5）Python (2.x) (支持Python3需要修改替换datax/bin下面的三个python文件，替换文件在doc/datax-web/datax-python3下) 必选，主要用于调度执行底层DataX的启动脚本，默认的方式是以Java子进程方式执行DataX，用户可以选择以Python方式来做自定义的改造

2.2.2 打包安装

这次选择源码打包安装（GitHub - WeiYe-Jing/datax-web: DataX集成可视化页面，选择数据源即可一键生成数据同步任务，支持RDBMS、Hive、HBase、ClickHouse、MongoDB等数据源，批量创建RDBMS数据同步任务，集成开源调度系统，支持分布式、增量同步数据、实时查看运行日志、监控执行器资源、KILL运行进程、数据源信息加密等。）

打包 mvn clean install

将jar包上传到服务器并tar –zxvf安装，

进入datax-web-2.1.2/bin ，bash运行install.sh进行交互式安装，交互式安装会依次解压各模块的package以及调用configure配置脚本，可以逐步判断安装包是否有误。

如果服务上有MySQL，则执行安装脚本过程中会出现：

Scan out mysql command, so begin to initalize the database

Do you want to initalize database with sql: [{INSTALL_PATH}/bin/db/datax-web.sql]? (Y/N)y

Please input the db host(default: 127.0.0.1):

Please input the db port(default: 3306):

Please input the db username(default: root):

Please input the db password(default: ):

Please input the db name(default: exchangis)

可以输入数据库地址，端口号，用户名，密码以及数据库名称，如果没有安装MySQL，则可以取用目录下/bin/db/datax-web.sql脚本去手动执行，完成后修改相关配置文件

vi ./modules/datax-admin/conf/bootstrap.properties

#Database

#DB_HOST=

#DB_PORT=

#DB_USERNAME=

#DB_PASSWORD=

#DB_DATABASE=

注意MySQL-version务必高于5.5，实际测试中版本过低会导致配置表创建出错

2.2.3 配置

在项目目录： /modules/datax-admin/bin/env.properties 配置邮件服务(可跳过)

MAIL_USERNAME=""

MAIL_PASSWORD=""

此文件中包括一些默认配置参数，例如：server.port，具体请查看文件。

在项目目录下/modules/datax-execute/bin/env.properties 指定PYTHON_PATH的路径

vi ./modules/{module_name}/bin/env.properties

执行datax的python脚本地址：PYTHON_PATH=

保持和datax-admin服务的端口一致；默认是9527，如果没改datax-admin的端口，可以忽略：DATAX_ADMIN_PORT=

此文件中包括一些默认配置参数，例如：executor.port,json.path,data.path等，具体请查看文件。

2.2.4 验证安装

启动服务bash bin/start-all.sh

可以通过start.sh m {moule_name}单一启动某一模块服务。

停止同理

jps查看是否出现DataXAdminApplication和DataXExecutorApplication进程，如果存在这表示项目运行成功

部署完成后，在浏览器中输入http://{ip}:{port}/index.html就可以访问对应的主界面（ip为datax-admin部署所在服务器ip，port为datax-admin 指定的运行端口）

输入用户名 admin 密码 123456 就可以直接访问系统

还可在多设备上部署以维持负载均衡，防止单节点挂掉导致任务停摆。

通过Spring框架在windows运行

2.2.5 运行简单任务

实现MySQL间数据同步。

注意需要在数据库连接后面添加如下字符编码规则参数，否则表中汉字不能识别

?useUnicode=true&characterEncoding=utf8

由于构建过程全程可以由web进行可视化操作，细节不再赘述，详见文末实例。

2.3 增量同步

相比于全量同步每次都把整张表同步一次，增量同步只更新新增的部分，全量同步在某些情况下效率较低，例如某张表数据量较大，但是每天数据的变化比例很低，若对其采用每日全量同步，则会重复同步和存储大量相同的数据。

DataX在数据增量同步方面比较欠缺，DataX-Web在这方面做了补足。

2.3.1 主键自增进行增量同步（MySQL->MySQL）

① 任务类型选DataX任务

② 辅助参数选择主键自增

③ 增量主键开始ID选择，即sql中查询ID的开始ID，用户使用此选项方便第一次的全量同步。第一次同步完成后，该ID被更新为上一次的任务触发时最大的ID，任务失败不更新。

④ 增量时间字段,-DstartId='%s' -DendId='%s' 先来解析下这段字符串

1、-D是DataX参数的标识符，必配

2、-D后面的startId和endId是DataX json中where条件的id字段标识符，必须和json中的变量名称保持一致，endId是任务在每次执行时获取当前表maxId，也是下一次任务的startId

3、='%s'是项目用来去替换时间的占位符，比配并且格式要完全一致

4、注意-DstartId='%s'和-DendId='%s' 中间有一个空格，空格必须保留并且是一个空格

5、reader数据源，选择任务同步的读数据源

6、配置reader数据源中需要同步数据的表名及该表的主键

将json中原本的colum去掉，改为querySql（关于querySql、querySql、preSql、postSql、splitPk等配置参数，详见datax(27):不太常见配置项querySql、preSql、postSql、splitPk[通俗易懂] - 全栈程序员必看）

此处的关键点在${startId}，${endId}，${}是DataX动态参数的固定格式，startId，endId就是我们页面配置中 -DstartId='%s' -DendId='%s'中的startId，endId，注意字段一定要一致。

可能遇到的问题：

问题原因

由4.3.1中④可知，endId是任务在每次执行时获取当前表startId，也是下一次任务startId，每次任务，endId和startId的变化过程都是：

1、自定义初始startId

2、endId获取reader表中主键最大值

3、目标表更新主键介于startId，和endId之间的行

4、成功运行？startId=endId ：startId=startId

5、循环进行2-4

如果运行中出现一次上述错误，例如导入重复数据而引发的主键唯一错误，那么从这个出错开始，后续的所有运行都会出错，虽然最终数据依然会完成同步，但每一次运行都相当于进行了一次全量同步，增量同步的设置将失去意义。

解决办法

任务构建阶段填写报警邮件，在出现报错时及时发现并处理。

2.3.2 时间自增进行增量同步（MySQL->MySQL）

前提是表中有类似updatetime字段，可以为时间标准格式或者时间戳。

注意：

第一次时间增量时间要早于表的全部update_time，就是把时间戳传入json的lastTime和currentTime；

FROM_UNIXTIME是为了将表里面的标准格式转换为时间戳进行比较，如果表里默认为时间戳就不需要这个函数；

querySql中使用了select后需要把reader里面column,splitP需要删除掉；

“writeMode”: "update"相对insert会好一些；

2.4 分区表写入

2.4.1 修改源码加入自动创建分区功能

对于写入时如果不提前创建分区就会报：

有如下解决方案：

1、修改DataX源码中hdfswriter下的hdfshelper.java，添加createPath方法：

public boolean createPath(String filePath) {

    Path path = new Path(filePath);

    boolean exist = false;

    try {

        if (fileSystem.exists(path)) {

            String message = String.format("文件路径[%s]已存在，无需创建！",

                    "message:filePath =" + filePath);

            LOG.info(message);

            exist = true;

        } else {

            exist = fileSystem.mkdirs(path);

        }

    } catch (IOException e) {

        String message = String.format("创建文件路径[%s]时发生网络IO异常,请检查您的网络是否正常！",

                "message:filePath =" + filePath);

        LOG.error(message);

        throw DataXException.asDataXException(HdfsWriterErrorCode.CONNECT_HDFS_IO_ERROR, e);

    }

    return exist;

}

2、修改hdfswriter目录下的HdfsWriter.java，在最后的else调用createPath并修改返回日志

3、将源码打包并替换datax/plugin/writer/hdfswriter/hdfswriter-0.0.1-SNAPSHOT.jar

4、测试

来源：

（二次开发DataX以支持HIVE分区表_datax二次开发_MaxineSgr的博客-CSDN博客）

2.4.2 运行分区实例

官方文档中有解释，DataX只支持一次写入单个分区，可以说DataX对hive分区表非常不友好。

DataX-web将写入过程做了简化，但仍然无法做到灵活的创建分区和一次多个写入

任务的设置如下

如果按上图设置，最后的分区生成是这样的：

其中分区字段仅支持类似时间的字段，分区时间最多可以选到-20，即当前时间的前二十天。

json设置如下，${partition}是固定格式，不能更改

由最后创建的目录可以推断partition是由源码中输入的day与系统当前日期更改格式并计算天数后拼凑成的参数。目前网上没有教程但理论上可以自行修改这部分源码以让分区字段与日期选择更加灵活

注意由此动态分区自动生成路径的方法，写入后可能在Hive端无法查询数据，用MSCK REPAIR TABLE将没有写入metastore的分区信息写入metastore。

MSCK REPAIR TABLE hive_partition_test

运行结果：

在生产中，假设今日是一月二日，数据接收后存入一张日

三 Kettle

3.1 Kettle简介

1、Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、 Linux、 Unix上运行，绿色无需安装，数据抽取高效稳定。

2、Kettle 中文名称叫水壶，该项目的主程序员MATT 希望把各种数据放到一个壶里，然后以一种指定的格式流出。

3、Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。

4、Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。

5、Kettle(现在已经更名为PDI，Pentaho Data Integration-Pentaho)。

3.2 下载及配置

（1）Kettle下载安装非常简单，官网下载安装包，找下载数最多的下载解压即可

（Pentaho from Hitachi Vantara - Browse Files at SourceForge.net）

（2）将Mysql连接驱动置于pdi-ce\data-integration\lib下

（3）如果出现hive连接错误的情况，需要将hive lib下的jar包复制到pdi-ce\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30\lib

并将hive和hadoop的配置文件都复制到pdi-ce-8.3.0.0-371\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30

具体教程可见（kettle连接Hive配置（一）-爱码网）

需要注意的是，官网下载的pdi-9.3版本不知为何缺少hive连接的相关配置文件，且目前缺少该版本的博客，可以下载8.3版本

但是kettle8.3版本不兼容mysql8以上版本的jdbc-connecter，若设备使用的是mysql8以上版本，有如下解决办法

1、数据库类型选择Generic Database，相当于不用kettle预设的类型，自定义连接

2、在kettle的安装目录下data-integration\simple-jndi\jdbc.properties加入jdbc的连接信息，相当于预设好一个连接，直接使用

然后在连接类型MySQL中选择预设好的JNDI

教程参考（kettle连接mysql8.0以上版本_北顾南望的博客-CSDN博客_kettle连接mysql8.0）

3.3 简单运行

设置一个流程将两个MySQL表的内容输入，排序后根据，id将

可以看到并更改字段关系映射

一定要仔细定义数据同步中的高级标签，否则会报错“It was not possible to find operation field [null] in the input stream!”

mysql->mysql运行时长

hive->mysql运行时长

在“作业”中可以对编辑好的“转换”设计运行间隔以达到定时同步的功能。

总结

1、DataX

作为阿里的开源项目，DataX的稳定性与可维护性非常有保障，网上有大量的测试与报错博客，更有补足功能、提供UI操作的DataX-web，使得DataX可以投入到项目中来。另：官方提供了对TDengine的reader和writer。

但DataX有缺陷，作为开源项目，某些功能官方维护不及时，针对某些急需实现的功能（如实例1、（3）中提到的writer过程中的null问题），网上有修改源码的教程。由于本次测试涉及面较窄，生产生活中还可能存在类似情况，到时候需要自主寻错、修改源码。

且DataX对Hive数据的读取可以看作对hdfs上存储的数据进行读取，只能是顺序的，且不能对列有细致操作，实际工作中有类似需要，只能先在数据库中操作，再进行同步作业。

DataX-web提供了一个方便快捷的向分区表写入的方法，但不能自由地多次地写入分区，只能一次写入一个分区，分区字段不能选择除时间以外的字段，时间的选择并不自由，只能选当前时间前20天内的一天作为分区。如果有相关需求，可以进行源码的二次开发，建议二次开发时一定做好记录，提高部门同事间沟通效率，以提高工作效率。

虽有不足但DataX总体上能承担日常生活中的数据同步工作。DataX官方插件有严格的格式设置，编写json时请先查看相关插件的参数介绍。

2、Kettle

Kettle提供了强大的图形化Spoon，可以做到中小型需求不写一行代码，大大减少了工作量，且对于Hive数据的读取可以做列的操作，数据的读取是依靠字段进行的而不是顺序进行的，比DataX、Sqoop更加精细。

但是Kettle的整体速度较慢

可以看到在同一台机器上运行同一份数据时，在MySQL->MySQL和Hive->MySQL的情况下，仅29万条数据，Kettle和DataX在效率上就存在明显差距。随着数据量的提升，差距会愈发明显。因此若选用Kettle则需要考虑在海量数据的前提下的调优问题，业务越复杂，需要优化的组件就越多。

且Kettle spoon对于定时运行缺乏集成化的设置，一旦业务数量变多，执行定时调度时，就只能通过系统自带的定时任务调度去进行管理。无法统一，假如要做统一的管理，需要安装一套jenkins，但配置和后续的运维成本可能较高。以及kettle的内存占用较高，无法最大效率地利用服务器资源

实例 datax在常见数据库之间的测试

1、mysql <-> mysql <-> hive <-> hive

注意：

(1)hive作为数据源的时候，注意在reader设置中不要跳过表头，否则会缺失第一列数据

(2)单机版的DataX，在脏数据统计上有点小问题。举个例子：先运行了一个任务A，假设这个任务A有5条脏数据，errorlimit设置了record:0，在运行时，这个任务是一定会因为脏数据而终止执行。任务A终止执行后，你紧接着运行任务B，假设任务B没有脏数据，errorlimit也设置了record:0，但有可能任务B在运行时，它也会报“在运行的过程中捕获了5条脏数据，任务结束”。也就是任务A的脏数据会影响任务B。问题出在LocalTGCommunicationManager这个类中，它使用了一个静态变量taskGroupCommunicationMap来存储脏数据。

可能遇到的问题：

（1）（问题可能出现在hdfsreader等）

2022-12-15 13:59:56.077 [0-0-0-reader] ERROR StdoutPluginCollector - 脏数据:

{"message":"No enum constant com.alibaba.datax.plugin.unstructuredstorage.reader. UnstructuredStorageReaderUtil.Type.BIGINT","record":[],"type":"reader"}

问题原因：datax支持的数据类型与hive有不同

DataX 数据类型	Hive表数据类型
Long	TINYINT,SMALLINT,INT,BIGINT
Double	FLOAT,DOUBLE
String	String,CHAR,VARCHAR,STRUCT,MAP,ARRAY,UNION,BINARY
Boolean	BOOLEAN
Date	Date,TIMESTAMP

其余多种数据库间数据类型映射，可参考（datax与多种数据库间数据类型映射_datax 数据类型_chimchim66的博客-CSDN博客）

解决办法：

将reader中所有其余数据库的数据类型依次按照对照表改为datax支持的数据类型。

（2）（问题可能出现在hdfsreader等）

问题原因：

在read过程中，\N不能转换为DATE属性的值，报类型转换错误

解决办法：

1、在reader中设置，使空值不再参与转换，直接跳过

2、设中转表将DATE类型改为STING类型，再由数据库或olap组件内部转换格式。

（3）(问题可能出现在将数据同步后的Hive又作为数据源输出时)

类型转换错误，无法将[]转换为[date]等等一系列类似错误

问题原因：

hdfswriter并未提供nullFormat参数：也就是用户并不能自定义null值写到HFDS文件中的存储格式。默认情况下，hdfswriter会将null值存储为空字符串（’’），但Hive默认的null值存储格式为\N。所以后期将DataX同步的文件导入Hive表就会出现问题。

解决办法：

1、修改datahdfswriter的源码，增加自定义null值存储格式的逻辑，参考（记Datax3.0解决MySQL抽数到HDFSNULL变为空字符的问题_谭正强的博客-CSDN博客_datax nullformat），然后mvn打包。在hdfswriter阶段就把null值划分清楚，避免后续问题积少成多。

在hive表同步到hive表的过程中reader和writer都要设置nullFormat参数。

2、或是在Hive中建表时指定null值存储格式为空字符串（’’）（不推荐）

例如：

DROP TABLE IF EXISTS base_province;

CREATE EXTERNAL TABLE base_province

(

`id` STRING COMMENT '编号',

`name` STRING COMMENT '省份名称',

`region_id` STRING COMMENT '地区ID',

`area_code` STRING COMMENT '地区编码',

`iso_code` STRING COMMENT '旧版ISO-3166-2编码，供可视化使用',

`iso_3166_2` STRING COMMENT '新版IOS-3166-2编码，供可视化使用'

) COMMENT '省份表'

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

NULL DEFINED AS ''

LOCATION '/base_province/';

（4）(问题可能出现在hdfsreader、hdfswriter等)

在同步过程中，出现列数据混乱，或日志出现类型转换错误

问题原因：

由于datax对于hdfs读写非常格式化，如果建表的列顺序不对或列分隔符出现在表中的话，都会引起数据读写的混乱的情况。

解决办法：

实际建表中建议hive列分隔符不要出现任何表中可能有的元素，例如“\t”，“，”“；”等。创建列的先后顺序严格一致，以减少同步过程中数据混乱。

你可能感兴趣的:(数据库,etl,大数据)

人民日报报道，华为云赋能智能制造助力图扑软件构造数字孪生场景智慧园区华为人工智能物联网
2021年12月22日，《人民日报》头版头条刊登了《华为云赋能智能制造，助力图扑软件构造数字孪生场景》一文，聚焦数据可视化建设发展。报道指出，数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神;高效便捷管控的背后，是云端平台各大企业的互助共赢;高质精准2D、3D数据可视图的背后，是专注于数据可视化Web组态开发的厦门图扑软件科技有限公司。并对厦门图扑软件科技有限公司进
binlog和redolog 重生之我在成电转码 java mysql 日志
好的！这两个是MySQL面试核心知识点，下面详细解释：✅一、概念区分内容binlog（归档日志）redolog（重做日志）属于MySQL层（Server层）InnoDB存储引擎层作用记录所有修改数据库的数据操作（逻辑日志）保障事务的持久性（崩溃后可恢复数据）存储内容SQL语句或事件（INSERT、UPDATE、DELETE）物理页修改（物理日志）写入时机执行完SQL后写入执行SQL时先写入落盘时机
华为云赋能智能制造，助力图扑软件构造数字孪生场景 36Kr网科技华为云制造 big data
出行手机查看交通方案、物业管理的智能可视勘察管控、疫情地图提前预知危害……这些曾经存在于科幻片中的高科技场景一一在现代生活得到了应用与普及，其背后的数据可视化应用，正贯穿于当今大数据时代的各行各业，成为人们洞察数据内涵的有力工具，推动数字经济发展驶入“快车道”。数字经济发展的背后，是大数据时趋势下各地区积极贯彻国家数字经济发展战略的时代精神；高效便捷管控的背后，是云端平台各大企业的互助共赢；高质精
【读点论文】Chain Replication for Supporting High Throughput and Availability 寻雾&启示分布式系统论文阅读
在分布式系统中，强一致性往往和高可用、高吞吐是矛盾的。比如传统的关系型数据库，其保证了强一致性，但往往牺牲了可用性和吞吐量。而像NoSQL数据库，虽然其吞吐量、和扩展性很高，但往往只支持最终一致性，无法保证强一致性。由此ChainReplicationforSupportingHighThroughputandAvailability提出了链式复制协议，旨在保证高吞吐、高可用的同时，支持数据的强一
【自建分布式数据库详细指南】（五）使用：常见API及使用问题大板牙花生分布式
延续前几篇文章，下面着重从一些基本的API讲讲从入门到习惯的常用方法，后续更新。USAGE1节点管理设置主节点，又成为协调节点SELECTcitus_set_coordinator_host('coord.example.com',5432);step1.创建节点select*frommaster_add_node('new-node',12345);step2.删除节点step3.新增节点后重新
form的表单序列化码田里的小白菜 ajax 服务器 javascript
百度可知：表单序列化的作用是：将表单内容序列化成一个字符串，方便Ajax传递表单值给服务器。随着Ajax的出现，表单序列化成为一种常见需求序列化应满足以下几点要求：1、对表单字段和值进行url编码，使用&符号分割2、不发送表单的禁用字段3、只发送选则的复选框和单选按钮4、不发送type为“reset”和“button”的按钮functionserialize(data){letlist=[];Ob
【商城实战(55)】商城数据库备份：策略与实操指南奔跑吧邓邓子商城实战商城实战数据库备份 MySQL 策略与实操
【商城实战】专栏重磅来袭！这是一份专为开发者与电商从业者打造的超详细指南。从项目基础搭建，运用uniapp、ElementPlus、SpringBoot搭建商城框架，到用户、商品、订单等核心模块开发，再到性能优化、安全加固、多端适配，乃至运营推广策略，102章内容层层递进。无论是想深入钻研技术细节，还是探寻商城运营之道，本专栏都能提供从0到1的系统讲解，助力你打造独具竞争力的电商平台，开启电商实战
【Spark】查询优化中分区（Partitioning）和分桶（Bucketing）是什么关系？什么时候应当分区，什么时候应当分桶？ petrel2015 spark 大数据分布式数据库
在学习Spark的过程中，分区和分桶乍一看很像，都能为了计算加速，但是仔细一想，一查还是有些差异的，甚至说差异很大。那么具体有什么差异点，有什么相同点。我做出了如下的整理，供大家参考，欢迎指正。相同点分区（Partitioning）和分桶（Bucketing）在很多方面具有相似性，它们都是用于优化大数据查询性能的技术数据划分的目的：优化查询性能分区和分桶的核心目标是通过将数据分割成更小的逻辑单元来
程序代码篇---Pyqt的密码界面 Ronin-Lotus 程序代码篇上位机知识篇 pyqt 数据库 python ubuntu
文章目录前言一、代码二、代码解释2.1用户数据库定义2.2窗口初始化2.3认证逻辑2.5角色处理2.6错误处理优化2.7功能扩展说明2.7.1用户类型区分管理员普通用户其他用户2.7.2安全增强建议三、运行效果四、运行命令五、界面改进建议5.1密码显示5.2用户头像显示5.3输入框动画效果5.4加载进度显示5.5键盘快捷键前言本文简单介绍了在Ubuntu系统上使用Python的Pyqt创建密码登录
架构师必知必会系列：数据架构与数据管理 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍数据架构与数据管理介绍数据架构是指用来定义企业数据的逻辑结构、物理存储结构和数据的流转过程。它由数据中心和IT平台、数据库、文件系统、网络、安全、计算资源等构成。其目的是为了满足业务需求、提升组织效率和降低成本。数据架构包括数据字典、元数据、数据模型、数据流、数据仓库、数据管道、数据服务等。在应用中，将数据按照其自身特性进行划分、分类、归档、清洗和加工，才能
Spring事务失效的常见场景红云梦 spring java 数据库
1事务1.1数据库事务作为单个逻辑工作单元执行的一系列操作，要么完全执行，要么完全不执行1.2事务的四大特性（ACID）原子性(Atomicity)：要么成功，要么失败。一个事务内的所有SQL语句同步执行（依靠undo.log日志保证）一致性(Consistency)：事务前后总量不变，数据库完整性约束没有被破坏隔离性(Isolation)：一个事务执行不被其他事务干扰（锁+MVCC）持久性(Du
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
时序数据库QuestDB在Winform窗体应用 ryan68888 时序数据库
以下是QuestDB在Winform使用的代码：//初始化privatevoidInit(){//创建数据库对象(用法和EFDappper一样通过new保证线程安全)SqlSugarClientDb=newSqlSugarClient(newConnectionConfig(){ConnectionString=“host=10.3.5.227;port=8812;username=admin;p
[开题报告]Springboot高校图书管理系统设计与实现lq627计算机毕业设计卓越计算机毕设课程设计
本项目包含程序+源码+数据库+LW+调试部署环境，文末可获取一份本项目的java源码和数据库参考。开题报告研究背景：随着高校图书馆的规模不断扩大和信息化程度的提高，传统的手工管理方式已经无法满足日益增长的图书馆资源管理需求。图书管理系统的设计与实现成为了解决这一问题的关键。通过引入计算机技术和信息管理系统，可以提高图书馆的管理效率和服务质量，为读者提供更便捷、高效的借阅体验。研究意义：图书管理系统
【最低2万搞定！】10万双枪充电桩平台神级配置：服务器成本直降80%+日志/数据库存储全拆解！慧知开源充电桩平台！！！必看攻略文慧的科技江湖更新日志 -(慧哥)慧知充电桩平台服务器数据库开源直流充电桩充电桩 spring cloud 架构
10万台充电桩设备双枪，需要最小的服务器配置？服务器费用控制2-3万，服务器日志产生多少g,数据库订单数据产生多少g!-慧知开源充电桩平台一、服务器配置方案及逻辑（阿里云）1.需求分析设备规模：10万台双枪充电桩，理论最大并发连接数为20万（每个枪独立通信）。请求类型：心跳包（高频）、充电启停、支付、状态上报等，假设平均每秒请求量约5,000QPS。费用目标：总成本控制在2-3万元/月（按包年包月
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
向量数据库技术系列三-Chroma介绍恰恰虎 chromadb 数据库向量
一、前言Chroma是一个开源的AI原生向量数据库，旨在帮助开发者更加便捷地构建大模型应用，将知识、事实和技能等文档整合进大型语言模型（LLM）中。它提供了简单易用的API，支持存储嵌入及其元数据、嵌入文档和查询、搜索嵌入等功能。主要有以下特点:轻量级：Chroma是一个基于向量检索库实现的轻量级向量数据库，不需要复杂的配置和大规模基础设施支持，非常适合小型或中型项目。易用性：提供简单的API，易
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
MariaDB 和 MySQL 版本关联 java我跟你拼了数据库笔记 mariadb mysql 数据库数据库篇版本关联
MariaDB和MySQL是两个常用的关系型数据库管理系统（RDBMS），它们在很多方面非常相似，因为MariaDB是MySQL的一个分支。MariaDB和MySQL之间的版本关联可以通过以下几个方面来理解：1.历史背景MySQL:MySQL是一个开源的数据库管理系统，由MySQLAB开发，后来被SunMicrosystems收购，再之后被Oracle收购。MariaDB:MariaDB是MySQ
LLM之向量数据库Chroma milvus FAISS maxmaxma 数据库 milvus faiss
以下是Chroma、Milvus和FAISS的核心区别，从功能定位、架构设计、性能及应用场景等维度进行对比：一、功能定位Chroma轻量级向量数据库：专注于快速构建中小型语义搜索原型，提供简单易用的API，适合快速集成到现有应用中。特点：支持近似最近邻搜索（ANN）、实时性能优化，但对大规模数据处理能力有限。Milvus分布式向量数据库：专为超大规模向量数据设计，支持云原生架构和高可用性，适合企业
SpringBoot集成Flink-CDC，实现对数据库数据的监听 rkmhr_sef 面试学习路线阿里巴巴 spring boot flink 数据库
一、什么是CDC？CDC是ChangeDataCapture（变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。二、Flink-CDC是什么？CDCConnectorsforApacheFlink是一组用于ApacheFlink的源连接器，使用变更数据捕获(CDC)从
大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
解决Centos使用yum命令报错“Cannot find a valid baseurl for repo: base/7/x86_64”问题牛奶咖啡13 运维/测试 centos linux 解决Centos仓库源失效 InfluxDB作服务失败问题 [Errno 256]HTTPS Error 404
一、问题描述我们在使用Centos7.9使用【sudoyuminstallinfluxdb2】命令安装influxDB数据库的时候提示“LoadingmirrorspeedsfromcachedhostfileCouldnotretrievemirrorlisthttp://mirrorlist.centos.org/release=7&arch=x86_64&repo=os&infra=stoc
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
layui 复选框赋值前端layui
functioninitCheckBox(name){//从数据库中取出来的以逗号分隔的复选框的值varids="1,2,3";varworkdaysArr=ids.split(",");for(varj=0;j
【赵渝强老师】达梦数据库的数据库对象数据库信创
达梦数据库中包含各种数据库对象，主要分为两大类型：基本数据库对象和复杂数据库对象。下面分别进行介绍。视频讲解如下：https://www.bilibili.com/video/BV1HwffYXEu5/?aid=113888909595...一、基本数据库对象常见的基本数据库对象有：表、索引、视图、序列、同义词等。之所以叫做基本数据库对象是因为这些对象直接使用一条DDL（DataDefinitio
宝塔安装mayfly-go mayans005 数据库
mayfly-go:web版linux(终端文件脚本进程)、数据库(mysqlpgsql)、redis(单机哨兵集群)、mongo统一管理操作平台。1、终端执行命令下载程序包wgethttps://gitee.com/objs/mayfly-go/releases/download/v1.3.0/mayfly-go-linux-amd64.zip2、在宝塔新建一个MySQL数据库，将下载程序包中的
开源项目推荐：Mayfly-go 周风队
开源项目推荐：Mayfly-gomayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-goMayfly-go是一个基于浏览器的统一管理操作平台，它支持多种数据库和系统管理功能。该项目主要使用Go语言和前端框架
推荐项目：Mayfly-Go - 高性能的时间序列数据库齐游菊Rosemary
推荐项目：Mayfly-Go-高性能的时间序列数据库mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目简介是一款由Dromara团队开发的高性能、轻量级时间序列数据库（TimeSeriesData
Mayfly-Go 开源项目教程方蕾嫒Falcon
Mayfly-Go开源项目教程mayfly-goweb版linux(终端文件脚本进程)、数据库(mysqlpgsql高斯达梦)、redis(单机哨兵集群)、mongo统一管理操作平台。项目地址:https://gitcode.com/gh_mirrors/ma/mayfly-go项目介绍Mayfly-Go是一个基于Go语言开发的开源项目，旨在提供一个轻量级、高性能的微服务框架。该项目由Dromar
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数