Azkaban Upload zip

最近在做Azkaban方面的工作,需要了解下Azkaban上传文件的存储机制。下面我们简要分析下Azkaban中的zip文件上传的过程:

Azkaban Upload zip_第1张图片
上传流程

zip文件上传的时候首先缓存到temp文件夹下,然后上传到MySQL中,并更新相关信息。当上成功上传到MySQL后将删除本地缓存文件。
其中上传的相关表代码及过程如下:

Azkaban Upload zip_第2张图片
上传代码

上传包括以下操作:
logger.info("Uploading file to db " + archive.getName());
logger.info("Uploading flow to db " + archive.getName());
logger.info("Changing project versions " + archive.getName());
logger.info("Uploading Job properties");
logger.info("Uploading Props properties");
由此可以看出,Azkaban上传zip的时候主要涉及到以下几个表:

1. project_files

Uploading file to db指的是将zip文件上传到project_files表中,具体操作代码以及流程如下:

Azkaban Upload zip_第3张图片
Uploading file to db

sql语句如下:

"INSERT INTO project_files (project_id, version, chunk, size, file) values (?,?,?,?,?)";

上传过程按照CHUCK_SIZE(默认10M)将zip进行切片,然后上传,本文以一个59M的文件做实验,结果如下,可以看出分成(5*10+9):

Azkaban Upload zip_第4张图片
上传59M文件实例

在project_files中,其存储zip文件的字段为file类型为longblob。

Azkaban Upload zip_第5张图片
表结构

2.project_flows

在project_flows中,插入一条上传的信息:

Azkaban Upload zip_第6张图片
操作project_flows代码

sql语句:

"INSERT INTO project_flows (project_id, version, flow_id, modified_time, encoding_type, json) values (?,?,?,?,?,?)";

查看更新的flow信息:

Azkaban Upload zip_第7张图片
更新flow信息

3.project_versions

当上传新的文件,MySQL会在project_versions中记录本次上传的版本信息。同时,更新其在projects的版本信息。该版本信息记录的是当前执行的project版本,因为用户会上传多个版本,需要一个地方记录project的最新版本号,使得用户能够执行最新的上传版本。不过,用户每次执行flow的时候,只有在第一次才会从MySQL中获得版本信息,后面都是直接从内存的对象中获得版本。

Azkaban Upload zip_第8张图片
更新版本信息

Sql语句:

"UPDATE projects SET version=?,modified_time=?,last_modified_by=? WHERE id=?";

当用户上传一个新的版本时,version自动加1:

版本加1

你可能感兴趣的:(Azkaban Upload zip)