Greenplum的gpload工具使用可读外部表和Greenplum并行文件服务器(gpfdist或者gpfdists)来装载数据。它处理并行的基于文件的外部表设置并且允许用户在一个单一配置文件中配置他们的数据格式、外部表定义以及gpfdist或者gpfdists设置。使用gpload工具,需要编写gpload的控制文件,这个控制文件是一个yaml格式文件,如下图所示:
GreenPlum数据的装载与卸载之gpload的使用_第1张图片
然后执行gpload进行装载操作,如下:
GreenPlum数据的装载与卸载之gpload的使用
控制文件的说明:
1、gpload的控制文件,同级的参数一定要保持一致的缩进;
2、"-"后面一定要有空格,如果":"后面要跟参数值,那么":"后面也一定要有空格;
3、gpload控制文件中也可以写一些SQL语句,如上图中,装载之前(before)truncate表,装载完成后(after)收集表的统计信息;
4、针对gpfdist的参数,也可以在控制文件中指定,比如上述指定了MAX_LINE_LENGTH、port参数。
详细的参数说明如下图所示:
GreenPlum数据的装载与卸载之gpload的使用_第2张图片
参考文献:
1、gpload官方手册。
2、Greenplum中文手册
3、单独安装Greenplum Loaders请参考这篇文章。