GBase 8a语法格式

GBase 8a 支持通过 SQL 接口进行数据加载。语法:

LOAD DATA INFILE 'file_list' INTO TABLE tbl_name [options]

tbl_name: 
	[database_name.]table_name
options:
[DATA_FORMAT number [HAVING LINES SEPARATOR]]
[NULL_VALUE 'string'] [FIELDS
[TERMINATED BY 'string'] [ENCLOSED BY 'string'] [PRESERVE BLANKS] [AUTOFILL] [{LENGTH|DEFINER} 'string']
[TABLE_FIELDS 'string']
] [LINES
[TERMINATED BY 'string']
]
[MAX_BAD_RECORDS number] [DATETIME FORMAT format]
[DATE FORMAT format] [TIMESTAMP FORMAT format]
[TIME FORMAT format] [TRACE number] [TRACE_PATH 'string'] [PARALLEL number] [SKIP_BAD_FILE number]
[SET col_name = value[,...]]

参数说明:

FILE_LIST:待加载文件列表。支持以本地文件方式和 URL 方式指定数据文件路径,以英文逗号(‘,’)作为多个文件的分隔符。
scheme://[user:password@]host[:port]/path,
scheme://[user:password@]host[:port]/path
OPTIONS:

DATA_FORMAT:用来指定使用哪种方式解析数据文件并加载。指定为 3,表示使用文本方式加载。指定为 4,表示使用定长方式加载。如果某列数据可能包含了行分隔符,则需要在 SQL 中输入’HAVING LINES SEPARATOR’子句。指定为 5,表示使用文本文件宽松模式,即数据源文件为包围符中含有换行符和包围符文本文件,或多列少列文本文件。
NULL_VALUE:用于指定空值字符,支持不超过 15 个任意字符的组合,参数值以引号包围,指定方式与字段包围符一样。

FIELDS 子段:

TERMINATED BY:用于指定字段分隔符,支持不超过 15 个任意字符的组合, 支持任意字符,参数值以单引号包围,仅当使用文本方式加载时有效。可使用字符本身(仅限可见字符,如:“|”)、C 风格转义字符(如:“\a”)、\xhh 十六进制(如:“\xFF”)或 x’‘十六进制(如:"x’09’“)四种方式指定。例如:‘|’,表示用|作为分隔字符。
ENCLOSED BY:用于指定字段包围符,支持任意单字符,参数值以单引号包围,仅当使用文本方式加载时有效。可使用字符本身(仅限可见字符,如:”|“)、
C 风格转义字符(如:”\a")、\xhh 十六进制(如:“\xFF”)或 x’‘十六进制(如:
"x’09’")四种方式指定。

PRESERVE BLANKS:用于设定是否保留字段内容两端的空格,默认不保留空格。
AUTOFILL:用于设定是否启用缺失列自动补齐功能,启用该参数后,对缺失分割符的字段数据按照 default 值或者 NULL 值进行加载,默认不自动补齐。
LENGTH|DEFINER:在使用定长模式加载时,用于设定字段长度的参数。定 长格式数据导入时,设置每个字段的长度,有多个字段时,用逗号分隔。
TABLE_FIELDS:用于指定列加载,对于日期时间类型可以设置每一列的格式。

SET:指定列值加载,加载系统将待加载文件和指定加载列值加载到集群 系统的表中。输入的类型应为常量,包括字符串、整数值、浮点值和 NULL。
1、 支持指定所有列类型加载值;

2、 指定列值为常量值(包括 NULL),包括字符串(单引号包围)、十进制数值(10)、浮点值(10.9)、NULL、16 进制表示的字符串(0xbac3)、科学计数法(10e4);
3、 支持多列同时指定加载值。最多可 SET 表列数-1 ,如果设置的列数与表定义中的列数一致将报错:Specified all fields .
4、 支持 format=3、format=4 以及 format=5; 使用限制说明:
1、 输入除常量值外的其他值,如列名、表达式等会报错,报错信息为Column ‘addr’ should be const value;
2、 指定的列不能存在于 TABLE_FIELDS 中,否则报错;

3、 如果没有指定 AUTOFILL,指定值的列数+数据中列数之和必须等于表定义或者 TABLE_FIELDS (若指定了 TABLE_FIELDS)中的列数,否则会产生错误数据;如果指定了 AUTOFILL,则可以小于表定义的列数,缺少的列会自动补全。如果 TABLE_FIELDS 列数+SET 列数小于表定义的列数,能够正常加载,没有涉及的列按照 default 值补齐;
4、 同一列在 SQL 中不能重复指定,否则报错。

LINES 子段:

TERMINATED BY:行分隔符,支持任意单字符,参数值以引号包围。指定方式与包围符一样。默认行分隔符为’\n’。
MAX_BAD_RECORDS:在每次加载的任务中,设定错误数据行数的上限。当 本次加载任务产生的错误数据行数大于 max_bad_records 设定的值时,加载任务回滚,加载工具报错退出。此参数取值范围为:[0, 4294967295]。此参数为可选参数,默认不限制错误条数。0 表示只要有错误数据就报错退出。
DATE FORMAT:用来指定 date 列类型的默认格式,默认为’%Y-%m-%d’。

DATETIME FORMAT : 用来指定 datetime 列的默认格式, 默认为’%Y-%m-%d %H:%i:%s’。
TIMESTAMP FORMAT : 用来指定 timestamp 列的默认格式, 默认为’%Y-%m-%d %H:%i:%s’。
TIME FORMAT:用来指定 time 列的默认格式,默认为’%H:%i:%s’。

TRACE:用来指示本次加载是否保存错误数据溯源。如果指定为 0,则不溯源。如果指定为 1,则进行溯源。默认值为 1。
溯源信息包括:错误数据所在的文件,所在行号。
TRACE_PATH:用来指定本次加载过程中产生的错误数据和日志存放路径。缺省情况下,错误数 据和溯源日志记 录在加载机节 点的
/opt/gnode/log/gbase/loader_logs 下。
PARALLEL:用来控制加载并行度,取值范围[0,1024]。默认值为 0,表示并行度取值是线程池最大可用线程数。
SKIP_BAD_FILE: 用来指定本次加载任务中是否忽略不存在或没有读取权限的数据文件继续加载。如果指定为 0,则加载报错终止。如果指定为 1,则忽略异常文件继续加载。默认值为 0。

你可能感兴趣的:(GBase,8a,数据库,java,sql,gbase,南大通用)