ALTER TABLE table_name [PARTITION partition_spec] CHANGE [COLUMN] col_old_name col_new_name column_type
[COMMENT col_comment] [FIRST|AFTER column_name] [CASCADE|RESTRICT];
修改Hive表字段的语句如上所示,从中可以看出该语句可以修改表或者分区的字段信息,修改内容包括字段的名称、数据类型、注释信息以及在表中的位置。工作中修改字段的名称、数据类型和注释信息比较常见,而修改字段在表中的顺序基本不会使用。因此,这里只演示字段的名称、数据类型和注释信息修改。
修改字段的语句只是更新元数据信息,而实际数据没有任何变化。
注意最后的可选参数[CASCADE|RESTRICT],默认是RESTRICT,表示修改语句只作用在表上,历史分区的字段信息不会同步更新(新分区的的字段信息和修改后表的字段信息保持一致,历史分区的字段据信息和修改前的表字段信息保持一致)。使用CASCADE会级联修改所有历史分区的字段信息。
在修改字段名这一小节,演示了修改字段名时,加不加CASCADE的区别,修改字段类型和字段备注是同样的道理。在修改字段类型和字段备注时仅以不加CASCADE做演示。
CREATE DATABASE IF NOT EXISTS bi;
CREATE EXTERNAL TABLE IF NOT EXISTS bi.students
(
name STRING COMMENT '姓名'
) COMMENT '学生姓名'
PARTITIONED BY (pt VARCHAR(8) COMMENT '天分区')
;
INSERT OVERWRITE TABLE bi.students
PARTITION (pt = '20240123')
VALUES
('jack')
;
INSERT OVERWRITE TABLE bi.students
PARTITION (pt = '20240124')
VALUES
('rose')
;
SELECT
pt
,name
FROM bi.students
ORDER BY pt
;
DESC bi.students;
6. 查看pt = '20240123’分区字段名,可以看出此时表字段名和分区字段名是一致的。
DESC bi.students PARTITION(pt = '20240123');
ALTER TABLE bi.students CHANGE COLUMN name user_name STRING;
DESC bi.students;
DESC bi.students PARTITION(pt = '20240123');
从上面的查询结果可以看出,不加CASCADE,历史分区字段名不会修改。
8. 往新分区插入数据,并查询新分区字段名
INSERT OVERWRITE TABLE bi.students
PARTITION (pt = '20240125')
VALUES
('mary')
;
DESC bi.students PARTITION(pt = '20240125');
从上面的结果可以看出,新建的分区字段名和修改后的字段名一致。
9. 这里再做一个试验,更新一次历史分区的数据,看历史分区的字段名是否改变
INSERT OVERWRITE TABLE bi.students
PARTITION (pt = '20240123')
VALUES
('jack')
;
DESC bi.students PARTITION(pt = '20240123');
从上的执行结果可以看出,重新插入数据,也不会更新历史分区的字段名。
10. 字段名修改回去,并查询表结构
ALTER TABLE bi.students CHANGE COLUMN user_name name STRING;
DESC bi.students;
ALTER TABLE bi.students CHANGE COLUMN name user_name STRING CASCADE;
DESC bi.students;
DESC bi.students PARTITION(pt = '20240123');
从上面的执行结果可以看出,修改字段名称时,加上CASCADE,可以修改表字段名和历史分区字段名。
12. 添加新分区,并查看字段名
INSERT OVERWRITE TABLE bi.students
PARTITION (pt = '20240126')
VALUES
('dacy')
;
DESC bi.students PARTITION(pt = '20240126');
从上面的查询结果可以看出,新分区的字段名和修改后的字段名一致。
仍以上一小节的表为例。
DESC bi.students;
ALTER TABLE bi.students CHANGE COLUMN user_name user_name VARCHAR(30);
DESC bi.students;
DESC bi.students;
ALTER TABLE bi.students CHANGE COLUMN user_name user_name VARCHAR(30) COMMENT '用户姓名';
DESC bi.students;
工作中修改Hive表字段信息是比较常见的操作,修改语句也比较简单,需要注意是否需要更新历史分区的字段信息。
如果需要修改历史分区的字段信息,可以在修改语句的最后加上CASCADE;还一种解决方法,删除历史分区,重新插入数据。