hive的collect_set

concat_ws常和collect_set和group by结合起来一起用

collect_set去除重复元素;collect_list不去除重复元素


collect_set(col)函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段

hive中常存在先通过group by对一字段去重后,还需要对另一字段也去重,这时候就需要collect_set()

stu表

ID

course

1

english

2

math

1

english

1

music

select 
ID,
COALESCE(concat_ws(',',collect_set(course)))course_name
FROM stu
Group by ID;    

执行结果为

id

course_name

1

english,music

2

math


你可能感兴趣的:(hive学习)