用SQL进行多值列拆分成二值列的一个实现

在进行数据分析的时候,往往需要把数据表格中的多值列拆分成二值列。如图1中的表A所示,fruits为一个多值列,值可以是不同的水果名字,表明某个以ID作为标识的人吃水果的记录。现在的需求是要把是否吃了什么具体水果拆成多个列,最终如表B所示。在这个例子中,吃水果的记录还有重复,所以需要把重复的记录去掉。

具体来说,可以将这个任务拆分成多个步骤,由不同的SQL select语句完成。如图2所示。这儿使用的数据库是DB2。

用SQL进行多值列拆分成二值列的一个实现_第1张图片

图1

用SQL进行多值列拆分成二值列的一个实现_第2张图片

图2

1. 拆分列

从表A到A1的过程重点是需要将每一行中的水果名字转化成相应新列的0/1值。

select id, INSTR(fruits, 'apple') as apple, INSTR(fruits, 'banana') as banana
  from A;


2. 去重

可以看到,id为3的记录重复出现了。因此需要用group by去掉重复的。这次的查询是基于上一次的结果,因此我们用with将上一次的查询包含进来。

with q1 as (
  select id, INSTR(fruits, 'apple') as apple, INSTR(fruits, 'banana') as banana
  from A
)
select *
  from q1
  group by id, apple, banana;


3. 整合行

A2中,id为2的记录出现了2次,可以把相应的列的值整合起来。同样用with将第二次的查询包含进来。

with q1 as (
  select id, INSTR(fruits, 'apple') as apple, INSTR(fruits, 'banana') as banana
  from A
), q2 as (
  select *
  from q1
  group by id, apple, banana
)
select id, sum(apple) as apple, sum(banana) as banana
  from q2
  group by id;



你可能感兴趣的:(SQL)