SAS编程：SQL的数据集操作用法简谈

最近，我在处理数据集操作中，使用SQL语句比较频繁。最直接的原因是，数据集拼接时不需要排序。用得多，自然会遇到不少问题，也查询了不少语法内容。在这里汇总使用注意点，方便自己和读者使用时进行查看。

1. 数据观测去重－DISTINCT

如果需要对所选变量进行去重，可以在SELECT语句中使用DISTINCT关键字。需要注意，DISTINCT的作用是针对SELECT语句中的所有变量，所以一个SELECT语句只需要一个DISTINCT关键字（多个会报语法错误）。错误示范如下：

proc sql noprint;
  create table test1 as
    select distinct sex, distinct name
    from sashelp.class
  ;
quit;

log1

2. 观测的筛选１－Where语句

与Data步类似，SQL可以通过Where语句来选择符合条件的记录。但是，如果条件语句中引用的了新建的变量，会出现语法错误，比如筛选出SASHelp.Class数据集中BMI大于20的人（数据集中身高和体重的单位是英寸、磅，需要转换）。

proc sql noprint;
  create table test2 as
    select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
    from sashelp.class
    where bmi > 20
   ;
quit;

log2

与Data步中相同，Where语句是在处理数据之前进行筛选，也就是在SELECT语句之前起作用，由于原表中没有BMI变量，所以SAS运行会报错。解决方法是，在变量前添加CALCULATED关键字，来表明改变量是新生成的，从而避免报错。

proc sql noprint;
  create table test2 as
    select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
    from sashelp.class
    where calculated bmi > 20
   ;
quit;

Output

3. 观测的筛选２－Having语句

在Data步中，Where语句在处理数据之前进行筛选，if语句在处理数据之后进行筛选。与Data步类似，SQL中也有在数据处理之后进行筛选的语句——Having。在Having语句中，可以直接调用新生成的变量。不过，从运算效率角度考虑，推荐在处理数据之前进行筛选。

proc sql noprint;
  create table test3 as
    select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
    from sashelp.class
    having bmi > 20
   ;
quit;

Output

4. 数据集的拼接

数据集的拼接有两种，竖向拼接和横向拼接。

4.1 竖向拼接

在Data步中，竖向拼接使用set语句。由于竖向拼接不涉及变量的匹配选择，所以set语句使用起来还是简单快捷的。

过程步Append也可以实现竖向拼接，不过，是将一个数据集中的记录追加到主数据集的后面，并且变量仅包含主数据集中的变量。过程步Append日常工作中，用的比较少，具体语法，读者可以参考SAS的官方文档。

SQL中的纵向拼接，使用的是union拼接。union拼接的涉及到的拼接形式不少，但日常工作中的竖向拼接是需要同时保留拼接表的所有变量的，也就是Data步的set语句的作用。这样的拼接，使用的是outer union corr。下面简单用代码演示下，为方便展示，使用inobs=选项选取每个数据集的前５条进行竖向拼接。

proc sql inobs = 5 noprint;
  create table test1 as
    select name, weight from sashelp.class
      outer union corr
    select name, height from sashelp.class
  ;
quit;

Output

4.2 横向拼接

工作中常用的横向拼接有两种，第一种，保留原有数据集的数据，并从其他数据集拼接获取需要的变量；第二种，保留拼接数据集中共同的记录。

以２个数据集拼接为例，这两种横向拼接在Data步中实现并不复杂，只是使用merge语句时，各个数据集必须先按照BY变量排好序。如果操作的数据集数量多起来，这一步就琐碎麻烦了。

以上两种横向拼接方式，在SQL中分别对应left join和inner join。代码简单演示：

**Left Join;
proc sql noprint;
  create table test1 as
    select a.*, b.*
    from dt1 as  a
      left join dt2 as b
    on a.var1 = b.var1 and a.var2 = b.var2
  ;
quit;

**Inner Join;
proc sql noprint;
  create table test2 as
    select a.*, b.*
    from dt1 as  a
      inner join dt2 as b
    on a.var1 = b.var1 and a.var2 = b.var2
   ;
quit;

5. 如何保留数据集的第一条\最后一条记录？

先介绍在Data步中如何实现这些功能。常用的方法，借助系统变量_N_，这个变量是记录数据集观测的行数。只要保留_N_ = 1的记录，就实现了保留第一条记录。

data tmp;
  set sashelp.class;
  if _n_ = 1;
run;

另一种方法，通过控制读取数据集的记录数实现。数据集选项firstobs=、obs=用于控制读入的起始记录以及结束记录的条数。只要起始和结束记录都是第一条记录，那么就实现了读取第一条记录了。这个数据集选项在调试大数据集内容时，特别实用，比如先读取１００条数据，等程序完全Run通，再读入所有数据。

data tmp;
  set sashelp.class(obs = 1);
run;

由于我们一般不知道数据集的最后记录数，所以以上两种方法不适合获取数据集的最后一条记录。

Data步中Set语句有两个选项end=和nobs=，前者创建一个表明是否是数据集尾行的临时变量，后者创建一个保存数据集记录数的临时变量。临时变量不会再数据集中显示，通过赋值给其他变量可以展示出来。

data tmp;
  set sashelp.class end = a nobs = b;
  aa = a;
  bb = b;
run;

Output

通过Set语句这两个选项，可以实现获取最后一条记录。

**end=;
data tmp;
  set sashelp.class end = a;
  if a;
run;

**nobs=;
data tmp;
  set sashelp.class nobs = b;
  if _n_ = b;
run;

那SQL中如何实现这样的功能呢？SQL中有一个“变量”的功能跟_N_类似，这个变量是monotonic()。这个内容是我在Review公司宏程序发现的，在SAS官方文档中也没有找到具体的解释。

proc sql noprint;
  create table tmp as
    select *, monotonic() as num
    from sashelp.class;
quit;

Output

知晓每一行数据集的行号，就可以通过保留行号的最小值和最大值，来实现首条和尾条记录的保留。

proc sql noprint;
  create table tmp as
    select *, monotonic() as num
    from sashelp.class
    having num = min(num)  or num = max(num)
  ;
quit;

Output

感谢阅读！若有疑问，欢迎评论区交流！

SAS编程：SQL的数据集操作用法简谈

1. 数据观测去重－DISTINCT

2. 观测的筛选１－Where语句

3. 观测的筛选２－Having语句

4. 数据集的拼接

4.1 竖向拼接

4.2 横向拼接

5. 如何保留数据集的第一条\最后一条记录？

你可能感兴趣的:(SAS编程：SQL的数据集操作用法简谈)