SAS编程:SQL的数据集操作用法简谈

最近,我在处理数据集操作中,使用SQL语句比较频繁。最直接的原因是,数据集拼接时不需要排序。用得多,自然会遇到不少问题,也查询了不少语法内容。在这里汇总使用注意点,方便自己和读者使用时进行查看。

1. 数据观测去重-DISTINCT

如果需要对所选变量进行去重,可以在SELECT语句中使用DISTINCT关键字。需要注意,DISTINCT的作用是针对SELECT语句中的所有变量,所以一个SELECT语句只需要一个DISTINCT关键字(多个会报语法错误)。错误示范如下:

proc sql noprint;
  create table test1 as
    select distinct sex, distinct name
    from sashelp.class
  ;
quit;
log1

2. 观测的筛选1-Where语句

与Data步类似,SQL可以通过Where语句来选择符合条件的记录。但是,如果条件语句中引用的了新建的变量,会出现语法错误,比如筛选出SASHelp.Class数据集中BMI大于20的人(数据集中身高和体重的单位是英寸、磅,需要转换)。

proc sql noprint;
  create table test2 as
    select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
    from sashelp.class
    where bmi > 20
   ;
quit;
log2

与Data步中相同,Where语句是在处理数据之前进行筛选,也就是在SELECT语句之前起作用,由于原表中没有BMI变量,所以SAS运行会报错。解决方法是,在变量前添加CALCULATED关键字,来表明改变量是新生成的,从而避免报错。

proc sql noprint;
  create table test2 as
    select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
    from sashelp.class
    where calculated bmi > 20
   ;
quit;
Output

3. 观测的筛选2-Having语句

在Data步中,Where语句在处理数据之前进行筛选,if语句在处理数据之后进行筛选。与Data步类似,SQL中也有在数据处理之后进行筛选的语句——Having。在Having语句中,可以直接调用新生成的变量。不过,从运算效率角度考虑,推荐在处理数据之前进行筛选。

proc sql noprint;
  create table test3 as
    select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
    from sashelp.class
    having bmi > 20
   ;
quit;
Output

4. 数据集的拼接

数据集的拼接有两种,竖向拼接和横向拼接。

4.1 竖向拼接

在Data步中,竖向拼接使用set语句。由于竖向拼接不涉及变量的匹配选择,所以set语句使用起来还是简单快捷的。

过程步Append也可以实现竖向拼接,不过,是将一个数据集中的记录追加到主数据集的后面,并且变量仅包含主数据集中的变量。过程步Append日常工作中,用的比较少,具体语法,读者可以参考SAS的官方文档。

SQL中的纵向拼接,使用的是union拼接。union拼接的涉及到的拼接形式不少,但日常工作中的竖向拼接是需要同时保留拼接表的所有变量的,也就是Data步的set语句的作用。这样的拼接,使用的是outer union corr。下面简单用代码演示下,为方便展示,使用inobs=选项选取每个数据集的前5条进行竖向拼接。

proc sql inobs = 5 noprint;
  create table test1 as
    select name, weight from sashelp.class
      outer union corr
    select name, height from sashelp.class
  ;
quit;
Output
4.2 横向拼接

工作中常用的横向拼接有两种,第一种,保留原有数据集的数据,并从其他数据集拼接获取需要的变量;第二种,保留拼接数据集中共同的记录。

以2个数据集拼接为例,这两种横向拼接在Data步中实现并不复杂,只是使用merge语句时,各个数据集必须先按照BY变量排好序。如果操作的数据集数量多起来,这一步就琐碎麻烦了。

以上两种横向拼接方式,在SQL中分别对应left joininner join。代码简单演示:

**Left Join;
proc sql noprint;
  create table test1 as
    select a.*, b.*
    from dt1 as  a
      left join dt2 as b
    on a.var1 = b.var1 and a.var2 = b.var2
  ;
quit;

**Inner Join;
proc sql noprint;
  create table test2 as
    select a.*, b.*
    from dt1 as  a
      inner join dt2 as b
    on a.var1 = b.var1 and a.var2 = b.var2
   ;
quit;

5. 如何保留数据集的第一条\最后一条记录?

先介绍在Data步中如何实现这些功能。常用的方法,借助系统变量_N_,这个变量是记录数据集观测的行数。只要保留_N_ = 1的记录,就实现了保留第一条记录。

data tmp;
  set sashelp.class;
  if _n_ = 1;
run;

另一种方法,通过控制读取数据集的记录数实现。数据集选项firstobs=obs=用于控制读入的起始记录以及结束记录的条数。只要起始和结束记录都是第一条记录,那么就实现了读取第一条记录了。这个数据集选项在调试大数据集内容时,特别实用,比如先读取100条数据,等程序完全Run通,再读入所有数据

data tmp;
  set sashelp.class(obs = 1);
run;

由于我们一般不知道数据集的最后记录数,所以以上两种方法不适合获取数据集的最后一条记录。

Data步中Set语句有两个选项end=nobs=,前者创建一个表明是否是数据集尾行的临时变量,后者创建一个保存数据集记录数的临时变量。临时变量不会再数据集中显示,通过赋值给其他变量可以展示出来。

data tmp;
  set sashelp.class end = a nobs = b;
  aa = a;
  bb = b;
run;
Output

通过Set语句这两个选项,可以实现获取最后一条记录。

**end=;
data tmp;
  set sashelp.class end = a;
  if a;
run;

**nobs=;
data tmp;
  set sashelp.class nobs = b;
  if _n_ = b;
run;

那SQL中如何实现这样的功能呢?SQL中有一个“变量”的功能跟_N_类似,这个变量是monotonic()。这个内容是我在Review公司宏程序发现的,在SAS官方文档中也没有找到具体的解释。

proc sql noprint;
  create table tmp as
    select *, monotonic() as num
    from sashelp.class;
quit;
Output

知晓每一行数据集的行号,就可以通过保留行号的最小值和最大值,来实现首条和尾条记录的保留。

proc sql noprint;
  create table tmp as
    select *, monotonic() as num
    from sashelp.class
    having num = min(num)  or num = max(num)
  ;
quit;
Output

感谢阅读!若有疑问,欢迎评论区交流!

你可能感兴趣的:(SAS编程:SQL的数据集操作用法简谈)