最近,我在处理数据集操作中,使用SQL语句比较频繁。最直接的原因是,数据集拼接时不需要排序。用得多,自然会遇到不少问题,也查询了不少语法内容。在这里汇总使用注意点,方便自己和读者使用时进行查看。
1. 数据观测去重-DISTINCT
如果需要对所选变量进行去重,可以在SELECT语句中使用DISTINCT
关键字。需要注意,DISTINCT
的作用是针对SELECT语句中的所有变量,所以一个SELECT语句只需要一个DISTINCT
关键字(多个会报语法错误)。错误示范如下:
proc sql noprint;
create table test1 as
select distinct sex, distinct name
from sashelp.class
;
quit;
2. 观测的筛选1-Where语句
与Data步类似,SQL可以通过Where
语句来选择符合条件的记录。但是,如果条件语句中引用的了新建的变量,会出现语法错误,比如筛选出SASHelp.Class数据集中BMI大于20的人(数据集中身高和体重的单位是英寸、磅,需要转换)。
proc sql noprint;
create table test2 as
select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
from sashelp.class
where bmi > 20
;
quit;
与Data步中相同,Where
语句是在处理数据之前进行筛选,也就是在SELECT
语句之前起作用,由于原表中没有BMI变量,所以SAS运行会报错。解决方法是,在变量前添加CALCULATED
关键字,来表明改变量是新生成的,从而避免报错。
proc sql noprint;
create table test2 as
select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
from sashelp.class
where calculated bmi > 20
;
quit;
3. 观测的筛选2-Having语句
在Data步中,Where
语句在处理数据之前进行筛选,if
语句在处理数据之后进行筛选。与Data步类似,SQL中也有在数据处理之后进行筛选的语句——Having
。在Having
语句中,可以直接调用新生成的变量。不过,从运算效率角度考虑,推荐在处理数据之前进行筛选。
proc sql noprint;
create table test3 as
select *, (weight*0.45359237)/(height*0.0254)**2 as bmi
from sashelp.class
having bmi > 20
;
quit;
4. 数据集的拼接
数据集的拼接有两种,竖向拼接和横向拼接。
4.1 竖向拼接
在Data步中,竖向拼接使用set
语句。由于竖向拼接不涉及变量的匹配选择,所以set
语句使用起来还是简单快捷的。
过程步Append也可以实现竖向拼接,不过,是将一个数据集中的记录追加到主数据集的后面,并且变量仅包含主数据集中的变量。过程步Append日常工作中,用的比较少,具体语法,读者可以参考SAS的官方文档。
SQL中的纵向拼接,使用的是union
拼接。union
拼接的涉及到的拼接形式不少,但日常工作中的竖向拼接是需要同时保留拼接表的所有变量的,也就是Data步的set
语句的作用。这样的拼接,使用的是outer union corr
。下面简单用代码演示下,为方便展示,使用inobs=
选项选取每个数据集的前5条进行竖向拼接。
proc sql inobs = 5 noprint;
create table test1 as
select name, weight from sashelp.class
outer union corr
select name, height from sashelp.class
;
quit;
4.2 横向拼接
工作中常用的横向拼接有两种,第一种,保留原有数据集的数据,并从其他数据集拼接获取需要的变量;第二种,保留拼接数据集中共同的记录。
以2个数据集拼接为例,这两种横向拼接在Data步中实现并不复杂,只是使用merge
语句时,各个数据集必须先按照BY变量排好序。如果操作的数据集数量多起来,这一步就琐碎麻烦了。
以上两种横向拼接方式,在SQL中分别对应left join
和inner join
。代码简单演示:
**Left Join;
proc sql noprint;
create table test1 as
select a.*, b.*
from dt1 as a
left join dt2 as b
on a.var1 = b.var1 and a.var2 = b.var2
;
quit;
**Inner Join;
proc sql noprint;
create table test2 as
select a.*, b.*
from dt1 as a
inner join dt2 as b
on a.var1 = b.var1 and a.var2 = b.var2
;
quit;
5. 如何保留数据集的第一条\最后一条记录?
先介绍在Data步中如何实现这些功能。常用的方法,借助系统变量_N_
,这个变量是记录数据集观测的行数。只要保留_N_ = 1
的记录,就实现了保留第一条记录。
data tmp;
set sashelp.class;
if _n_ = 1;
run;
另一种方法,通过控制读取数据集的记录数实现。数据集选项firstobs=
、obs=
用于控制读入的起始记录以及结束记录的条数。只要起始和结束记录都是第一条记录,那么就实现了读取第一条记录了。这个数据集选项在调试大数据集内容时,特别实用,比如先读取100条数据,等程序完全Run通,再读入所有数据。
data tmp;
set sashelp.class(obs = 1);
run;
由于我们一般不知道数据集的最后记录数,所以以上两种方法不适合获取数据集的最后一条记录。
Data步中Set语句有两个选项end=
和nobs=
,前者创建一个表明是否是数据集尾行的临时变量,后者创建一个保存数据集记录数的临时变量。临时变量不会再数据集中显示,通过赋值给其他变量可以展示出来。
data tmp;
set sashelp.class end = a nobs = b;
aa = a;
bb = b;
run;
通过Set语句这两个选项,可以实现获取最后一条记录。
**end=;
data tmp;
set sashelp.class end = a;
if a;
run;
**nobs=;
data tmp;
set sashelp.class nobs = b;
if _n_ = b;
run;
那SQL中如何实现这样的功能呢?SQL中有一个“变量”的功能跟_N_
类似,这个变量是monotonic()
。这个内容是我在Review公司宏程序发现的,在SAS官方文档中也没有找到具体的解释。
proc sql noprint;
create table tmp as
select *, monotonic() as num
from sashelp.class;
quit;
知晓每一行数据集的行号,就可以通过保留行号的最小值和最大值,来实现首条和尾条记录的保留。
proc sql noprint;
create table tmp as
select *, monotonic() as num
from sashelp.class
having num = min(num) or num = max(num)
;
quit;
感谢阅读!若有疑问,欢迎评论区交流!