SAS编程:导入EXCEL时,Proct Import与Libname语句使用注意点

如果在工作中,需要将保存在EXCEL的数据集内容导入到SAS,并进行变量的属性处理,一般会涉及Import过程步。这过程可能会遇到一些导入问题,以下是我梳理的相关内容。

1. EXCEL导入数据集

EXCEL内容导入SAS数据集,常用的方法是Import过程步,为了文件处理方便,我先把EXCEL文件地址设为工作路径。

**Set work space;
%sysexec cd "E:\08_SAS\01_import";

EXCEL文件中,页面如下,第1行为变量Lable,第2行为变量名称,之后就是具体的观测数。

DM

使用Import过程步,进行初步导入。从结果中可以看出,所有的数据都是从字符读入,并且日期格式也是读成了数字。关于日期数字问题,这里不进一步解释,感兴趣的读者可以参考SAS编程:关于EXCEL时间变量导入SAS数据集的问题。

**Import EXCEL;
proc import datafile="test.xlsx"  /*or datafile="E:\08_SAS\01_import\test.xlsx"*/
    out=DM1 dbms=xlsx replace;
    sheet = "DM";
    getnames = no;
run;

DM1

2. 特定EXCEL记录导入数据集

2.1 range = 选项

虽然字符格式后续也方便处理成想要的属性,但是SAS导入的时候也方便自动处理。这里我们可以直接将第2行的信息读取成变量名称,第3行开始读取成SAS记录数。导入的数据集,自动将全部为数字的列转化为数值变量。(关于range=选项,可以参考SAS官方文档SAS Help Center: Microsoft Workbook Files)。

**Import EXCEL 2;
proc import datafile="test.xlsx"
    out=DM2 dbms=xlsx replace;
    range="DM$A2:"n;
    getnames = yes;
run;
DM2
2.2 sheet = 选项能否实现?

处理读入EXCEL记录时,有些读者可能会考虑使用sheet = "DM";datarow = 2以及getnames = yes;进行实现从第2行读入并将第2行读取为变量名称。事实上,这样无法实现想要的效果

虽然,语句sheet = "DM";range="DM$:"n;是等价的,我们可以正常导入sheet页面中所有的信息,但是语句getname =指定IMPORT过程,是否从输入文件第一行的数据值生成SAS变量名。而数据集所需要的变量名称保存在第2行,所以无法用来直接命名。(SAS Help Center: Syntax: PROC IMPORT GETNAMES Statement)

不过,语句datarow = 3可以读取所需要的数据记录。

**Import EXCEL 3;
proc import datafile="test.xlsx"
    out=DM3 dbms=xlsx replace;
    sheet = "DM";
    datarow = 3;
    getnames = yes;
run;
DM3

这一点与Data步中,whereif语句筛选记录的对比关系类似。where语句筛选进入数据集处理的观测记录;而if语句在纳入所有观测记录后,再进行筛选

Import过程步中,语句range="sheet$XX:XX"n筛选好进入SAS数据集的EXCEL记录;而语句datarow = n;,是在进入SAS数据集的记录中,进行筛选

编程中,使用range语句筛选记录,更精准一些。

3. Libname语句使用注意点

在这篇文章中,就不介绍批量设置变量Label的过程。在设置单个数据集属性后,需要批量导入EXCEL Sheet内容。批量处理的关键是,获取所有Sheet的名称。这里可以,通过将EXCEL设置为SAS逻辑库来实现,代码如下。目前,test.xlsx文件中有两个sheet(DM,VS)。

libname tmp excel "test.xlsx";
Library

导入的数据集内容,是sheet中的所有信息。信息保存到逻辑库中,我们就可以通过SAS字典,来获取EXCEL中sheet名称和数目信息,并把这两个信息保存到宏变量&sheetnam&sheetnum中。

关于Proc SQL如何将一整列变量值或一行记录值保存到宏变量,可以参考SAS编程:Proc SQL生成宏变量时INTO子句的使用。

*Get sheet names and sheet num and save them into macro vars;
proc sql noprint;
        create table tmp1 as
            select  distinct scan(memname, 1, "$") as name, count(distinct scan(memname, 1, "$") )  as num
        from dictionary.tables
        where libname = "TMP";

    select  distinct scan(memname, 1, "$"), count(distinct scan(memname, 1, "$") )  into: sheetnam separated by "!" , :sheetnum
        from dictionary.tables
        where libname = "TMP";
quit;
name and num

经过一番整理后,批量处理Sheet的程序基本完善,但是批量使用Import过程步时,会出Error。

proc import datafile="test.xlsx"
    out=DM dbms=xlsx replace;
    sheet = "DM";
    getnames = no;
run;
Error

检查后发现原因:逻辑库在调用EXCEL时,Import过程步无法读取EXCEL信息。这个问题取消逻辑库的分配可以解决。

在日常编程中,如果需要临时使用逻辑库,使用完毕后可以立即释放,避免后续调用出现问题。

libname tmp excel "test.xlsx";

结语

本文介绍了使用Proct Import将EXCEL文件导入SAS数据集时,记录筛选、命名的问题,建议使用range语句筛选记录,避免偏误。对于临时逻辑库,建议使用完毕后立即释放,避免后续调用文本出现问题。

感谢阅读!若有疑问,欢迎评论区交流!

你可能感兴趣的:(SAS编程:导入EXCEL时,Proct Import与Libname语句使用注意点)