工作中有时需要将外部文本信息导入SAS数据集中进行处理,例如,将.log文档导入SAS数据集进行判断输出相关issue。这篇文章,介绍2种SAS读入外部文档数据的方法。
第一种方法,通过Fopen
系列函数读入;第二种方法,通过infile
语句读入。两者相比,后者的代码相对简洁,建议使用后者。
以以下路径内容进行演示:
1. Fopen
系列函数
在之前文章中介绍过,通过Fopen
系列函数获取文件的末次修改时间的应用,例如,SAS编程-宏:Source侧与QC侧程序运行时间检查。
关于读入外部数据,主要用到Fread
、Fget
这两个函数。
Fread
函数的作用是,从外部文件中读入一条记录到文件数据缓冲区(Reads a record from an external file into the FileData Buffer (FDB))。成功读入一条记录,函数返回0值;读入失败, 函数返回非0值。一个Fread函语句只能读入一条记录,如果想要读取外部文档的所有记录,需要通过循环进行处理。
Fget
函数作用是,将数据从文件数据缓冲区(FDB)复制到一个变量中(Copies data from the File Data Buffer (FDB) into a variable)。成功复制,函数返回0值;如果没有内容复制,函数返回-1。
在介绍Fread
函数的SAS官方文档的中,就有利用这两个函数读入外部文档的程序举例。只不过示例使用的是宏程序,并将文档内容输出到SAS日志中。(来源:SAS Help Center: FREAD Function)
为方便对文档信息的处理,需将文档内容读入SAS 数据集。以上程序不难在Data 步中实现。
%let filepath = E:\99_Test\Test\test5\Check_date.log;
data tmp;
*Get fileID;
fileres = filename("filepath", "&filepath.");
fileid = fopen("filepath");
length text $200;
do while ( fread(fileid) = 0 );
getres = fget(fileid, text, 200);
output;
end;
run;
以上程序并没有使用Fclose
函数注销“文件ID”,也没有使用filename
函数取消取消文件路径的关联。这样操作对输出结果没有影响,因为程序运行结束后,关联会自动移除、释放。
其实,以上代码也无法使用这两个函数,因为这两个函数在Data步骤只能以赋值语句的形式存在。由于Do while代码块中有Output语句,循环结束后赋值语句是失效的,所以无法实现。.
不过,如果通过Do Until
语句实现循环,则可以在循环内部进行处理“释放”相关内容。最后一次循环记录不会读入外部文档记录,可以直接删除。
%let filepath = E:\99_Test\Test\test5\Check_date.log;
data tmp;
*Get fileID;
fileres = filename("filepath", "&filepath.");
fileid = fopen("filepath");
*Read records;
length text $200;
readres = 0;
do until ( readres ne 0 );
getres = fget(fileid, text, 200);
readres = fread(fileid);
if readres ne 0 then do;
clores = fclose(fileid);
defile = filename("filepath", " ");
delete;
end;
output;
end;
run;
输出结果如下:
2. infile
语句
infile
语句的作用是,指定要用INPUT语句读入的外部文件(Specifies an external file to read with an INPUT statement)。
infile
语句不像Fread系列函数那样需要2步读入,可以直接读入外部文档,简洁高效许多。
示例代码如下:
%let filepath = E:\99_Test\Test\test5\Check_date.log;
data tmp2;
filepath = "&.filepath.";
infile dummy filevar = filepath end = lastrec truncover;
do while(not lastrec);
input text $200;
output;
end;
run;
filevar =
选项指定保存外部文档地址的变量,变量可以包含多个文件地址,input
语句会一次进行读入。
如果读入的记录不足input
语句设定的长度时,infile语句会默认接着读取下一条记录。truncover
选项使得读入记录长度小于input
语句设定长度时,会另开一行读取下一条记录。
就不详细介绍其他选项的含义了,具体参考SAS官方文档SAS Help Center: INFILE Statement。
读入结果如下,与前面结果一致。
总结
文章介绍了2种读入外部文档的方法,推荐使用infile
语句,简洁高效。
感谢阅读, 欢迎关注!
若有疑问,欢迎评论交流!