SAS语言的基本单位是语句,多条SAS语句构成一个SAS程序(*.SAS);
Libname mylib "c:\sasdata";
语句通常由一个关键词、SAS名称、特殊字符、运算符等组成;
语句一般以SAS关键词开头,以分号“;”结束;
关键词是SAS系统定义的、有确定含义的符合,一般位于句首,用以说明语句的类型和功能
SAS语句书写规程:
语句可以从某一行的任意位置开始;
一条语句可以写成几行;
一行可以写几条语句;
不区分大小写;
注释语句的两种格式:
/* 注释内容 */
*注释内容;
除数据行外,SAS语句都是以关键词开头。
Run语句表示程序的结束,也可以每个程序后都加一个run。
title '2015 student';
libname mylib 'F:\sasdata';
data mylib.stud;
input id $ name $ gender $ age hometown $;
cards;
201501001 周国兴 男 19 长沙
201501002 李铭 女 18 广西壮族自治区
201502003 彭晓钢 男 19 广州
201502004 胡大伟 男 18 武汉
;;;;
proc print data=mylib.stud;
run;
数据步:
数据步以关键词DATA开始;
通常用于创建SAS数据集,对数据进行处理,如计算、挑选。
数据步的输出可以是多种形式,如SAS数据集或报表,也可以将结果写到 日志窗口或外部文件中
过程步:
过程步以关键词PROC开始;
通常用于分析和处理SAS数据集中的数据,绘制表图,展现数据集的信息等功能。
全程语句:
位于数据步和过程步之外;
如:TITLE语句用于指定标题;OPTION语句用于规定系统运行的一些选项
一个SAS程序就是由0个或若干个数据步、过程步组成;
有时还包括一些全程语句用以贯穿控制整个SAS程序的某些选项、变量或程序运行的环境;
SAS程序结束语句:RUN;
运行程序:单击工具栏“提交”按钮,或单击F8
方式一:直接输入方式
DATA<数据集名>;
INPUT<变量1>[$] <变量1>[$] <变量2>[$] ...<变量k>[$];
[其他数据步语句]
CARDS;
d11 d12 ... d1k
d21 d22 ... d2k
... ...
[;]
RUN;
DATA语句
[格式] 逻辑库名.数据集名;
[功能] 标志数据步的开始,并定义新建数据集的名称
INPUT语句
[功能] 为相应数据定义变量,告知SAS如何读取数据
CARDS语句
[功能] 表面后面是数据行;
cards必须与input配合使用;
在一个data步中只能使用一个cards;
分号单独占用一行
方式二:外部文件读入数据集
DATA <数据集名>;
INFILE '<文件名>';
INPUT <变量名1> <变量名2> ... <变量名k>;
RUN;
INFIILE语句用于从外部文件读入数据,必须出现在INPUT语句之前;
文件名包含盘符和路径;
文件中不包含变量名
data temp2;
infile 'F:\sasdata\stud.txt';
input id $ name $ sex $ age hometown $;
run;
语句格式: INPUT 变量名 输入格式;
功能:
定义变量
读取外部数据文件中的数据,读取CARDS语句后的数据
Input state $ 1-2 amount 4-8;
Input state $ amounnt @@;(行固定标识符))
数据行中的值之间至少用一个空格分开;
丢失值用“.”表示;
在input语句中按数值出现顺序列出变量;
以分号结尾;
字符型变量名的后面跟$符号
功能:
数据集的复制与修改;
拆分数据集;
纵向合并数据集
DATA[<新数据集名1>][<新数据集名2>]....;
SET[<已有数据集名1>][<已有数据集2>]....;
[KEEP <欲保持的变量名列表>;]
[DROP<欲丢弃的变量名列表>;]
[IF <条件>[THEN<语句>];]
RUN;
功能1:数据集的复制和修改
DATA[<新数据集名1>];
SET[<已有数据集名1>];
data class1;
set sashelp.class;
keep name sex age;/*字符变量后不要带$*/
if sex="女";
run;
功能2:拆分数据集
DATA[<新数据集名1>][<新数据集名2>];
SET[<已有数据集名1>];
data boy girl;
set sashelp.class;
if sex=‘M' then output boy;
if sex=‘F' then output girl;
run;
功能3:纵向合并数据集
DATA[<新数据集名1>];
SET[<已有数据集名1>][<已有数据集2>];
横向合并数据集:
用merge语句将两个或多个SAS数据集中的观测横向匹配合并成一个新数据集中的一个观测。
DATA <新数据集名>;
MERGE <已有数据集列表>;
BY <变量1>[<变量2>...];
RUN;
用by语句指定匹配变量,每一个数据集必须按这些匹配变量进行排序。
功能:仅对符合条件的观测值进行处理
格式一: IF <条件或表达式> THEN <语句>; [ELSE <语句>]; 格式二: IF <条件或表达式>;
常用过程步:Print、means、Sort、Format、Contents过程步
常用过程步语句:Var、By、class、output、Where、Label、Format
PROC <过程名>[DATA = <输入数据集>][<选项>];
<过程语句>/<选项>;
<过程语句>/<选项>;
RUN;
VAR语句在很多过程中用来指定分析变量
VAR<变量名1><变量名2>...<变量名n>;
Proc print data=sashelp.class;
Var name age height;
Run;
变量列表给出过程将要分析的数据集中的一些变量;
VAR语句中的变量顺序,也是将来输出结果时的变量顺序;
通常VAR语句是放在过程的开始处。
CLASS语句可用在某些SAS过程中,用来指定一些分类变量,SAS过程按分类的变量的不同值分别进行分析处理
按男女分类统计class数据集中收入weight的均值等统计量:
Proc Means Data=sashelp.class;
Class Sex;
Var weight;
Title "How to use Class statement";
Run;
BY语句在过程中一般用来指定一个或几个分类变量,根据这些分类变量值把观测分组,然后对每一组观测分别进行本过程指定的分析
BY <变量名1><变量名2>...;
LABEL<变量名>='<标签>' <变量名>='<标签>'...;
全程语句与一般语句不同,一般语句必须用在数据步或过程步内,作为数据步或过程步的一部分;
全程语句则既可以用在数据步和过程步内,又可以单独使用(在数据步、过程步外部)
-liibname
-Title
-Footnote
-Options