SQL(Structured Query Language——结构化查询语言),是用于检索和更新数据的一种标准化语言
SQL在SAS中通过PROC SQL来实现
数据处理 | SAS术语 | SQL术语 |
---|---|---|
文件 file | SAS数据集 SAS data set | 表 table |
记录 record | 观测 observation | 行 row |
字段 field | 变量 variable | 列 column |
PROC SQL ;
statements;
QUIT;
PROC SQL;
CREATE TABLE sas-data-set AS
SELECT variable_1,variable_2,...variable_n
FROM table_1|view_1,table_2|view_2,...table_n|view_n
WHERE expression
GROUP BY variable_1,variable_2,...variable_n
ORDER BY variable_1,variable_2,...variable_n;
QUIT;
功能:检索并显示数据
注意:
一个proc sql过程包括一个或多个SELECT语句。
SELECT语句必须包括SELECT子句和FROM子句。
用逗号分隔多个列。(*表示所有列)
可以指定现有列,也可以创建列。
选项:FEEDBACK
将SELECT子句中指定的列显示在日志中。
关键字:AS,DISTINCT
AS:定义别名。输出的列标题为别名。遵循SAS的命名规则。
DISTINCT:消除重复行。应用于SELECT子句中的所有列。
功能:选择一个或多个源表或视图
注意:多个表用逗号分隔开
按条件筛选和生成新变量:
PROC SQL;
SELECT empid,jobcode,salary,
salary*.66 AS Bonus
FROM sasuser.payrollmaster
WHERE salary<32000
ORDER BY jobcode DESC, salary,4;/*4代表SELECT中的第4个 Bonus变量*/
QUIT;
链接两个表,并使用不同表中的相同名称变量
PROC SQL;
SELECT salcomps.empid,lastname,
newsals.salary,newsalary
FROM sasuser.salcomps,sasuser.newsals
WHERE salcomps.empid=newsals.empid
ORDER BY lastname;
QUIT;
使用group by 生成汇总数据
PROC SQL;
SELECT membertype,
milestraveled AS TotalMiles
FROM sasuser.frequentflyers
GROUP BY membertype;
QUIT;
以上均生成HTML报表,使用一下代码生成数据集
PROC SQL;
CREATE VIEW work.miles AS
SELECT membertype,
SUM(milestraveled) AS TotalMiles
FROM sasuser.frequentflyers
GROUP BY membertype;
QUIT;