SQL Server2012 T-SQL基础教程--读书笔记(5-7章)
示例数据库:点我
- Chapter 05 表表达式
- 5.1 派生表
- 5.1.1 分配列别名
- 5.1.2 使用参数
- 5.1.3 嵌套
- 5.1.4 多个引用
- 5.2 公用表表达式
- 5.2.1 分别列别名
- 5.2.2 使用参数
- 5.2.3 定义多个CTE
- 5.2.4 CTE的多次引用
- 5.2.5 递归CTE
- 5.3 视图
- 5.3.1 视图和ORDER BY 子句
- 5.3.2 视图选项
- 5.4 内嵌表值函数(TVF)
- 5.5 APPLY 运算符
- 练习
- CHAPTER 06 集合运算符
- 6.1 UNION运算符(并集)
- 6.2 INTERSECT运算符(交集)
- 6.3 EXCEPT 运算符(差集)
- 6.4 优先级
- 6.5 规避不支持的逻辑阶段
- 练习
- CHAPTER 07 查询
- 7.1 开窗函数
- 7.1.1 排名开窗函数
- 7.1.2 偏移开窗函数
- 7.1.3 聚合开窗函数
- 7.2 透视数据
- 7.2.1 使用标准SQL透视
- 7.2.2 使用T-SQL PIVOT运算符透视
- 7.3 逆透视数据
- 7.3.1 使用标准SQL实现逆透视
- 7.3.2 使用T-SQL UNPIVOT实现逆透视
- 7.4 分组表
- 7.4.1 GROUPING SETS 从属子句(GROUP BY)
- 7.4.2 CUBE从属子句(GROUP BY)
- 7.4.3 ROLLUP从属子句(GROUP BY)
- 7.4.4 GROUPING 和 GROUPING_ID 函数
- 练习
Chapter 05 表表达式
表表达式(Table Expression)是一个命名的查询表达式,代表一个有效的关系表。表表达式没有任何的物理实例化,在查询表表达式时它们是虚拟的,内部查询是非嵌套的。即外部查询和内部查询直接合并到一个对底层对象的查询中。
5.1 派生表
派生表(也称子查询表)是在外部查询的FROM 子句中定义的,它们存在的范围是外部查询。一旦外部查询完成后,派生表就消失了。
- 1
- 2SELECT * FROM (SELECT * FROM Sales.Customers WHERE country = 'USA') AS USACusts
有效定义的表表达式的查询必须满足3个要求:
-
无法保证顺序。标准SQL是不允许 ORDER BY 子句出现在定义的表表达式查询中的,除非 ORDER BY 用于展示之外的其他目的。如:使用 OFFSET-FETCH 或 TOP 筛选。
-
所有列必须具有名称。必须为所有列分配列别名。
-
所有列名必须是唯一的。
5.1.1 分配列别名
- 1
- 2SELECT * FROM (SELECT YEAR(orderdate) AS orderyear,custid FROM Sales.Orders) AS D
- 3
- 4SELECT * FROM (SELECT YEAR(orderdate),custid FROM Sales.Orders) AS D(orderyear, custid)
通常建议使用内嵌别名形式,这样调试代码时可以直接选定定义表表达式来直接运行,在结果中就可以直观的别名显示出来。如果不打算再进行任何进一步的修改的话,并且希望将其看作一个“黑匣子”时使用外部形式分配列别名更好点。
5.1.2 使用参数
5.1.3 嵌套
5.1.4 多个引用
5.2 公用表表达式
公用表表达式(CTE)是表表达式的另一种标准形式,与派生表非常相似。
语法:
- 1;WITH CTE_NAME AS ( inner_query ) outer_query
注意,T-SQL中的 WITH 子句可以用于不同的目的,为避免报错,建议在使用CTE时,要在 WITH 前加分别(;)
5.2.1 分别列别名
CTE中也是有两种方式分配列别名
- 1
- 2;WITH CTE_NAME(col1,col2) AS( inner_query ) outer_query
5.2.2 使用参数
5.2.3 定义多个CTE
- 1;WITH c1 AS (SELECT YEAR(orderdate) AS orderyear FROM Sales.Orders)
- 2,c2 AS ( SELECT count(*) total FROM c1 )
- 3SELECT * FROM c2
5.2.4 CTE的多次引用
就外部查询的 FROM 子句而言, CTE在其之前已经存在了,因此可以对同一个CTE进行多次引用。
5.2.5 递归CTE
递归CTE至少由两个查询定义,至少一个查询作为定位点成员,一个查询作为递归成员。基本递归CTE的一般形式如下:
- 1;WITH <CTE_name>[<targe_column_list>]
- 2AS
- 3(
- 4 <anchor_member>
- 5 UNION ALL
- 6 <recursive_member>
- 7)
- 8<outer_query_against_CTE>
定位点成员是一个返回有效关系结果表的查询,就像一个用于定义非递归表表达式的查询。定点成员查询仅调用一次。
递归成员是一个引用CTE名称的查询。递归成员多次调用,直到它返回一个空集合或超过某些限制为止。
在外部查询中引用CTE名称代表的是定位点成员调用和所有递归成员调用的组合结果集。
- 1
- 2
- 3;WITH EmpsCTE AS
- 4(
- 5
- 6 SELECT empid, mgrid, firstname, lastname
- 7 FROM HR.Employees
- 8 WHERE empid = 2
- 9 UNION ALL
- 10
- 11 SELECT e.empid, e.mgrid, e.firstname, e.lastname
- 12 FROM EmpsCTE p
- 13 INNER JOIN HR.Employees AS e ON p.empid = e.mgrid
- 14)
- 15SELECT * FROM EmpsCTE
递归成员联接CTE代表的是上一个结果集。 然后从 Employees 表检索由上一个结果集中返回的直接下属。
在出现递归成员的联接谓词逻辑错误或是数据的循环结果错误,递归成员可能会调用无数次。作为一项安全措施,SQL SERVER默认情况下限制递归成员可以被调用的次数为100。可以在外部查询的尾部指定 OPTION(MAXRECURSION n) 提示来更改默认的最大递归限制,n范围为0-32767。
5.3 视图
表表达式的范围只是在单查询语句之中,视图 和 内嵌表值函数(内嵌TVF) 是两种可重复使用的表表达式类型,其定义被存储为数据库对象。只有在显式删除它们时才从数据库中移除掉。
语法:
- 1IF OBJECT_ID('Sales.USACusts') IS NOT NULL
- 2 DROP VIEW Sales.USACusts
- 3GO
- 4CREATE VIEW Sales.USACusts
- 5 AS
- 6SELECT custid,companyname ROM Sales.Customers WHERE country = 'USA'
- 7
- 8SELECT * FROM Sales.USACusts
注意,不建议使用 SELECT *,因为当TABLE的添加或删除列时,VIEW 的元数据并不会跟着改变,可以使用 sp_refreshview 或 sp_refreshsqlmodule 来刷新 VIEW 的元数据,但是为了避免混淆,最好是通过 ALTER VIEW 来进行显式的添加或删除 TABLE 对应的列。
5.3.1 视图和ORDER BY 子句
用于展示的 ORDER BY 子句不允许出现在定义表表达式的查询中,因为关系表的行之间没有顺序可言。试图创建一个有序的VIEW是荒谬的,因为违反了关系模型定义的基本特性。
当然你可以通过 TOP(100) 和 OFFSET 0 ROWS 与 ORDER BY 子句来创建VIEW。当查询VIEW时得到的结果可能会是有序的,但是这个结果是不确定的,这种情况是数据库优化造成的。所以,不要混淆用于定义表表达式和非定义表表达式查询的行为。
5.3.2 视图选项
当创建或更改视图时,可以指定作为视图定义一部分的视图属性和选项。在视图的头部,在 WITH 子句下面可以指定如ENCRYPTION和SCHEMABINDING属性,可以在查询的尾部指定WITH CHECK OPTION。
1.ENCRYPTION选项
ENCRYPTION 可用于创建或更改 VIEW、Stored Procedure、Trigger 或 用户定义函数(UDF user define function) 时。ENCRYPTION选项指示SQL SERVER在内部以代码混淆方式存储对象定义文本。
- 1
- 2SELECT OBJECT_DEFINITION(OBJECT_ID('Sales.USACusts'))
- 3
- 4
- 5CREATE VIEW Sales.USACusts WITH ENCRYPTION
- 6AS
- 7SELECT * FROM Sales.Customers
- 8
- 9
- 10
- 11
- 12EXECUTE sys.sp_helptext 'Sales.USACusts'
2.SCHEMABINDING
可对VIEW和UDF使用,它将被引用对象的架构和列绑定到引用对象的架构中。它指示不能删除被引用对象,也不能删除或修改被引用的列。
- 1CREATE VIEW Sales.USACusts WITH SCHEMABINDING
- 2AS
- 3SELECT custid,companyname FROM Sales.Customers WHERE country = 'USA'
- 4
- 5
- 6
- 7ALTER TABLE Sales.Customers DROP COLUMN companyname
如果使用SCHEMABINDING选项,可以避免被引用对象或列的改变或删除导致的运行时错误,其实有点像外键约束一样。
注意,使用SCHEMABINDING选项时SELECT语句不能使用星号(*)查询,否则报错。Procedure USACusts. Syntax '*' is not allowed in schema-bound objects. SQL.sql 12 8
此外,在引用对象时,必须使用架构限定的两部分名称。
3.CHECK OPTION选项
使用此选项的目的是防止出现视图修改与视图筛选的冲突。假如定义了一个视图 USACusts,用于筛选国家为'USA'的客户,而没有使用CHECK OPTION选项,那么其它国家的客户也是可以成功插入到此视图中。如果你想防止出现此种冲突,那么可以在定义视图查询的尾部添加WITH CHECK OPTION来实现。这与检查约束类似。
- 1CREATE VIEW Sales.USACusts WITH SCHEMABINDING
- 2AS
- 3SELECT custid,companyname,country FROM Sales.Customers WHERE country = 'USA'
- 4WITH CHECK OPTION
- 5
- 6
- 7
- 8INSERT INTO Sales.USACusts VALUES (32,'Customer TEST','UK')
5.4 内嵌表值函数(TVF)
内嵌TVF(Table-valued Functions) 是支持输入参数的可重复使用的表表达式。除了支持输入参数之外,其他方面基本与视图类似。可以看作是参数化视图
语法:
- 1
- 2CREATE FUNCTION dbo.GetCustOrders
- 3 (@cid AS INT) RETURNS TABLE
- 4AS
- 5RETURN
- 6 SELECT *
- 7 FROM Sales.Orders
- 8 WHERE custid = @cid
- 9
- 10
- 11 SELECT c.* FROM dbo.GetCustOrders(1) AS c
5.5 APPLY 运算符
APPLY 运算符支持 CROSS APPLY 和 OUTER APPLY,前者仅实施一个逻辑查询处理阶段,而后者实施了两个阶段。
注:标准SQL叫做LATERAL,APPLY不是标准SQL
。
APLLY运算符对两个输入表进行操作,第二个表可以是一个表表达式(通常为派生表
或内联TVF
)。 CROSS APPLY 运算符的逻辑查询处理阶段是:它将右侧的表表达式
应用到左侧表的每一行,并生成一个组合结果集的结果表。与交叉联接非常类似。
- 1SELECT s.shipperid,e.empid
- 2FROM Sales.Shippers s
- 3 CROSS JOIN HR.Employees e
- 4
- 5SELECT s.shipperid,e.empid
- 6FROM Sales.Shippers s
- 7 CROSS APPLY HR.Employees e
以上两个SQL语句运行的结果是一致的。但是,CROSS APPLY 运算符右侧的表表达式
可以对来自左侧表的每一行表示一个不同的行集,这是与联接不同的。可以在右侧表(派生表或内嵌TVF)中引用(传递)左侧表的属性。
- 1
- 2SELECT c.custid, A.orderid, A.orderdate
- 3FROM Sales.Customers c
- 4 CROSS APPLY
- 5 ( SELECT TOP 3 o.orderid, o.empid, o.orderdate, o.requireddate
- 6 FROM Sales.Orders o
- 7 WHERE o.custid = c.custid
- 8 ORDER BY o.orderdate DESC, o.orderid DESC) A
可以将表表达式A看作是一个相关子查询。
CROSS APPLY 运算符类似于内联接,若右侧表中没有对应的结果,则左侧的行也不会返回。如果想返回左侧的行,则可使用 OUTER APPLY 。
出于封装的目的,可以使用内嵌TVF代替派生表,这样代码更容易维护和跟踪,可读性更高。
- 1
- 2CREATE FUNCTION TopOrders
- 3 (@cid INT, @n INT) RETURNS TABLE
- 4AS
- 5RETURN
- 6 SELECT TOP (@n) orderid, empid, orderdate, requireddate
- 7 FROM Sales.Orders
- 8 WHERE custid = @cid
- 9 ORDER BY orderdate DESC, orderid DESC
- 10
- 11
- 12SELECT c.custid, A.orderid, A.orderdate
- 13FROM Sales.Customers c
- 14 OUTER APPLY dbo.TopOrders(c.custid, 3) A
运行结果:
练习
- 1
- 2SELECT empid, MAX(orderdate) AS maxorderdate
- 3FROM Sales.Orders
- 4GROUP BY empid
- 5
- 6SELECT o1.empid, o1.orderdate, o1.orderid, o1.custid
- 7FROM Sales.Orders o1
- 8INNER JOIN (
- 9 SELECT empid, MAX(orderdate) AS maxorderdate
- 10 FROM Sales.Orders
- 11 GROUP BY empid ) AS o2
- 12ON o1.empid = o2.empid AND o1.orderdate = o2.maxorderdate
- 13
- 14
- 15SELECT ROW_NUMBER() OVER (ORDER BY orderdate, orderid) AS rownum
- 16 ,orderid, orderdate, custid, empid
- 17FROM Sales.Orders
- 18
- 19;WITH fetchOrdersCTE AS
- 20(
- 21 SELECT ROW_NUMBER() OVER (ORDER BY orderdate, orderid) AS rownum
- 22 ,orderid, orderdate, custid, empid
- 23 FROM Sales.Orders
- 24)
- 25SELECT *
- 26FROM fetchOrdersCTE
- 27ORDER BY 1
- 28OFFSET 10 ROWS FETCH NEXT 10 ROWS ONLY
- 29
- 30
- 31;WITH empsCTE AS
- 32(
- 33
- 34 SELECT empid,mgrid,lastname,firstname FROM HR.Employees
- 35 WHERE firstname = 'zoya'
- 36 UNION ALL
- 37
- 38 SELECT e.empid,e.mgrid,e.lastname, e.firstname
- 39 FROM HR.Employees e
- 40 INNER JOIN empsCTE cte ON e.empid = cte.mgrid
- 41)
- 42SELECT * FROM empsCTE
- 43
- 44
- 45CREATE VIEW Sales.VEmpOrders
- 46AS
- 47SELECT o.empid, YEAR(o.orderdate) AS orderyear, SUM(od.qty) AS qty
- 48FROM Sales.Orders o
- 49 INNER JOIN Sales.OrderDetails od ON o.orderid = od.orderid
- 50GROUP BY o.empid, YEAR(O.orderdate)
- 51SELECT * FROM Sales.VEmpOrders ORDER BY 1, 2
- 52
- 53
- 54SELECT * ,(SELECT SUM(qty) FROM Sales.VempOrders v2 WHERE v2.orderyear <= v1.orderyear AND v2.empid = v1.empid) as runqty
- 55FROM Sales.VEmpOrders v1
- 56GROUP BY empid, orderyear,qty
- 57ORDER BY 1,2
- 58
- 59
- 60
- 61
- 62CREATE FUNCTION Production.TopProducts
- 63 (@supid INT, @n INT) RETURNS TABLE
- 64AS
- 65RETURN
- 66 SELECT TOP (@n) productid, productname, unitprice #
- 67 FROM Production.Products
- 68 WHERE supplierid = @supid
- 69 ORDER BY unitprice
- 70
- 71SELECT * FROM Production.TopProducts(5,2)
- 72
- 73
- 74SELECT s.supplierid, s.companyname, t.productid, t.productname, t.unitprice
- 75FROM Production.Suppliers s
- 76 CROSS APPLY Production.TopProducts(s.supplierid,2) t
3. 5.2
CHAPTER 06 集合运算符
集合运算符是应用于两个输入集合之间的运算符,或者说是“多元集合(multisets)”,其结果来自于两个输入查询。
T-SQL 支持UNITON、INTERSECT、EXCEPT 集合运算符。ORDER BY可以随意应用于运算符的结果中。
集合运算符涉及的两个查询必须具有相同的列数,而且对应的类型必须兼容(数据类型可以根据优先级转换) 。列名(类型)由第一个查询来确定。
标准的SQL对每个运算符支持两种行为:DISTINCT(默认)和ALL,即不加ALL的查询语句默认都是去重的
集合运算符中认为两个NULL 值是相等的。
6.1 UNION运算符(并集)
如果后面有ALL则两个查询结果的重复项都会返回到最终的结果中去。
如何确定使用哪种情况?当需要使用重复的数据时就使用ALL了,当然如果确定不会有重复的数据时,建议使用UNION ALL,这样避免数据库检查重复项所导致的开销。
6.2 INTERSECT运算符(交集)
仅返回两个查询结果中同时出现的行。 INTERSECT 运算符可以使用内部联接(INNER JOIN)和 EXISTS 谓词来替代。在这两种情况下,两个查询中的 NULL 标记的比较的结果是 UNKONW ,所以带有 NULL 的行被过滤掉。所以如果有 NULL 标记时就需要注意了。
在标准SQL中是支持 INTERSECT ALL 这个运算行为的,但是在SQL SERVER 2012中尚未实现。INTERSECT ALL 即是说R行数据在第一个查询集合中出现x次,在第二个中出现的次数为y次,则最终返回的结果应该是min(x,y)次。我们可以通过 ROW_NUMBER 函数生成每个查询生成的次数,在 PARTITION BY 子句指定所有参与的属性,并在 ORDER BY 子句中使用 SELECT <CONSTANT> 指示顺序(其实排序序在这里没有什么卵用,SQL SERVER 会进行识别优化,不会进行相应的排序,所以也不会造成相关开销)。
- 1
- 2SELECT ROW_NUMBER() OVER (PARTITION BY country, region, city ORDER BY (SELECT 0)) AS rownum
- 3 ,country, region, city
- 4FROM HR.Employees
- 5INTERSECT
- 6SELECT ROW_NUMBER() OVER (PARTITION BY country, region, city ORDER BY (SELECT 0)) AS rownum
- 7 ,country, region, city
- 8FROM Sales.Customers
6.3 EXCEPT 运算符(差集)
返回第一个查询集合中没有出现在第二个查询集合中的结果行。
EXCEPT 集合运算符在逻辑上首先消除两个查询集合中的重复行,再进行差值运算。可以使用仅筛选外部行的外联接和NOT EXISTS 谓词来替代 EXCEPT(有NULL标记时就要注意了)。
EXCEPT ALL的定义:R行在第一个查询集合中出现x次,在第二个出现y次,并且x>y,则R在 EXCEPT ALL 后出现x-y次。T-SQL也没有实现这一功能,这个也可以通过ROW_NUMBER来实现。
- 1SELECT ROW_NUMBER() OVER (PARTITION BY country, region,city ORDER BY (SELECT 0)) AS rownum
- 2 ,country, region, city
- 3FROM HR.Employees
- 4EXCEPT
- 5SELECT ROW_NUMBER() OVER (PARTITION BY country, region,city ORDER BY (SELECT 0)) AS rownum
- 6 ,country, region, city
- 7FROM Sales.Customers
6.4 优先级
集合运算符的优先级是: INTERSECT > UNION = EXCEPT,但使用括号能够使得代码阅读性更佳。
6.5 规避不支持的逻辑阶段
用于集合运算符输入的独立查询支持除 ORDER BY 之外的所有逻辑查询处理阶段(如表运算符,WHERE, GROUP BY, HAVING)。但是,仅有 ORDER BY 阶段允许用于运算符的结果,如果需要其他逻辑运算可以通过表表达式绕过此限制。定义一个基于使用集合运算符的查询的表表达式,可以在对表表达式的外部查询中应用任何所需的逻辑查询处理阶段。
- 1
- 2
- 3
- 4SELECT u.country, COUNT(*) AS toatl
- 5FROM (
- 6 SELECT country, region, city FROM HR.Employees
- 7 UNION
- 8 SELECT country, region, city FROM Sales.Customers
- 9) u
- 10GROUP BY u.country
- 11
- 12
- 13
- 14
- 15SELECT *
- 16FROM (
- 17 SELECT empid,orderid,orderdate
- 18 FROM Sales.Orders
- 19 WHERE empid = 5
- 20 ORDER BY orderdate DESC, orderid DESC
- 21 OFFSET 0 ROWS FETCH FIRST 2 ROWS ONLY
- 22) o1
- 23UNION ALL
- 24SELECT * FROM(
- 25 SELECT empid,orderid,orderdate
- 26 FROM Sales.Orders
- 27 WHERE empid = 3
- 28 ORDER BY orderdate DESC, orderid DESC
- 29 OFFSET 0 ROWS FETCH FIRST 2 ROWS ONLY
- 30) o2
练习
- 1
- 2
- 3SELECT o.custid, o.empid
- 4FROM Sales.Orders o
- 5WHERE o.orderdate >= '20080101' AND o.orderdate < '20080201'
- 6EXCEPT
- 7SELECT o.custid, o.empid
- 8FROM Sales.Orders o
- 9WHERE o.orderdate >= '20080201' AND o.orderdate < '20080301'
- 10
- 11
- 12SELECT o.custid, o.empid
- 13FROM Sales.Orders o
- 14WHERE o.orderdate >= '20080101' AND o.orderdate < '20080201'
- 15INTERSECT
- 16SELECT o.custid, o.empid
- 17FROM Sales.Orders o
- 18WHERE o.orderdate >= '20080201' AND o.orderdate < '20080301'
- 19
- 20
- 21(
- 22SELECT o.custid, o.empid
- 23FROM Sales.Orders o
- 24WHERE o.orderdate >= '20080101' AND o.orderdate < '20080201'
- 25INTERSECT
- 26SELECT o.custid, o.empid
- 27FROM Sales.Orders o
- 28WHERE o.orderdate >= '20080201' AND o.orderdate < '20080301'
- 29)
- 30EXCEPT
- 31SELECT custid, orderid
- 32FROM Sales.Orders
- 33WHERE orderdate >= '20070101' AND orderdate < '20080101'
- 34
- 35
- 36SELECT country, region, city, 1 AS sortNum
- 37FROM HR.Employees
- 38UNION ALL
- 39SELECT country, region, city, 1 AS sortNum
- 40FROM Production.Suppliers
- 41
- 42WITH tmpCTE AS
- 43(
- 44SELECT country, region, city, 1 AS sortNum
- 45FROM HR.Employees
- 46UNION ALL
- 47SELECT country, region, city, 0 AS sortNum
- 48FROM Production.Suppliers
- 49)
- 50SELECT country, region, city
- 51FROM tmpCTE
- 52ORDER BY sortNum DESC,country, region, city
5.
CHAPTER 07 查询
7.1 开窗函数
开窗函数对基础函数行子集的计算,为子集中的每行计算一个标题结果值。行子集被称为“窗口”,它是基于与当前行相关的窗口描述符。开窗函数使用 OVER 子句指定窗口的规范。
- 1
- 2SELECT empid, ordermonth, val
- 3 ,SUM(val) OVER(PARTITION BY empid ORDER BY ordermonth ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS runVal
- 4FROM Sales.EmpOrders
在 OVER 子句中指定的窗口规范有3个主要部分:分区(PARTITION BY)、排序(ORDER BY)和框架。
PARTITION BY 子句限定窗口为来自基础查询结果集合的行子集,共享分区列中相同值的行作为当前行。在些示例中,窗口以 empid 分区。
ORDER BY 子句定义窗口中的行排序,窗口排序是针对 窗口框架的。
框架子句(ROWS BETWEEN <top delimiter> AND <bottom delimmiter>)筛选一个框架或一个子集。
7.1.1 排名开窗函数
开窗函数允许以多种不同的方式对行进行排序。SQL SERVER 支持4种排名函数:ROW_NUMBER、RANK、DENSE_RANK和NTILE。
- 1SELECT
- 2 ROW_NUMBER() OVER ( ORDER BY val) AS rowNumber
- 3 ,RANK() OVER ( ORDER BY val) AS rank
- 4 ,DENSE_RANK() OVER ( ORDER BY val) AS denseRank
- 5 ,NTILE(100) OVER ( ORDER BY val) AS ntile
- 6 ,orderid,custid,val
- 7FROM Sales.OrderValues
使用分区子句(PARTITION BY)
- 1SELECT orderid,custid,val
- 2 ,ROW_NUMBER() OVER (PARTITION BY custid ORDER BY val) AS rowNumber
- 3FROM Sales.OrderValues
- 4ORDER BY 2,3
窗口排序不是用于展示的,并且不会改变结果的关系的本质。如果需要保证展示排序,则必须添加一个展示用的 ORDER BY 子句。
如CHAPTER 02 所示, SELECT 的开窗函数的计算是在 DISTINCT 子句之前的。在以上的OrderValues的830行中有795行是不重复的,如果需要直接使用 DISTINCT 和 ROW_NUMBER,则不可能去掉重复项,因为ROW_NUMBER函数是在 DISTINCT之前处理的,所以可以考虑在 GROUP BY 阶段进行去重处理。
- 1
- 2SELECT val
- 3 ,ROW_NUMBER() OVER (ORDER BY val) AS rowNumber
- 4FROM Sales.OrderValues
- 5
- 6
- 7SELECT val
- 8 ,ROW_NUMBER() OVER (ORDER BY val) AS rowNumber
- 9FROM Sales.OrderValues
- 10GROUP BY val
- 11
- 12SELECT DISTINCT val
- 13 ,DENSE_RANK() OVER (ORDER BY val) AS rowNumber
- 14FROM Sales.OrderValues
- 15ORDER BY 1
-
2.
以上SQL中,GROUP BY 阶段为795个唯一值生成了795个组,然后 SELECT 为每个 val 组生成唯一行和基于 val 排序的行号。
更多详情请看这里
7.1.2 偏移开窗函数
偏移开窗函数允许从当前行的某个偏移量或者一个窗口框架的开关或结尾的行返回一个元素。SQL SERVER 212 支持4个偏移函数:LAG和LEAD、FRISRT_VALUE和LAST_VALUE。
LAG(英文指:后移) 和LEAD(英文指:前移) 函数支持窗口分区和窗口排序子句,这些与窗口框架没有相关性。允许基于指定排序,从分区内当前行的某个偏移量行获得一个元素。LAG 函数是在当前行之前查找,LEAD 则是之后查找。函数第1个
参数是要返回的元素,第2个
参数是偏移量(可选,默认为1),第3个
参数是在请求的偏移量没有行返回的情况下的默认值(如果没指定,则为NULL)
- 1
- 2
- 3
- 4SELECT custid, orderid, val
- 5 , LAG(val) OVER(PARTITION BY custid ORDER BY orderdate, orderid) AS preVal
- 6 , LEAD(val) OVER(PARTITION BY custid ORDER BY orderdate, orderid) AS nextVal
- 7FROM Sales.OrderValues
FIRST_VALUE和LAST_VALUE 函数分别允许从窗口框架的第一行和最后一行返回元素。返回第一行使用的窗口框架应为:ROWS BETWWEEN UNBOUNDED PRECEDING AND CURRENT ROW
的 FIRST_VALUE,返回最后一行为:ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING
的 LAST_VALUE。
- 1SELECT custid, orderid, val
- 2 ,FIRST_VALUE(val) OVER(PARTITION BY custid ORDER BY orderdate, orderid ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS firstVal
- 3 ,LAST_VALUE(val) OVER(PARTITION BY custid ORDER BY orderdate, orderid ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) AS lastVal
- 4FROM Sales.OrderValues
- 5ORDER BY custid, orderdate, orderid
7.1.3 聚合开窗函数
在SQL SERVER 2012之前,窗口聚合函数仅支持窗口分区子句。在这版本之后,T-SQL支持窗口排序和框架子句。
使用OVER
子句会为函数公开一个基于查询结果集合所有行的窗口。SUM(val) OVER()
会返回所有值的总值。如果添加了窗口分区子句,那么就会为函数公开一个限定窗口,只有那些基础查询结果集合中共享分区元素中相同的值的行作为当前行。举例来说:SUM(val) OVER(PARTITION BY custid)
会返回当前客户的总值。
下面的查询不涉及排序和框架。
- 1
- 2SELECT orderid, custid, val
- 3 ,SUM(val) OVER() AS totalVal
- 4 ,SUM(val) OVER(PARTITION BY custid) AS custTotalVal
- 5FROM Sales.OrderValues
- 6GROUP BY orderid, custid, val
- 7
- 8
- 9SELECT SUM(val) AS total FROM Sales.OrderValues
SQL SERVER 2012的窗口聚合函数现在也支持窗口排序和框架子句,这能够允许进行像运动和移运动聚合、YTD计算等更复杂的计算。
- 1SELECT empid, ordermonth, val
- 2 ,SUM(val) OVER( PARTITION BY empid
- 3 ORDER BY ordermonth
- 4 ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS runval
- 5FROM Sales.EmpOrders
SUM
返回雇员自活动开始到当前月份的val
总值。要对每个雇员单独计算,需要按empid
分区,然后按ordermonth
定义排序,ROWS BETWEEN UNBOUND PRECEDING AND CURRENT ROW
意味着“从分区开始当当前月份的所有活动”。
对于ROWS
窗口框架,SQL SERVER还支持其他定界符,可以指示一个当前行的后移偏移量或前移偏移量。如,计算当前行之前两行到后面一行之间的所有行:ROWS BETWEEN 2 PRECEDING AND 1 FOLLOWING
,没有上界则为 UNBOUND FOLLOWING
7.2 透视数据
透视数据可将行
转换为列
,转换过程中可能会聚合值。
每个透视请求都要涉及到3个逻辑处理阶段以及相关的元素:一个与分组相关的分组阶段或是行元素(分组):一个与扩展相关的扩展阶段或是列元素(扩展):以一个聚合元素和聚合函数相关的聚合阶段(聚合)。
- 1
- 2CREATE TABLE dbo.Orders
- 3(
- 4 orderid INT NOT NULL,
- 5 orderdate DATE NOT NULL,
- 6 empid INT NOT NULL,
- 7 custid VARCHAR(5) NOT NULL,
- 8 qty INT NOT NULL,
- 9 CONSTRAINT PK_Orders PRIMARY KEY(orderid)
- 10);
- 11
- 12INSERT INTO dbo.Orders(orderid, orderdate, empid, custid, qty)
- 13VALUES
- 14 (30001, '20070802', 3, 'A', 10),
- 15 (10001, '20071224', 2, 'A', 12),
- 16 (10005, '20071224', 1, 'B', 20),
- 17 (40001, '20080109', 2, 'A', 40),
- 18 (10006, '20080118', 1, 'C', 14),
- 19 (20001, '20080212', 2, 'B', 12),
- 20 (40005, '20090212', 3, 'A', 10),
- 21 (20002, '20090216', 1, 'C', 20),
- 22 (30003, '20090418', 2, 'B', 15),
- 23 (30004, '20070418', 3, 'C', 22),
- 24 (30007, '20090907', 3, 'D', 30);
- 1
- 2
- 3
- 4SELECT empid, custid, SUM(qty) AS sumqty
- 5FROM dbo.Orders
- 6GROUP BY empid, custid
- 7ORDER BY empid, custid
- 8
- 9SELECT DISTINCT empid, custid, SUM(qty) OVER(PARTITION BY empid, custid)sumqty
- 10FROM dbo.Orders
但是现在想将以上结果进行旋转,即实现的查询输出结果如下图:
如上图所示,将dbo.Orders表中的数据聚合后旋转和透视视图,生成该数据视图的技术叫做透视。
每个透视请求涉及3
个逻辑处理阶段以及与之相关的元素:一个与分组相关的分组阶段或是行元素,一个与扩展相关的扩展阶段或是列元素,以及一个与聚合元素和聚合函数相关的聚合阶段。
最后,由于透视涉及分组,需要聚合数据生成分组和扩展元素“交叉口”的结果值,需要确定聚合函数和聚合元素。
7.2.1 使用标准SQL透视
-
分组阶段使用 GROUP BY
子句实现
-
扩展阶段在 SELECT
子句中使用 CASE
表达式实现,这需要提前知道扩展元素并为每个元素指定单独的表达式。
-
聚合阶段是通过对每个 CASE
表达式应用相关的聚合函数实现。
- 1
- 2
- 3
- 4SELECT empid
- 5 ,SUM(CASE WHEN custid = 'A' THEN qty END) AS A
- 6 ,SUM(CASE WHEN custid = 'B' THEN qty END) AS B
- 7 ,SUM(CASE WHEN custid = 'C' THEN qty END) AS C
- 8 ,SUM(CASE WHEN custid = 'D' THEN qty END) AS D
- 9FROM orders
- 10GROUP BY empid
如果你不知道需要扩展的值,并且要从数据中查询它们,你需要动态SQL来构建查询字符串并执行它。第10章会涉及到这方面。
7.2.2 使用T-SQL PIVOT运算符透视
PIVOT 是T-SQL特有的表运算符,在查询 FROM
子句上下文中操作(像JOIN
一样)。它对一个源表或是表表达式进行操作,透视数据并返回一个结果表。
PIVOT 也涉及3
个逻辑处理阶段。但它的语法有所不同:
- 1
- 2SELECT ...
- 3FROM soureTable
- 4 PIVOT( <agg_func>(<aggregation_element>)
- 5 FOR <spreading_element> IN (<list_of_target_columns>)) AS <result_table_alias>
在PIVOT 的括号中,可以指定聚合函数(此为SUM
)、聚合元素(qty
)、扩展元素(custid
)和目标名称列表(A,B,C,D
)。然后,需要指定一个别名,否则报错。
PIVOT运算符没有显式指定分组元素(移除了GROUP BY
子句)。PIVOT 根据源表(或表表达式)中未指定
的为扩展元素
或聚合元素
的其他元素进行隐式地分组
,所以源表的属性不应包含除扩展元素
、聚合元素
和分组元素
之外的属性。
- 1
- 2SELECT empid,A,B,C,D
- 3FROM (SELECT empid, custid, qty FROM orders) d
- 4 PIVOT(SUM(qty)FOR custid IN(A, B, C, D)) AS p
- 5
- 6
- 7SELECT [1],[2],[3]
- 8FROM (SELECT empid, custid, qty FROM orders) d
- 9 PIVOT(SUM(d.qty) FOR empid IN([1],[2],[3])) d
建议不要直接操作基表,即使表中仅包含用途透视的列,因为当需求改变时你的基表可能会添加新列,造成透视结果不符合预期。所以推荐使用表表达式
7.3 逆透视数据
逆透视就是将数据从列
状态旋转成为行
状态。从每个源行生成多个结果行,每行具有一个不同的源列值。
- 1CREATE TABLE dbo.EmpCustOrders
- 2(
- 3 empid INT NOT NULL
- 4 CONSTRAINT PK_EmpCustOrders PRIMARY KEY,
- 5 A VARCHAR(5) NULL,
- 6 B VARCHAR(5) NULL,
- 7 C VARCHAR(5) NULL,
- 8 D VARCHAR(5) NULL
- 9);
- 10INSERT INTO dbo.EmpCustOrders(empid, A, B, C, D)
- 11 SELECT empid, A, B, C, D
- 12 FROM (SELECT empid, custid, qty
- 13 FROM dbo.Orders) AS D
- 14 PIVOT(SUM(qty) FOR custid IN(A, B, C, D)) AS P;
- 15
- 16SELECT * FROM dbo.EmpCustOrders;
现在要求每个雇员的每个客户返回一行,并具有相应的订单数量。即将7.2的结果反过来实现
7.3.1 使用标准SQL实现逆透视
逆透视的标准解决方案包括3个逻辑处理阶段:生成副本、提取元素和消除不相关的交叉点
第1步
为需要逆透视的每列生成对应副本。示例为代表客户ID的A,B,C,D列都生成对应的一个副本。在关系代数和SQL中,用于生成每行多个副本的运算是笛卡尔积(交叉联接)。需要在EmpCustOrders表和一个具有每个客户行的表之间应用交叉联接。
第2步
是生成一列(示例为qty),值从当前副本所代表客户的相应列返回。
第3步
消除不相关的交叉点。源表中是没有 NULL 标记的,所以可以第2步过滤掉包含NULL 标记的行。
- 1
- 2SELECT empid, Custs.custid FROM dbo.EmpCustOrders
- 3 CROSS JOIN (VALUES('A'),('B'),('C'),('D')) AS Custs(custid)
- 4
- 5SELECT empid, Custs.custid
- 6 , CASE Custs.custid
- 7 WHEN 'A' THEN A
- 8 WHEN 'B' THEN B
- 9 WHEN 'C' THEN C
- 10 WHEN 'D' THEN D
- 11 END AS qty
- 12FROM dbo.EmpCustOrders
- 13 CROSS JOIN (VALUES('A'),('B'),('C'),('D')) AS Custs(custid)
- 14
-
2.
7.3.2 使用T-SQL UNPIVOT实现逆透视
T-SQL的 UNPIVOT 可完成实现逆透视的功能。与 PIVOT 相似,它操作一个源表(表表达式),为将要存储源列的值
的列分配一个名称(此处为qty
),为将要存储源列名称
分配一个名称(此为custid
),以及源列名称列表(A,B,C,D
作为custid
列的值)
- 1
- 2SELECT *
- 3 FROM <source_table or table_expression>
- 4 UNPIVOT (<target_col_tohold_source_col_values>
- 5 FOR <target_col_to_hold_source_col_names> IN (<list_of_source_columns>)
- 6 ) AS <alias>
- 7
- 8SELECT empid, custid, qty
- 9FROM EmpCustOrders
- 10 UNPIVOT( qty FOR custid IN (A, B, C, D)) AS U
7.4 分组表
分组表就是用户所以分组的一个属性集。
- 1
- 2SELECT empid, custid, SUM(qty) AS sumqty
- 3FROM dbo.Orders
- 4GROUP BY empid, custid;
- 5
- 6SELECT empid, SUM(qty) AS sumqty
- 7FROM dbo.Orders
- 8GROUP BY empid;
- 9
- 10SELECT custid, SUM(qty) AS sumqty
- 11FROM dbo.Orders
- 12GROUP BY custid;
- 13
- 14SELECT SUM(qty) AS sumqty
- 15FROM dbo.Orders;
如果想要要统一这4个分组集,则可使用 UNION ALL
组合运算组合这4个结果集,但是由于集合运算符要求所有的结果集具有相同的列数。所以,为实现这个要求则需要有 null
替代缺少的列
。
SQL SERVER的GROUP BY
子句 GROUPING SETS
,CUBE
,ROLLUP
以及 GROUPING
和 GROUPING_ID
函数可以在同一查询中定义多个分组集。
7.4.1 GROUPING SETS 从属子句(GROUP BY)
主要用于报表和数据仓库。通过GROUPING SETS 从属子句可以在同一查询中定义多个分组集。只需在子句的括号内以逗号隔开,并且在每个分组集列出的成员在其括号内也要以逗号隔开。
- 1SELECT empid, custid, SUM(qty) AS sumqty
- 2FROM Orders
- 3GROUP BY GROUPING SETS ((empid, custid),(empid),(custid),())
此查询在逻辑上等效于前面使用 UNION ALL
集合运算符的查询结果。与 UNION ALL
相比,使用GROUPING SETS
代码更简洁,而且SQL SERVER 会优化扫描源表的次数,而不是每使用一次UNION ALL
扫描一次源表,所以性能上应该有一定的提升。
7.4.2 CUBE从属子句(GROUP BY)
在 CUBE 从属子句的括号内,提供了一个以逗号分隔的成员列表后,会得到基于所定义的输入成员的所有可能分组集。例:CUBE(A,B)
等效于 GROUPING SETS((A,B),(A),(B),())
。 在集合理论中,能够从一个特定集合生成所有的元素子集的集合,称为幂集
- 1SELECT empid, custid, SUM(qty) AS sumqty
- 2FROM Orders
- 3GROUP BY CUBE(empid, custid)
7.4.3 ROLLUP从属子句(GROUP BY)
与CUBE的不同,ROLLUP 假定输入成员之间是一个层次结构,并生成鉴于层次结构意义的所有分组集。即 CUBE(A,B,C)
根据3
个成员生成所有可能的8
个分组集,而ROLLUP(A,B,C)
仅生成4个分组集,其会假定A>B>c
,等效于 GROUPING SETS((A,B,C),(A,B),(A),())
7.4.4 GROUPING 和 GROUPING_ID 函数
当有一个定义了多个分组集的效查询时,如果想确定与每个结果行相关的分组集时,只要所有分组元素定义为 NOT NULL
就可以区分了。
如7.4.2使用CUBE(empid,custid)
得到的结果集。因为empid
和custid
列在表中定义成NOT NULL
,所以当这两列的值为NULL
时,说明该列没有参与当前分组集。如empid
和custid
都不为NULL
时是与分组集(empid,custid) 相关联,依次可以类推。
但是如果分组列在表中可以允许为NULL
时,那么就不可以直接根据NULL
来确定结果中的行是来源于源表还是仅仅分组集的NULL
占位符。
-
SQL SERVER 提供了GROUPING函数,函数的参数是传入一个分组列,如果该列是分组集成员返回0
,否则返回1
- 1SELECT
- 2 GROUPING(empid) AS grpemp
- 3 ,GROUPING(custid) AS grpcust
- 4 ,empid, custid, SUM(qty) AS sumqty
- 5FROM Orders
- 6GROUP BY CUBE(empid, custid)
运行结果:
若grpemp和grpcust都为0的所有行与*分组集(empid,custid)*相关联,类推。
-
SQL SERVER 提供的另一个GROUPING_ID函数,可以进一步简化结果行与分组集的关联处理。
如:GROUPING_ID(A,B,C,D)
,返回的结果像二进制的计算一样(0
代表是分组集成员,1
相反),分组集(A,B,C,D)
返回的值是0 (0*8+0*4+0*2+0*1=0)
,分组集(A,C) 则是5 (0*8+1*4+0*2+1*1)
- 1SELECT
- 2 GROUPING_ID(empid, custid) AS grpid
- 3 ,empid, custid, SUM(qty) AS sumqty
- 4FROM Orders
- 5GROUP BY CUBE(empid, custid)
运行结果:
练习
- 1
- 2SELECT custid, orderid, qty
- 3 ,RANK() OVER (PARTITION BY custid ORDER BY qty) AS rnk
- 4 ,DENSE_RANK() OVER (PARTITION BY custid ORDER BY qty) AS drnk
- 5FROM dbo.Orders
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43INSERT INTO dbo.EmpYearOrders(empid, cnt2007, cnt2008, cnt2009)
- 44 SELECT empid, [2007] AS cnt2007, [2008] AS cnt2008, [2009] AS cnt2009
- 45 FROM (SELECT empid, YEAR(orderdate) AS orderyear
- 46 FROM dbo.Orders) AS D
- 47 PIVOT(COUNT(orderyear)
- 48 FOR orderyear IN([2007], [2008], [2009])) AS P;
- 49
- 50SELECT * FROM dbo.EmpYearOrders;
- 51
- 52SELECT empid, ordernums, RIGHT(orderyear,4) AS orderyear
- 53FROM dbo.EmpYearOrders
- 54 UNPIVOT(ordernums FOR orderyear IN ([cnt2007],[cnt2008],[cnt2009])) AS up
- 55WHERE ordernums > 0
- 56
- 57
- 58
- 59
- 60SELECT
- 61 GROUPING_ID(empid, custid, YEAR(Orderdate)) AS groupingset,
- 62 empid, custid, YEAR(Orderdate) AS orderyear, SUM(qty) AS sumqty
- 63FROM dbo.Orders
- 64GROUP BY
- 65 GROUPING SETS
- 66 ((empid, custid, YEAR(orderdate)), (empid, YEAR(orderdate)), (custid, YEAR(orderdate)));
2.
3.
4.
5.