开窗olap转自 https://www.cnblogs.com/sooner/p/7735154.html
range和row的区别转自 http://www.cnblogs.com/woodytu/p/4709020.html
mysql的滑动窗口 https://www.cnblogs.com/chenqionghe/p/4679750.html
mysql dateadd函数参数 http://www.w3school.com.cn/sql/func_date_add.asp
Oracle分析函数-OLAP函数总结
ORACLE OLAP 函数
最近这个东东用得特别多,总结了一下 。
语法: FUNCTION_NAME(,…)
OVER()
OLAP函数语法四个部分:
1、function本身 用于对窗口中的数据进行操作;
2、partitioning clause 用于将结果集分区;
3、order by clause 用于对分区中的数据进行排序;
4、windowing clause 用于定义function在其上操作的行的集合,即function所影响的范围。
一、order by对窗口的影响
不含order by的:
SQL> select deptno,sal,sum(sal) over() from emp;
不含order by时,默认的窗口是从结果集的第一行直到末尾。
含order by的:
SQL> select deptno,sal, sum(sal) over(order by deptno) as sumsal from emp;
当含有order by时,默认的窗口是从第一行直到当前分组的最后一行。
二、用于排列的函数
SQL> select empno, deptno, sal,
rank() over (partition by deptno order by sal desc nulls last) as rank,
dense_rank() over (partition by deptno order by sal desc nulls last) as dense_rank,
row_number() over(partition by deptno order by sal desc nulls last) as row_number
from emp;
三、用于合计的函数
SQL> select deptno,sal,
sum(sal) over (partition by deptno) as sumsal,
avg(sal) over (partition by deptno) as avgsal,
count(*) over (partition by deptno) as count,
max(sal) over (partition by deptno) as maxsal
from emp;
四、开窗语句
1、rows窗口: “rows 5 preceding” 适用于任何类型而且可以order by多列。
SQL> select deptno,ename,sal,
sum(sal) over (order by deptno rows 2 preceding) sumsal
from emp;
rows 2 preceding:将当前行和它前面的两行划为一个窗口,因此sum函数就作 用在这三行上面
SQL> select deptno,ename,sal,
sum(sal) over (partition by deptno order by ename rows 2 preceding) sumsal
from emp order by deptno,ename;
加了partiton by分区后之后,rows 2 preceding(窗口)只在当前分区内生效,不会影响分区之外的行。
SQL> select ename,sal,hiredate,
first_value(ename) over (order by hiredate asc rows 5 preceding) first_ename,
first_value(hiredate) over (order by hiredate asc rows 5 preceding) first_hiredate
from emp order by hiredate asc;
order by hiredate asc rows 5 preceding: order by之后,取当前行的前5行+当前行作为窗口(共6行)。
2、"range unbounded preceding"
range unbounded preceding会把当前行之前的所有行都包含进来,但当partition by时:
SQL> select deptno,ename,sal,
sum(sal) over (partition by deptno order by deptno range unbounded preceding) sumsal
from emp;
SQL> select deptno,ename,sal,
sum(sal) over (order by deptno range unbounded preceding) sumsal
from emp;
这SQL句子和下面这SQL是等价的:
select deptno,ename,sal, sum(sal) over (order by deptno) sumsal from emp;
因为order by的默认窗口总是从结果集的第一行开始到它分组的最后一行。
而partiton by的默认窗口总是从分区的第一行开始。
3、range窗口: “range 100 preceding”
这个子句只适用于number和date,而且只能order by一列。
如果over()里asc排列,意思是[number-100,number]这样一个闭区间是它的窗口。
如果over()里desc排列,意思是[number,number+100]这样一个闭区间是它的窗口。
4、窗口总结
1、unbounded preceding:从当前分区的第一行开始,到当前行结束。
2、current row:从当前行开始,也结束于当前行。
3、[numeric expression] preceding:对于rows来说从当前行之前的第[numeric expression]行开始,到当前行结束。对range来说从小于数值表达式的值开始,到当前行结束。
4、[numeric expression] following:与[numeric expression] preceding相反。
几乎每次我展示SQL Server里的窗口时,人们都非常有兴趣知道,当你定义你的窗口(指定的一组行)时,ROWS与RANGE选项之间的区别。因此在今天的文章里我想给你展示下这些选项的区别,对于你的分析计算意味着什么。
ROWS与RANGE之间的区别
当你用OVER()子句进行你的分析计算来打开你的窗口,你也可以在窗口里看到的,通过ROWS与RANGE选项来限制你的行数。来看下面的T-SQL语句:
复制代码
1 SELECT
2 t.OrderYear,
3 t.OrderMonth,
4 t.TotalDue,
5 SUM(t.TotalDue) OVER(ORDER BY t.OrderYear, t.OrderMonth ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS ‘RunningTotal’
6 FROM
7 (
8 SELECT
9 YEAR(OrderDate) AS ‘OrderYear’,
10 MONTH(OrderDate) AS ‘OrderMonth’,
11 SalesPersonID,
12 TotalDue
13 FROM Sales.SalesOrderHeader
14 ) AS t
15 WHERE
16 t.SalesPersonID = 274
17 AND t.OrderYear = 2005
18 GO
复制代码
这个T-SQL语句用SUM()聚合函数进行汇总计算。窗口本身从第1行(UNBOUNDED PRECEDING)上至当前行(CURRENT ROW)。对于记录级中的每1行,窗口变得越来越大,因此很容易进行汇总运算。下图演示了这个概念。
从输出你可以看到,结果是个自增长的汇总——运行合计汇总的结果。
现在假设你修改窗口为RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW,会发生什么:
复制代码
1 SELECT
2 t.OrderYear,
3 t.OrderMonth,
4 t.TotalDue,
5 SUM(t.TotalDue) OVER(ORDER BY t.OrderYear, t.OrderMonth RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS ‘RunningTotal’
6 FROM
7 (
8 SELECT
9 YEAR(OrderDate) AS ‘OrderYear’,
10 MONTH(OrderDate) AS ‘OrderMonth’,
11 SalesPersonID,
12 TotalDue
13 FROM Sales.SalesOrderHeader
14 ) AS t
15 WHERE
16 t.SalesPersonID = 274
17 AND t.OrderYear = 2005
18 GO
复制代码
从下图你可以看到,你得到了不同的结果,对于2005年11月的记录显示同样的汇总。
我们来尝试理解下为什么这里RANGE选项比ROWS选项给你不同的结果。使用ROWS选项你定义当前行的固定前后记录。这里你看到的行取决于窗口的ORDER BY从句。你也可以说你在物理级别定义你的窗口。
当你使用RANGE选项事情就改变了。RANGE选项包含窗口里的所有行,和当前行有相同ORDER BY值。从刚才的图片你可以看到,对于2005年11月的2条记录你拿到同个汇总,因为这2行有同样的ORDER BY值(2005年11月)。使用RANGE选项你在逻辑级别定义你的窗口。如果更多的行有同个ORDER BY值,当你使用ROWS选项你的窗口会包含更多的行。
小结
在今天的文章里你看到了当你为你的分析计算定义窗口时,ROWS和RANGE选项之间的区别。使用ROWS选项你在物理级别定义在你窗口里有多少行。使用RANGE选项取决于ORDER BY值在窗口里有多少行被包含。因此当你使用RANGE选项时有性能上的巨大区别。在接下来的文章我会讨论下这些副作用。
感谢关注!