lightupworld

Hive窗口分析函数（案例详细讲解）

- 一、语法结构
- 二、窗口函数
- 三、Over从句
- 四、分析函数
- 五、COUNT、SUM、MIN、MAX、AVG
- - - 1.数据准备
    - 2.sql示例
- 六、RANK、DENSE_RANK、ROW_NUMBER、NTILE
- - - 1.RANK
    - 2.ROW_NUMBER
    - 3.DENSE_RANK
    - 4.NTILE(n)
    - 5.示例一：按照用户的购买时间排序
    - 6.示例二：按条件求出用户前1/3交易记录
    - 7.CUME_DIST
    - 8.PERCENT_RANK
    - 9.随机抽取百分比的数据
- 七、LAG、LEAD、FIRST_VALUE、LAST_VALUE
- - - 1. LAG(col,n,DEFAULT)
    - 2.LEAD(col,n,DEFAULT)
    - 3.FIRST_VALUE
    - 4.LAST_VALUE
- 八、GROUPING SETS、GROUPING__ID、CUBE、ROLLUP
- 九、参考资料
- 十、where to go

一、语法结构

语法结构：分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)
over()函数中包括三个函数：包括分区partition by 列名、排序order by 列名、指定窗口范围rows between 开始位置 and 结束位置。
我们在使用over()窗口函数时，over()函数中的这三个函数可组合使用也可以不使用。
over()函数中如果不使用这三个函数，窗口大小是针对查询产生的所有数据，如果指定了分区，窗口大小是针对每个分区的数据。

二、窗口函数

① LEAD(col,n,DEFAULT)
- 用于统计窗口内往下第n行值
- 第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）。
② LAG(col,n,DEFAULT)
- 用于统计窗口内往上第n行值
- 第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）
③ FIRST_VALUE
- 取分组内排序后，截止到当前行，第一个值
④ LAST_VALUE
- 取分组内排序后，截止到当前行，最后一个值

三、Over从句

1.使用标准的聚合函数COUNT、SUM、MIN、MAX、AVG
2.使用PARTITION BY语句，使用一个或者多个原始数据类型的列
3.使用PARTITION BY与ORDER BY语句，使用一个或者多个数据类型的分区或者排序列

4.使用窗口规范，窗口规范支持以下格式：

(ROWS | RANGE) BETWEEN (UNBOUNDED | [num]) PRECEDING AND ([num] PRECEDING | CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROWS | RANGE) BETWEEN CURRENT ROW AND (CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROWS | RANGE) BETWEEN [num] FOLLOWING AND (UNBOUNDED | [num]) FOLLOWING

5.窗口范围说明：

我们常使用的窗口范围是ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（表示从起点到当前行），常用该窗口来计算累加。

PRECEDING：往前
FOLLOWING：往后
CURRENT ROW：当前行
UNBOUNDED：起点（一般结合PRECEDING，FOLLOWING使用）
UNBOUNDED PRECEDING表示该窗口最前面的行（起点）
UNBOUNDED FOLLOWING：表示该窗口最后面的行（终点）

比如说：
ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW（表示从起点到当前行）
ROWS BETWEEN 2 PRECEDING AND 1 FOLLOWING（表示往前2行到往后1行）
ROWS BETWEEN 2 PRECEDING AND CURRENT ROW（表示往前2行到当前行）
ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING（表示当前行到终点）

当ORDER BY后面缺少窗口从句条件（即 分析函数 over(partition by 列名 order by 列名) ），窗口规范默认是 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW

当ORDER BY和窗口从句都缺失（即分析函数 over(partition by 列名)）, 窗口规范默认是 ROW BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING

注意：OVER从句支持以下函数，但是并不支持和窗口一起使用它们:
Ranking函数: Rank, NTile, DenseRank, CumeDist, PercentRank.
Lead和 Lag函数(即 Ranking函数不能和 Lead、Lag函数一起使用)

四、分析函数

①RANK：从1开始，按照顺序按照值排序时产生一个自增编号，值相等时会重复，会产生空位（如：1、2、3、3、3、6）
②ROW_NUMBER：从1开始，按照顺序，按照值排序时产生一个自增编号，不会重复（如：1、2、3、4、5、6）
③DENSE_RANK：从1开始，按照值排序时产生一个自增编号，值相等时会重复，不会产生空位（如：1、2、3、3、3、4）
④ CUME_DIST：小于等于当前值的行数/分组内总行数。比如，统计小于等于当前薪水的人数，所占总人数的比例
⑤PERCENT_RANK：分组内当前行的RANK值-1/分组内总行数-1
⑥ NTILE(n)：用于将分组数据按照顺序切分成n片，返回当前切片值，如果切片不均匀，默认增加第一个切片的分布。NTILE不支持ROWS BETWEEN，比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW)
⑦Distinct: 去重。如COUNT(DISTINCT a) OVER (PARTITION BY c)

五、COUNT、SUM、MIN、MAX、AVG

本小节主要讲解COUNT、SUM、MIN、MAX、AVG的用法。

1.数据准备

-------------------------------------------------------------------------
//订单表order ： name, order_date, cost
Jan,2020-01-01,87
Jan,2020-01-02,95
Jan,2020-03-03,68
Jan,2020-05-01,68
Ben,2020-04-01,94
Ben,2020-01-02,56
Ben,2020-04-03,84
Ben,2020-05-01,84
Dan,2020-02-01,64
Dan,2020-03-02,86
Dan,2020-04-03,84
Dan,2020-04-01,84
Tim,2020-03-01,65
Tim,2020-02-02,85
Tim,2020-01-03,78
Tim,2020-04-01,78
Bob,2020-02-01,67
Bob,2020-03-02,95
Bob,2020-04-03,70
Bob,2020-05-01,70
------------------------------------------------------------------------
create table order_test(
	name string,
	order_date string, 
	cost int) 
row format delimited fields terminated by ',';
-------------------------------------------------------------------------
load data local inpath '/tmp/order.txt' into table order;

2.sql示例

//COUNT、SUM、MIN、MAX、AVG
//以 sum函数举例
select 
	name, 
	order_date, 
	cost,
	
	--① over()：所有的数据求和。sum_01是一样的。
	--求和范围：order_test表的所有数据
	sum(cost) over() as sum_01,
	
	--② over(partition by) ：按照name分组，对分组相加。组内的sum_02是一个值。
	--求和范围：以name分组，每个组内求和
	sum(cost) over(partition by name) as sum_02,
	
	--③ over(parition by order by)：按照name分组，对分组按照时间升序累加。组内sum_03是一个变化的累加值
	--求和范围：默认为从起点到当前行。以name分组，每个组内按order_date累计求和。注意和②的区别
	sum(cost) over(partition by name order by order_date) as sum_03,
	
	--④ between unbounded preceding and current row : 同③，从起点到当前行。（order by 省略窗口范围的默认范围）
	sum(cost) over(partition by name order by order_date rows between unbounded preceding and current row) as sum_04,
	
	--⑤ rows between n preceding and current row: 以name分组，当前行和前面n行做聚合。聚合的行数为： n+1(当前行)。 示例为 n=1的情况
	sum(cost) over(partition by name order by order_date rows between 1 preceding and current row) as sum_05,

	--⑥ rows between n1 preceding and n2 following：以name分组，当前行 + 前n1行 +后n2行做聚合。聚合的行数为：n1+n2+1（当前行） 示例n1 n2 =1
	sum(cost) over(partition by name order by order_date rows between 1 preceding and 1 following) as sum_06,
	
	--⑦rows between current row and unbounded following:以name分组,当前行+后面的所有行
	sum(cost) over(partition by name order by order_date rows between current row and unbounded following) as sum_07

from  order_test;

执行上面的sql：

select 
    name, 
    order_date, 
    cost,
    
    sum(cost) over() as sum_01,

    sum(cost) over(partition by name) as sum_02,
    
    sum(cost) over(partition by name order by order_date) as sum_03,
    
    sum(cost) over(partition by name order by order_date rows between unbounded preceding and current row) as sum_04,
    
    sum(cost) over(partition by name order by order_date rows between 1 preceding and current row) as sum_05,

    sum(cost) over(partition by name order by order_date rows between 1 preceding and 1 following) as sum_06,
    
    sum(cost) over(partition by name order by order_date rows between current row and unbounded following) as sum_07

from  order_test;

查询结果如下：

name	order_date	   cost    sum_01  sum_02  sum_03  sum_04  sum_05  sum_06  sum_07

Ben     2020-01-02      56      1562    318     56      56      56      150     318
Ben     2020-04-01      94      1562    318     150     150     150     234     262
Ben     2020-04-03      84      1562    318     234     234     178     262     168
Ben     2020-05-01      84      1562    318     318     318     168     168     84
Bob     2020-02-01      67      1562    302     67      67      67      162     302
Bob     2020-03-02      95      1562    302     162     162     162     232     235
Bob     2020-04-03      70      1562    302     232     232     165     235     140
Bob     2020-05-01      70      1562    302     302     302     140     140     70
Dan     2020-02-01      64      1562    318     64      64      64      150     318
Dan     2020-03-02      86      1562    318     150     150     150     234     254
Dan     2020-04-01      84      1562    318     234     234     170     254     168
Dan     2020-04-03      84      1562    318     318     318     168     168     84
Jan     2020-01-01      87      1562    318     87      87      87      182     318
Jan     2020-01-02      95      1562    318     182     182     182     250     231
Jan     2020-03-03      68      1562    318     250     250     163     231     136
Jan     2020-05-01      68      1562    318     318     318     136     136     68
Tim     2020-01-03      78      1562    306     78      78      78      163     306
Tim     2020-02-02      85      1562    306     163     163     163     228     228
Tim     2020-03-01      65      1562    306     228     228     150     228     143
Tim     2020-04-01      78      1562    306     306     306     143     143     78

为了便于理解，我们以ben的四条数据，详细说明sum_01 至 sum_07的计算结果

name	order_date	   cost    sum_01  sum_02  sum_03  sum_04  sum_05  sum_06  sum_07

Ben     2020-01-02      56      1562    318     56      56      56      150     318
Ben     2020-04-01      94      1562    318     150     150     150     234     262
Ben     2020-04-03      84      1562    318     234     234     178     262     168
Ben     2020-05-01      84      1562    318     318     318     168     168     84

①sum_01-——sum(cost) over() as sum_01

sum_01 = 1562是表总所有人的消费总额
②sum_02—— sum(cost) over(partition by name) as sum_02

sum_02 按name分组，是ben的消费总额 sum_02 =318 = 56+94+84+84

③sum_03——sum(cost) over(partition by name order by order_date) as sum_03

按照name分组，对分组按照时间升序累加。默认为从起点到当前行

sum_03  = 56 : 起点到当前行，两行重合， 只有一条消费记录：56
sum_03 = 150: 第一行加上第二行： 56+94 = 150
sum_03 = 234: 从第一行加到第三行 56+94+84 = 234
sum_03 = 318：同理累加

④sum_04——between unbounded preceding and current row

同③，从起点到当前行。（order by 省略窗口范围的默认范围）

⑤sum_05——rows between n preceding and current row:

以name分组，当前行和前面n行做聚合。聚合的行数为： n+1(当前行)。示例为 n=1的情况。

sum_05 = 56：此时当前行是第1行，前面没有行。总共就一行。
sum_05 = 150：此时当前行是第二行94，前面一行是56，相加 = 150
sum_05 = 178: 此时当前行是第三行84，前面一行是84，相加 = 178
sum_05 = 168:同理可得。

⑥ sum_06——rows between n1 preceding and n2 following：

以name分组，当前行 + 前n1行 +后n2行做聚合。聚合的行数为：n1+n2+1（当前行）示例n1,n2 =1

sum_06 = 150:此时当前行是第一行56，没有前一行，但是有后面（第二行 94）：56+94 = 150
sum_06 = 234:此时当前行是第二行94，前面一行56，后面一行84， 94+56+84 = 234
sum_06 = 262:同理
sum_06 = 168:同理

⑦sum_07——rows between current row and unbounded following:

以name分组,当前行+后面的所有行

sum_07 = 318:当前行是第一行56，后面所有行：96，84，84。56+96+84+84 = 318
sum_07 = 262:当前行是第二行94，后面所有行：84，84。 94+84+84 = 262
sum_07 = 168:同理
sum_07 = 84: 同理。

用法小结：

本小节以sum为例，演示了聚合函数的用法，其他COUNT、AVG，MIN，MAX，和SUM用法一样。

结果和ORDER BY相关,默认为升序
如果不指定ROWS BETWEEN,默认为从起点到当前行;
如果不指定ORDER BY，则将分组内所有值累加;
关键是理解ROWS BETWEEN含义,也叫做WINDOW子句：
PRECEDING：往前
FOLLOWING：往后
CURRENT ROW：当前行
UNBOUNDED：无界限（起点或终点）
UNBOUNDED PRECEDING：表示从前面的起点
UNBOUNDED FOLLOWING：表示到后面的终点

六、RANK、DENSE_RANK、ROW_NUMBER、NTILE

1.RANK

从1开始，按照顺序按照值排序时产生一个自增编号，值相等时会重复，会产生空位（如：1、2、3、3、3、6）

2.ROW_NUMBER

从1开始，按照顺序，按照值排序时产生一个自增编号，不会重复（如：1、2、3、4、5、6）

3.DENSE_RANK

从1开始，按照值排序时产生一个自增编号，值相等时会重复，不会产生空位（如：1、2、3、3、3、4）

4.NTILE(n)

用于将分组数据按照顺序切分成n片，返回当前切片值，如果切片不均匀，默认增加第一个切片的分布。

5.示例一：按照用户的购买时间排序

select 
	name,
	order_date,
	cost,
	
	- - row_number()  自然顺序
	row_number() over(partition by name order by order_date)  as rn,
	
	- -rank(): 相同重复，留下空位，排名总数不变
	rank() over(partition by name order by order_date) as rk,
	- - dens_rank():相同重复，不留空位，排名总数减少
	dense_rank() over(partition by name order by order_date) as den_rk

from order_test
## 由于示例测试数据没有用户在同一天购买，所以测试效果不明显。关键在于理解三个函数的不同点。

6.示例二：按条件求出用户前1/3交易记录

select
	name,
	order_date,
	cost,
	
	- - 全局数据切片，切成3片
	ntile(3) over() as n1,
	
	- - 按照name 分组，然后组内数据切成3份
	ntile(3) over(partition by name) as n2,

	- - 全局按照cost(升序)排序，将数据切成3份
	ntile(3) over(order by cost) as n3,
	
	- -按照name分组，组内按照cost升序排列，将数据切成3份
	ntile(3) over(partition by name order by cost) as n4

from order_test;

查询结果：

name	order_date	   cost    n1	   n2 	   n3 	   n4

Ben     2020-01-02      56      3       1       1       1
Ben     2020-05-01      84      2       3       2       1
Ben     2020-04-03      84      2       2       2       2
Ben     2020-04-01      94      3       1       3       3
Bob     2020-02-01      67      1       3       1       1
Bob     2020-04-03      70      1       1       1       1
Bob     2020-05-01      70      1       2       2       2
Bob     2020-03-02      95      1       1       3       3
Dan     2020-02-01      64      2       1       1       1
Dan     2020-04-01      84      2       3       2       1
Dan     2020-04-03      84      2       1       2       2
Dan     2020-03-02      86      2       2       3       3
Jan     2020-05-01      68      3       1       1       1
Jan     2020-03-03      68      3       1       1       1
Jan     2020-01-01      87      3       3       3       2
Jan     2020-01-02      95      3       2       3       3
Tim     2020-03-01      65      2       1       1       1
Tim     2020-04-01      78      1       3       2       1
Tim     2020-01-03      78      1       2       2       2
Tim     2020-02-02      85      1       1       3       3

7.CUME_DIST

小于等于当前值的行数/分组内总行数。比如，统计小于等于当前薪水的人数，所占总人数的比例
示例
```
  todo
```

8.PERCENT_RANK

分组内当前行的RANK值-1/分组内总行数-1
示例
```
  todo 
```

9.随机抽取百分比的数据

row_number() + rand()

① 先群求出表的总记录数
with data_cnt (
select 
count(*) as cnt 
from t
)
②  row_number() +  rand()
select 
*
from 
(
	select 
		*
	row_number() over(
	     partition by t.date,
	     order by  rand()
	 ) rand_rk
	from t 
)t1
where t1.rand_rk / date_cnt.cnt < x%   (目标百分比)

七、LAG、LEAD、FIRST_VALUE、LAST_VALUE

1. LAG(col,n,DEFAULT)

用于统计窗口内往上（向后）第n行值，第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）

示例：统计顾客上一次和上两次购买的时间

select
	name,
	order_date,
	cost,
	- - 计算每个顾客上一次购买的时间，如果没有默认为1900-01-01
	lag(order_date,1,"1900-01-01") over(partition by name order by order_date) as last_time_01,
	
	- - 计算每个顾客上两次购买的时间，如果没有默认为null
	lag(order_date,2) over(partition by name order by order_date) as last_time_02
from order_test;

执行结果：

name	order_date	   cost    last_time_01	  last_time_02

Ben     2020-01-02      56      1900-01-01      NULL
Ben     2020-04-01      94      2020-01-02      NULL
Ben     2020-04-03      84      2020-04-01      2020-01-02
Ben     2020-05-01      84      2020-04-03      2020-04-01
Bob     2020-02-01      67      1900-01-01      NULL
Bob     2020-03-02      95      2020-02-01      NULL
Bob     2020-04-03      70      2020-03-02      2020-02-01
Bob     2020-05-01      70      2020-04-03      2020-03-02
Dan     2020-02-01      64      1900-01-01      NULL
Dan     2020-03-02      86      2020-02-01      NULL
Dan     2020-04-01      84      2020-03-02      2020-02-01
Dan     2020-04-03      84      2020-04-01      2020-03-02
Jan     2020-01-01      87      1900-01-01      NULL
Jan     2020-01-02      95      2020-01-01      NULL
Jan     2020-03-03      68      2020-01-02      2020-01-01
Jan     2020-05-01      68      2020-03-03      2020-01-02
Tim     2020-01-03      78      1900-01-01      NULL
Tim     2020-02-02      85      2020-01-03      NULL
Tim     2020-03-01      65      2020-02-02      2020-01-03
Tim     2020-04-01      78      2020-03-01      2020-02-02

2.LEAD(col,n,DEFAULT)

用于统计窗口内往下(向前)第n行值，第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）。记忆 lag(落后) ——> current(当前) ——>lead(领先)

示例：统计顾客下一次和下两次购买的时间

select
	name,
	order_date,
	cost,
	- - 计算每个顾客下一次购买的时间，如果没有默认为1900-01-01
	lead(order_date,1,"1900-01-01") over(partition by name order by order_date) as next_time_01,
	
	- - 计算每个顾客下两次购买的时间，如果没有默认为null
	lead(order_date,2) over(partition by name order by order_date) as next_time_02
from order_test;

执行结果：

name	order_date	   cost    next_time_01	  next_time_02

Ben     2020-01-02      56      2020-04-01      2020-04-03
Ben     2020-04-01      94      2020-04-03      2020-05-01
Ben     2020-04-03      84      2020-05-01      NULL
Ben     2020-05-01      84      1900-01-01      NULL
Bob     2020-02-01      67      2020-03-02      2020-04-03
Bob     2020-03-02      95      2020-04-03      2020-05-01
Bob     2020-04-03      70      2020-05-01      NULL
Bob     2020-05-01      70      1900-01-01      NULL
Dan     2020-02-01      64      2020-03-02      2020-04-01
Dan     2020-03-02      86      2020-04-01      2020-04-03
Dan     2020-04-01      84      2020-04-03      NULL
Dan     2020-04-03      84      1900-01-01      NULL
Jan     2020-01-01      87      2020-01-02      2020-03-03
Jan     2020-01-02      95      2020-03-03      2020-05-01
Jan     2020-03-03      68      2020-05-01      NULL
Jan     2020-05-01      68      1900-01-01      NULL
Tim     2020-01-03      78      2020-02-02      2020-03-01
Tim     2020-02-02      85      2020-03-01      2020-04-01
Tim     2020-03-01      65      2020-04-01      NULL
Tim     2020-04-01      78      1900-01-01      NULL

3.FIRST_VALUE

取分组内排序后，截止到当前行，第一个值

4.LAST_VALUE

取分组内排序后，截止到当前行，最后一个值

示例：求每个用户第一次和最后一次购买的时间。

select
	name,
	order_date,
	cost,
	- - ① 第一次购买时间
	first_value(order_date) over(partition by name order by order_date) as first_time_01,
	
	- - ② 最后一次购买时间
	last_value(order_date) over(partition  by name order by order_date) as last_time_01,
	
	- - ③ 使用 last_value + order by desc 并不能取到最小值（第一次购买时间），
	- - 一定要注意范围： 分组后，从起始行到当前行。 desc后 分组起始第一行都是最大时间，所以实际取得的是最后一次购买时间
	last_value(order_date) over(partition by name order by order_date desc) as fisrt_time_02,
	
	- - ④ 使用 first_value + order by desc 取到最大值（最后一次购买时间）
	- - 一定要注意范围： 分组后，从起始行到当前行
	first_value(order_date) over(partition by name order by order_date desc) as last_time_02,
	
	- - ⑤ 使用 row_number() 取 rn = 1 可以获得最小值，但是需要再嵌套一层
	row_number() over(partition by name order by order_date) as rn
from order_test;
-------------------------纯sql-------------------------------------
select
    name,
    order_date,
    cost,
    
    first_value(order_date) over(partition by name order by order_date) as first_time_01,
    
    last_value(order_date) over(partition  by name order by order_date) as last_time_01,
    
    last_value(order_date) over(partition by name order by order_date desc) as fisrt_time_02,
    
    first_value(order_date) over(partition by name order by order_date desc) as last_time_02,
    
    row_number() over(partition by name order by order_date) as rn
from order_test;

执行结果：

name	order_date	   cost    first_time_01   last_time_01   first_time_02  last_time_02  		rn

Ben     2020-05-01      84      2020-01-02      2020-05-01      2020-05-01      2020-05-01      4
Ben     2020-04-03      84      2020-01-02      2020-04-03      2020-04-03      2020-05-01      3
Ben     2020-04-01      94      2020-01-02      2020-04-01      2020-04-01      2020-05-01      2
Ben     2020-01-02      56      2020-01-02      2020-01-02      2020-01-02      2020-05-01      1
Bob     2020-05-01      70      2020-02-01      2020-05-01      2020-05-01      2020-05-01      4
Bob     2020-04-03      70      2020-02-01      2020-04-03      2020-04-03      2020-05-01      3
Bob     2020-03-02      95      2020-02-01      2020-03-02      2020-03-02      2020-05-01      2
Bob     2020-02-01      67      2020-02-01      2020-02-01      2020-02-01      2020-05-01      1
Dan     2020-04-03      84      2020-02-01      2020-04-03      2020-04-03      2020-04-03      4
Dan     2020-04-01      84      2020-02-01      2020-04-01      2020-04-01      2020-04-03      3
Dan     2020-03-02      86      2020-02-01      2020-03-02      2020-03-02      2020-04-03      2
Dan     2020-02-01      64      2020-02-01      2020-02-01      2020-02-01      2020-04-03      1
Jan     2020-05-01      68      2020-01-01      2020-05-01      2020-05-01      2020-05-01      4
Jan     2020-03-03      68      2020-01-01      2020-03-03      2020-03-03      2020-05-01      3
Jan     2020-01-02      95      2020-01-01      2020-01-02      2020-01-02      2020-05-01      2
Jan     2020-01-01      87      2020-01-01      2020-01-01      2020-01-01      2020-05-01      1
Tim     2020-04-01      78      2020-01-03      2020-04-01      2020-04-01      2020-04-01      4
Tim     2020-03-01      65      2020-01-03      2020-03-01      2020-03-01      2020-04-01      3
Tim     2020-02-02      85      2020-01-03      2020-02-02      2020-02-02      2020-04-01      2
Tim     2020-01-03      78      2020-01-03      2020-01-03      2020-01-03      2020-04-01      1

特别注意：

一定要注意示例中 ③ 和 ④ 的情况，不能想当然(最好在纸上画画)。要明确窗口函数的范围，指的是分组后的起始位置到当前位置。再次明确下起始位置指的是分组后的第一行(即窗口的第一行)，
所以如果要求一个用户的最后一次购买时间不能使用last_value函数(本质是取的当前行)，可以使用first_value() + order by desc这样永远取的都是第一行，且desc倒序，第一行为最大值。

上述的四个函数都不能使用over条件子句(rows between ... and ...)，即不能指定窗口的范围。所以order by 后面不能指定范围，那么对应的默认范围就是 rows between unbounded preceding and current row，从起始位置到当前行。

以ben的四条数据 + last_value(order_date) over(partition by name order by order_date desc) as fisrt_time_02 为例

明确窗口的范围： 分组后，从起点行到当前行。  last_value 取范围内的最后一条数据。

原数数据：

    name    order_date     cost

    Ben     2020-01-02      56      
    Ben     2020-04-03      84     
    Ben     2020-05-01      84 
    Ben     2020-04-01      94

partition by name order by order_date desc 后的数据：

    name    order_date     cost

    Ben     2020-05-01      84          （第一条数据）
    Ben     2020-04-03      84          （第二条数据）
    Ben     2020-04-01      94          （第三条数据）
    Ben     2020-01-02      56          （第四条数据）

last_value(order_date) ：取窗口范围内的最后一条数据的时间。

    第一行数据：起始行就是当前行，整个窗口范围就只有一条数据，last_value(order_date) 只能取  2020-05-01    

       得到： 
            name    order_date     cost  first_time_02
            Ben     2020-05-01      84   2020-05-01

    第二行数据：起始行第一行，当前行第二行。窗口范围 第一行到第二行，  last_value(order_date)去最后一条数据时间  2020-04-03

      得到：
            name    order_date     cost  first_time_02
            Ben     2020-05-01      84   2020-05-01
            Ben     2020-04-03      84   2020-04-03

  其他同理可得。

八、GROUPING SETS、GROUPING__ID、CUBE、ROLLUP

todo

九、参考资料

hive wiki
https://blog.csdn.net/scgaliguodong123_/article/details/60135385

十、where to go

Hive面试/经典练习题

你可能感兴趣的:(Hive,hive,hadoop,数据仓库,etl)

稳定运行的以Microsoft Azure Cosmos DB数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 microsoft azure 数据仓库 etl 性能优化
在以MicrosoftAzureCosmosDB数据库为数据源和目标的ETL(提取、转换、加载)过程中，性能变差时，可能有多种原因。提高以MicrosoftAzureCosmosDB为数据源和目标的ETL性能，通常涉及数据库配置、查询优化、并发执行、数据传输优化和使用CosmosDB特性等多个方面。通过以下方法和步骤，可以显著改善ETL性能：增加RU设置、优化分区策略；优化查询、使用批量操作；提高
稳定运行的以Microsoft Azure SQL database数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 etl azure etl 云计算数据库
在以MicrosoftAzureSQLDatabase为数据源和目标的ETL（Extract,Transform,Load）过程中，性能问题可能会随着数据量的增加、查询复杂度的提升或系统负载的加重而逐渐变差。提高以MicrosoftAzureSQLDatabase为数据源和目标的ETL性能需要综合考虑数据库查询优化、数据加载策略、并行处理、资源管理等方面。通过合适的索引、查询优化、批量处理、增量加
linux grep命令蓝菱 linux linux grep 正则表达式
转自http://www.cnblogs.com/end/archive/2012/02/21/2360965.htm1.作用Linux系统中grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来。grep全称是GlobalRegularExpressionPrint，表示全局正则表达式版本，它的使用权限是所有用户。2.格式grep[options]3.主要参数[o
【已解决】将CentOS7系统安装至U盘（四）：安装Qt5.14.2（解决#error qt requires c++11 support问题） pyengine qt c++开发语言 centos
目录1下载安装文件2安装Qt5.14.2和QtCreator3解决编译问题1下载安装文件从Qt官网或清华大学镜像站https://mirrors.tuna.tsinghua.edu.cn/gnu/gcchttps://mirrors.tuna.tsinghua.edu.cn/qt/archive/qt/5.14/5.14.2/下载Qt安装文件。以清华大学镜像站为例，下载如下：wgethttps:/
SQLMesh SCD Type 2 深度解析：时间戳与列级跟踪的实战指南梦想画家数据分析工程 #python 数据工程分析工程 sqlmesh
在数据仓库架构中，缓慢变化维度（SlowlyChangingDimensions,SCD）是处理历史数据追踪的核心技术。SQLMesh作为新一代数据编织平台，其支持的SCDType2模型通过valid_from和valid_to双时间戳机制，为开发者提供了灵活的历史状态管理能力。本文将深入解析SQLMeshSCDType2的两种实现模式（基于时间戳与列级变更检测）、关键配置项及删除操作处理逻辑，让
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
安装Qt 5.15.2 noodleboy qt
安装Qt5.15.2自Qt5.15开始，Qt不提供离线安装包了，需要使用在线安装器安装，但是Qt5.15版本不直接显示。需要勾选Archive选项，且很有可能需要梯子工具。
微信小程序：用户拒绝小程序获取当前位置后的处理办法草木红 #小程序小程序微信小程序
【1】问题描述：小程序在调用wx.getLocation()获取用地理位置时，如果用户选择拒绝授权，代码会直接抛出错误。如果再次调用wx.getLocation()时，就不会在弹窗询问用户是否允许授权。导致用户想要重新允许获取地理位置时，没有途径。【2】前提准备：小程序已经申请过wx.getLocation()：获取当前的地理位置的服务权限在小程序的根目录下的app.json中配置required
微信小程序中使用wx.getLocation获取实时经纬度，并使用经纬度获取当前定位信息學习？學个屁微信小程序小程序前端 javascript
需在微信公众平台申请wx.getLocation接口，否则上线不可使用，申请需将图片/录屏资料准备齐全，需有配送/打车类的含地图实时绘制路线的功能通过率才大，其他简单文字展示信息不易通过。官方文档：位置/wx.getLocation；需在app.json文件内进行声明："requiredPrivateInfos":["getLocation","chooseLocation","chooseAdd
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
Java高级技术星星不打輰 Java java 开发语言
Java高级技术单元测试：Junit单元测试框架针对于最小的功能单元：方法，编写测试代码对于其进行正确性测试自动测试全部方法样例：packagejunittest;publicclassStringUtil{publicstaticintgetLength(Stringstr){if(str==null||"".equals(str)){return-1;}returnstr.length();}
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
Mysql-经典实战案例（10）：如何用PT-Archiver完成大表的自动归档从不删库的DBA Mysql 经典实战案例 mysql 数据库
真实痛点：电商订单表存储优化场景现状分析某电商平台订单表（order_info）每月新增500万条记录主库：高频读写，SSD存储（空间告急）历史库：HDD存储，只读查询优化目标✅自动迁移7天前的订单到历史库✅每周六23:30执行，不影响业务高峰✅确保数据一致性第一章：前期准备：沙盒实验室搭建1.1实验环境架构生产库：10.33.112.22历史库：10.30.76.41.2环境初始化（双节点执行）
【赵渝强老师】达梦数据库MPP集群的架构数据库信创
为了支持海量数据存储和处理等方面的需求，为高端数据仓库提供解决方案，达梦数据库提供了大规模并行处理MPP架构，以极低的成本代价，提供高性能的并行计算。通过使用MPP可以解决以下问题：需要较高的系统性能支持以支持大量的复杂查询操作硬件束缚对数据库响应能力的影响降低数据库成本视频讲解如下：https://www.bilibili.com/video/BV1dBftYoEkk/?aid=11386961
阅读理解英语小崔的技术博客读书成长笔记其他
Wesearchforloveandtrytogetlove,andyetitseemslikewenevergetenough.Evenwhenwehavefoundlove,itcanslipawayastimepasses.Loveisthespacious,openattentionofourawareness.Thekeytoexperiencingloveistonoticewhere
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
稳定运行的以PostgreSQL数据库为数据源和目标的ETL性能变差时提高性能方法和步骤 weixin_30777913 postgresql 开发语言数据库性能优化 etl
在使用PostgreSQL作为数据源和目标的ETL（Extract,Transform,Load）过程中，当ETL性能变差时，可以通过一系列方法来诊断问题并提高性能。提高PostgreSQL数据库ETL性能的核心思想是从数据库配置、查询优化、硬件资源、并行处理等多个方面入手。通过上述方法逐步优化，可以大幅提升ETL过程的效率。下面是提高PostgreSQL数据库ETL性能的一些常用方法和步骤：1.
第二十九篇数据仓库与商务智能：技术演进与前沿趋势深度解析随缘而动，随遇而安数据库数据仓库大数据数据库架构数据库开发
声明：文章内容仅供参考，需仔细甄别。文中技术名称属相关方商标，仅作技术描述；代码示例为交流学习用途，部分参考开源文档（Apache2.0/GPLv3）；案例数据已脱敏，技术推荐保持中立；法规解读仅供参考，请以《网络安全法》《数据安全法》官方解释为准。目录一、核心差异：技术定位与实现路径1.1核心能力矩阵二、协同关系：现代数据供应链的双引擎2.1数据价值链协同2.2典型技术栈集成三、前沿技术动态（2
Hive 实际应用场景及对应SQL示例小技工丨大数据随笔 hive sql hadoop 大数据数据仓库
Hive实际应用场景及对应SQL示例一、‌日志分析场景‌**场景说明‌：**处理大规模日志数据（如Web访问日志），分析用户行为或系统运行状态。SQL示例‌：--统计每日UV（用户访问量）SELECTdate,COUNT(DISTINCTuser_id)ASdaily_uvFROMweb_logsWHEREevent_type='page_view'GROUPBYdate;技术要点‌：使用DIST
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
hive 使用oracle数据库 sardtass hadoop hive 开源项目
hive使用oracle作为数据源，导入数据使用sqoop或kettle或自己写代码（淘宝的开源项目中有一个xdata就是淘宝自己写的）。感觉sqoop比kettle快多了，淘宝的xdata没用过。hive默认使用derby作为存储表信息的数据库，默认在哪启动就在哪建一个metadata_db文件放数据，可以在conf下的hive-site.xml中配置为一个固定的位置，这样不论在哪启动都可以了。
HiveMetastore 的架构简析 houzhizhen hive hive
HiveMetastore的架构简析HiveMetastore是Hive元数据管理的服务。可以把元数据存储在数据库中。对外通过api访问。hive_metastore.thrift对外提供的Thrift接口定义在文件standalone-metastore/src/main/thrift/hive_metastore.thrift中。内容包括用到的结构体和枚举，和常量，和rpcService。如分
react-11（自定义hook、useRef）我只是想饮一杯奶茶 react JavaScript react.js javascript 前端 typescript
自定义hook主要是我们利用已有的hook,实现hook的效果，并在其他地方引用。（感觉像是封装了一个方法）//定义constfetchHook=(url)=>{const[data,setData]=useState({})const[loading,setLoading]=useState('')useEffect(()=>{setLoading('loading')axios.get(url
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库牧码文数据仓库 hive 数据仓库数据挖掘数据库
内容目录高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库二、外部数据/非结构化数据与数据仓库高级管理人员信息系统和数据仓库以及外部数据/非结构化数据与数据仓库一、高级管理人员信息系统和数据仓库EIS-高级管理人员信息系统-计算机饿最有效形式之一。EIS处理，处于帮助高级管理人员制定决策的目的而设计的。比较典型的用途：趋势分析和发现关键比例指示器度
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

Hive窗口分析函数（案例详细讲解）

Hive窗口分析函数（案例详细讲解）

一、语法结构

二、窗口函数

三、Over从句

四、分析函数

五、COUNT、SUM、MIN、MAX、AVG

1.数据准备

2.sql示例

六、RANK、DENSE_RANK、ROW_NUMBER、NTILE

1.RANK

2.ROW_NUMBER

3.DENSE_RANK

4.NTILE(n)

5.示例一：按照用户的购买时间排序

6.示例二：按条件 求出用户前1/3交易记录

7.CUME_DIST

8.PERCENT_RANK

9.随机抽取百分比的数据

七、LAG、LEAD、FIRST_VALUE、LAST_VALUE

1. LAG(col,n,DEFAULT)

2.LEAD(col,n,DEFAULT)

3.FIRST_VALUE

4.LAST_VALUE

八、GROUPING SETS、GROUPING__ID、CUBE、ROLLUP

九、参考资料

十、where to go

你可能感兴趣的:(Hive,hive,hadoop,数据仓库,etl)

6.示例二：按条件求出用户前1/3交易记录