niecc

hive窗口分析函数

转载http://lxw1234.com/archives/2015/04/193.htm

GROUPING SETS,GROUPING__ID,CUBE,ROLLUP

这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。

Hive版本为 apache-hive-0.13.1

数据准备：

   
   
   
   
    
    
    
    2015-03,2015-03-10,cookie1
    
    
    
    2015-03,2015-03-10,cookie5
    
    
    
    2015-03,2015-03-12,cookie7
    
    
    
    2015-04,2015-04-12,cookie3
    
    
    
    2015-04,2015-04-13,cookie2
    
    
    
    2015-04,2015-04-13,cookie4
    
    
    
    2015-04,2015-04-16,cookie4
    
    
    
    2015-03,2015-03-10,cookie2
    
    
    
    2015-03,2015-03-10,cookie3
    
    
    
    2015-04,2015-04-12,cookie5
    
    
    
    2015-04,2015-04-13,cookie6
    
    
    
    2015-04,2015-04-15,cookie3
    
    
    
    2015-04,2015-04-15,cookie2
    
    
    
    2015-04,2015-04-16,cookie1
    
    
    
     
    
    
    
    CREATE EXTERNAL TABLE lxw1234 (
    
    
    
    month STRING,
    
    
    
    day STRING, 
    
    
    
    cookieid STRING 
    
    
    
    ) ROW FORMAT DELIMITED 
    
    
    
    FIELDS TERMINATED BY ',' 
    
    
    
    stored as textfile location '/tmp/lxw11/';
    
    
    
     
    
    
    
     
    
    
    
    hive> select * from lxw1234;
    
    
    
    OK
    
    
    
    2015-03 2015-03-10      cookie1
    
    
    
    2015-03 2015-03-10      cookie5
    
    
    
    2015-03 2015-03-12      cookie7
    
    
    
    2015-04 2015-04-12      cookie3
    
    
    
    2015-04 2015-04-13      cookie2
    
    
    
    2015-04 2015-04-13      cookie4
    
    
    
    2015-04 2015-04-16      cookie4
    
    
    
    2015-03 2015-03-10      cookie2
    
    
    
    2015-03 2015-03-10      cookie3
    
    
    
    2015-04 2015-04-12      cookie5
    
    
    
    2015-04 2015-04-13      cookie6
    
    
    
    2015-04 2015-04-15      cookie3
    
    
    
    2015-04 2015-04-15      cookie2
    
    
    
    2015-04 2015-04-16      cookie1

GROUPING SETS

在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL

   
   
   
   
    
    
    
    SELECT 
    
    
    
    month,
    
    
    
    day,
    
    
    
    COUNT(DISTINCT cookieid) AS uv,
    
    
    
    GROUPING__ID 
    
    
    
    FROM lxw1234 
    
    
    
    GROUP BY month,day 
    
    
    
    GROUPING SETS (month,day) 
    
    
    
    ORDER BY GROUPING__ID;
    
    
    
     
    
    
    
    month      day            uv      GROUPING__ID
    
    
    
    ------------------------------------------------
    
    
    
    2015-03    NULL            5       1
    
    
    
    2015-04    NULL            6       1
    
    
    
    NULL       2015-03-10      4       2
    
    
    
    NULL       2015-03-12      1       2
    
    
    
    NULL       2015-04-12      2       2
    
    
    
    NULL       2015-04-13      3       2
    
    
    
    NULL       2015-04-15      2       2
    
    
    
    NULL       2015-04-16      2       2
    
    
    
     
    
    
    
     
    
    
    
    等价于 
    
    
    
    SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM lxw1234 GROUP BY month 
    
    
    
    UNION ALL 
    
    
    
    SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM lxw1234 GROUP BY day

再如：

   
   
   
   
    
    
    
    SELECT 
    
    
    
    month,
    
    
    
    day,
    
    
    
    COUNT(DISTINCT cookieid) AS uv,
    
    
    
    GROUPING__ID 
    
    
    
    FROM lxw1234 
    
    
    
    GROUP BY month,day 
    
    
    
    GROUPING SETS (month,day,(month,day)) 
    
    
    
    ORDER BY GROUPING__ID;
    
    
    
     
    
    
    
    month         day             uv      GROUPING__ID
    
    
    
    ------------------------------------------------
    
    
    
    2015-03       NULL            5       1
    
    
    
    2015-04       NULL            6       1
    
    
    
    NULL          2015-03-10      4       2
    
    
    
    NULL          2015-03-12      1       2
    
    
    
    NULL          2015-04-12      2       2
    
    
    
    NULL          2015-04-13      3       2
    
    
    
    NULL          2015-04-15      2       2
    
    
    
    NULL          2015-04-16      2       2
    
    
    
    2015-03       2015-03-10      4       3
    
    
    
    2015-03       2015-03-12      1       3
    
    
    
    2015-04       2015-04-12      2       3
    
    
    
    2015-04       2015-04-13      3       3
    
    
    
    2015-04       2015-04-15      2       3
    
    
    
    2015-04       2015-04-16      2       3
    
    
    
     
    
    
    
     
    
    
    
    等价于
    
    
    
    SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM lxw1234 GROUP BY month 
    
    
    
    UNION ALL 
    
    
    
    SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM lxw1234 GROUP BY day
    
    
    
    UNION ALL 
    
    
    
    SELECT month,day,COUNT(DISTINCT cookieid) AS uv,3 AS GROUPING__ID FROM lxw1234 GROUP BY month,day

其中的 GROUPING__ID，表示结果属于哪一个分组集合。

CUBE

根据GROUP BY的维度的所有组合进行聚合。

   
   
   
   
    
    
    
    SELECT 
    
    
    
    month,
    
    
    
    day,
    
    
    
    COUNT(DISTINCT cookieid) AS uv,
    
    
    
    GROUPING__ID 
    
    
    
    FROM lxw1234 
    
    
    
    GROUP BY month,day 
    
    
    
    WITH CUBE 
    
    
    
    ORDER BY GROUPING__ID;
    
    
    
     
    
    
    
     
    
    
    
    month  			    day             uv     GROUPING__ID
    
    
    
    --------------------------------------------
    
    
    
    NULL            NULL            7       0
    
    
    
    2015-03         NULL            5       1
    
    
    
    2015-04         NULL            6       1
    
    
    
    NULL            2015-04-12      2       2
    
    
    
    NULL            2015-04-13      3       2
    
    
    
    NULL            2015-04-15      2       2
    
    
    
    NULL            2015-04-16      2       2
    
    
    
    NULL            2015-03-10      4       2
    
    
    
    NULL            2015-03-12      1       2
    
    
    
    2015-03         2015-03-10      4       3
    
    
    
    2015-03         2015-03-12      1       3
    
    
    
    2015-04         2015-04-16      2       3
    
    
    
    2015-04         2015-04-12      2       3
    
    
    
    2015-04         2015-04-13      3       3
    
    
    
    2015-04         2015-04-15      2       3
    
    
    
     
    
    
    
     
    
    
    
     
    
    
    
    等价于
    
    
    
    SELECT NULL,NULL,COUNT(DISTINCT cookieid) AS uv,0 AS GROUPING__ID FROM lxw1234
    
    
    
    UNION ALL 
    
    
    
    SELECT month,NULL,COUNT(DISTINCT cookieid) AS uv,1 AS GROUPING__ID FROM lxw1234 GROUP BY month 
    
    
    
    UNION ALL 
    
    
    
    SELECT NULL,day,COUNT(DISTINCT cookieid) AS uv,2 AS GROUPING__ID FROM lxw1234 GROUP BY day
    
    
    
    UNION ALL 
    
    
    
    SELECT month,day,COUNT(DISTINCT cookieid) AS uv,3 AS GROUPING__ID FROM lxw1234 GROUP BY month,day

ROLLUP

是CUBE的子集，以最左侧的维度为主，从该维度进行层级聚合。

   
   
   
   
    
    
    
    比如，以month维度进行层级聚合：
    
    
    
    SELECT 
    
    
    
    month,
    
    
    
    day,
    
    
    
    COUNT(DISTINCT cookieid) AS uv,
    
    
    
    GROUPING__ID  
    
    
    
    FROM lxw1234 
    
    
    
    GROUP BY month,day
    
    
    
    WITH ROLLUP 
    
    
    
    ORDER BY GROUPING__ID;
    
    
    
     
    
    
    
    month  			    day             uv     GROUPING__ID
    
    
    
    ---------------------------------------------------
    
    
    
    NULL             NULL            7       0
    
    
    
    2015-03          NULL            5       1
    
    
    
    2015-04          NULL            6       1
    
    
    
    2015-03          2015-03-10      4       3
    
    
    
    2015-03          2015-03-12      1       3
    
    
    
    2015-04          2015-04-12      2       3
    
    
    
    2015-04          2015-04-13      3       3
    
    
    
    2015-04          2015-04-15      2       3
    
    
    
    2015-04          2015-04-16      2       3
    
    
    
     
    
    
    
    可以实现这样的上钻过程：
    
    
    
    月天的UV->月的UV->总UV

   
   
   
   
    
    
    
    --把month和day调换顺序，则以day维度进行层级聚合：
    
    
    
     
    
    
    
    SELECT 
    
    
    
    day,
    
    
    
    month,
    
    
    
    COUNT(DISTINCT cookieid) AS uv,
    
    
    
    GROUPING__ID  
    
    
    
    FROM lxw1234 
    
    
    
    GROUP BY day,month 
    
    
    
    WITH ROLLUP 
    
    
    
    ORDER BY GROUPING__ID;
    
    
    
     
    
    
    
     
    
    
    
    day  			      month              uv     GROUPING__ID
    
    
    
    -------------------------------------------------------
    
    
    
    NULL            NULL               7       0
    
    
    
    2015-04-13      NULL               3       1
    
    
    
    2015-03-12      NULL               1       1
    
    
    
    2015-04-15      NULL               2       1
    
    
    
    2015-03-10      NULL               4       1
    
    
    
    2015-04-16      NULL               2       1
    
    
    
    2015-04-12      NULL               2       1
    
    
    
    2015-04-12      2015-04            2       3
    
    
    
    2015-03-10      2015-03            4       3
    
    
    
    2015-03-12      2015-03            1       3
    
    
    
    2015-04-13      2015-04            3       3
    
    
    
    2015-04-15      2015-04            2       3
    
    
    
    2015-04-16      2015-04            2       3
    
    
    
     
    
    
    
    可以实现这样的上钻过程：
    
    
    
    天月的UV->天的UV->总UV
    
    
    
    （这里，根据天和月进行聚合，和根据天聚合结果一样，因为有父子关系，如果是其他维度组合的话，就会不一样
   
   
   
   
   
   
   
   
    
    
    
    

   
   
   
   
   
   
   
   
    
    
    
    
    
    
    
    窗口函数与分析函数
    
    
    
    应用场景： 
（1）用于分区排序 
（2）动态Group By 
（3）Top N 
（4）累计计算 
（5）层次查询
    
    
    
    窗口函数
    
    
    
    FIRST_VALUE：取分组内排序后，截止到当前行，第一个值 
LAST_VALUE： 取分组内排序后，截止到当前行，最后一个值 
LEAD(col,n,DEFAULT) ：用于统计窗口内往下第n行值。第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL） 
LAG(col,n,DEFAULT) ：与lead相反，用于统计窗口内往上第n行值。第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）
    
    
    
    OVER从句
    
    
    
    1、使用标准的聚合函数COUNT、SUM、MIN、MAX、AVG 
2、使用PARTITION BY语句，使用一个或者多个原始数据类型的列 
3、使用PARTITION BY与ORDER BY语句，使用一个或者多个数据类型的分区或者排序列 
4、使用窗口规范，窗口规范支持以下格式：
    
    
    
    (ROWS | RANGE) BETWEEN (UNBOUNDED | [num]) PRECEDING AND ([num] PRECEDING | CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROWS | RANGE) BETWEEN CURRENT ROW AND (CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)
(ROWS | RANGE) BETWEEN [num] FOLLOWING AND (UNBOUNDED | [num]) FOLLOWING
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
     
     
     
     
    
    
    
    当ORDER BY后面缺少窗口从句条件，窗口规范默认是 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW.
    
    
    
    当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING.
    
    
    
    OVER从句支持以下函数， 但是并不支持和窗口一起使用它们。 
Ranking函数: Rank, NTile, DenseRank, CumeDist, PercentRank. 
Lead 和 Lag 函数.
    
    
    
    分析函数
    
    
    
    ROW_NUMBER() 从1开始，按照顺序，生成分组内记录的序列,比如，按照pv降序排列，生成分组内每天的pv名次,ROW_NUMBER()的应用场景非常多，再比如，获取分组内排序第一的记录;获取一个session中的第一条refer等。 
RANK() 生成数据项在分组中的排名，排名相等会在名次中留下空位 
DENSE_RANK() 生成数据项在分组中的排名，排名相等会在名次中不会留下空位 
CUME_DIST 小于等于当前值的行数/分组内总行数。比如，统计小于等于当前薪水的人数，所占总人数的比例 
PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1 
NTILE(n) 用于将分组数据按照顺序切分成n片，返回当前切片值，如果切片不均匀，默认增加第一个切片的分布。NTILE不支持ROWS BETWEEN，比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW)。
    
    
    
    Hive2.1.0及以后支持Distinct
    
    
    
    在聚合函数（SUM, COUNT and AVG）中，支持distinct，但是在ORDER BY 或者 窗口限制不支持。
    
    
    
    COUNT(DISTINCT a) OVER (PARTITION BY c)
     
     
     
     
      
      
      
      1
     
     
     
     
    
    
    
    Hive 2.2.0中在使用ORDER BY和窗口限制时支持distinct
    
    
    
    COUNT(DISTINCT a) OVER (PARTITION BY c ORDER BY d ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING)
     
     
     
     
      
      
      
      1
     
     
     
     
    
    
    
    Hive2.1.0及以后支持在OVER从句中支持聚合函数
    
    
    
    SELECT rank() OVER (ORDER BY sum(b))
FROM T
GROUP BY a;
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
     
     
     
     
    
    
    
    测试数据集： 

    
    
    
    ## COUNT、SUM、MIN、MAX、AVG
select 
    user_id,
    user_type,
    sales,
    --默认为从起点到当前行
    sum(sales) OVER(PARTITION BY user_type ORDER BY sales asc) AS sales_1,
    --从起点到当前行，结果与sales_1不同。
    sum(sales) OVER(PARTITION BY user_type ORDER BY sales asc ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS sales_2,
    --当前行+往前3行
    sum(sales) OVER(PARTITION BY user_type ORDER BY sales asc ROWS BETWEEN 3 PRECEDING AND CURRENT ROW) AS sales_3,
    --当前行+往前3行+往后1行
    sum(sales) OVER(PARTITION BY user_type ORDER BY sales asc ROWS BETWEEN 3 PRECEDING AND 1 FOLLOWING) AS sales_4,
    --当前行+往后所有行  
    sum(sales) OVER(PARTITION BY user_type ORDER BY sales asc ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) AS sales_5,
    --分组内所有行
    SUM(sales) OVER(PARTITION BY user_type) AS sales_6                          
from 
    order_detail
order by 
    user_type,
    sales,
    user_id

+----------+------------+--------+----------+----------+----------+----------+----------+----------+--+
| user_id  | user_type  | sales  | sales_1  | sales_2  | sales_3  | sales_4  | sales_5  | sales_6  |
+----------+------------+--------+----------+----------+----------+----------+----------+----------+--+
| liiu     | new        | 1      | 2        | 2        | 2        | 4        | 22       | 23       |
| qibaqiu  | new        | 1      | 2        | 1        | 1        | 2        | 23       | 23       |
| zhangsa  | new        | 2      | 4        | 4        | 4        | 7        | 21       | 23       |
| wanger   | new        | 3      | 7        | 7        | 7        | 12       | 19       | 23       |
| lilisi   | new        | 5      | 17       | 17       | 15       | 21       | 11       | 23       |
| qishili  | new        | 5      | 17       | 12       | 11       | 16       | 16       | 23       |
| wutong   | new        | 6      | 23       | 23       | 19       | 19       | 6        | 23       |
| lisi     | old        | 1      | 1        | 1        | 1        | 3        | 6        | 6        |
| wangshi  | old        | 2      | 3        | 3        | 3        | 6        | 5        | 6        |
| liwei    | old        | 3      | 6        | 6        | 6        | 6        | 3        | 6        |
+----------+------------+--------+----------+----------+----------+----------+----------+----------+--+

注意:
结果和ORDER BY相关,默认为升序
如果不指定ROWS BETWEEN,默认为从起点到当前行;
如果不指定ORDER BY，则将分组内所有值累加;

关键是理解ROWS BETWEEN含义,也叫做WINDOW子句：
PRECEDING：往前
FOLLOWING：往后
CURRENT ROW：当前行
UNBOUNDED：无界限（起点或终点）
UNBOUNDED PRECEDING：表示从前面的起点 
UNBOUNDED FOLLOWING：表示到后面的终点
其他COUNT、AVG，MIN，MAX，和SUM用法一样。
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27
      
      
      
      28
      
      
      
      29
      
      
      
      30
      
      
      
      31
      
      
      
      32
      
      
      
      33
      
      
      
      34
      
      
      
      35
      
      
      
      36
      
      
      
      37
      
      
      
      38
      
      
      
      39
      
      
      
      40
      
      
      
      41
      
      
      
      42
      
      
      
      43
      
      
      
      44
      
      
      
      45
      
      
      
      46
      
      
      
      47
      
      
      
      48
      
      
      
      49
      
      
      
      50
      
      
      
      51
      
      
      
      52
     
     
     
     
    
    
    
    ## first_value与last_value
select 
    user_id,
    user_type,
    ROW_NUMBER() OVER(PARTITION BY user_type ORDER BY sales) AS row_num,  
    first_value(user_id) over (partition by user_type order by sales desc) as max_sales_user,
    first_value(user_id) over (partition by user_type order by sales asc) as min_sales_user,
    last_value(user_id) over (partition by user_type order by sales desc) as curr_last_min_user,
    last_value(user_id) over (partition by user_type order by sales asc) as curr_last_max_user
from 
    order_detail;

+----------+------------+----------+-----------------+-----------------+---------------------+---------------------+--+
| user_id  | user_type  | row_num  | max_sales_user  | min_sales_user  | curr_last_min_user  | curr_last_max_user  |
+----------+------------+----------+-----------------+-----------------+---------------------+---------------------+--+
| wutong   | new        | 7        | wutong          | qibaqiu         | wutong              | wutong              |
| lilisi   | new        | 6        | wutong          | qibaqiu         | qishili             | lilisi              |
| qishili  | new        | 5        | wutong          | qibaqiu         | qishili             | lilisi              |
| wanger   | new        | 4        | wutong          | qibaqiu         | wanger              | wanger              |
| zhangsa  | new        | 3        | wutong          | qibaqiu         | zhangsa             | zhangsa             |
| liiu     | new        | 2        | wutong          | qibaqiu         | qibaqiu             | liiu                |
| qibaqiu  | new        | 1        | wutong          | qibaqiu         | qibaqiu             | liiu                |
| liwei    | old        | 3        | liwei           | lisi            | liwei               | liwei               |
| wangshi  | old        | 2        | liwei           | lisi            | wangshi             | wangshi             |
| lisi     | old        | 1        | liwei           | lisi            | lisi                | lisi                |
+----------+------------+----------+-----------------+-----------------+---------------------+---------------------+--+

## lead与lag
select 
    user_id,device_id,
    lead(device_id) over (order by sales) as default_after_one_line,
    lag(device_id) over (order by sales) as default_before_one_line,
    lead(device_id,2) over (order by sales) as after_two_line,
    lag(device_id,2,'abc') over (order by sales) as before_two_line
from 
    order_detail;

+----------+-------------+-------------------------+--------------------------+-----------------+------------------+--+
| user_id  |  device_id  | default_after_one_line  | default_before_one_line  | after_two_line  | before_two_line  |
+----------+-------------+-------------------------+--------------------------+-----------------+------------------+--+
| qibaqiu  | fds         | fdsfagwe                | NULL                     | 543gfd          | abc              |
| liiu     | fdsfagwe    | 543gfd                  | fds                      | f332            | abc              |
| lisi     | 543gfd      | f332                    | fdsfagwe                 | dfsadsa323      | fds              |
| wangshi  | f332        | dfsadsa323              | 543gfd                   | hfd             | fdsfagwe         |
| zhangsa  | dfsadsa323  | hfd                     | f332                     | 65ghf           | 543gfd           |
| liwei    | hfd         | 65ghf                   | dfsadsa323               | fds             | f332             |
| wanger   | 65ghf       | fds                     | hfd                      | dsfgg           | dfsadsa323       |
| qishili  | fds         | dsfgg                   | 65ghf                    | 543gdfsd        | hfd              |
| lilisi   | dsfgg       | 543gdfsd                | fds                      | NULL            | 65ghf            |
| wutong   | 543gdfsd    | NULL                    | dsfgg                    | NULL            | fds              |
+----------+-------------+-------------------------+--------------------------+-----------------+------------------+--+

     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27
      
      
      
      28
      
      
      
      29
      
      
      
      30
      
      
      
      31
      
      
      
      32
      
      
      
      33
      
      
      
      34
      
      
      
      35
      
      
      
      36
      
      
      
      37
      
      
      
      38
      
      
      
      39
      
      
      
      40
      
      
      
      41
      
      
      
      42
      
      
      
      43
      
      
      
      44
      
      
      
      45
      
      
      
      46
      
      
      
      47
      
      
      
      48
      
      
      
      49
      
      
      
      50
      
      
      
      51
      
      
      
      52
     
     
     
     
    
    
    
    
## RANK、ROW_NUMBER、DENSE_RANK
select 
    user_id,user_type,sales,
    RANK() over (partition by user_type order by sales desc) as r,
    ROW_NUMBER() over (partition by user_type order by sales desc) as rn,
    DENSE_RANK() over (partition by user_type order by sales desc) as dr
from
    order_detail;   


+----------+------------+--------+----+-----+-----+--+
| user_id  | user_type  | sales  | r  | rn  | dr  |
+----------+------------+--------+----+-----+-----+--+
| wutong   | new        | 6      | 1  | 1   | 1   |
| qishili  | new        | 5      | 2  | 2   | 2   |
| lilisi   | new        | 5      | 2  | 3   | 2   |
| wanger   | new        | 3      | 4  | 4   | 3   |
| zhangsa  | new        | 2      | 5  | 5   | 4   |
| qibaqiu  | new        | 1      | 6  | 6   | 5   |
| liiu     | new        | 1      | 6  | 7   | 5   |
| liwei    | old        | 3      | 1  | 1   | 1   |
| wangshi  | old        | 2      | 2  | 2   | 2   |
| lisi     | old        | 1      | 3  | 3   | 3   |
+----------+------------+--------+----+-----+-----+--+  
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
     
     
     
     
    
    
    
    ## NTILE

select 
    user_type,sales,
    --分组内将数据分成2片
    NTILE(2) OVER(PARTITION BY user_type ORDER BY sales) AS nt2,
    --分组内将数据分成3片    
    NTILE(3) OVER(PARTITION BY user_type ORDER BY sales) AS nt3,
    --分组内将数据分成4片    
    NTILE(4) OVER(PARTITION BY user_type ORDER BY sales) AS nt4,
    --将所有数据分成4片
    NTILE(4) OVER(ORDER BY sales) AS all_nt4
from 
    order_detail
order by 
    user_type,
    sales


+------------+--------+------+------+------+----------+--+
| user_type  | sales  | nt2  | nt3  | nt4  | all_nt4  |
+------------+--------+------+------+------+----------+--+
| new        | 1      | 1    | 1    | 1    | 1        |
| new        | 1      | 1    | 1    | 1    | 1        |
| new        | 2      | 1    | 1    | 2    | 2        |
| new        | 3      | 1    | 2    | 2    | 3        |
| new        | 5      | 2    | 2    | 3    | 4        |
| new        | 5      | 2    | 3    | 3    | 3        |
| new        | 6      | 2    | 3    | 4    | 4        |
| old        | 1      | 1    | 1    | 1    | 1        |
| old        | 2      | 1    | 2    | 2    | 2        |
| old        | 3      | 2    | 3    | 3    | 2        |
+------------+--------+------+------+------+----------+--+


求取sale前20%的用户ID

select
    user_id
from
(
    select 
        user_id,
        NTILE(5) OVER(ORDER BY sales desc) AS nt
    from 
        order_detail
)A
where nt=1;
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27
      
      
      
      28
      
      
      
      29
      
      
      
      30
      
      
      
      31
      
      
      
      32
      
      
      
      33
      
      
      
      34
      
      
      
      35
      
      
      
      36
      
      
      
      37
      
      
      
      38
      
      
      
      39
      
      
      
      40
      
      
      
      41
      
      
      
      42
      
      
      
      43
      
      
      
      44
      
      
      
      45
      
      
      
      46
      
      
      
      47
      
      
      
      48
     
     
     
     
    
    
    
    ## CUME_DIST、PERCENT_RANK 

select 
user_id,user_type,sales,
--没有partition,所有数据均为1组
CUME_DIST() OVER(ORDER BY sales) AS cd1,
--按照user_type进行分组
CUME_DIST() OVER(PARTITION BY user_type ORDER BY sales) AS cd2 
from 
order_detail;   

+----------+------------+--------+------+----------------------+--+
| user_id  | user_type  | sales  | cd1  |         cd2          |
+----------+------------+--------+------+----------------------+--+
| liiu     | new        | 1      | 0.3  | 0.2857142857142857   |
| qibaqiu  | new        | 1      | 0.3  | 0.2857142857142857   |
| zhangsa  | new        | 2      | 0.5  | 0.42857142857142855  |
| wanger   | new        | 3      | 0.7  | 0.5714285714285714   |
| lilisi   | new        | 5      | 0.9  | 0.8571428571428571   |
| qishili  | new        | 5      | 0.9  | 0.8571428571428571   |
| wutong   | new        | 6      | 1.0  | 1.0                  |
| lisi     | old        | 1      | 0.3  | 0.3333333333333333   |
| wangshi  | old        | 2      | 0.5  | 0.6666666666666666   |
| liwei    | old        | 3      | 0.7  | 1.0                  |
+----------+------------+--------+------+----------------------+--+


select 
user_type,sales
--分组内总行数      
SUM(1) OVER(PARTITION BY user_type) AS s, 
--RANK值  
RANK() OVER(ORDER BY sales) AS r,    
PERCENT_RANK() OVER(ORDER BY sales) AS pr,
--分组内     
PERCENT_RANK() OVER(PARTITION BY user_type ORDER BY sales) AS prg 
from 
order_detail;   

+----+-----+---------------------+---------------------+--+
| s  |  r  |         pr          |         prg         |
+----+-----+---------------------+---------------------+--+
| 7  | 1   | 0.0                 | 0.0                 |
| 7  | 1   | 0.0                 | 0.0                 |
| 7  | 4   | 0.3333333333333333  | 0.3333333333333333  |
| 7  | 6   | 0.5555555555555556  | 0.5                 |
| 7  | 8   | 0.7777777777777778  | 0.6666666666666666  |
| 7  | 8   | 0.7777777777777778  | 0.6666666666666666  |
| 7  | 10  | 1.0                 | 1.0                 |
| 3  | 1   | 0.0                 | 0.0                 |
| 3  | 4   | 0.3333333333333333  | 0.5                 |
| 3  | 6   | 0.5555555555555556  | 1.0                 |
+----+-----+---------------------+---------------------+--+
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27
      
      
      
      28
      
      
      
      29
      
      
      
      30
      
      
      
      31
      
      
      
      32
      
      
      
      33
      
      
      
      34
      
      
      
      35
      
      
      
      36
      
      
      
      37
      
      
      
      38
      
      
      
      39
      
      
      
      40
      
      
      
      41
      
      
      
      42
      
      
      
      43
      
      
      
      44
      
      
      
      45
      
      
      
      46
      
      
      
      47
      
      
      
      48
      
      
      
      49
      
      
      
      50
      
      
      
      51
      
      
      
      52
      
      
      
      53
     
     
     
     
    
    
    
    增强的聚合 Cube和Grouping 和Rollup
    
    
    
    这几个分析函数通常用于OLAP中，不能累加，而且需要根据不同维度上钻和下钻的指标统计，比如，分小时、天、月的UV数。
    
    
    
    GROUPING SETS 
在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL, 
其中的GROUPING__ID，表示结果属于哪一个分组集合。
    
    
    
    select
    user_type,
    sales,
    count(user_id) as pv,
    GROUPING__ID 
from 
    order_detail
group by 
    user_type,sales
GROUPING SETS(user_type,sales) 
ORDER BY 
    GROUPING__ID;

+------------+--------+-----+---------------+--+
| user_type  | sales  | pv  | grouping__id  |
+------------+--------+-----+---------------+--+
| old        | NULL   | 3   | 1             |
| new        | NULL   | 7   | 1             |
| NULL       | 6      | 1   | 2             |
| NULL       | 5      | 2   | 2             |
| NULL       | 3      | 2   | 2             |
| NULL       | 2      | 2   | 2             |
| NULL       | 1      | 3   | 2             |
+------------+--------+-----+---------------+--+

select
    user_type,
    sales,
    count(user_id) as pv,
    GROUPING__ID 
from 
    order_detail
group by 
    user_type,sales
GROUPING SETS(user_type,sales,(user_type,sales)) 
ORDER BY 
    GROUPING__ID;

+------------+--------+-----+---------------+--+
| user_type  | sales  | pv  | grouping__id  |
+------------+--------+-----+---------------+--+
| old        | NULL   | 3   | 1             |
| new        | NULL   | 7   | 1             |
| NULL       | 1      | 3   | 2             |
| NULL       | 6      | 1   | 2             |
| NULL       | 5      | 2   | 2             |
| NULL       | 3      | 2   | 2             |
| NULL       | 2      | 2   | 2             |
| old        | 3      | 1   | 3             |
| old        | 2      | 1   | 3             |
| old        | 1      | 1   | 3             |
| new        | 6      | 1   | 3             |
| new        | 5      | 2   | 3             |
| new        | 3      | 1   | 3             |
| new        | 1      | 2   | 3             |
| new        | 2      | 1   | 3             |
+------------+--------+-----+---------------+--+
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27
      
      
      
      28
      
      
      
      29
      
      
      
      30
      
      
      
      31
      
      
      
      32
      
      
      
      33
      
      
      
      34
      
      
      
      35
      
      
      
      36
      
      
      
      37
      
      
      
      38
      
      
      
      39
      
      
      
      40
      
      
      
      41
      
      
      
      42
      
      
      
      43
      
      
      
      44
      
      
      
      45
      
      
      
      46
      
      
      
      47
      
      
      
      48
      
      
      
      49
      
      
      
      50
      
      
      
      51
      
      
      
      52
      
      
      
      53
      
      
      
      54
      
      
      
      55
      
      
      
      56
      
      
      
      57
     
     
     
     
    
    
    
    CUBE 
根据GROUP BY的维度的所有组合进行聚合。
    
    
    
    select
    user_type,
    sales,
    count(user_id) as pv,
    GROUPING__ID 
from 
    order_detail
group by 
    user_type,sales
WITH CUBE 
ORDER BY 
    GROUPING__ID;

+------------+--------+-----+---------------+--+
| user_type  | sales  | pv  | grouping__id  |
+------------+--------+-----+---------------+--+
| NULL       | NULL   | 10  | 0             |
| new        | NULL   | 7   | 1             |
| old        | NULL   | 3   | 1             |
| NULL       | 6      | 1   | 2             |
| NULL       | 5      | 2   | 2             |
| NULL       | 3      | 2   | 2             |
| NULL       | 2      | 2   | 2             |
| NULL       | 1      | 3   | 2             |
| old        | 3      | 1   | 3             |
| old        | 2      | 1   | 3             |
| old        | 1      | 1   | 3             |
| new        | 6      | 1   | 3             |
| new        | 5      | 2   | 3             |
| new        | 3      | 1   | 3             |
| new        | 2      | 1   | 3             |
| new        | 1      | 2   | 3             |
+------------+--------+-----+---------------+--+
     
     
     
     
      
      
      
      1
      
      
      
      2
      
      
      
      3
      
      
      
      4
      
      
      
      5
      
      
      
      6
      
      
      
      7
      
      
      
      8
      
      
      
      9
      
      
      
      10
      
      
      
      11
      
      
      
      12
      
      
      
      13
      
      
      
      14
      
      
      
      15
      
      
      
      16
      
      
      
      17
      
      
      
      18
      
      
      
      19
      
      
      
      20
      
      
      
      21
      
      
      
      22
      
      
      
      23
      
      
      
      24
      
      
      
      25
      
      
      
      26
      
      
      
      27
      
      
      
      28
      
      
      
      29
      
      
      
      30
      
      
      
      31
      
      
      
      32
      
      
      
      33
     
     
     
     
    
    
    
    ROLLUP 
是CUBE的子集，以最左侧的维度为主，从该维度进行层级聚合。
    
    
    
    select
    user_type,
    sales,
    count(user_id) as pv,
    GROUPING__ID 
from 
    order_detail
group by 
    user_type,sales
WITH ROLLUP 
ORDER BY 
    GROUPING__ID;

+------------+--------+-----+---------------+--+
| user_type  | sales  | pv  | grouping__id  |
+------------+--------+-----+---------------+--+
| NULL       | NULL   | 10  | 0             |
| old        | NULL   | 3   | 1             |
| new        | NULL   | 7   | 1             |
| old        | 3      | 1   | 3             |
| old        | 2      | 1   | 3             |
| old        | 1      | 1   | 3             |
| new        | 6      | 1   | 3             |
| new        | 5      | 2   | 3             |
| new        | 3      | 1   | 3             |
| new        | 2      | 1   | 3             |
| new        | 1      | 2   | 3             |
+------------+--------+-----+---------------+--+

你可能感兴趣的:(hive)

解决方案架构手册第三版（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/767f6c16a82c581ed50af87f92c3fe8f译者：飞龙协议：CCBY-NC-SA4.0第五章：5云原生架构设计模式在数字化转型快速发展的时代，企业越来越多地转向云平台，提供可扩展、具备弹性且具成本效益的解决方案。采用云原生架构正成为寻求敏捷性、创新和运营效率的组织的战略必需。本章将引导您设计和实施云原生架构的旅程，重点介绍架构模
Jenkins集成Gitlab流水线大唐雷恋
参考这篇文章就够了https://www.zxblinux.com/archives/665另外，备注下流水线的配置：pipeline{agentanystages{stage('GitPull'){steps{echo'Updatesourcefromgitlab...'checkout([$class:'GitSCM',branches:[[name:'*/develop']],doGener
instantiate 卡顿严重_利用缓存池解决Instantiate慢的问题 weixin_39958100 instantiate 卡顿严重
Unity3D做项目有三个地方处理不好游戏整体就会出现卡顿的问题。1.NGUI直接打开界面卡，建议看看这一篇文章http://www.xuanyusong.com/archives/2799(本文就不赘述了)2.角色放技能的时候卡尤其是放群体攻击技能时，因为每个人身上都要产生一个技能特效。技能都是用粒子特效做的，虽然Unity中粒子特效也是一个GameObject.但是ParticleSystem
数据库和数据仓库区别 hhhecker Hadoop学习数据仓库数据库 hive
HIve与Mysql对比HiveMysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持（不支持修改和删除）支持（支持增删改查）索引有，但较弱，一般很少用有，经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库与数据仓库对比数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
required archivelog files for a guaranteed restore point 查找GRP需要的归档文件 jnrjian oracle sql
Appliesto:OracleDatabase-EnterpriseEdition-Version11.2.0.2andlaterInformationinthisdocumentappliestoanyplatform.GoalHowcanyoudeterminetherequiredarchivelogfilesneededforaguaranteedrestorepointbeforeru
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
datasophon下dolphinscheduler执行脚本出错无级程序员大数据 hive 硬件架构 hadoop
执行hive脚本出错：错误消息：FAILED:RuntimeExceptionErrorloadinghooks(hive.exec.post.hooks):java.lang.ClassNotFoundException:org.apache.atlas.hive.hook.HiveHookatjava.net.URLClassLoader.findClass(URLClassLoader.ja
hive 分区表select全部数据_hive分区表 Xenophon Tony hive 分区表select全部数据
内部表和外部表内部表：createtable，copy数据到warehouse,删除表时数据也会删除外部表：createexternaltable，不copy数据到warehouse,删除表时数据不会删除表的分区分区的好处：如果不建立分区的话，则会全表扫描数据通过目录划分分区，分区字段是特殊字段目录结构：/pub/{dt}/{customer_id}/添加分区：ALTERTABLEfsADDPAT
hive底层原理 sql执行过程_Hive原理总结（完整版）
目录课程大纲(HIVE增强)31.Hive基本概念41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与Hadoop的关系61.4Hive与传统数据库对比61.5Hive的数据存储62.Hive基本操作72.1DDL操作72.1.1创建表72.1.
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
python连接数据库的方法,Python 连接数据库的多种方法 AI MIU python连接数据库的方法
JZGKCHINAPython是一种计算机程序设计语言，它是一种动态的、面向对象的脚本语言。它是一种跨平台的，可以运行在Windows，Mac和Linux/Unix系统上。在日常使用中需要对大量数据进行数据分析，那么就必然用到数据库，我们常用的数据库有SQLServer,MySQL,Oracle,DB2,SQLite，Hive，PostgreSQL,MongoDB还有其他常用的MicrosoftA
Linux教程（4）----[hive数据仓库工具] .房东的猫 Linux教程（完善中~~）linux
Hive基本概念Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高
flink sql读hive catalog数据，将string类型的时间戳数据排序后写入kafka，如何保障写入kafka的数据是有序的 fzip Flink flink sql hive
在FlinkSQL中，要确保从Hive读取的STRING类型时间戳数据排序后有序写入Kafka，需要结合批处理模式、时间类型转换、单分区写入和Kafka生产者配置。以下是完整解决方案：一、核心解决方案1.批处理模式+全局排序将作业设置为批处理模式，并对字符串时间戳进行类型转换后排序：--设置为批处理模式（关键！）SET'execution.runtime-mode'='batch';--从Hive
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
flink sql如何对hive string类型的时间戳进行排序
在FlinkSQL中对Hive表的STRING类型时间戳进行排序，需要先将字符串转换为时间类型，再基于时间类型排序。以下是具体方法和示例：一、核心解决方案1.字符串转TIMESTAMP后排序若Hive中的时间戳格式为'yyyy-MM-ddHH:mm:ss'（如'2024-01-0112:00:00'），可直接转为TIMESTAMP排序：SELECT*FROMhive_tableORDERBYTO_
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题明天,今天,此时 hive paimon
前言根据官网paimon安装教程，看上去简单，实则报错阻碍使用的信心。解决方法原带的jars下的zstd开头的包旧了，重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将hdfsyarn用户下的mr-framework.tar.gz中的zstdjar包替换成新的版本。重启就可以了总结国外软件问题，尽量使用英文搜索，特别是google.。方法来源：http
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用 eagle_Annie 网络 linux tcp/ip
ROS1/Linux——linux虚拟机主ip地址：网络信息不可用文章目录ROS1/Linux——linux虚拟机主ip地址：网络信息不可用参考亿点链接问题描述最终解决方案参考亿点链接Unabletofetchsomearchives,mayberunapt-getupdateortrywith–fix-missinglinux虚拟机主ip地址：网络信息不可用（没IP）【问题解决】VMWare虚拟
React-Python项目安装与使用指南
React-Python项目安装与使用指南一、项目目录结构及介绍通常情况下，在克隆了https://github.com/facebookarchive/react-python.git仓库之后，你会看到以下的目录结构：├──README.md#项目的说明文档├──src#源码目录│├──components#React组件存放位置│├──App.py#应用主入口文件│└──index.js#引入
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
Python 取证学习指南第二版（三）
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0第七章：模糊哈希哈希是DFIR中最常见的处理过程之一。这个过程允许我们总结文件内容，并分配一个代表文件内容的独特且可重复的签名。我们通常使用MD5、SHA1和SHA256等算法对文件和内容进行哈希。这些哈希算法非常有价值，因为我们可以用它们进行
低版本hive(1.2.1)UDF实现清除历史分区数据 ༺水墨石༻ hive hive UDF hive hadoop 数据仓库
目标：通过UDF实现对表历史数据清除入参：表名、保留天数N一、pom文件4.0.0com.examplehive-udf-example1.0-SNAPSHOTjarhive-udf-exampleHiveUDFfordeletingpartitionsbydateUTF-81.81.8org.apache.hivehive-exec1.2.1org.apache.hivehive-metasto
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb