一瓢一瓢的饮 alanchan

9、hive的explode、Lateral View侧视图、聚合函数、窗口函数、抽样函数使用详解

Apache Hive 系列文章

1、apache-hive-3.1.2简介及部署（三种部署方式-内嵌模式、本地模式和远程模式）及验证详解
2、hive相关概念详解–架构、读写文件机制、数据存储
3、hive的使用示例详解-建表、数据类型详解、内部外部表、分区表、分桶表
4、hive的使用示例详解-事务表、视图、物化视图、DDL(数据库、表以及分区)管理详细操作
5、hive的load、insert、事务表使用详解及示例
6、hive的select（GROUP BY、ORDER BY、CLUSTER BY、SORT BY、LIMIT、union、CTE）、join使用详解及示例
7、hive shell客户端与属性配置、内置运算符、函数（内置运算符与自定义UDF运算符）
8、hive的关系运算、逻辑预算、数学运算、数值运算、日期函数、条件函数和字符串函数的语法与使用示例详解
9、hive的explode、Lateral View侧视图、聚合函数、窗口函数、抽样函数使用详解
10、hive综合示例：数据多分隔符（正则RegexSerDe）、url解析、行列转换常用函数（case when、union、concat和explode）详细使用示例
11、hive综合应用示例：json解析、窗口函数应用（连续登录、级联累加、topN）、拉链表应用
12、Hive优化-文件存储格式和压缩格式优化与job执行优化（执行计划、MR属性、join、优化器、谓词下推和数据倾斜优化）详细介绍及示例
13、java api访问hive操作示例

文章目录

Apache Hive 系列文章
一、UDTF的explode函数
- 1、示例
- 2、explode使用限制
- 3、UDTF语法限制解决
二、Lateral View侧视图
- 1、示例
三、Aggregation聚合函数
- 1、基本示例
- 2、grouping_sets、cube、rollup用法
- - 1）、grouping sets
  - 2）、cube
  - 3）、rollup
  - 4）、示例
四、Windows Functions窗口函数
- 1、介绍
- 2、语法
- 3、示例1：sum和窗口函数聚合
- 4、示例2：综合示例窗口函数
- 5、窗口表达式
- - 1）、介绍
  - 2）语法
  - 3）、示例
- 6、窗口排序函数--row_number家族
- 7、窗口排序函数--ntile
- 8、窗口分析函数
- - 1）、语法
  - 2）、示例
五、Sampling抽样函数
- 1、Random 随机抽样
- 2、Block 基于数据块抽样
- 3、Bucket table 基于分桶表抽样

本文介绍了hive的explode函数、Lateral View侧视图、聚合函数、窗口函数和抽样函数内容及详细的使用示例。
本文依赖hive环境可用。
本文分为5个部分，即explode函数、侧视图、聚合函数、窗口函数和抽样函数。
本文部分数据来源于互联网。

一、UDTF的explode函数

explode接收map、array类型的数据作为输入，然后把输入数据中的每个元素拆开变成一行数据，一个元素一行。
explode执行效果正好满足于输入一行输出多行，所有叫做UDTF函数。

一般情况下，explode函数可以直接单独使用即可；也可以根据业务需要结合lateral view侧视图一起使用。
explode(array) 将array里的每个元素生成一行；
explode(map) 将map里的每一对元素作为一行，其中key为一列，value为一列；

0: jdbc:hive2://server4:10000> select explode(`array`(11,22,33)) as item;
+-------+
| item  |
+-------+
| 11    |
| 22    |
| 33    |
+-------+
0: jdbc:hive2://server4:10000> select explode(`map`("id",10086,"name","zhangsan","age",18));
+-------+-----------+
|  key  |   value   |
+-------+-----------+
| id    | 10086     |
| name  | zhangsan  |
| age   | 18        |
+-------+-----------+

1、示例

使用Hive建表映射成功数据，对数据拆分，要求拆分之后数据如下所示

字段之间以‘，’分割
总冠军年份之间以‘|’进行分割

源数据自己造，按照图片内容即可。

create table the_nba_championship(
           team_name string,
           champion_year array<string>
) row format delimited
fields terminated by ','
collection items terminated by '|';

load data inpath '/hivetest/test/The_NBA_Championship.txt' into table the_nba_championship;

0: jdbc:hive2://server4:10000> select * from the_nba_championship;
+---------------------------------+----------------------------------------------------+
| the_nba_championship.team_name  |         the_nba_championship.champion_year         |
+---------------------------------+----------------------------------------------------+
| Chicago Bulls                   | ["1991","1992","1993","1996","1997","1998"]        |
| San Antonio Spurs               | ["1999","2003","2005","2007","2014"]               |
| Golden State Warriors           | ["1947","1956","1975","2015","2017","2018","2022"] |
| Boston Celtics                  | ["1957","1959","1960","1961","1962","1963","1964","1965","1966","1968","1969","1974","1976","1981","1984","1986","2008"] |
| L.A. Lakers                     | ["1949","1950","1952","1953","1954","1972","1980","1982","1985","1987","1988","2000","2001","2002","2009","2010","2020"] |
| Miami Heat                      | ["2006","2012","2013"]                             |
| Philadelphia 76ers              | ["1955","1967","1983"]                             |
| Detroit Pistons                 | ["1989","1990","2004"]                             |
| Houston Rockets                 | ["1994","1995"]                                    |
| New York Knicks                 | ["1970","1973"]                                    |
| Cleveland Cavaliers             | ["2016"]                                           |
| Toronto Raptors                 | ["2019"]                                           |
| Milwaukee Bucks                 | ["2021"]                                           |
+---------------------------------+----------------------------------------------------+

2、explode使用限制

explode函数属于UDTF表生成函数，explode执行返回的结果可以理解为一张虚拟的表，其数据来源于源表
在select中只查询源表数据没有问题，只查询explode生成的虚拟表数据也没问题，但是不能在只查询源表的时候，既想返回源表字段又想返回explode生成的虚拟表字段，即有两张表，不能只查询一张表但是又想返回分别属于两张表的字段。如下图所示

3、UDTF语法限制解决

从SQL层面上来说上述问题的解决方案是：对两张表进行join关联查询;
Hive专门提供了语法lateral View侧视图，专门用于搭配explode这样的UDTF函数，以满足上述需要。
实现sql如下

select a.team_name,b.year
from the_nba_championship a lateral view explode(champion_year) b as year
order by b.year desc;

二、Lateral View侧视图

Lateral View是一种特殊的语法，主要搭配UDTF类型函数一起使用，用于解决UDTF函数的一些查询限制的问题。
一般只要使用UDTF，就会固定搭配lateral view使用。
官方链接：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView
将UDTF的结果构建成一个类似于视图的表，然后将原表中的每一行和UDTF函数输出的每一行进行连接，生成一张新的虚拟表。这样就避免了UDTF的使用限制问题。

使用lateral view时也可以对UDTF产生的记录设置字段名称，产生的字段可以用于group by、order by 、limit等语句中，不需要再单独嵌套一层子查询。

1、示例

针对explode案例中NBA冠军球队年份排名案例，使用explode函数+lateral view侧视图

--lateral view侧视图基本语法如下
select …… from tabelA lateral view UDTF(xxx) 别名 as col1,col2,col3……;
select a.team_name ,b.year
from the_nba_championship a lateral view explode(champion_year) b as year;

--根据年份倒序排序
select a.team_name ,b.year
from the_nba_championship a lateral view explode(champion_year) b as year
order by b.year desc;

--统计每个球队获取总冠军的次数 并且根据倒序排序
select a.team_name ,count(*) as nums
from the_nba_championship a lateral view explode(champion_year) b as year
group by a.team_name
order by nums desc;

0: jdbc:hive2://server4:10000> select a.team_name ,count(*) as nums
. . . . . . . . . . . . . . .> from the_nba_championship a lateral view explode(champion_year) b as year
. . . . . . . . . . . . . . .> group by a.team_name
. . . . . . . . . . . . . . .> order by nums desc;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+------------------------+-------+
|      a.team_name       | nums  |
+------------------------+-------+
| Boston Celtics         | 17    |
| L.A. Lakers            | 17    |
| Golden State Warriors  | 7     |
| Chicago Bulls          | 6     |
| San Antonio Spurs      | 5     |
| Philadelphia 76ers     | 3     |
| Miami Heat             | 3     |
| Detroit Pistons        | 3     |
| New York Knicks        | 2     |
| Houston Rockets        | 2     |
| Milwaukee Bucks        | 1     |
| Toronto Raptors        | 1     |
| Cleveland Cavaliers    | 1     |
+------------------------+-------+

三、Aggregation聚合函数

聚合函数的功能是对一组值执行计算并返回单一的值。
聚合函数是典型的输入多行输出一行，使用Hive的分类标准，属于UDAF类型函数。
通常搭配Group By语法一起使用，分组后进行聚合操作。

HQL提供了几种内置的UDAF聚合函数，例如max（…），min（…）和avg（…），称之为聚合函数。
通常情况下聚合函数会与GROUP BY子句一起使用。如果未指定GROUP BY子句，默认情况下，它会汇总所有行数据。
注意結構體的用法。

1、基本示例

--1、测试数据准备
drop table if exists student;
create table student(
    num int,
    name string,
    sex string,
    age int,
    dept string)
row format delimited
fields terminated by ',';
--加载数据
load data local inpath '/usr/local/bigdata/students.txt' into table student;
--验证
select * from student;
--設置統計數量
set hive.compute.query.using.stats=false
--通過MR統計表數據的數量

--场景1：没有group by子句的聚合操作
    --count(*)：所有行进行统计，包括NULL行
    --count(1)：所有行进行统计，包括NULL行
    --count(column)：对column中非Null进行统计
select count(*) as cnt1,count(1) as cnt2 from student;
select count(sex) as cnt3 from student;

--场景2：带有group by子句的聚合操作 注意group by语法限制
select sex,count(*) as cnt from student group by sex;

--场景3：select时多个聚合函数一起使用
select count(*) as cnt1,avg(age) as cnt2 from student;

--场景4：聚合函数和case when条件转换函数、coalesce函数、if函数使用
select
    sum(CASE WHEN sex = '男'THEN 1 ELSE 0 END)
from student;

select
    sum(if(sex = '男',1,0))
from student;

--场景5：聚合参数不支持嵌套聚合函数
select avg(count(*))  from student;

--场景6：聚合操作时针对null的处理
CREATE TABLE tmp_1 (val1 int, val2 int);
INSERT INTO TABLE tmp_1 VALUES (1, 2),(null,2),(2,3);
select * from tmp_1;
--第二行数据(NULL, 2) 在进行sum(val1 + val2)的时候会被忽略
select sum(val1), sum(val1 + val2) from tmp_1;
--可以使用coalesce函数解决
select
    sum(coalesce(val1,0)),
    sum(coalesce(val1,0) + val2)
from tmp_1;
0: jdbc:hive2://server4:10000> select * from tmp_1;
+-------------+-------------+
| tmp_1.val1  | tmp_1.val2  |
+-------------+-------------+
| 1           | 2           |
| NULL        | 2           |
| 2           | 3           |
+-------------+-------------+
0: jdbc:hive2://server4:10000> select sum(val1), sum(val1 + val2) from tmp_1;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+------+------+
| _c0  | _c1  |
+------+------+
| 3    | 8    |
+------+------+
0: jdbc:hive2://server4:10000> select
. . . . . . . . . . . . . . .>     sum(coalesce(val1,0)),
. . . . . . . . . . . . . . .>     sum(coalesce(val1,0) + val2)
. . . . . . . . . . . . . . .> from tmp_1;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+------+------+
| _c0  | _c1  |
+------+------+
| 3    | 10   |
+------+------+


--场景7：配合distinct关键字去重聚合
--此场景下，会编译期间会自动设置只启动一个reduce task处理数据  可能造成数据拥堵
select count(distinct sex) as cnt1 from student;
--可以先去重 在聚合 通过子查询完成
--因为先执行distinct的时候 可以使用多个reducetask来跑数据
select count(*) as gender_uni_cnt
from (select distinct sex from student) a;

--案例需求：找出student中男女学生年龄最大的及其名字
--age、name作爲一個結構體
select struct(age, name) from student;
--age、name作爲一個結構體，並查出結構體第一個列，即age
select struct(age, name).col1 from student;
--age、name作爲一個結構體，並查出最大的age
select max(struct(age, name)) from student;
0: jdbc:hive2://server4:10000> select struct(age, name) from student;
+---------------------------+
|            _c0            |
+---------------------------+
| {"col1":20,"col2":"李勇"}   |
| {"col1":19,"col2":"刘晨"}   |
| {"col1":22,"col2":"王敏"}   |
| {"col1":19,"col2":"张立"}   |
| {"col1":18,"col2":"刘刚"}   |
| {"col1":23,"col2":"孙庆"}   |
| {"col1":19,"col2":"易思玲"}  |
| {"col1":18,"col2":"李娜"}   |
| {"col1":18,"col2":"梦圆圆"}  |
| {"col1":19,"col2":"孔小涛"}  |
| {"col1":18,"col2":"包小柏"}  |
| {"col1":20,"col2":"孙花"}   |
| {"col1":21,"col2":"冯伟"}   |
| {"col1":19,"col2":"王小丽"}  |
| {"col1":18,"col2":"王君"}   |
| {"col1":21,"col2":"钱国"}   |
| {"col1":18,"col2":"王风娟"}  |
| {"col1":19,"col2":"王一"}   |
| {"col1":19,"col2":"邢小丽"}  |
| {"col1":21,"col2":"赵钱"}   |
| {"col1":17,"col2":"周二"}   |
| {"col1":20,"col2":"郑明"}   |
+---------------------------+
0: jdbc:hive2://server4:10000> select struct(age, name).col1 from student;
+-------+
| col1  |
+-------+
| 20    |
| 19    |
| 22    |
| 19    |
| 18    |
| 23    |
| 19    |
| 18    |
| 18    |
| 19    |
| 18    |
| 20    |
| 21    |
| 19    |
| 18    |
| 21    |
| 18    |
| 19    |
| 19    |
| 21    |
| 17    |
| 20    |
+-------+
0: jdbc:hive2://server4:10000> select max(struct(age, name)) from student;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+--------------------------+
|           _c0            |
+--------------------------+
| {"col1":23,"col2":"孙庆"}  |
+--------------------------+
--age、name作爲一個結構體，按sex分組，查詢各年齡最大的記錄
select sex,max(struct(age, name)) from student group by sex;
0: jdbc:hive2://server4:10000> select sex,max(struct(age, name)) from student group by sex;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+------+--------------------------+
| sex  |           _c1            |
+------+--------------------------+
| 女    | {"col1":22,"col2":"王敏"}  |
| 男    | {"col1":23,"col2":"孙庆"}  |
+------+--------------------------+

--这里使用了struct来构造数据 然后针对struct应用max找出最大元素 然后取值
select sex,
max(struct(age, name)).col1 as age,
max(struct(age, name)).col2 as name
from student
group by sex;
0: jdbc:hive2://server4:10000> select sex,
. . . . . . . . . . . . . . .> max(struct(age, name)).col1 as age,
. . . . . . . . . . . . . . .> max(struct(age, name)).col2 as name
. . . . . . . . . . . . . . .> from student
. . . . . . . . . . . . . . .> group by sex;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+------+------+-------+
| sex  | age  | name  |
+------+------+-------+
| 女    | 22   | 王敏    |
| 男    | 23   | 孙庆    |
+------+------+-------+

2、grouping_sets、cube、rollup用法

增强聚合包括grouping_sets、cube、rollup这几个函数；主要适用于OLAP多维数据分析模式中，多维分析中的维指的分析问题时看待问题的维度、角度。
示例数据中字段含义：月份、天、用户标识cookieid。

1）、grouping sets

grouping sets是一种将多个group by逻辑写在一个sql语句中的便利写法。等价于将不同维度的GROUP BY结果集进行UNION ALL。GROUPING__ID表示结果属于哪一个分组集合。

2）、cube

cube表示根据GROUP BY的维度的所有组合进行聚合。
对于cube来说,如果有n个维度,则所有组合的总个数是：2的n次方
比如cube有a,b,c 3个维度，则所有组合情况是： (a,b,c),(a,b),(b,c),(a,c),(a),(b),©,()

3）、rollup

cube的语法功能指的是根据GROUP BY的维度的所有组合进行聚合。
rollup是cube的子集，以最左侧的维度为主，从该维度进行层级聚合。
比如ROLLUP有a,b,c3个维度，则所有组合情况是：(a,b,c),(a,b),(a),()

4）、示例


--表创建并且加载数据
CREATE TABLE cookie_info(
   month STRING,
   day STRING,
   cookieid STRING
) ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

load data local inpath '/usr/local/bigdata/cookie_info.txt' into table cookie_info;

select * from cookie_info;

---group sets---------
SELECT
    month,
    day,
    COUNT(DISTINCT cookieid) AS nums,
    GROUPING__ID
FROM cookie_info
GROUP BY month,day
GROUPING SETS (month,day) --这里是关键
ORDER BY GROUPING__ID;

--grouping_id表示这一组结果属于哪个分组集合，
--根据grouping sets中的分组条件month，day，1是代表month，2是代表day

--等价于
SELECT month,NULL,COUNT(DISTINCT cookieid) AS nums,1 AS GROUPING__ID FROM cookie_info GROUP BY month
UNION ALL
SELECT NULL as month,day,COUNT(DISTINCT cookieid) AS nums,2 AS GROUPING__ID FROM cookie_info GROUP BY day;
0: jdbc:hive2://server4:10000> SELECT
. . . . . . . . . . . . . . .>     month,
. . . . . . . . . . . . . . .>     day,
. . . . . . . . . . . . . . .>     COUNT(DISTINCT cookieid) AS nums,
. . . . . . . . . . . . . . .>     GROUPING__ID
. . . . . . . . . . . . . . .> FROM cookie_info
. . . . . . . . . . . . . . .> GROUP BY month,day
. . . . . . . . . . . . . . .> GROUPING SETS (month,day) --这里是关键
. . . . . . . . . . . . . . .> ORDER BY GROUPING__ID;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+----------+-------------+-------+---------------+
|  month   |     day     | nums  | grouping__id  |
+----------+-------------+-------+---------------+
| 2018-04  | NULL        | 6     | 1             |
| 2018-03  | NULL        | 5     | 1             |
| NULL     | 2018-04-16  | 2     | 2             |
| NULL     | 2018-04-15  | 2     | 2             |
| NULL     | 2018-04-13  | 3     | 2             |
| NULL     | 2018-04-12  | 2     | 2             |
| NULL     | 2018-03-12  | 1     | 2             |
| NULL     | 2018-03-10  | 4     | 2             |
+----------+-------------+-------+---------------+

--再比如
SELECT
    month,
    day,
    COUNT(DISTINCT cookieid) AS nums,
    GROUPING__ID
FROM cookie_info
GROUP BY month,day
GROUPING SETS (month,day,(month,day))   --1 month   2 day    3 (month,day)
ORDER BY GROUPING__ID;
0: jdbc:hive2://server4:10000> SELECT
. . . . . . . . . . . . . . .>     month,
. . . . . . . . . . . . . . .>     day,
. . . . . . . . . . . . . . .>     COUNT(DISTINCT cookieid) AS nums,
. . . . . . . . . . . . . . .>     GROUPING__ID
. . . . . . . . . . . . . . .> FROM cookie_info
. . . . . . . . . . . . . . .> GROUP BY month,day
. . . . . . . . . . . . . . .> GROUPING SETS (month,day,(month,day))   --1 month   2 day    3 (month,day)
. . . . . . . . . . . . . . .> ORDER BY GROUPING__ID;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+----------+-------------+-------+---------------+
|  month   |     day     | nums  | grouping__id  |
+----------+-------------+-------+---------------+
| 2018-03  | 2018-03-10  | 4     | 0             |
| 2018-04  | 2018-04-16  | 2     | 0             |
| 2018-04  | 2018-04-13  | 3     | 0             |
| 2018-04  | 2018-04-12  | 2     | 0             |
| 2018-04  | 2018-04-15  | 2     | 0             |
| 2018-03  | 2018-03-12  | 1     | 0             |
| 2018-03  | NULL        | 5     | 1             |
| 2018-04  | NULL        | 6     | 1             |
| NULL     | 2018-04-16  | 2     | 2             |
| NULL     | 2018-04-15  | 2     | 2             |
| NULL     | 2018-04-13  | 3     | 2             |
| NULL     | 2018-04-12  | 2     | 2             |
| NULL     | 2018-03-12  | 1     | 2             |
| NULL     | 2018-03-10  | 4     | 2             |
+----------+-------------+-------+---------------+

--等价于
SELECT month,NULL,COUNT(DISTINCT cookieid) AS nums,1 AS GROUPING__ID FROM cookie_info GROUP BY month
UNION ALL
SELECT NULL,day,COUNT(DISTINCT cookieid) AS nums,2 AS GROUPING__ID FROM cookie_info GROUP BY day
UNION ALL
SELECT month,day,COUNT(DISTINCT cookieid) AS nums,3 AS GROUPING__ID FROM cookie_info GROUP BY month,day;

------cube---------------
SELECT
    month,
    day,
    COUNT(DISTINCT cookieid) AS nums,
    GROUPING__ID
FROM cookie_info
GROUP BY month,day
WITH CUBE
ORDER BY GROUPING__ID;

--等价于
SELECT NULL,NULL,COUNT(DISTINCT cookieid) AS nums,0 AS GROUPING__ID FROM cookie_info
UNION ALL
SELECT month,NULL,COUNT(DISTINCT cookieid) AS nums,1 AS GROUPING__ID FROM cookie_info GROUP BY month
UNION ALL
SELECT NULL,day,COUNT(DISTINCT cookieid) AS nums,2 AS GROUPING__ID FROM cookie_info GROUP BY day
UNION ALL
SELECT month,day,COUNT(DISTINCT cookieid) AS nums,3 AS GROUPING__ID FROM cookie_info GROUP BY month,day;
0: jdbc:hive2://server4:10000> SELECT
. . . . . . . . . . . . . . .>     month,
. . . . . . . . . . . . . . .>     day,
. . . . . . . . . . . . . . .>     COUNT(DISTINCT cookieid) AS nums,
. . . . . . . . . . . . . . .>     GROUPING__ID
. . . . . . . . . . . . . . .> FROM cookie_info
. . . . . . . . . . . . . . .> GROUP BY month,day
. . . . . . . . . . . . . . .> WITH CUBE
. . . . . . . . . . . . . . .> ORDER BY GROUPING__ID;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+----------+-------------+-------+---------------+
|  month   |     day     | nums  | grouping__id  |
+----------+-------------+-------+---------------+
| 2018-03  | 2018-03-10  | 4     | 0             |
| 2018-04  | 2018-04-16  | 2     | 0             |
| 2018-04  | 2018-04-13  | 3     | 0             |
| 2018-04  | 2018-04-12  | 2     | 0             |
| 2018-04  | 2018-04-15  | 2     | 0             |
| 2018-03  | 2018-03-12  | 1     | 0             |
| 2018-03  | NULL        | 5     | 1             |
| 2018-04  | NULL        | 6     | 1             |
| NULL     | 2018-04-16  | 2     | 2             |
| NULL     | 2018-04-15  | 2     | 2             |
| NULL     | 2018-04-13  | 3     | 2             |
| NULL     | 2018-04-12  | 2     | 2             |
| NULL     | 2018-03-12  | 1     | 2             |
| NULL     | 2018-03-10  | 4     | 2             |
| NULL     | NULL        | 7     | 3             |
+----------+-------------+-------+---------------+


--rollup-------------
--比如，以month维度进行层级聚合：
SELECT
    month,
    day,
    COUNT(DISTINCT cookieid) AS nums,
    GROUPING__ID
FROM cookie_info
GROUP BY month,day
WITH ROLLUP
ORDER BY GROUPING__ID;

--把month和day调换顺序，则以day维度进行层级聚合：
SELECT
    day,
    month,
    COUNT(DISTINCT cookieid) AS uv,
    GROUPING__ID
FROM cookie_info
GROUP BY day,month
WITH ROLLUP
ORDER BY GROUPING__ID;
0: jdbc:hive2://server4:10000> SELECT
. . . . . . . . . . . . . . .>     month,
. . . . . . . . . . . . . . .>     day,
. . . . . . . . . . . . . . .>     COUNT(DISTINCT cookieid) AS nums,
. . . . . . . . . . . . . . .>     GROUPING__ID
. . . . . . . . . . . . . . .> FROM cookie_info
. . . . . . . . . . . . . . .> GROUP BY month,day
. . . . . . . . . . . . . . .> WITH ROLLUP
. . . . . . . . . . . . . . .> ORDER BY GROUPING__ID;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+----------+-------------+-------+---------------+
|  month   |     day     | nums  | grouping__id  |
+----------+-------------+-------+---------------+
| 2018-04  | 2018-04-16  | 2     | 0             |
| 2018-04  | 2018-04-15  | 2     | 0             |
| 2018-04  | 2018-04-13  | 3     | 0             |
| 2018-04  | 2018-04-12  | 2     | 0             |
| 2018-03  | 2018-03-12  | 1     | 0             |
| 2018-03  | 2018-03-10  | 4     | 0             |
| 2018-04  | NULL        | 6     | 1             |
| 2018-03  | NULL        | 5     | 1             |
| NULL     | NULL        | 7     | 3             |
+----------+-------------+-------+---------------+

-------------------------------------------------------------------
--验证测试count(*),count(1),count(字段)
select * from t_all_hero_part_dynamic where role ="archer";
select count(*),count(1),count(role_assist) from t_all_hero_part_dynamic where role ="archer";

四、Windows Functions窗口函数

1、介绍

窗口函数（Window functions）也叫做开窗函数、OLAP函数，其最大特点是输入值是从SELECT语句的结果集中的一行或多行的“窗口”中获取的。

如果函数具有OVER子句，则它是窗口函数。

窗口函数可以简单地解释为类似于聚合函数的计算函数，但是通过GROUP BY子句组合的常规聚合会隐藏正在聚合的各个行，最终输出一行，窗口函数聚合后还可以访问当中的各个行，并且可以将这些行中的某些属性添加到结果集中。

通过sum聚合函数进行普通常规聚合和窗口聚合，来直观感受窗口函数的特点

所谓窗口聚合函数指的是sum、max、min、avg这样的聚合函数在窗口中的使用
这里以sum()函数为例，其他聚合函数使用类似

--1、求出每个用户总pv数  sum+group by普通常规聚合操作
select cookieid,sum(pv) as total_pv from website_pv_info group by cookieid;

--2、sum+窗口函数 总共有四种用法 注意是整体聚合 还是累积聚合
--sum(...) over( )对表所有行求和
--sum(...) over( order by ... ) 连续累积求和
--sum(...) over( partition by... ) 同组内所行求和
--sum(...) over( partition by... order by ... ) 在每个分组内，连续累积求和

2、语法

-------窗口函数语法树
Function(arg1,..., argn) OVER ([PARTITION BY <...>] [ORDER BY <....>] [<window_expression>])

--其中Function(arg1,..., argn) 可以是下面分类中的任意一个
    --聚合函数：比如sum max avg等
    --排序函数：比如rank row_number等
    --分析函数：比如lead lag first_value等

--OVER [PARTITION BY <...>] 类似于group by 用于指定分组  每个分组你可以把它叫做窗口
--如果没有PARTITION BY 那么整张表的所有行就是一组
--[ORDER BY <....>]  用于指定每个分组内的数据排序规则 支持ASC、DESC
--[] 用于指定每个窗口中 操作的数据范围 默认是窗口中所有行

3、示例1：sum和窗口函数聚合

--建表加载数据
CREATE TABLE employee(
       id int,
       name string,
       deg string,
       salary int,
       dept string
) row format delimited
    fields terminated by ',';

load data local inpath '/root/hivedata/employee.txt' into table employee;

select * from employee;
0: jdbc:hive2://server4:10000> select * from employee;
+--------------+----------------+---------------+------------------+----------------+
| employee.id  | employee.name  | employee.deg  | employee.salary  | employee.dept  |
+--------------+----------------+---------------+------------------+----------------+
| 1201         | gopal          | manager       | 50000            | TP             |
| 1202         | manisha        | cto           | 50000            | TP             |
| 1203         | khalil         | dev           | 30000            | AC             |
| 1204         | prasanth       | dev           | 30000            | AC             |
| 1206         | kranthi        | admin         | 20000            | TP             |
+--------------+----------------+---------------+------------------+----------------+

----sum+group by普通常规聚合操作------------
select dept,sum(salary) as total from employee group by dept;
0: jdbc:hive2://server4:10000> select dept,sum(salary) as total from employee group by dept;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-------+---------+
| dept  |  total  |
+-------+---------+
| AC    | 60000   |
| TP    | 120000  |
+-------+---------+

----sum+窗口函数聚合操作------------
select id,name,deg,salary,dept,sum(salary) over(partition by dept) as total from employee;
0: jdbc:hive2://server4:10000> select * from t_all_hero_part_dynamic where role ="archer";
Error: Error while compiling statement: FAILED: SemanticException [Error 10001]: Line 1:14 Table not found 't_all_hero_part_dynamic' (state=42S02,code=10001)
0: jdbc:hive2://server4:10000> select id,name,deg,salary,dept,sum(salary) over(partition by dept) as total from employee;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-------+-----------+----------+---------+-------+---------+
|  id   |   name    |   deg    | salary  | dept  |  total  |
+-------+-----------+----------+---------+-------+---------+
| 1204  | prasanth  | dev      | 30000   | AC    | 60000   |
| 1203  | khalil    | dev      | 30000   | AC    | 60000   |
| 1206  | kranthi   | admin    | 20000   | TP    | 120000  |
| 1202  | manisha   | cto      | 50000   | TP    | 120000  |
| 1201  | gopal     | manager  | 50000   | TP    | 120000  |
+-------+-----------+----------+---------+-------+---------+

4、示例2：综合示例窗口函数

----------------------建表并且加载数据
create table website_pv_info(
   cookieid string,
   createtime string,   --day
   pv int
) row format delimited
fields terminated by ',';

create table website_url_info (
    cookieid string,
    createtime string,  --访问时间
    url string       --访问页面
) row format delimited
fields terminated by ',';

load data local inpath '/usr/local/bigdata/website_pv_info.txt' into table website_pv_info;
load data local inpath '/usr/local/bigdata/website_url_info.txt' into table website_url_info;

select * from website_pv_info;
0: jdbc:hive2://server4:10000> select * from website_pv_info;
+---------------------------+-----------------------------+---------------------+
| website_pv_info.cookieid  | website_pv_info.createtime  | website_pv_info.pv  |
+---------------------------+-----------------------------+---------------------+
| cookie1                   | 2018-04-10                  | 1                   |
| cookie1                   | 2018-04-11                  | 5                   |
| cookie1                   | 2018-04-12                  | 7                   |
| cookie1                   | 2018-04-13                  | 3                   |
| cookie1                   | 2018-04-14                  | 2                   |
| cookie1                   | 2018-04-15                  | 4                   |
| cookie1                   | 2018-04-16                  | 4                   |
| cookie2                   | 2018-04-10                  | 2                   |
| cookie2                   | 2018-04-11                  | 3                   |
| cookie2                   | 2018-04-12                  | 5                   |
| cookie2                   | 2018-04-13                  | 6                   |
| cookie2                   | 2018-04-14                  | 3                   |
| cookie2                   | 2018-04-15                  | 9                   |
| cookie2                   | 2018-04-16                  | 7                   |
+---------------------------+-----------------------------+---------------------+
select * from website_url_info;
0: jdbc:hive2://server4:10000> select * from website_url_info;
+----------------------------+------------------------------+-----------------------+
| website_url_info.cookieid  | website_url_info.createtime  | website_url_info.url  |
+----------------------------+------------------------------+-----------------------+
| cookie1                    | 2018-04-10 10:00:02          | url2                  |
| cookie1                    | 2018-04-10 10:00:00          | url1                  |
| cookie1                    | 2018-04-10 10:03:04          | 1url3                 |
| cookie1                    | 2018-04-10 10:50:05          | url6                  |
| cookie1                    | 2018-04-10 11:00:00          | url7                  |
| cookie1                    | 2018-04-10 10:10:00          | url4                  |
| cookie1                    | 2018-04-10 10:50:01          | url5                  |
| cookie2                    | 2018-04-10 10:00:02          | url22                 |
| cookie2                    | 2018-04-10 10:00:00          | url11                 |
| cookie2                    | 2018-04-10 10:03:04          | 1url33                |
| cookie2                    | 2018-04-10 10:50:05          | url66                 |
| cookie2                    | 2018-04-10 11:00:00          | url77                 |
| cookie2                    | 2018-04-10 10:10:00          | url44                 |
| cookie2                    | 2018-04-10 10:50:01          | url55                 |
+----------------------------+------------------------------+-----------------------+

-----窗口聚合函数的使用-----------
--1、求出每个用户总pv数  sum+group by普通常规聚合操作
select cookieid,sum(pv) as total_pv from website_pv_info group by cookieid;

--2、sum+窗口函数 总共有四种用法 注意是整体聚合 还是累积聚合
--sum(...) over( )对表所有行求和
--sum(...) over( order by ... ) 连续累积求和
--sum(...) over( partition by... ) 同组内所行求和
--sum(...) over( partition by... order by ... ) 在每个分组内，连续累积求和

--需求：求出网站总的pv数 所有用户所有访问加起来
--sum(...) over( )对表所有行求和
select cookieid,createtime,pv,
       sum(pv) over() as total_pv  --注意这里窗口函数是没有partition by 也就是没有分组  全表所有行
from website_pv_info;
0: jdbc:hive2://server4:10000> select cookieid,createtime,pv,
. . . . . . . . . . . . . . .> sum(pv) over() as total_pv  --注意这里窗口函数是没有partition by 也就是没有分组  全表所有行
. . . . . . . . . . . . . . .> from website_pv_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+-----------+
| cookieid  | createtime  | pv  | total_pv  |
+-----------+-------------+-----+-----------+
| cookie2   | 2018-04-16  | 7   | 61        |
| cookie2   | 2018-04-15  | 9   | 61        |
| cookie2   | 2018-04-14  | 3   | 61        |
| cookie2   | 2018-04-13  | 6   | 61        |
| cookie2   | 2018-04-12  | 5   | 61        |
| cookie2   | 2018-04-11  | 3   | 61        |
| cookie2   | 2018-04-10  | 2   | 61        |
| cookie1   | 2018-04-16  | 4   | 61        |
| cookie1   | 2018-04-15  | 4   | 61        |
| cookie1   | 2018-04-14  | 2   | 61        |
| cookie1   | 2018-04-13  | 3   | 61        |
| cookie1   | 2018-04-12  | 7   | 61        |
| cookie1   | 2018-04-11  | 5   | 61        |
| cookie1   | 2018-04-10  | 1   | 61        |
+-----------+-------------+-----+-----------+

--需求：求出每天数累积到当天用户总pv
--sum(...) over( order by ... ) 连续累积求和
select cookieid,createtime,pv,
       sum(pv) over(order by createtime) as total_pv
from website_pv_info;
0: jdbc:hive2://server4:10000> select cookieid,createtime,pv,
. . . . . . . . . . . . . . .>        sum(pv) over(order by createtime) as total_pv
. . . . . . . . . . . . . . .> from website_pv_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+-----------+
| cookieid  | createtime  | pv  | total_pv  |
+-----------+-------------+-----+-----------+
| cookie2   | 2018-04-10  | 2   | 3         |
| cookie1   | 2018-04-10  | 1   | 3         |
| cookie1   | 2018-04-11  | 5   | 11        |
| cookie2   | 2018-04-11  | 3   | 11        |
| cookie2   | 2018-04-12  | 5   | 23        |
| cookie1   | 2018-04-12  | 7   | 23        |
| cookie2   | 2018-04-13  | 6   | 32        |
| cookie1   | 2018-04-13  | 3   | 32        |
| cookie2   | 2018-04-14  | 3   | 37        |
| cookie1   | 2018-04-14  | 2   | 37        |
| cookie2   | 2018-04-15  | 9   | 50        |
| cookie1   | 2018-04-15  | 4   | 50        |
| cookie2   | 2018-04-16  | 7   | 61        |
| cookie1   | 2018-04-16  | 4   | 61        |
+-----------+-------------+-----+-----------+

--需求：求出每个用户总pv数
--sum(...) over( partition by... )，同组内所行求和
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid) as total_pv
from website_pv_info;
0: jdbc:hive2://server4:10000> select cookieid,createtime,pv,
. . . . . . . . . . . . . . .>        sum(pv) over(partition by cookieid) as total_pv
. . . . . . . . . . . . . . .> from website_pv_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+-----------+
| cookieid  | createtime  | pv  | total_pv  |
+-----------+-------------+-----+-----------+
| cookie1   | 2018-04-10  | 1   | 26        |
| cookie1   | 2018-04-16  | 4   | 26        |
| cookie1   | 2018-04-15  | 4   | 26        |
| cookie1   | 2018-04-14  | 2   | 26        |
| cookie1   | 2018-04-13  | 3   | 26        |
| cookie1   | 2018-04-12  | 7   | 26        |
| cookie1   | 2018-04-11  | 5   | 26        |
| cookie2   | 2018-04-16  | 7   | 35        |
| cookie2   | 2018-04-15  | 9   | 35        |
| cookie2   | 2018-04-14  | 3   | 35        |
| cookie2   | 2018-04-13  | 6   | 35        |
| cookie2   | 2018-04-12  | 5   | 35        |
| cookie2   | 2018-04-11  | 3   | 35        |
| cookie2   | 2018-04-10  | 2   | 35        |
+-----------+-------------+-----+-----------+

--需求：求出每个用户截止到当天，累积的总pv数
--sum(...) over( partition by... order by ... )，在每个分组内，连续累积求和
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime) as current_total_pv
from website_pv_info;
0: jdbc:hive2://server4:10000> select cookieid,createtime,pv,
. . . . . . . . . . . . . . .>        sum(pv) over(partition by cookieid order by createtime) as current_total_pv
. . . . . . . . . . . . . . .> from website_pv_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+-------------------+
| cookieid  | createtime  | pv  | current_total_pv  |
+-----------+-------------+-----+-------------------+
| cookie1   | 2018-04-10  | 1   | 1                 |
| cookie1   | 2018-04-11  | 5   | 6                 |
| cookie1   | 2018-04-12  | 7   | 13                |
| cookie1   | 2018-04-13  | 3   | 16                |
| cookie1   | 2018-04-14  | 2   | 18                |
| cookie1   | 2018-04-15  | 4   | 22                |
| cookie1   | 2018-04-16  | 4   | 26                |
| cookie2   | 2018-04-10  | 2   | 2                 |
| cookie2   | 2018-04-11  | 3   | 5                 |
| cookie2   | 2018-04-12  | 5   | 10                |
| cookie2   | 2018-04-13  | 6   | 16                |
| cookie2   | 2018-04-14  | 3   | 19                |
| cookie2   | 2018-04-15  | 9   | 28                |
| cookie2   | 2018-04-16  | 7   | 35                |
+-----------+-------------+-----+-------------------+

5、窗口表达式

1）、介绍

在sum(…) over( partition by… order by … )语法完整的情况下，进行累积聚合操作，默认累积聚合行为是：从第一行聚合到当前行。
Window expression窗口表达式给我们提供了一种控制行范围的能力，比如向前2行，向后3行。

2）语法

关键字是rows between，包括下面这几个选项

- preceding：往前
- following：往后
- current row：当前行
- unbounded：边界
- unbounded preceding：表示从前面的起点
- unbounded following：表示到后面的终点

3）、示例

0: jdbc:hive2://server4:10000> select * from website_pv_info;
+---------------------------+-----------------------------+---------------------+
| website_pv_info.cookieid  | website_pv_info.createtime  | website_pv_info.pv  |
+---------------------------+-----------------------------+---------------------+
| cookie1                   | 2018-04-10                  | 1                   |
| cookie1                   | 2018-04-11                  | 5                   |
| cookie1                   | 2018-04-12                  | 7                   |
| cookie1                   | 2018-04-13                  | 3                   |
| cookie1                   | 2018-04-14                  | 2                   |
| cookie1                   | 2018-04-15                  | 4                   |
| cookie1                   | 2018-04-16                  | 4                   |
| cookie2                   | 2018-04-10                  | 2                   |
| cookie2                   | 2018-04-11                  | 3                   |
| cookie2                   | 2018-04-12                  | 5                   |
| cookie2                   | 2018-04-13                  | 6                   |
| cookie2                   | 2018-04-14                  | 3                   |
| cookie2                   | 2018-04-15                  | 9                   |
| cookie2                   | 2018-04-16                  | 7                   |
+---------------------------+-----------------------------+---------------------+
---窗口表达式
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime) as pv1  --默认从第一行到当前行
from website_pv_info;
--第一行到当前行（第一行+第二行+...+当前行）
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between unbounded preceding and current row) as pv2
from website_pv_info;
0: jdbc:hive2://server4:10000> select cookieid,createtime,pv,
. . . . . . . . . . . . . . .>        sum(pv) over(partition by cookieid order by createtime rows between unbounded preceding and current row) as pv2
. . . . . . . . . . . . . . .> from website_pv_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+------+
| cookieid  | createtime  | pv  | pv2  |
+-----------+-------------+-----+------+
| cookie1   | 2018-04-10  | 1   | 1    |
| cookie1   | 2018-04-11  | 5   | 6    |
| cookie1   | 2018-04-12  | 7   | 13   |
| cookie1   | 2018-04-13  | 3   | 16   |
| cookie1   | 2018-04-14  | 2   | 18   |
| cookie1   | 2018-04-15  | 4   | 22   |
| cookie1   | 2018-04-16  | 4   | 26   |
| cookie2   | 2018-04-10  | 2   | 2    |
| cookie2   | 2018-04-11  | 3   | 5    |
| cookie2   | 2018-04-12  | 5   | 10   |
| cookie2   | 2018-04-13  | 6   | 16   |
| cookie2   | 2018-04-14  | 3   | 19   |
| cookie2   | 2018-04-15  | 9   | 28   |
| cookie2   | 2018-04-16  | 7   | 35   |
+-----------+-------------+-----+------+

--向前3行至当前行(当前行+当前行的前面三行，总计4行)
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between 3 preceding and current row) as pv4
from website_pv_info;
0: jdbc:hive2://server4:10000> select cookieid,createtime,pv,
. . . . . . . . . . . . . . .>        sum(pv) over(partition by cookieid order by createtime rows between 3 preceding and current row) as pv4
. . . . . . . . . . . . . . .> from website_pv_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+------+
| cookieid  | createtime  | pv  | pv4  |
+-----------+-------------+-----+------+
| cookie1   | 2018-04-10  | 1   | 1    |
| cookie1   | 2018-04-11  | 5   | 6    |
| cookie1   | 2018-04-12  | 7   | 13   |
| cookie1   | 2018-04-13  | 3   | 16   |
| cookie1   | 2018-04-14  | 2   | 17   |
| cookie1   | 2018-04-15  | 4   | 16   |
| cookie1   | 2018-04-16  | 4   | 13   |
| cookie2   | 2018-04-10  | 2   | 2    |
| cookie2   | 2018-04-11  | 3   | 5    |
| cookie2   | 2018-04-12  | 5   | 10   |
| cookie2   | 2018-04-13  | 6   | 16   |
| cookie2   | 2018-04-14  | 3   | 17   |
| cookie2   | 2018-04-15  | 9   | 23   |
| cookie2   | 2018-04-16  | 7   | 25   |
+-----------+-------------+-----+------+

--向前3行 向后1行（当前行的前面三行+当前行+当前行后面的一行，总计5行）
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between 3 preceding and 1 following) as pv5
from website_pv_info;
0: jdbc:hive2://server4:10000> select cookieid,createtime,pv,
. . . . . . . . . . . . . . .>        sum(pv) over(partition by cookieid order by createtime rows between 3 preceding and 1 following) as pv5
. . . . . . . . . . . . . . .> from website_pv_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+------+
| cookieid  | createtime  | pv  | pv5  |
+-----------+-------------+-----+------+
| cookie1   | 2018-04-10  | 1   | 6    |
| cookie1   | 2018-04-11  | 5   | 13   |
| cookie1   | 2018-04-12  | 7   | 16   |
| cookie1   | 2018-04-13  | 3   | 18   |
| cookie1   | 2018-04-14  | 2   | 21   |
| cookie1   | 2018-04-15  | 4   | 20   |
| cookie1   | 2018-04-16  | 4   | 13   |
| cookie2   | 2018-04-10  | 2   | 5    |
| cookie2   | 2018-04-11  | 3   | 10   |
| cookie2   | 2018-04-12  | 5   | 16   |
| cookie2   | 2018-04-13  | 6   | 19   |
| cookie2   | 2018-04-14  | 3   | 26   |
| cookie2   | 2018-04-15  | 9   | 30   |
| cookie2   | 2018-04-16  | 7   | 25   |
+-----------+-------------+-----+------+

--当前行至最后一行
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between current row and unbounded following) as pv6
from website_pv_info;
0: jdbc:hive2://server4:10000> select cookieid,createtime,pv,
. . . . . . . . . . . . . . .>        sum(pv) over(partition by cookieid order by createtime rows between current row and unbounded following) as pv6
. . . . . . . . . . . . . . .> from website_pv_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+------+
| cookieid  | createtime  | pv  | pv6  |
+-----------+-------------+-----+------+
| cookie1   | 2018-04-10  | 1   | 26   |
| cookie1   | 2018-04-11  | 5   | 25   |
| cookie1   | 2018-04-12  | 7   | 20   |
| cookie1   | 2018-04-13  | 3   | 13   |
| cookie1   | 2018-04-14  | 2   | 10   |
| cookie1   | 2018-04-15  | 4   | 8    |
| cookie1   | 2018-04-16  | 4   | 4    |
| cookie2   | 2018-04-10  | 2   | 35   |
| cookie2   | 2018-04-11  | 3   | 33   |
| cookie2   | 2018-04-12  | 5   | 30   |
| cookie2   | 2018-04-13  | 6   | 25   |
| cookie2   | 2018-04-14  | 3   | 19   |
| cookie2   | 2018-04-15  | 9   | 16   |
| cookie2   | 2018-04-16  | 7   | 7    |
+-----------+-------------+-----+------+

--第一行到最后一行 也就是分组内的所有行
select cookieid,createtime,pv,
       sum(pv) over(partition by cookieid order by createtime rows between unbounded preceding  and unbounded following) as pv6
from website_pv_info;

6、窗口排序函数–row_number家族

用于给每个分组内的数据打上排序的标号
注意窗口排序函数不支持窗口表达式
row_number：在每个分组中，为每行分配一个从1开始的唯一序列号，递增，不考虑重复；
rank: 在每个分组中，为每行分配一个从1开始的序列号，考虑重复，挤占后续位置；
dense_rank: 在每个分组中，为每行分配一个从1开始的序列号，考虑重复，不挤占后续位置；

-----窗口排序函数
SELECT
    cookieid,
    createtime,
    pv,
    RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn1,
    DENSE_RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn2,
    ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY pv DESC) AS rn3
FROM website_pv_info
WHERE cookieid = 'cookie1';
0: jdbc:hive2://server4:10000> SELECT
. . . . . . . . . . . . . . .>     cookieid,
. . . . . . . . . . . . . . .>     createtime,
. . . . . . . . . . . . . . .>     pv,
. . . . . . . . . . . . . . .>     RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn1,
. . . . . . . . . . . . . . .>     DENSE_RANK() OVER(PARTITION BY cookieid ORDER BY pv desc) AS rn2,
. . . . . . . . . . . . . . .>     ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY pv DESC) AS rn3
. . . . . . . . . . . . . . .> FROM website_pv_info
. . . . . . . . . . . . . . .> WHERE cookieid = 'cookie1';
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+------+------+------+
| cookieid  | createtime  | pv  | rn1  | rn2  | rn3  |
+-----------+-------------+-----+------+------+------+
| cookie1   | 2018-04-12  | 7   | 1    | 1    | 1    |
| cookie1   | 2018-04-11  | 5   | 2    | 2    | 2    |
| cookie1   | 2018-04-16  | 4   | 3    | 3    | 3    |
| cookie1   | 2018-04-15  | 4   | 3    | 3    | 4    |
| cookie1   | 2018-04-13  | 3   | 5    | 4    | 5    |
| cookie1   | 2018-04-14  | 2   | 6    | 5    | 6    |
| cookie1   | 2018-04-10  | 1   | 7    | 6    | 7    |
+-----------+-------------+-----+------+------+------+

--需求：找出每个用户访问pv最多的Top3 重复并列的不考虑
SELECT * from
    (SELECT
        cookieid,
        createtime,
        pv,
        ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY pv DESC) AS seq
    FROM website_pv_info) tmp 
where tmp.seq <4;
0: jdbc:hive2://server4:10000> SELECT * from
. . . . . . . . . . . . . . .>     (SELECT
. . . . . . . . . . . . . . .>         cookieid,
. . . . . . . . . . . . . . .>         createtime,
. . . . . . . . . . . . . . .>         pv,
. . . . . . . . . . . . . . .>         ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY pv DESC) AS seq
. . . . . . . . . . . . . . .>     FROM website_pv_info) tmp 
. . . . . . . . . . . . . . .> where tmp.seq <4;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+---------------+-----------------+---------+----------+
| tmp.cookieid  | tmp.createtime  | tmp.pv  | tmp.seq  |
+---------------+-----------------+---------+----------+
| cookie1       | 2018-04-12      | 7       | 1        |
| cookie1       | 2018-04-11      | 5       | 2        |
| cookie1       | 2018-04-16      | 4       | 3        |
| cookie2       | 2018-04-15      | 9       | 1        |
| cookie2       | 2018-04-16      | 7       | 2        |
| cookie2       | 2018-04-13      | 6       | 3        |
+---------------+-----------------+---------+----------+

7、窗口排序函数–ntile

将每个分组内的数据分为指定的若干个桶里（分为若干个部分），并且为每一个桶分配一个桶编号。
如果不能平均分配，则优先分配较小编号的桶，并且各个桶中能放的行数最多相差1。

应用场景
如果数据排序后分为三部分，只关心其中的一部分，如何将这中间的三分之一数据拿出来呢?NTILE函数即可以满足

--把每个分组内的数据分为3桶
SELECT
    cookieid,
    createtime,
    pv,
    NTILE(3) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn2
FROM website_pv_info
ORDER BY cookieid,createtime;
0: jdbc:hive2://server4:10000> SELECT
. . . . . . . . . . . . . . .>     cookieid,
. . . . . . . . . . . . . . .>     createtime,
. . . . . . . . . . . . . . .>     pv,
. . . . . . . . . . . . . . .>     NTILE(3) OVER(PARTITION BY cookieid ORDER BY createtime) AS rn2
. . . . . . . . . . . . . . .> FROM website_pv_info
. . . . . . . . . . . . . . .> ORDER BY cookieid,createtime;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+-------------+-----+------+
| cookieid  | createtime  | pv  | rn2  |
+-----------+-------------+-----+------+
| cookie1   | 2018-04-10  | 1   | 1    |
| cookie1   | 2018-04-11  | 5   | 1    |
| cookie1   | 2018-04-12  | 7   | 1    |
| cookie1   | 2018-04-13  | 3   | 2    |
| cookie1   | 2018-04-14  | 2   | 2    |
| cookie1   | 2018-04-15  | 4   | 3    |
| cookie1   | 2018-04-16  | 4   | 3    |
| cookie2   | 2018-04-10  | 2   | 1    |
| cookie2   | 2018-04-11  | 3   | 1    |
| cookie2   | 2018-04-12  | 5   | 1    |
| cookie2   | 2018-04-13  | 6   | 2    |
| cookie2   | 2018-04-14  | 3   | 2    |
| cookie2   | 2018-04-15  | 9   | 3    |
| cookie2   | 2018-04-16  | 7   | 3    |
+-----------+-------------+-----+------+

--需求：统计每个用户pv数最多的前3分之1天。
--理解：将数据根据cookieid分 根据pv倒序排序 排序之后分为3个部分 取第一部分
SELECT * from
    (SELECT
         cookieid,
         createtime,
         pv,
         NTILE(3) OVER(PARTITION BY cookieid ORDER BY pv DESC) AS rn
     FROM website_pv_info) tmp 
 where rn =1;
0: jdbc:hive2://server4:10000> SELECT * from
. . . . . . . . . . . . . . .> (SELECT
. . . . . . . . . . . . . . .>      cookieid,
. . . . . . . . . . . . . . .>      createtime,
. . . . . . . . . . . . . . .>      pv,
. . . . . . . . . . . . . . .>      NTILE(3) OVER(PARTITION BY cookieid ORDER BY pv DESC) AS rn
. . . . . . . . . . . . . . .>  FROM website_pv_info) tmp where rn =1;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+---------------+-----------------+---------+---------+
| tmp.cookieid  | tmp.createtime  | tmp.pv  | tmp.rn  |
+---------------+-----------------+---------+---------+
| cookie1       | 2018-04-12      | 7       | 1       |
| cookie1       | 2018-04-11      | 5       | 1       |
| cookie1       | 2018-04-16      | 4       | 1       |
| cookie2       | 2018-04-15      | 9       | 1       |
| cookie2       | 2018-04-16      | 7       | 1       |
| cookie2       | 2018-04-13      | 6       | 1       |
+---------------+-----------------+---------+---------+
select * from website_url_info;

8、窗口分析函数

1）、语法

LAG(col,n,DEFAULT) ，用于统计窗口内往上第n行值
第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）；
LEAD(col,n,DEFAULT) ，用于统计窗口内往下第n行值
第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）；
FIRST_VALUE，取分组内排序后，截止到当前行，第一个值
LAST_VALUE，取分组内排序后，截止到当前行，最后一个值

2）、示例

-----------窗口分析函数----------
--LAG
SELECT cookieid,
       createtime,
       url,
       ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
       LAG(createtime,1,'1970-01-01 00:00:00') OVER(PARTITION BY cookieid ORDER BY createtime) AS last_1_time,
       LAG(createtime,2) OVER(PARTITION BY cookieid ORDER BY createtime) AS last_2_time
FROM website_url_info;
0: jdbc:hive2://server4:10000> SELECT cookieid,
. . . . . . . . . . . . . . .>        createtime,
. . . . . . . . . . . . . . .>        url,
. . . . . . . . . . . . . . .>        ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
. . . . . . . . . . . . . . .>        LAG(createtime,1,'1970-01-01 00:00:00') OVER(PARTITION BY cookieid ORDER BY createtime) AS last_1_time,
. . . . . . . . . . . . . . .>        LAG(createtime,2) OVER(PARTITION BY cookieid ORDER BY createtime) AS last_2_time
. . . . . . . . . . . . . . .> FROM website_url_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+----------------------+---------+-----+----------------------+----------------------+
| cookieid  |      createtime      |   url   | rn  |     last_1_time      |     last_2_time      |
+-----------+----------------------+---------+-----+----------------------+----------------------+
| cookie1   | 2018-04-10 10:00:00  | url1    | 1   | 1970-01-01 00:00:00  | NULL                 |
| cookie1   | 2018-04-10 10:00:02  | url2    | 2   | 2018-04-10 10:00:00  | NULL                 |
| cookie1   | 2018-04-10 10:03:04  | 1url3   | 3   | 2018-04-10 10:00:02  | 2018-04-10 10:00:00  |
| cookie1   | 2018-04-10 10:10:00  | url4    | 4   | 2018-04-10 10:03:04  | 2018-04-10 10:00:02  |
| cookie1   | 2018-04-10 10:50:01  | url5    | 5   | 2018-04-10 10:10:00  | 2018-04-10 10:03:04  |
| cookie1   | 2018-04-10 10:50:05  | url6    | 6   | 2018-04-10 10:50:01  | 2018-04-10 10:10:00  |
| cookie1   | 2018-04-10 11:00:00  | url7    | 7   | 2018-04-10 10:50:05  | 2018-04-10 10:50:01  |
| cookie2   | 2018-04-10 10:00:00  | url11   | 1   | 1970-01-01 00:00:00  | NULL                 |
| cookie2   | 2018-04-10 10:00:02  | url22   | 2   | 2018-04-10 10:00:00  | NULL                 |
| cookie2   | 2018-04-10 10:03:04  | 1url33  | 3   | 2018-04-10 10:00:02  | 2018-04-10 10:00:00  |
| cookie2   | 2018-04-10 10:10:00  | url44   | 4   | 2018-04-10 10:03:04  | 2018-04-10 10:00:02  |
| cookie2   | 2018-04-10 10:50:01  | url55   | 5   | 2018-04-10 10:10:00  | 2018-04-10 10:03:04  |
| cookie2   | 2018-04-10 10:50:05  | url66   | 6   | 2018-04-10 10:50:01  | 2018-04-10 10:10:00  |
| cookie2   | 2018-04-10 11:00:00  | url77   | 7   | 2018-04-10 10:50:05  | 2018-04-10 10:50:01  |
+-----------+----------------------+---------+-----+----------------------+----------------------+

--LEAD
SELECT cookieid,
       createtime,
       url,
       ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
       LEAD(createtime,1,'1970-01-01 00:00:00') OVER(PARTITION BY cookieid ORDER BY createtime) AS next_1_time,
       LEAD(createtime,2) OVER(PARTITION BY cookieid ORDER BY createtime) AS next_2_time
FROM website_url_info;
0: jdbc:hive2://server4:10000> SELECT cookieid,
. . . . . . . . . . . . . . .>        createtime,
. . . . . . . . . . . . . . .>        url,
. . . . . . . . . . . . . . .>        ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
. . . . . . . . . . . . . . .>        LEAD(createtime,1,'1970-01-01 00:00:00') OVER(PARTITION BY cookieid ORDER BY createtime) AS next_1_time,
. . . . . . . . . . . . . . .>        LEAD(createtime,2) OVER(PARTITION BY cookieid ORDER BY createtime) AS next_2_time
. . . . . . . . . . . . . . .> FROM website_url_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+----------------------+---------+-----+----------------------+----------------------+
| cookieid  |      createtime      |   url   | rn  |     next_1_time      |     next_2_time      |
+-----------+----------------------+---------+-----+----------------------+----------------------+
| cookie1   | 2018-04-10 10:00:00  | url1    | 1   | 2018-04-10 10:00:02  | 2018-04-10 10:03:04  |
| cookie1   | 2018-04-10 10:00:02  | url2    | 2   | 2018-04-10 10:03:04  | 2018-04-10 10:10:00  |
| cookie1   | 2018-04-10 10:03:04  | 1url3   | 3   | 2018-04-10 10:10:00  | 2018-04-10 10:50:01  |
| cookie1   | 2018-04-10 10:10:00  | url4    | 4   | 2018-04-10 10:50:01  | 2018-04-10 10:50:05  |
| cookie1   | 2018-04-10 10:50:01  | url5    | 5   | 2018-04-10 10:50:05  | 2018-04-10 11:00:00  |
| cookie1   | 2018-04-10 10:50:05  | url6    | 6   | 2018-04-10 11:00:00  | NULL                 |
| cookie1   | 2018-04-10 11:00:00  | url7    | 7   | 1970-01-01 00:00:00  | NULL                 |
| cookie2   | 2018-04-10 10:00:00  | url11   | 1   | 2018-04-10 10:00:02  | 2018-04-10 10:03:04  |
| cookie2   | 2018-04-10 10:00:02  | url22   | 2   | 2018-04-10 10:03:04  | 2018-04-10 10:10:00  |
| cookie2   | 2018-04-10 10:03:04  | 1url33  | 3   | 2018-04-10 10:10:00  | 2018-04-10 10:50:01  |
| cookie2   | 2018-04-10 10:10:00  | url44   | 4   | 2018-04-10 10:50:01  | 2018-04-10 10:50:05  |
| cookie2   | 2018-04-10 10:50:01  | url55   | 5   | 2018-04-10 10:50:05  | 2018-04-10 11:00:00  |
| cookie2   | 2018-04-10 10:50:05  | url66   | 6   | 2018-04-10 11:00:00  | NULL                 |
| cookie2   | 2018-04-10 11:00:00  | url77   | 7   | 1970-01-01 00:00:00  | NULL                 |
+-----------+----------------------+---------+-----+----------------------+----------------------+

--FIRST_VALUE
SELECT cookieid,
       createtime,
       url,
       ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
       FIRST_VALUE(url) OVER(PARTITION BY cookieid ORDER BY createtime) AS first1
FROM website_url_info;
0: jdbc:hive2://server4:10000> SELECT cookieid,
. . . . . . . . . . . . . . .>        createtime,
. . . . . . . . . . . . . . .>        url,
. . . . . . . . . . . . . . .>        ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
. . . . . . . . . . . . . . .>        FIRST_VALUE(url) OVER(PARTITION BY cookieid ORDER BY createtime) AS first1
. . . . . . . . . . . . . . .> FROM website_url_info;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+----------------------+---------+-----+---------+
| cookieid  |      createtime      |   url   | rn  | first1  |
+-----------+----------------------+---------+-----+---------+
| cookie1   | 2018-04-10 10:00:00  | url1    | 1   | url1    |
| cookie1   | 2018-04-10 10:00:02  | url2    | 2   | url1    |
| cookie1   | 2018-04-10 10:03:04  | 1url3   | 3   | url1    |
| cookie1   | 2018-04-10 10:10:00  | url4    | 4   | url1    |
| cookie1   | 2018-04-10 10:50:01  | url5    | 5   | url1    |
| cookie1   | 2018-04-10 10:50:05  | url6    | 6   | url1    |
| cookie1   | 2018-04-10 11:00:00  | url7    | 7   | url1    |
| cookie2   | 2018-04-10 10:00:00  | url11   | 1   | url11   |
| cookie2   | 2018-04-10 10:00:02  | url22   | 2   | url11   |
| cookie2   | 2018-04-10 10:03:04  | 1url33  | 3   | url11   |
| cookie2   | 2018-04-10 10:10:00  | url44   | 4   | url11   |
| cookie2   | 2018-04-10 10:50:01  | url55   | 5   | url11   |
| cookie2   | 2018-04-10 10:50:05  | url66   | 6   | url11   |
| cookie2   | 2018-04-10 11:00:00  | url77   | 7   | url11   |
+-----------+----------------------+---------+-----+---------+

--LAST_VALUE
SELECT cookieid,
       createtime,
       url,
       ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
       LAST_VALUE(url) OVER(PARTITION BY cookieid ORDER BY createtime) AS last1
FROM website_url_info;

五、Sampling抽样函数

抽样、采样，一种用于识别和分析数据中的子集的技术，以发现整个数据集中的模式和趋势。
在HQL中，可以通过三种方式采样数据：随机采样，存储桶表采样和块采样。

1、Random 随机抽样

随机抽样使用rand()函数来确保随机获取数据，LIMIT来限制抽取的数据个数。
优点是随机，缺点是速度不快，尤其表数据多的时候。

推荐DISTRIBUTE+SORT，可以确保数据也随机分布在mapper和reducer之间，使得底层执行有效率
ORDER BY语句也可以达到相同的目的，但是表现不好，因为ORDER BY是全局排序，只会启动运行一个reducer
示例

--数据表
select * from student;

--需求：随机抽取2个学生的情况进行查看
SELECT * FROM student
DISTRIBUTE BY rand() SORT BY rand() LIMIT 2;

--使用order by+rand也可以实现同样的效果 但是效率不高
SELECT * FROM student
    ORDER BY rand() LIMIT 2;

2、Block 基于数据块抽样

Block块采样允许随机获取n行数据、百分比数据或指定大小的数据。
采样粒度是HDFS块大小。
优点是速度快，缺点是不随机。

---block抽样
--根据行数抽样
SELECT * FROM student TABLESAMPLE(1 ROWS);
SELECT * FROM users_bucket_sort TABLESAMPLE(1 ROWS);
--根据数据大小百分比抽样
SELECT * FROM student TABLESAMPLE(50 PERCENT);
SELECT * FROM users_bucket_sort  TABLESAMPLE(50 PERCENT);

--根据数据大小抽样
--支持数据单位 b/B, k/K, m/M, g/G
SELECT * FROM student TABLESAMPLE(1k);
SELECT * FROM users_bucket_sort  TABLESAMPLE(1m);

3、Bucket table 基于分桶表抽样

这是一种特殊的采样方法，针对分桶表进行了优化。
优点是既随机速度也很快。

语法

TABLESAMPLE (BUCKET x OUT OF y [ON colname])

示例

---bucket table抽样
--总文件大小有1.1G（1260+行），分为10桶
create table users(
    rownum int,
    id string,
    username string,
    password string,
    phone string,
    email string,
    createday string
    )
row format delimited fields terminated by '\t';
--导入1260万数据

--创建桶表
CREATE TABLE users_bucket_sort(
    rownum int,
    id string,
    username string,
    password string,
    phone string,
    email string,
    createday string
)
CLUSTERED BY(username) sorted by (id) INTO 10 BUCKETS;
--桶表插入数据
insert into users_bucket_sort select * from users;

--TABLESAMPLE (BUCKET x OUT OF y [ON colname])
--1、y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。
    --例如，table总共分了4份（4个bucket），当y=2时，抽取(4/2=)2个bucket的数据，当y=8时，抽取(4/8=)1/2个bucket的数据。
--2、x表示从哪个bucket开始抽取。
    --例如，table总bucket数为4，tablesample(bucket 4 out of 4)，表示总共抽取（4/4=）1个bucket的数据，抽取第4个bucket的数据。
    --注意：x的值必须小于等于y的值，否则FAILED:Numerator should not be bigger than denominator in sample clause for table stu_buck
--3、ON colname表示基于什么抽
    --ON rand()表示随机抽
    --ON 分桶字段 表示基于分桶字段抽样 效率更高 推荐
    
--根据整行数据进行抽样
SELECT * FROM users_bucket_sort TABLESAMPLE(BUCKET 1 OUT OF 500000 ON rand());

--根据分桶字段进行抽样 效率更高
describe formatted users_bucket_sort ;
SELECT * FROM users_bucket_sort TABLESAMPLE(BUCKET 1 OUT OF 500000 ON username);
0: jdbc:hive2://server4:10000> SELECT * FROM users_bucket_sort TABLESAMPLE(BUCKET 1 OUT OF 500000 ON username);
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+---------------------------+-----------------------+-----------------------------+-----------------------------+--------------------------+--------------------------+------------------------------+
| users_bucket_sort.rownum  | users_bucket_sort.id  | users_bucket_sort.username  | users_bucket_sort.password  | users_bucket_sort.phone  | users_bucket_sort.email  | users_bucket_sort.createday  |
+---------------------------+-----------------------+-----------------------------+-----------------------------+--------------------------+--------------------------+------------------------------+
| 9801921                   | 1031178248            | alan52314                   | 84466                       | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 9863613                   | 1036482206            | alan52314                   | 710173                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 10264809                  | 1071356555            | alan52314                   | 752370                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-25 00:00:00.0        |
| 10342478                  | 1077853253            | alan52314                   | 576675                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 10505881                  | 1100168203            | alan52314                   | 477137                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-25 00:00:00.0        |
| 10648068                  | 1114316346            | alan52314                   | 573302                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 11048102                  | 1148836368            | alan52314                   | 871112                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 11239982                  | 1165836817            | alan52314                   | 554216                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 11362843                  | 1176470955            | alan52314                   | 207748                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 11421889                  | 1181545106            | alan52314                   | 186464                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 11696725                  | 1215543654            | alan52314                   | 272234                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 11831536                  | 1227136006            | alan52314                   | 564323                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-25 00:00:00.0        |
| 11850459                  | 1228576890            | alan52314                   | 623030                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 11853176                  | 1228766834            | alan52314                   | 124131                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 702191                    | 140821328             | alan52314                   | 806808                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 812945                    | 146886034             | alan52314                   | 810351                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 1078761                   | 162407548             | alan52314                   | 654657                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 1316209                   | 176112428             | alan52314                   | 742020                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 1950580                   | 222618362             | alan52314                   | 820080                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 2086161                   | 230663448             | alan52314                   | 157886                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 2112003                   | 232076351             | alan52314                   | 36435                       | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 2625960                   | 261687306             | alan52314                   | 372375                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 2832663                   | 273470168             | alan52314                   | 223350                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-25 00:00:00.0        |
| 3172342                   | 295442255             | alan52314                   | 847721                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 3271147                   | 308367438             | alan52314                   | 225310                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 4243314                   | 400435181             | alan52314                   | 481605                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 4271088                   | 404678216             | alan52314                   | 581575                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 4385581                   | 414526701             | alan52314                   | 267756                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 4602971                   | 433127802             | alan52314                   | 678166                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 4821500                   | 452074674             | alan52314                   | 377844                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 5142209                   | 479852791             | alan52314                   | 576834                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 5367910                   | 508806324             | alan52314                   | 853134                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-25 00:00:00.0        |
| 5455093                   | 516561571             | alan52314                   | 381221                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 6170091                   | 577881016             | alan52314                   | 711480                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 6251791                   | 585305561             | alan52314                   | 177047                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 6390994                   | 610081841             | alan52314                   | 27200                       | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 6919733                   | 707357165             | alan52314                   | 486232                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 7576882                   | 763858240             | alan52314                   | 410784                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 7852259                   | 787653561             | alan52314                   | 183183                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 7984811                   | 808865904             | alan52314                   | 125207                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 8058334                   | 815575511             | alan52314                   | 148088                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
| 8570937                   | 859794785             | alan52314                   | 108752                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 8613505                   | 863216285             | alan52314                   | 717061                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-25 00:00:00.0        |
| 8903815                   | 888381546             | alan52314                   | 751567                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-25 00:00:00.0        |
| 8989061                   | 912035215             | alan52314                   | 878101                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-27 00:00:00.0        |
| 9072828                   | 926913226             | alan52314                   | 887441                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-25 00:00:00.0        |
| 9372303                   | 978484975             | alan52314                   | 544367                      | 13977776789              | alan.chan.chn@163.com    | 2021-12-28 00:00:00.0        |
+---------------------------+-----------------------+-----------------------------+-----------------------------+--------------------------+--------------------------+------------------------------+
47 rows selected (88.273 seconds)

以上，介绍了hive的explode函数、Lateral View侧视图、聚合函数、窗口函数和抽样函数内容及详细的使用示例。

你可能感兴趣的:(#,hive专栏,hive,hadoop,大数据,数据仓库,数据分析)

深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
C 语言字符大小写互转：tolower / toupper 详解与实战 BabyZZの秘密日记 C语言 c语言开发语言
个人主页：BabyZZの秘密日记收入专栏：C语言文章目入一、函数原型二、实现原理（glibc2.39源码节选）三、常见陷阱与最佳实践四、完整示例：大小写不敏感查找子串五、性能扩展：批量转换的SIMD思路六、小结在文本处理、协议解析、命令行解析等场景中，“大小写不敏感”是十分常见的需求。C标准库提供了两个最常用的工具函数：inttolower(intc);——大写→小写inttoupper(intc
大数据时代下的时序数据库选型指南：基于工业场景的IoTDB技术优势与适用性研究 Loving_enjoy 计算机学科论文创新点机器学习 facebook 经验分享课程设计
>在宝钢集团的智能工厂里，5万多个传感器每秒产生150万+数据点，传统数据库系统每天积压3TB未处理数据——这揭示了工业4.0时代的核心矛盾：**海量时序数据处理能力已成为智能制造的关键瓶颈**。###工业时序数据的四大特殊性工业场景下的时序数据与传统互联网数据存在本质差异：1.**高精度时间要求**-数控机床振动监测需微秒级时间戳-电网故障定位要求时间同步精度≤1μs2.**多源异构性**```
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1179 数字统计
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1179[NOIP2010普及组]数字
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1109 学生分组热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1109学生分组-洛谷【题目描述】有n
算法竞赛备考冲刺必刷题（C++） | 洛谷 P1449 后缀表达式热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P1449后缀表达式-洛谷【题目描述】所
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
Python - 数据分析三剑客之Pandas MinggeQingchun Python Python Pandas
阅读前可参考NumPy文章https://blog.csdn.net/MinggeQingchun/article/details/148253682https://blog.csdn.net/MinggeQingchun/article/details/148253682‌Pandas是Python中一个强大的开源数据分析库，专门用于处理结构化数据（如表格、时间序列等），其核心数据结构为Seri
新增AI Copilot，DataEase开源数据可视化分析工具v2.9.0发布 FIT2CLOUD飞致云开源数据可视化 DataEase AI Copilot 嵌入式
2024年8月5日，人人可用的开源数据可视化分析工具DataEase正式发布v2.9.0版本。这一版本的功能变动包括：导航栏新增Copilot入口，借助AI技术，通过自然语言交互实现即问即答，让数据分析更加直观和便捷；图表方面，对有图例的图表支持序列颜色设置，并对地图、表格等图表类型进行功能增强和优化；仪表板和数据大屏方面，新增应用导出/导入功能，仪表板和数据大屏中可以支持富文本和跑马灯组件刷新，
【C++指南】C++ list容器完全解读（四）：反向迭代器的巧妙实现
.博客主页：倔强的石头的CSDN主页Gitee主页：倔强的石头的gitee主页⏩文章专栏：《C++指南》期待您的关注系列回顾：【C++指南】STLlist容器完全解读（一）：从入门到掌握基础操作【C++指南】C++list容器完全解读（二）：list模拟实现，底层架构揭秘【C++指南】C++list容器完全解读（三）：list迭代器的实现与优化引言在上一篇文章中，我们通过模板复用技术实现了普通迭代
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
2025.07.09华为机考真题解析-第一题100分春秋招笔试突围最新互联网春秋招试题合集华为
点击直达笔试专栏《大厂笔试突围》春秋招笔试突围在线OJ笔试突围OJ01.花园灯具照明设计问题描述K小姐正在为她的私人花园设计照明系统。花园是一条长廊，由nnn
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb