May--J--Oldhu

Hive高级查询（join查询，装载数据（load，insert），数据导入导出（import，export），数据排序，聚合运算，窗口函数）（三）

Hive高级查询

一.Hive的数据查询
- 1.基本数据查询
- - （1）SELECT基础
  - （2）CTE和嵌套查询
- 2.join关联查询
- - （1）基本概念
  - （2）内连接join
  - （3）左外连接 left join
  - （4）右外连接right join
  - （5）全连接full join
  - （6）练习-SELECT及关联查询
- 3.Hive join-mapjoin
- 4.Hive集合操作（UNION）
- - （1）基本概念
  - （2）示例
二.装载数据
- 1.向表中装载数据（Load）
- - （1）语法
  - （2）关键字含义
  - （3）实例
- 2.装载数据（insert）
- - （1）基本语法
  - （2）通过查询语句插入
  - （3）多插入
  - （4）插入到分区
  - （5）通过指定列插入
  - （6）通过指定值插入
- 3.查询语句中创建表并加载数据（as select）
- 4.创建表时通过 location 指定加载数据路径
三.Hive数据插入文件
- - 1.基本概念
  - 2.示例
四.Hive数据导入导出
- 1.import数据导入
- 2.数据导出
- - （1）insert 导出
  - （2）Hadoop命令导出到本地
  - （3）Hive Shell命令导出
  - （4）Export导出到HDFS上
  - （5）其他工具导出
  - （6）清除表中数据（Truncate）
五.Hive数据排序
- 1.Order By
- - （1）基本概念
  - （2）全局排序和casewhen示例
  - （3）与数据库order by的区别
- 2.Sort By
- - (1)基本概念
- 3.Distribute By
- - (1)基本概念
- 4.Cluster by
- - (1)基本概念
- 5.练习-实现Hive数据加载及排序
六.Hive聚合运算
- 1.group by
- - （1）作用
  - （2）特性
  - （3）问题
  - （4）使用casewhen
- 2.Having
- 3.基础聚合
七.窗口函数
- 1.基本概述
- 2.语法
- 3.窗口函数——排序
- - （1） row_number()
  - （2） rank()
  - （3）dense_rank()
  - （4）nlite(n)
  - （5）percent_rank()
- 4.窗口函数——聚合
- - （1）count()
  - （2）sum()
  - （3）avg()
  - （4）max()/min()
- 5.窗口函数——分析
- - （1）cume_dist
  - （2）Lead／Lag(col,n)
  - （3）first_value
  - （4）last_value
- 6.窗口函数-窗口定义
- - （1）行窗口：根据当前行之前或之后的行号确定的窗口
  - （2）范围窗口：取分组内的值在指定范围区间内的行
- 4.练习-使用聚合和窗口函数实现零售数据统计

一.Hive的数据查询

1.基本数据查询

（1）SELECT基础

select用于映射符合指定查询条件的行

select查询类似于sql

（2）CTE和嵌套查询

CTE（Common Table Expression）

with
t1 as(select ...)
select * from t1

嵌套查询

select * from(select * from employee)a;

cte和嵌套可以转换

2.join关联查询

（1）基本概念

指对多表进行联合查询
JOIN用于将两个或多个表中的行组合在一起查询
类似于SQL JOIN，但是Hive仅支持等值连接，不支持非等值连接
内连接：INNER JOIN
外连接：OUTER JOIN
RIGHT JOIN, LEFT JOIN, FULL OUTER JOIN
交叉连接：CROSS JOIN
隐式连接：Implicit JOIN
JOIN发生在WHERE子句之前
数据：

stu
id,name
1,zhangsan
2,lisi
3,wangwu

score
id,scores
2,90
3,80
4,87
各种连接后的情况

（2）内连接join

内连接：只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保
留下来

select  * from stu join score on stu.id=score.id

结果：
2,lisi 2,90
3,wangwu 3,80

（3）左外连接 left join

左外连接：JOIN 操作符左边表中符合 WHERE 子句的所有记录将会被返回。

select  * from stu left join score on stu.id=score.id

结果：
1,zhangsan null
2,lisi 90
3,wangwu 80

（4）右外连接right join

右外连接：JOIN 操作符右边表中符合 WHERE 子句的所有记录将会被返回。

select  * from stu right join score on stu.id=score.id

结果：
2,lisi 90
3,wangwu 80
4,null 87

（5）全连接full join

全外连接：将会返回所有表中符合 WHERE 语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话，那么就使用 NULL 值替代。

select  * from stu full join score on stu.id=score.id

结果：
1,zhangsan null
2,lisi 90
3,wangwu 80
4,null 87

cross full
```
select  * from stu , score where stu.id=score.id
```
结果：
1,zhangsan 2,90
1,zhangsan 3,80
1,zhangsan 4,87
2,lisi 2,90
2,lisi 3,80
2,lisi 4,87
3,wangwu 2,90
3,wangwu 3,80
3,wangwu 4,87

（6）练习-SELECT及关联查询

分别实现以下需求

将顾客表、部门表、商品表数据存入Hive
查询顾客表中地区为“NY”所在城市为’New York’的用户
查询订单表中共有多少不同顾客下过订单
查询商品表中前5个商品
从顾客表中查询每位顾客的全名（分别使用CTE和子查询）
使用正则表达式匹配顾客表中ID、姓名与所在城市列
使用关联查询获取没有订单的所有顾客

--将顾客表、部门表、商品表数据存入Hive
load data local inpath'/root/test/customers.csv'into table customers;
load data local inpath '/root/test/departments.csv' into table departments;
load data local inpath '/root/test/products.csv' into table products;
--查询顾客表中地区为“NY”所在城市为'New York'的用户
 select * from customers where customer_state='NY'and customer_city='New York';
--查询订单表中共有多少不同顾客下过订单
select count(distinct order_customer_id) from orders;
--查询商品表中前5个商品
select * from products limit5;
--从顾客表中查询每位顾客的全名（分别使用CTE和子查询）
select concat(customer_fname,' ',customer_lname) from customers;
--使用正则表达式匹配顾客表中ID、姓名与所在城市列
select * from customers
where customer_id rlike '[1,2,3][4,5,6]'
and customer_fname rlike '^Ma+[a,r]' 
and customer_lname rlike '^S' 
and customer_state rlike '^N' 
and customer_city rlike 'Green' ;
--使用关联查询获取没有订单的所有顾客
select customer_fname from customers c where c.customer_id
not in
(select order_customer_id from orders);--这条语句记住顾客表需要取别名才能查出结果！！！

注：rlike支持java的正则表达式；使用子查询需要取别名

3.Hive join-mapjoin

Mapjoin操作在Map端：

小表关联大表，可以进行不等值连接

小表放左边，大表放右边

开启mapjoin端操作：set hive.auto.convert.join=true;

运行时自动连接转换成mapjoin

mapjoin操作不支持：

在union all，lateral view，group by/join/sort by/cluster by/distribute by

等操作后面

在union，join以及其他mapjoin之前

4.Hive集合操作（UNION）

（1）基本概念

所有子集数据必须具有相同的名称和类型
UNION ALL：合并后保留重复项
UNION：合并后删除重复项（v1.2之后）
可以在顶层查询中使用（0.13.0之后）
ORDER BY, SORT BY, CLUSTER BY, DISTRIBUTE BY 和LIMIT适用于合并后的整个结果
集合其他操作可以使用JOIN/OUTER JOIN来实现
差集、交集

（2）示例

union all：

select *  from customers where customer_fname='Mary'
union all
select *  from customers where customer_fname='Mary';

差集和交集

--差集
SELECT a.name FROM employee a LEFT JOIN employee_hr b
ON a.name = b.name WHERE b.name IS NULL;
--交集
SELECT a.name FROM employee a
JOIN employee_hr b ON a.name = b.name;

二.装载数据

1.向表中装载数据（Load）

（1）语法

hive>load data [local] inpath '/opt/datas/student.txt' [overwrite] into table 
student [partition (partcol1=val1,…)];

（2）关键字含义

1）load data:表示加载数据
2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表
3）inpath:表示加载数据的路径
4）into table:表示加载到哪张表
5）student:表示具体的表
6）overwrite:表示覆盖表中已有数据，否则表示追加
7）partition:表示上传到指定分区

（3）实例

student.txt 文件内容

1001 zhangsan
1002 lishi
1003 wangwu

--（1）创建一张表
hive (default)> create table student(id string, name string) row format delimited 
fields terminated by '\t';
--（2）加载本地文件到 hive
hive (default)> load data local inpath '/opt/datas/student.txt' into table 
student;
--（3）加载 HDFS 文件到 hive 中
-- 上传文件到 HDFS
hive (default)> dfs -put /opt/datas/student.txt /kgc/hive;
-- 加载 HDFS 上数据
hive (default)>load data inpath '/kgc/hive/student.txt' into table student;
--（4）加载数据覆盖表中已有的数据
-- 上传文件到 HDFS
hive (default)> dfs -put /opt/datas/student.txt /kgc/hive;
-- 加载数据覆盖表中已有的数据
hive (default)>load data inpath '/kgc/hive/student.txt' overwrite into table 
student;

2.装载数据（insert）

（1）基本语法

INSERT OVERWRITE/INTO TABLE tablename1 
[PARTITION (partcol1=val1, partcol2=val2 ...)] 
select fileds,... from tb_other;

Hive支持从同一个表进行多次插入
INSERT INTO中TABLE关键字是可选的
INSERT INTO可以指定插入到哪些字段中
如：INSERT INTO t(x,y,z)
INSERT INTO table_name VALUES，支持插入值列表
数据插入必须与指定列数相同

示例：

注意： create table ctas_partitoned as select * from employee_partitioned;

通过CTAS创建的表虽然直接select的分区表，但不是分区表

hive> desc ctas_partitoned;
OK
name                    string
employe_id              int
number                  string
year                    int
month                   int
Time taken: 0.053 seconds, Fetched: 5 row(s)

（2）通过查询语句插入

insert into ctas_employee select * from employee;

（3）多插入

from ctas_employee
insert overwrite table employee select *
insert overwrite table employee_internal select *;

（4）插入到分区

from ctas_patitioned 
insert into table employee_partitioned PARTITION (year, month)
select name,work_place,sex_age,skills_score,depart_title,'2018','09';

（5）通过指定列插入

(insert into可以省略table关键字)

insert into employee(name) select 'John' from test limit 1;

（6）通过指定值插入

insert into table employee(name)values('July'),('John');

3.查询语句中创建表并加载数据（as select）

create table if not exists student3
as select id, name from student;

4.创建表时通过 location 指定加载数据路径

hive (default)> create table if not exists student5(
 id int, name string)
 row format delimited fields terminated by '\t'
 location '/kgc/hive/student5';
 --上传数据
 hive (default)> dfs -put /opt/datas/student.txt /kgc/hive/student5;

三.Hive数据插入文件

1.基本概念

使用insert语句将数据插入/导出到文件

文件插入只支持OVERWRITE

支持来自同一个数据源/表的多次插入

LOCAL：写入本地文件系统

默认数据以TEXT格式写入，列由^A分隔

支持自定义分隔符导出文件为不同格式,CSV,JSON等

2.示例

从同一数据源插入本地文件，hdfs文件，表

from ctas_employee
insert overwrite local directory '/tmp/out1'  select *
insert overwrite directory '/tmp/out1' select *
insert overwrite table employee_internal select *;

以指定格式插入数据

insert overwrite directory '/tmp/out3'
row format delimited fields terminated by ','
select * from ctas_employee;

其他方式从表获取文件

hdfs dfs -getmerge <table_file_path>

四.Hive数据导入导出

1.import数据导入

--import数据到指定hive表中
hive (default)> import table student2 partition(month='201709') from 
'/user/hive/warehouse/export/student';
IMPORT TABLE employee FROM '/tmp/output3';
IMPORT TABLE employee_partitioned partition (year=2014, month=11) FROM '/tmp/output5';

2.数据导出

（1）insert 导出

导出到本地要加local ，导到hdfs上不需要local

--将查询结果导出到本地
hive (default)> insert overwrite local directory '/opt/datas/export/student' select * from student;
--将查询的结果格式化导出到本地
hive (default)> insert overwrite local directory '/opt/datas/export/student1'
 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
 COLLECTION ITEMS TERMINATED BY '\n'
 select * from student;
--将查询的结果导出到HDFS上（没有local）
hive (default)> insert overwrite directory '/user/hive/warehouse/student2'
 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
 COLLECTION ITEMS TERMINATED BY '\n'
 select * from student;

（2）Hadoop命令导出到本地

hive (default)> hdfs dfs -get /user/hive/warehouse/student/month=201709/000000_0 
/opt/datas/export/student3.txt;

（3）Hive Shell命令导出

基本语法：hive -f/-e 执行语句或者脚本 >file

[hadoop@hadoop00 hive]$ bin/hive -e 'select * from default.student;' >  /opt/datas/export/student4.txt;

（4）Export导出到HDFS上

EXPORT TABLE employee TO '/tmp/output3';
EXPORT TABLE employee_partitioned partition (year=2014, month=11) TO '/tmp/output5';

（5）其他工具导出

使用sqoop

（6）清除表中数据（Truncate）

hive (default)> truncate table student;

注意：Truncate 只能删除管理表数据，不能删除外部表中数据。
注：
import和export的区别：

insert插入是文件，export可导出元数据和数据！！！
insert 不能导出到local

五.Hive数据排序

1.Order By

（1）基本概念

Order By：全局排序，只有一个 reducer，会导致当输入规模较大时，需要较长的计算时间，结果全局有序。

Order By (ASC|DESC)类似于标准SQL
只使用一个Reducer执行全局数据排序
速度慢,应提前做好数据过滤
支持使用CASE WHEN或表达式
支持按位置编号排序
set hive.groupby.orderby.position.alias=true;

（2）全局排序和casewhen示例

全局排序

 select * from employee_hr order by employe_id desc limit 1;

使用case when

--会把大于95和小于95进行区分
select * from employee_hr 
 order by case when employe_id>95 then 1 else 0 end desc 
 limit 10;
--1代表里面都是大于95的，但并未排序
--0代表里面都是不大于95是，也为排序
select * from employee_hr order by 1;--通过order by 1/0后整个表进行排序

（3）与数据库order by的区别

1）区别：order by 在 hive.mapred.mode = strict模式下必须指定 limit 否则执行会报错。
2）报错信息：

set hive.mapred.mode=strict;
hive> select * from test order by id; 
FAILED: Error in semantic analysis: 1:28 In strict mode, if ORDER BY is specified, 
LIMIT must also be specified. Error encountered near token 'id'

3)原因：
在order by状态下所有数据会到一台服务器进行reduce操作也即只有一个reduce，如果在数据量大的情况下会出现无法输出结果的情况，如果进行“limit n”，那只有“n * map number”条记录传入到reduce端，只有一个reduce也可以处理过来

2.Sort By

(1)基本概念

Sort By：每个 MapReduce 内部进行排序，对全局结果集来说不一定有序

SORT BY对每个Reducer中的数据进行排序
当Reducer数量设置为1时，等于ORDER BY.
sort by 不受 hive.mapred.mode 是否为 strict ,nostrict 的影响。

3.Distribute By

(1)基本概念

Distribute By：类似 MR 中 partition，进行分区，结合 sort by 使用。

排序列必须出现在select column列表中
Distribute By类似于标准SQL中的GROUP BY
确保具有匹配列值的行被分区到相同的Reducer
默认采用hash算法，根据分区字段的hash码与reduce的个数进行模除
不会对每个Reducer的输出进行排序
通常使用在SORT BY语句之前

--先按照部门编号分区，再按照员工编号降序排序
hive (default)> set mapreduce.job.reduces=3;
hive (default)> select * from emp distribute by deptno sort by empno desc;

4.Cluster by

(1)基本概念

cluster by=distribute by+sort by（当distribute by和sort by的字段相同时，可以使用cluster by）

不支持ASC|DESC
排序列必须出现在SELECT column列表中
为了充分利用所有的Reducer来执行全局排序，可以先使用cluster by，然后使用order by

# 以下两种写法等价
select * from emp cluster by empno;
select * from emp distribute by empno sort by empno;

5.练习-实现Hive数据加载及排序

将order_items.csv数据通过load方式加载到order_items表
将order_items表中数据加载到order_test2表
将order_items表中数据同时加载到o_01和o_02表
将order_items表中数据导出到本地以及hdfs
统计order_items表中订单数量排行（取前10）

--将order_items.csv数据通过load方式加载到order_items表
load data inpath '/data/retail_db/order_items.csv' into table order_items;
--将order_items表中数据加载到order_test2表
create  table order_test2 like order_items;
from order_items	
insert  into table order_test2  select *;
--将order_items表中数据同时加载到o_01和o_02表
create  table o_01 like order_items;
create  table o_02 like order_items;
from order_items	
insert  into table o_01  select *
insert  into table o_02  select *;
-- 将order_items表中数据导出到本地以及hdfs
from order_items
insert overwrite local directory '/root/order_items.txt'select *;

EXPORT TABLE order_items TO  '/tmp/output1';
--统计order_items表中订单数量排行（取前10）
select order_item_order_id, sum(order_item_quantity) e
from order_items o 
group by order_item_order_id
order by e desc 
limit 10;

六.Hive聚合运算

1.group by

（1）作用

用于分组

（2）特性

Hive基本内置聚合函数与group by一起使用
如果没有指定group by子句，则默认聚合整个表
除聚合函数外，所选的其他列也必须包含在group by中
group byY支持使用CASE WHEN或表达式
支持按位置编号分组 set hive.groupby.orderby.position.alias=true;
输出文件个数与 reduce 数量相同，文件大小与 reduce 处理的数量有关。

（3）问题

网络负载过重
可能出现数据倾斜的情况（可以通过hive.groupby.skewindata 参数来优化数据倾斜）

（4）使用casewhen

case when 条件表达式 then 条件满足的值
     when 条件表达式 then 条件满足的值
     else 条件不满足的值
end

select  name,count(1) from employee group by name
having count(1)>1;

2.Having

Having：对GROUP BY聚合结果的条件过滤
可以避免在GROUP BY之后使用子查询
Having之后可以使用表达式，不建议

--having使用
select sex_age.age from employee group by sex_age.age having count(*) <= 1;
--使用子查询代替having
select a.age from ( select count(*) as cnt, sex_age.age 
from employee group by sex_age.age ) a where a.cnt <= 1;

PV量：网站浏览量 count（1）—>PV

UV量：网站访问用户量 count(distinct user_id)—>UV

3.基础聚合

使用内置聚合函数进行数据聚合
max, min, count, sum, avg
**max(distinct col)、avg(distinct col)**等
collect_set, collect_list：返回每个组列中的对象集/列表，set去重，list不去重，通过group by进行集合形式分组
与GROUP BY一起使用，可应用于列或表达式
没有GROUP BY则按所有列聚合
select的列必须包含在GROUP BY中
对NULL的聚合为0
select count(null) = 0

七.窗口函数

1.基本概述

窗口函数是 SQL 中一类特别的函数。和聚合函数相似，窗口函数的输入也是多行记录。不同的是，聚合函数的作用于由 GROUP BY 子句聚合的组，而窗口函数则作用于一个窗口，这里，窗口是由一个 OVER 子句定义的多行记录。
聚合函数对其所作用的每一组记录输出一条结果，
窗口函数对其所作用的窗口中的每一行记录输出一条结果

2.语法

Function (arg1,..., arg n) OVER ([PARTITION BY <...>] [ORDER BY <....>] [<window_clause>])

语法解释：

函数字句：指明具体操作，如 sum（求和），first_value（取第一个值）；
partition by字句：指明分区字段，如果没有，则将所有数据作为一个分区
order by 字句：指明了每个分区排序的字段和方式,也是可选的，没有就是按照表中的顺序；
窗口字句：指明相对当前记录的计算范围，可以向上（preceding），可以向下（following）,也可以使用between 指明，上下边界的值，没有的话默认为当前分区。

按功能可划分为：排序，聚合，分析

3.窗口函数——排序

（1） row_number()

不同的序号，对所有数值输出序号唯一连续,去重

（2） rank()

对相同数值，输出相同的序号，下一个序号跳过（1,1,3）

（3）dense_rank()

对相同数值，输出相同的序号，下一个序号连续（1,1,2）

（4）nlite(n)

将有序的数据集合平均分配到n个桶中, 将桶号分配给每一行，根据桶号，选取前或后 n分之几的数据

（5）percent_rank()

(目前排名- 1)/(总行数- 1)，值相对于一组值的百分比排名

	row number()	rank()	dense_rank()
90	1	1	1
90	2	1	1
80	3	3	2

-示例

--row_number()(1,2,3)
select name,dept_num,employee_id,salary,
row_number() over(partition by dept_num order by salary desc) rn
from employee_contract;
--rank()（1,1,3）
select name,dept_num,employee_id,salary,
rank() over(partition by dept_num order by salary desc) rn
from employee_contract;
--dense_rank():不跳过数字(1,1,2)
select name,dept_num,employee_id,salary,
dense_rank() over(partition by dept_num order by salary desc) rn
from employee_contract;
--ntile
select name,dept_num,salary,
ntile(2) over(partition by dept_num order by salary desc) as nlite 
from employee_contract;
--percent_rank
select name,dept_num,salary,
percent_rank() over(order by salary ) as pr
from employee_contract;

4.窗口函数——聚合

（1）count()

计数，可以和DISTINCT一起用

SELECT 
COUNT(DISTINCT a) OVER (PARTITION BY c ORDER BY d ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING)

（2）sum()

求和

（3）avg()

平均值

（4）max()/min()

最大/小值
从Hive 2.1.0开始在OVER子句中支持聚合函数

示例

SELECT 
name, dept_num, salary,
COUNT(*) OVER (PARTITION BY dept_num) AS row_cnt,
--COUNT(DISTINCT *) OVER (PARTITION BY dept_num) AS row_cnt_dis,
SUM(salary) OVER(PARTITION BY dept_num ORDER BY dept_num) AS deptTotal,--只在分区内排名
SUM(salary) OVER(ORDER BY dept_num) AS runningTotal1, --每加一个分区，sum加一个分区的值
SUM(salary) OVER(ORDER BY dept_num, name rows unbounded preceding) AS runningTotal2,--每加一个name，sum都会加一个name的值
AVG(salary) OVER(PARTITION BY dept_num) AS avgDept,
MIN(salary) OVER(PARTITION BY dept_num) AS minDept,
MAX(salary) OVER(PARTITION BY dept_num) AS maxDept
FROM employee_contract
ORDER BY dept_num, name;

5.窗口函数——分析

（1）cume_dist

小于等于当前值的行数/分组内总行数
cume_dist(6000):小于等于salary：6000的行数/总行数

--cume_dist:小于等于当前值的行数/分组内总行数

SELECT 
name, dept_num, salary,
cume_dist()over(partition by dept_num order by salary) as cume_dist
from employee_contract;

SELECT 
name, dept_num, salary,
cume_dist()over( ) as cume_dist
from employee_contract;

（2）Lead／Lag(col,n)

某一列进行往前/后第n行值(n可选，默认为1)

--lead
SELECT 
name, dept_num, salary,
lead(salary,2)over(partition by dept_num order by salary) as lead
from employee_contract;

--lead显示的是本组中salary当前行的后两行的数据，这种一组内的后两个一定是null
+----------+-----------+---------+-------+--+
|   name   | dept_num  | salary  | lead  |
+----------+-----------+---------+-------+--+
| Wendy    | 1000      | 4000    | 5000  |
| Will     | 1000      | 4000    | 5500  |
| Michael  | 1000      | 5000    | 6400  |
| Lucy     | 1000      | 5500    | NULL  |
| Steven   | 1000      | 6400    | NULL  |
| Lily     | 1001      | 5000    | 6400  |
| Jess     | 1001      | 6000    | NULL  |
| Mike     | 1001      | 6400    | NULL  |
| Yun      | 1002      | 5500    | 8000  |
| Wei      | 1002      | 7000    | NULL  |
| Richard  | 1002      | 8000    | NULL  |
+----------+-----------+---------+-------+--+
--lag

SELECT 
name, dept_num, salary,
lag(salary,2)over(partition by dept_num order by salary) as lag
from employee_contract;

--lag显示的是本组中salary当前行的前两行的数据，这种一组内的前两个一定是null
+----------+-----------+---------+-------+--+
|   name   | dept_num  | salary  |  lag  |
+----------+-----------+---------+-------+--+
| Wendy    | 1000      | 4000    | NULL  |
| Will     | 1000      | 4000    | NULL  |
| Michael  | 1000      | 5000    | 4000  |
| Lucy     | 1000      | 5500    | 4000  |
| Steven   | 1000      | 6400    | 5000  |
| Lily     | 1001      | 5000    | NULL  |
| Jess     | 1001      | 6000    | NULL  |
| Mike     | 1001      | 6400    | 5000  |
| Yun      | 1002      | 5500    | NULL  |
| Wei      | 1002      | 7000    | NULL  |
| Richard  | 1002      | 8000    | 5500  |
+----------+-----------+---------+-------+--+

（3）first_value

对该列到目前为止的首个值

（4）last_value

到目前行为止的最后一个值

--first_value,last_value
SELECT 
name, dept_num, salary,
first_value(salary)over(partition by dept_num order by salary) as first_value,
last_value(salary)over(partition by dept_num order by salary) as last_value
from employee_contract;
+----------+-----------+---------+--------------+-------------+--+
|   name   | dept_num  | salary  | first_value  | last_value  |
+----------+-----------+---------+--------------+-------------+--+
| Wendy    | 1000      | 4000    | 4000         | 4000        |
| Will     | 1000      | 4000    | 4000         | 4000        |
| Michael  | 1000      | 5000    | 4000         | 5000        |
| Lucy     | 1000      | 5500    | 4000         | 5500        |
| Steven   | 1000      | 6400    | 4000         | 6400        |
| Lily     | 1001      | 5000    | 5000         | 5000        |
| Jess     | 1001      | 6000    | 5000         | 6000        |
| Mike     | 1001      | 6400    | 5000         | 6400        |
| Yun      | 1002      | 5500    | 5500         | 5500        |
| Wei      | 1002      | 7000    | 5500         | 7000        |
| Richard  | 1002      | 8000    | 5500         | 8000        |
+----------+-----------+---------+--------------+-------------+--+

--first_value:当前组内的当前行的首行
--last_value:当前组内的当前行的最后一行，及当前行

SELECT 
name, dept_num, salary,
--薪资往后数两行
LEAD(salary, 2) OVER(PARTITION BY dept_num ORDER BY salary) AS lead,
--薪资往前数两行
LAG(salary, 2, 0) OVER(PARTITION BY dept_num ORDER BY salary) AS lag,
FIRST_VALUE(salary) OVER (PARTITION BY dept_num ORDER BY salary) AS first_value,
LAST_VALUE(salary) OVER (PARTITION BY dept_num ORDER BY salary) AS last_value_default,
LAST_VALUE(salary) OVER (PARTITION BY dept_num ORDER BY salary RANGE BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) AS last_value
FROM employee_contract
ORDER BY dept_num, salary;

6.窗口函数-窗口定义

窗口定义由[]子句描述
用于进一步细分结果并应用分析函数
支持两类窗口定义
行类型窗口
范围类型窗口
RANK、NTILE、DENSE_RANK、CUME_DIST、PERCENT_RANK、LEAD、LAG和ROW_NUMBER函数不支持与窗口子句一起使用

（1）行窗口：根据当前行之前或之后的行号确定的窗口

ROWS BETWEEN AND

可以为下列值
UNBOUNDED PRECEDING : 窗口起始位置（分组第一行）
CURRENT ROW：当前行
N PRECEDING/FOLLOWING：当前行之前/之后n行
可以为下列值
UNBOUNDED FOLLOWING : 窗口结束位置（分组最后一行）
CURRENT ROW：当前行
N PRECEDING/FOLLOWING：当前行之前/之后n行

--注：按照dept_num进行分区并按照name进行排序
SELECT
name, dept_num AS dept, salary AS sal,
--当前行前2行到当前行的最高薪资（在分区内进行比较）
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN 2 PRECEDING AND CURRENT ROW) win1,
--从当前行的前2行到最后一行的最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN 2 PRECEDING AND UNBOUNDED FOLLOWING) win2,
--从当前行的前1行到当前行的后2行最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN 1 PRECEDING AND 2 FOLLOWING) win3,
--从当前行的前2行到当前行的前1行最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN 2 PRECEDING AND 1 PRECEDING) win4,
--从当前行的后1行到当前行的后2行最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN 1 FOLLOWING AND 2 FOLLOWING) win5,
--从当前行到当前行最高薪资（当前行）
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN CURRENT ROW AND CURRENT ROW) win6,
--从当前行到当前行的后1行最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN CURRENT ROW AND 1 FOLLOWING) win7,
--从当前行到最后行最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) win8,
--从第一行到当前行最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) win9,
--从第一行到当前行后1行最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN UNBOUNDED PRECEDING AND 1 FOLLOWING) win10,
--从第一行到最后一行最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) win11,
--从当前行的前两行到当前行最高薪资
MAX(salary) OVER (PARTITION BY dept_num ORDER BY name ROWS 2 PRECEDING) win12
FROM employee_contract  ORDER BY dept, name;

（2）范围窗口：取分组内的值在指定范围区间内的行

该范围值/区间必须是数字或日期类型
目前只支持一个ORDER BY列

-- 假设当前close值为3000，语句将包含分区内范围从2500到4000的行
SUM(close) RANGE BETWEEN 500 PRECEDING AND 1000 FOLLOWING

4.练习-使用聚合和窗口函数实现零售数据统计

统计order_items表中销量最多的前10个商品
统计每个商品大类下的商品子类
根据商品子类id大小对每个商品大类下的子类进行排名
使用ROW_NUMBER()函数
统计order_items表中各订单中不同商品总数、订单总金额、订单最高/最低/平均金额

--统计order_items表中销量最多的前10个商品
select order_item_product_id,sum(order_item_quantity) e
from order_items
group by order_item_product_id
order by e desc
limit 10;
--统计每个商品大类下的商品子类
select product_category_id,count(product_name) c
from products
group by product_category_id
order by product_category_id;
--根据商品子类id大小对每个商品大类下的子类进行排名
--使用ROW_NUMBER()函数
select product_category_id,product_id,
row_number()over(partition by product_category_id order by product_id)
from products;
--统计order_items表中各订单中不同商品总数、订单总金额、订单最高/最低/平均金额
select order_item_order_id,count(distinct order_item_product_id),
sum(order_item_subtotal),
max(sum(order_item_subtotal))over(partition by order_item_product_id) max,
min(sum(order_item_subtotal))over(partition by order_item_product_id) min,
avg(sum(order_item_subtotal))over(partition by order_item_product_id) avg
from order_items 
group by order_item_order_id;

你可能感兴趣的:(Hive,hive,装载数据,join查询,窗口函数,聚合运算)

使用Python爬虫抓取与分析航班信息：从数据采集到应用的完整实践 Python爬虫项目 2025年爬虫实战项目 python selenium 自动化爬虫开发语言 php microsoft
目录：前言爬虫基础知识什么是爬虫？爬虫的工作原理爬虫的应用领域航班数据爬取的实际应用航班数据分析的重要性选择爬虫技术栈常见的爬虫框架与工具选择合适的工具：requestsvsSeleniumvsScrapy如何获取航班信息航班数据来源分析航班信息的结构与抓取目标爬虫抓取航班信息的步骤发送HTTP请求并获取航班数据使用Selenium抓取动态数据解析HTML页面并提取航班信息航班数据存储与处理存储抓
Python爬虫实战：在线考试题库抓取 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫信息可视化 jvm
前言在线考试已经成为现代教育中不可或缺的一部分，许多在线教育平台提供了丰富的题库资源，供学生进行练习与模拟考试。随着互联网的发展，教育平台上每天都有大量的题库数据，如何抓取这些数据，并进行整理、分析、分享，成为了教育技术与数据分析领域的一个热门话题。本文将介绍如何使用Python爬虫技术抓取各类在线考试平台的题库和试题，包括抓取方法、技术细节、反爬虫策略等。通过这篇博客，我们将实现以下目标：从多个
使用Python Selenium抓取表单数据：从数据提取到自动化处理的完整指南 Python爬虫项目 2025年爬虫实战项目 python selenium 自动化爬虫开发语言 php microsoft
目录：前言爬虫基础知识什么是爬虫爬虫的工作原理Selenium简介什么是SeleniumSelenium的工作原理表单数据抓取概述什么是表单数据常见的表单类型表单抓取的实际应用场景爬虫技术栈requestsvsSeleniumSelenium的安装与配置使用Selenium抓取表单数据的步骤启动浏览器并访问目标页面查找表单元素提交表单并抓取返回的数据数据存储与处理存储抓取的数据：CSV、数据库等数
基础项目实战——学生管理系统（c++）曙曙学编程基础项目实战 c++windows 开发语言
目录前言一、功能菜单界面二、类与结构体的实现三、录入学生信息四、删除学生信息五、更改学生信息六、查找学生信息七、统计学生人数八、保存学生信息九、读取学生信息十、打印所有学生信息十一、退出系统十二、文件拆分结语前言这一期我们来一起学习我们在大学做过的课程设计——学生管理系统，这是一个非常简单且非常值得像我这样的新手独立完成的一个基础项目，用到基础数据结构里的链表来实现，所以指针和链表不太理解的同学先
在线考试题库抓取：Python 爬虫抓取各类在线考试平台题库和试题 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言网络爬虫
目录引言1.确定目标网站和分析网页结构示例网站：网页分析：2.安装必要的Python库3.编写爬虫代码3.1发送HTTP请求3.2解析HTML页面3.3存储数据4.处理分页抓取4.1分析分页规则5.反爬虫机制与应对策略5.1设置请求头5.2使用代理池5.3控制请求频率6.小结引言随着教育信息化的进程不断加快，在线考试逐渐成为了教育评估的主流形式之一。许多在线学习平台和考试平台为用户提供了海量的题库
计算机毕业设计ssm基于Web的医院陪诊系统的设计与实现go8299（附源码）新手必备一念计算机毕设源码程序课程设计前端
本项目包含程序+源码+数据库+LW+调试部署环境，文末可获取一份本项目的java源码和数据库参考。系统的选题背景和意义选题背景：随着社会的发展和人们生活水平的提高，医疗服务的需求也越来越多样化。在传统的医院就诊过程中，患者通常需要自行前往医院，并且由于医生工作繁忙，陪诊时间有限，导致患者在就诊过程中感到孤独和不安。而基于Web的医院陪诊系统的设计与实现，可以为患者提供更加便捷和贴心的就医体验。意义
MyBatis--09--PageHelper插件分页实现原理知行合一。。。 Spring基础知识--SSM mybatis
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录PageHelper分页的实现方式1.debug至此整个查询过程完成，原来PageHelper的分页功能是通过==Limit拼接SQL实现的==。2.PageHelper深度分页查询效率低3.解决方案PageHelper分页的实现方式项目一直使用的是PageHelper实现分页功能，项目前期数据量较少一直没有什么问题。随着业务
C#导出excel： weixin_44120543 c#开发语言
前端：exportfunctionxxxx(query){returnrequest({url:'xxxx/xxxxx',method:'get',params:query,responseType:'blob'//设置响应类型为二进制数据})}xxxx(){this.queryForm.wayExport=0;//这里标记导出类型xxx(this.queryForm).then((respons
Spring Boot 整合 MySQL 和 Druid 连接池疯狂的键盘侠 spring boot mysql spring boot mysql druid
SpringBoot整合MySQL和Druid连接池一、引言在JavaWeb开发中，SpringBoot凭借其简洁的配置和强大的功能成为主流框架，而MySQL作为常用的关系型数据库，与SpringBoot的结合十分紧密。Druid是阿里巴巴开源的一款高性能数据库连接池，它提供了丰富的监控和扩展功能，能有效提升应用程序与数据库交互的性能和稳定性。本文将详细介绍如何在SpringBoot2和Sprin
2024年MR应用深度解析：Meta商店中的游戏与非游戏应用花生糖@ AIGC学习资料库 mr 游戏 Mistral AI meta
随着混合现实（MR）技术的不断进步，越来越多的应用开始集成这种新型交互方式。本文基于对Meta商店中部分具有代表性的MR应用的研究，探讨了游戏与非游戏类应用之间的对比分析，并深入细分每个类别下的亮点推荐。数据收集方法本报告聚焦于那些具备MR组件的应用程序，包括从一开始就以MR为核心构建的应用和后来加入MR模式的传统VR体验。由于研究和数据抓取过程主要依赖手动操作，因此可能遗漏了一些应用。我们鼓励读
ES学习二字段类型
1，text当一个字段的内容需要被全文检索时，可以使用text类型，它支持长内容的存储，如文章内容、商品信息等，该类型的字段在保存时会被分词器分析，并拆分成多个词项，然后根据拆分后的词项生成对应的索引。需要注意的是text类型的字段无法进行精确匹配，也不能直接用于排序、聚合，也被称为ananlyzed字符串。2，keywordkeyword类型的字段内容不会被分词器分析、拆分，而是根据原始文本直接
【Elasticsearch】_rollover API详解 risc123456 Elasticsearch elasticsearch
解释POSTlogs-foo-bar/_rollover在Elasticsearch中，POSTlogs-foo-bar/_rollover是一个API调用，用于触发索引的滚动操作。滚动操作允许您在索引达到一定大小或时间限制时，自动将写入操作切换到一个新的索引，同时保留旧索引的数据。这个操作通常用于管理时间序列数据，例如日志数据，以避免单个索引变得过大。滚动操作的工作原理创建索引模板：首先，您需要
DataGrip的数据库驱动的离线安装一口酥Hac 数据库数据库
文章目录概要离线安装数据库驱动本地云桌面注意概要在某些工作环境中，由于网络访问受限，可能无法自动下载所需的数据库驱动。离线安装数据库驱动本地本地的DataGrip打开File->DataSources:云桌面云桌面的DataGrip打开File->DataSources:注意请确保下载的驱动版本与您所使用的数据库版本完全兼容，以避免出现连接或功能异常。
【EI复现】【基于改进粒子群算法求解】一种建筑集成光储系统规划运行综合优化方法（Matlab代码实现）创新优化代码学习算法 matlab 人工智能
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文档讲解1概述文献来源：摘要：容量优化配置与能量调度是建筑集成光储系统(buildingintegratedphotovoltaic,BIPV)规划和运行阶段的核心问题，合理的容量配置及能量调度能够有效提升系统的经济
excel vba 操作word 替换指定内容并复制到指定文件夹改个名字好哦难 Excel vba excel word c#
PrivateSubCommandButton1_Click()'读取目标文本，并替换后生成新的文本DimobjAppAsObject'Word.ApplicationDimobjDocAsObject'Word.DocumentDimstrTemplatesAsString'模板文件路径名DimstrFileNameAsString'将数据导出到此文件'工具-引用'MicrosoftWord16
【EI复现】【基于改进粒子群算法求解】一种建筑集成光储系统规划运行综合优化方法（Matlab代码实现）砌墙_2301 算法 matlab 人工智能
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文档讲解1概述文献来源：摘要：容量优化配置与能量调度是建筑集成光储系统(buildingintegratedphotovoltaic,BIPV)规划和运行阶段的核心问题，合理的容量配置及能量调度能够有效提升系统的经济
【Matlab高端绘图SCI绘图模板】第006期对比绘柱状图（只需替换数据）小熊科研路（同名GZH）可视化 matlab 信息可视化开发语言
1.简介柱状图作为科研论文中常用的实验结果对比图，本文采用了3组实验对比的效果展示图，代码已调试好，只需替换数据即可生成相关柱状图，为科研加分。通过获得Nature配色的柱状图，让你的论文看起来档次更高，让你的科研更快地进行成果产出。用户能够生成既美观又精确的数据可视化图表。代码涵盖了从数据准备到最终图像输出的全过程，包括文件读取、颜色自定义、图形界面设置、数据可视化以及图像导出等关键步骤。适合数
python 双端口截图数据传输显示 myzzb 网络 python 图像处理 tkinter 学习
importioimporttimeimportsocketimportpyautoguidefcapture_and_send_image():whileTrue:try:#pil_image=Image.new("RGB",(160,90),(255,255,255))##截图screenshot=pyautogui.screenshot()##缩小图片new_size=(screenshot
Xilinx AXI DMA驱动与Petalinux集成实战指南 Nate Hillick
本文还有配套的精品资源，点击获取简介：AXIDMA是Xilinx为FPGA设计的高性能DMA控制器，用于片上存储器与外设间高速数据传输。本项目文件集包含了AXIDMA驱动配置文件，用于Petalinux环境下的集成与配置。介绍AXIDMA基本概念、组件、集成步骤、DMA驱动程序、应用场景以及配置文件解析，旨在帮助开发者在嵌入式Linux系统中高效利用AXIDMA。1.XilinxAXIDMA控制器
知识图谱自动构建工具有哪些 Nate Hillick 知识图谱 neo4j 人工智能
知识图谱的自动构建工具有很多，常见的包括:Neo4j:基于图数据库的知识图谱构建工具Protégé:开源的知识图谱开发平台GoogleKnowledgeGraph:Google搜索引擎的知识图谱构建工具TopBraidComposer:基于SemanticWeb技术的知识图谱构建工具AllegroGraph:高性能图数据库，可用于构建知识图谱这仅仅是其中一部分工具，在市场上还有更多类似的工具。
solvepnp weixin_30677617 人工智能
CV_EXPORTS_WboolsolvePnP(InputArrayobjectPoints,-世界坐标系下的控制点的坐标，vector的数据类型在这里可以使用InputArrayimagePoints,-在图像坐标系下对应的控制点的坐标。vector在这里可以使用InputArraycameraMatrix,-相机的内参矩阵InputArraydistCoeffs,-相机的畸变系数Output
# 第一章：认识chatgpt 出门喝奶茶 chatgpt chatgpt
chatgpt发展背景详细介绍一、基础理论背景人工智能和自然语言处理的兴起早期理论:20世纪中期，人工智能（AI）初见端倪，目标是模拟人类智能。自然语言处理作为AI的重要分支，致力于让机器理解和生成人类语言。关键里程碑:1980年代的统计方法和2000年代的神经网络技术，使NLP实现了从规则驱动到数据驱动的转变。神经网络与深度学习2010年代，深度学习的兴起极大推动了NLP的发展。基于大规模语料库
医院服务总线常见架构比较：面向服务架构与事件驱动架构登山看云海医院信息集成平台架构系统架构
随着医疗信息化的快速发展，医院系统的集成需求日益增长。电子病历（EMR）、临床信息系统（CIS）、实验室信息系统（LIS）等各类系统之间的数据交换和协同工作，要求信息系统能够实现高效、稳定、可扩展的架构设计。在这种背景下，企业服务总线（ESB，EnterpriseServiceBus）成为关键的集成解决方案。本文将重点对比两种常见架构——面向服务架构（SOA，Service-OrientedArc
【MQ】如何保证消息队列的高性能？ Forest 森林消息队列 MQ kafka
零拷贝Kafka使用到了mmap和sendfile的方式来实现零拷贝。分别对应Java的MappedByteBuffer和FileChannel.transferTo顺序写磁盘Kafka采用顺序写文件的方式来提高磁盘写入性能。顺序写文件，基本减少了磁盘寻道和旋转的次数完成一次磁盘IO，需要经过寻道、旋转和数据传输三个步骤，如果在写磁盘的时候省去寻道、旋转可以极大地提高磁盘读写的性能。Kafka中每
【MQ】如何保证消息队列的高可用？ Forest 森林消息队列 MQ kafka
RocketMQNameServer集群部署Broker做了集群部署主从模式类型：同步复制、异步复制主节点返回消息给客户端的时候是否需要同步从节点Dledger：要求至少消息复制到半数以上的节点之后，才给客户端返回写入成功slave定时从master同步数据（同步刷盘、异步刷盘），master一旦挂了，slave提供消费服务，不能写入消息KafkaKafka从0.8版本开始提供了高可用机制，可保障
【性能调优】高性能实践 Forest 森林性能调优性能优化
缓存思想性能优化，缓存为王，所以开始先介绍一下缓存。缓存在我们的架构设计中无处不在，常规请求是浏览器发起请求，请求服务端服务，服务端服务再查询数据库中的数据，每次读取数据都至少需要两次网络I/O，性能会差一些，我们可以在整个流程中增加缓存来提升性能。异步化处理例如Redis的bgsave，bgrewriteof就是分别用来异步保存RDB跟AOF文件的命令，bgsave执行后会立刻返回成功，主线程f
docker部署redis最佳实践 kucoll docker docker redis 容器
使用docker部署mysql最佳实践拉取镜像创建目录及配置文件Redis配置说明创建目录创建配置文件运行容器redis数据管理进入容器并登录redisredis基本命令备份RedisRDB数据恢复RedisRDB数据备份RedisAOF数据恢复RedisAOF数据防火墙配置常见问题处理日志警告WARNINGovercommit_memory拉取镜像dockerpullredis:6.2.6创建目
【ESP32】ESP-IDF开发 | UART通用异步收发传输器+串口收发例程马浩同学 ESP32 单片机嵌入式硬件 c语言 mcu
1.简介UART可以说是开发者使用得最多的外设之一了，打印log几乎都是使用串口来实现的。UART是一种异步全双工的通信方式，异步传输的特性使得它仅需2根线就可以完成全双工的传输，但这也要求发送端和接收端的速率、停止位、奇偶校验位等都要相同，通信才能成功。一个典型的UART帧开始于一个起始位，紧接着是有效数据，然后是奇偶校验位（可有可无），最后是停止位。ESP32上的UART控制器支持多种字符长度
Microchip 系列：SAM L 系列 (基于 ARM Cortex-M0+)_（10）.SPI通信接口开发 kkchenkx 单片机开发 arm开发数据库嵌入式硬件单片机物联网
SPI通信接口开发1.SPI通信接口概述1.1什么是SPISPI（SerialPeripheralInterface）是一种同步串行通信接口，主要用于短距离通信，通常在主设备和从设备之间进行数据交换。SPI接口通常包括四条线：MOSI（MasterOutSlaveIn）、MISO（MasterInSlaveOut）、SCK（SerialClock）和SS/CS（SlaveSelect/ChipSe
【用Java学习数据结构系列】初识泛型 Gu Gu Study 【用Java学习数据结构系列】java 数据结构机器学习人工智能
看到这句话的时候证明：此刻你我都在努力加油陌生人br/>个人主页：GuGuStudy专栏：用Java学习数据结构系列喜欢的一句话：常常会回顾努力的自己，所以要为自己的努力留下足迹喜欢的话可以点个赞谢谢了。作者：小闭前言好久没有更新文章了，大概断更了20天，想着今天就写一下文章吧！最近也是又温习了一下数据结构，其实之前我写过关于数据结构的一个专栏那个专栏是写了顺序表，链表，栈和队列，但是那时是用C语
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

Hive高级查询（join查询，装载数据（load，insert），数据导入导出（import，export），数据排序，聚合运算，窗口函数）（三）

Hive高级查询

一.Hive的数据查询

1.基本数据查询

（1）SELECT基础

（2）CTE和嵌套查询

2.join关联查询

（1）基本概念

（2）内连接join

（3）左外连接 left join

（4）右外连接right join

（5）全连接full join

（6）练习-SELECT及关联查询

3.Hive join-mapjoin

4.Hive集合操作（UNION）

（1）基本概念

（2）示例

二.装载数据

1.向表中装载数据（Load）

（1）语法

（2）关键字含义

（3）实例

2.装载数据（insert）

（1）基本语法

（2）通过查询语句插入

（3）多插入

（4）插入到分区

（5） 通过指定列插入

（6）通过指定值插入

3.查询语句中创建表并加载数据（as select）

4.创建表时通过 location 指定加载数据路径

三.Hive数据插入文件

1.基本概念

2.示例

四.Hive数据导入导出

1.import数据导入

2.数据导出

（1）insert 导出

（2）Hadoop命令导出到本地

（3）Hive Shell命令导出

（4）Export导出到HDFS上

（5）其他工具导出

（6）清除表中数据（Truncate）

五.Hive数据排序

1.Order By

（1）基本概念

（2）全局排序和casewhen示例

（3）与数据库order by的区别

2.Sort By

(1)基本概念

3.Distribute By

(1)基本概念

4.Cluster by

(1)基本概念

5.练习-实现Hive数据加载及排序

六.Hive聚合运算

1.group by

（1）作用

（2）特性

（3）问题

（4）使用casewhen

2.Having

3.基础聚合

七.窗口函数

1.基本概述

2.语法

3.窗口函数——排序

（1） row_number()

（2） rank()

（3）dense_rank()

（4）nlite(n)

（5）percent_rank()

4.窗口函数——聚合

（1）count()

（2）sum()

（3）avg()

（4）max()/min()

5.窗口函数——分析

（1）cume_dist

（2）Lead／Lag(col,n)

（5）通过指定列插入