baidu_41555315

2020-10-09

HQL笔记内容：

-- 一些设置
-- 以本地模式运行
/*
 当一个job满足如下条件才能真正使用本地模式：
 1.job的输入数据大小必须小于参数：hive.exec.mode.local.auto.inputbytes.max(默认128MB)
 2.job的map数必须小于参数：hive.exec.mode.local.auto.tasks.max(默认4)
 3.job的reduce数必须为0或者1
 */
SET hive.exec.mode.local.auto=true;
-- 查看内置函数
SHOW FUNCTIONS;
-- 查看month相关的函数
SHOW FUNCTIONS LIKE '*month*'
-- 查看函数用法
DESC FUNCTION function_name;
-- 查看 add_months 函数的详细说明并举例
DESC FUNCTION EXTENDED add_months;
-- 查看分区
SHOW PARTITIONS table_name;

-- 创建数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。
CREATE DATABASE IF NOT EXISTS db_hive;

-- 指定HDFS上存放位置
CREATE DATABASE IF NOT EXISTS db_hive2 LOCATION '/db_hive2.db';

-- 过滤查询数据库
SHOW DATABASES LIKE 'db_hive*';

-- 显示数据库信息
DESC DATABASE db_hive;
/*
+----------+----------+-------------------------------------------------------+-------------+-------------+-------------+--+
| db_name  | comment  |                       location                        | owner_name  | owner_type  | parameters  |
+----------+----------+-------------------------------------------------------+-------------+-------------+-------------+--+
| db_hive  |          | hdfs://hadoop101:9000/user/hive/warehouse/db_hive.db  | atguigu     | USER        |             |
+----------+----------+-------------------------------------------------------+-------------+-------------+-------------+--+
*/

-- 显示数据库详细信息
DESC DATABASE EXTENDED db_hive;
/*
 +----------+----------+-------------------------------------------------------+-------------+-------------+--------------------------+--+
| db_name  | comment  |                       location                        | owner_name  | owner_type  |        parameters        |
+----------+----------+-------------------------------------------------------+-------------+-------------+--------------------------+--+
| db_hive  |          | hdfs://hadoop101:9000/user/hive/warehouse/db_hive.db  | atguigu     | USER        | {createtime=2019-06-03}  |
+----------+----------+-------------------------------------------------------+-------------+-------------+--------------------------+--+

 */

--  修改数据库
ALTER DATABASE db_hive SET DBPROPERTIES ('createtime' = '20190628');
/*
 +----------+----------+-------------------------------------------------------+-------------+-------------+------------------------+--+
| db_name  | comment  |                       location                        | owner_name  | owner_type  |       parameters       |
+----------+----------+-------------------------------------------------------+-------------+-------------+------------------------+--+
| db_hive  |          | hdfs://hadoop101:9000/user/hive/warehouse/db_hive.db  | atguigu     | USER        | {createtime=20190628}  |
+----------+----------+-------------------------------------------------------+-------------+-------------+------------------------+--+
 */

// 删除数据库
-- 删除空数据库
DROP DATABASE db_hive2;

DROP DATABASE IF EXISTS db_hive2;

-- 强制删除不为空数据库
DROP DATABASE db_hive CASCADE;

-- 清空指定表中的数据
TRUNCATE TABLE stu_buck;

-- 常用日期函数
// 1 date_formate
// 2 date_add
// 3 next_add
// 4 next_day
// 5 last_day
// 6 date_sub


-- 创建表
CREATE
[EXTERNAL] TABLE [IF NOT EXISTS] table_name
(
    clo_name col_type [COMMENT col_comment],
    col_name2 col_tyoe2 [COMMENT col_comment2]
) [COMMENT table_comment]
    [PARTITIONED BY (col_name data_type [COMMENT col_comment])]
    [CLUSTERED BY (col_name, col_name1)]
    [SORTED BY (col_name [ASC|DESC], col_name) INTO num_buckets BUCKETS]
    [ROW FORMAT row_format]
    [STORED AS file_format]
    [LOCATION hdfs_path]
    [TBLPROPERTIES (property_name=property_value, property_name1=property_value1)]
    [AS select_statement];
/*
（1）CREATE TABLE：创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；可以用IF NOT EXISTS 选项来忽略这个异常。
（2）EXTERNAL：创建一个外部表，在建表的同时可以指定一个指向实际数据的路径（LOCATION），在删除表的时候，内部表的元数据和
    数据会被一起删除，而外部表只删除元数据，不删除数据。
（3）COMMENT：为表和列添加注释。
（4）PARTITIONED BY：创建分区表
（5）CLUSTERED BY：创建分桶表
（6）SORTED BY（不常用）：对桶中的一个或多个列另外排序
（7）ROW FORMAT
        DELIMITED [FIELDS TERMINATED BY char]
                  [COLLECTION ITEMS TERMINATED BY char]
                  [MAP KEYS TERMINATED BY char]
                  [LINES TERMINATED BY char]
        | SERDE serde_name [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
    解释：
        SerDe（Serializer and Deserializer）
    用户在建表的时候可以自定义SerDe或者使用自带的SerDe。如果没有指定ROW FORMAT 或者ROW FORMAT DELIMITED，将会使用自带的SerDe。
    在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的SerDe，Hive通过SerDe确定表的具体的列的数据。
（8）STORED AS：指定存储文件类型
    常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列式存储格式文件）、PARQUET（Protocolbuffer，
    thrift，json等，将这类数据存储成列式格式，以方便对其高效压缩和编码，且使用更少的IO操作取出需要的数据）
    如果文件数据是纯文本，可以使用STORED AS TEXTFILE。如果数据需要压缩，使用STORED AS SEQUENCEFILE。
（9）LOCATION ：指定表在HDFS上的存储位置。
（10）AS：后跟查询语句，根据查询结果创建表。
（11）LIKE：允许用户复制现有的表结构，但是不复制数据。
 */

-- 创建普通表
CREATE TABLE IF NOT EXISTS user_info
(
    uid  int,
    name string,
    age  int
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    STORED AS TEXTFILE
    LOCATION '/user/hive/warehouse/user_info';
CREATE TABLE IF NOT EXISTS house_info
(
    houseId string,
    uid     int
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    STORED AS TEXTFILE
    LOCATION '/user/hive/warehouse/house_info';


-- 根据查询结果创建表（查询结果会添加到新创建的表中）
CREATE TABLE IF NOT EXISTS studen2 STORED AS ORC AS
SELECT id, name
FROM student;

-- 根据已存在的表结构创建表
CREATE TABLE IF NOT EXISTS student3 LIKE student;

-- 查询表的结构
DESC FORMATTED student;

/*
+-------------------------------+-------------------------------------------------------------+-----------------------+--+
|           col_name            |                          data_type                          |        comment        |
+-------------------------------+-------------------------------------------------------------+-----------------------+--+
| # col_name                    | data_type                                                   | comment               |
|                               | NULL                                                        | NULL                  |
| id                            | int                                                         |                       |
| name                          | string                                                      |                       |
|                               | NULL                                                        | NULL                  |
| # Detailed Table Information  | NULL                                                        | NULL                  |
| Database:                     | db_hive                                                     | NULL                  |
| Owner:                        | atguigu                                                     | NULL                  |
| CreateTime:                   | Mon Jun 03 20:32:50 CST 2019                                | NULL                  |
| LastAccessTime:               | UNKNOWN                                                     | NULL                  |
| Protect Mode:                 | None                                                        | NULL                  |
| Retention:                    | 0                                                           | NULL                  |
| Location:                     | hdfs://hadoop101:9000/                                      | NULL                  |
| Table Type:                   | MANAGED_TABLE                                               | NULL                  |
| Table Parameters:             | NULL                                                        | NULL                  |
|                               | COLUMN_STATS_ACCURATE                                       | true                  |
|                               | numFiles                                                    | 0                     |
|                               | numRows                                                     | 3                     |
|                               | rawDataSize                                                 | 26                    |
|                               | totalSize                                                   | 0                     |
|                               | transient_lastDdlTime                                       | 1559653841            |
|                               | NULL                                                        | NULL                  |
| # Storage Information         | NULL                                                        | NULL                  |
| SerDe Library:                | org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe          | NULL                  |
| InputFormat:                  | org.apache.hadoop.mapred.TextInputFormat                    | NULL                  |
| OutputFormat:                 | org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat  | NULL                  |
| Compressed:                   | No                                                          | NULL                  |
| Num Buckets:                  | -1                                                          | NULL                  |
| Bucket Columns:               | []                                                          | NULL                  |
| Sort Columns:                 | []                                                          | NULL                  |
| Storage Desc Params:          | NULL                                                        | NULL                  |
|                               | field.delim                                                 | \t                    |
|                               | serialization.format                                        | \t                    |
+-------------------------------+-------------------------------------------------------------+-----------------------+--+
 */

--  创建外部表
CREATE EXTERNAL TABLE stu_external
(
    id   int,
    name string
)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
    LOCATION '/student';

-- 查看表结构
DESC FORMATTED stu_external;
/*
+-------------------------------+-------------------------------------------------------------+-----------------------+--+
|           col_name            |                          data_type                          |        comment        |
+-------------------------------+-------------------------------------------------------------+-----------------------+--+
| # col_name                    | data_type                                                   | comment               |
|                               | NULL                                                        | NULL                  |
| id                            | int                                                         |                       |
| name                          | string                                                      |                       |
|                               | NULL                                                        | NULL                  |
| # Detailed Table Information  | NULL                                                        | NULL                  |
| Database:                     | db_hive                                                     | NULL                  |
| Owner:                        | atguigu                                                     | NULL                  |
| CreateTime:                   | Fri Jun 28 20:37:56 CST 2019                                | NULL                  |
| LastAccessTime:               | UNKNOWN                                                     | NULL                  |
| Protect Mode:                 | None                                                        | NULL                  |
| Retention:                    | 0                                                           | NULL                  |
| Location:                     | hdfs://hadoop101:9000/student                               | NULL                  |
| Table Type:                   | EXTERNAL_TABLE                                              | NULL                  |
| Table Parameters:             | NULL                                                        | NULL                  |
|                               | COLUMN_STATS_ACCURATE                                       | false                 |
|                               | EXTERNAL                                                    | TRUE                  |
|                               | numFiles                                                    | 0                     |
|                               | numRows                                                     | -1                    |
|                               | rawDataSize                                                 | -1                    |
|                               | totalSize                                                   | 0                     |
|                               | transient_lastDdlTime                                       | 1561725476            |
|                               | NULL                                                        | NULL                  |
| # Storage Information         | NULL                                                        | NULL                  |
| SerDe Library:                | org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe          | NULL                  |
| InputFormat:                  | org.apache.hadoop.mapred.TextInputFormat                    | NULL                  |
| OutputFormat:                 | org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat  | NULL                  |
| Compressed:                   | No                                                          | NULL                  |
| Num Buckets:                  | -1                                                          | NULL                  |
| Bucket Columns:               | []                                                          | NULL                  |
| Sort Columns:                 | []                                                          | NULL                  |
| Storage Desc Params:          | NULL                                                        | NULL                  |
|                               | field.delim                                                 | \t                    |
|                               | serialization.format                                        | \t                    |
+-------------------------------+-------------------------------------------------------------+-----------------------+--+
 */


-- 修改表为外部表
ALTER TABLE student
    SET TBLPROPERTIES ('EXTERNAL' = 'TRUE');
-- 注意：('EXTERNAL'='TRUE')和('EXTERNAL'='FALSE')为固定写法，区分大小写！

-- 表结构
/*
+-------------------------------+-------------------------------------------------------------+-----------------------+--+
|           col_name            |                          data_type                          |        comment        |
+-------------------------------+-------------------------------------------------------------+-----------------------+--+
| Location:                     | hdfs://hadoop101:9000/user/hive/warehouse/students          | NULL                  |
| Table Type:                   | EXTERNAL_TABLE                                              | NULL                  |
+-------------------------------+-------------------------------------------------------------+-----------------------+--+
 */


-- 创建分区表,Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集
CREATE TABLE dept_partition
(
    deptno int,
    dname  string,
    loc    string
) PARTITIONED BY (month string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
-- 查看分区表结构
/*
+-------------------------------+----------------------------------------------------------------------+-----------------------+--+
|           col_name            |                              data_type                               |        comment        |
+-------------------------------+----------------------------------------------------------------------+-----------------------+--+
| # col_name                    | data_type                                                            | comment               |
|                               | NULL                                                                 | NULL                  |
| deptno                        | int                                                                  |                       |
| dname                         | string                                                               |                       |
| loc                           | string                                                               |                       |
|                               | NULL                                                                 | NULL                  |
| # Partition Information       | NULL                                                                 | NULL                  |
| # col_name                    | data_type                                                            | comment               |
|                               | NULL                                                                 | NULL                  |
| month                         | string                                                               |                       |
 */
-- 加载数据到分区
LOAD DATA LOCAL INPATH '/opt/module/datas/dept.txt' INTO TABLE dept_partition PARTITION (month = '201906');
LOAD DATA LOCAL INPATH '/opt/module/datas/dept.txt' INTO TABLE dept_partition PARTITION (month = '201905');
LOAD DATA LOCAL INPATH '/opt/module/datas/dept.txt' INTO TABLE dept_partition PARTITION (month = '201904');
LOAD DATA LOCAL INPATH '/opt/module/datas/dept.txt' INTO TABLE dept_partition PARTITION (month = '201903');

-- 查询分区表数据
SELECT *
FROM dept_partition
WHERE month = '201903';
/*
+------------------------+-----------------------+---------------------+-----------------------+--+
| dept_partition.deptno  | dept_partition.dname  | dept_partition.loc  | dept_partition.month  |
+------------------------+-----------------------+---------------------+-----------------------+--+
| 10                     | ACCOUNTING            | 1700                | 201903                |
| 20                     | RESEARCH              | 1800                | 201903                |
| 30                     | SALES                 | 1900                | 201903                |
| 40                     | OPERATIONS            | 1700                | 201903                |
+------------------------+-----------------------+---------------------+-----------------------+--+
 */
--  分区表小例子
// 建表
CREATE TABLE t_visit_video
(
    username   string,
    video_name string
) PARTITIONED BY (day string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
// 导入数据
LOAD DATA LOCAL INPATH '/test/collect_set_test.txt' INTO TABLE t_visit_video PARTITION (day = '2019-07-10');
/*
 数据：
张三,大唐双龙传
李四,天下无贼
张三,神探狄仁杰
李四,霸王别姬
李四,霸王别姬
王五,机器人总动员
王五,放牛班的春天
王五,盗梦空间
 */
// 查看
SELECT *
FROM t_visit_video;
/*
+-------------------------+---------------------------+--------------------+--+
| t_visit_video.username  | t_visit_video.video_name  | t_visit_video.day  |
+-------------------------+---------------------------+--------------------+--+
| 张三                      | 大唐双龙传               | 2019-07-10         |
| 李四                      | 天下无贼                 | 2019-07-10         |
| 张三                      | 神探狄仁杰               | 2019-07-10         |
| 李四                      | 霸王别姬                 | 2019-07-10         |
| 李四                      | 霸王别姬                 | 2019-07-10         |
| 王五                      | 机器人总动员             | 2019-07-10         |
| 王五                      | 放牛班的春天             | 2019-07-10         |
| 王五                      | 盗梦空间                 | 2019-07-10         |
+-------------------------+---------------------------+--------------------+--+
*/

-- 多表联合查询
SELECT *
FROM dept_partition
WHERE month = '201904'
UNION
SELECT *
FROM dept_partition
WHERE month = '201905';
/*
+------------+-----------+---------+--_--------+
| _u2.deptno | _u2.dname | _u2.loc | _u2.month |
+------------+-----------+---------+-----------+
|10          | ACCOUNTING| 1700    | 201904    |
|10          | ACCOUNTING| 1700    | 201905    |
|20          | RESEARCH  | 1800    | 201904    |
|20          | RESEARCH  | 1800    | 201905    |
|30          | SALES  | 1900    | 201904    |
|30          | SALES  | 1900    | 201905    |
|40          | OPERATIONS| 1700    | 201904    |
|40          | OPERATIONS| 1700    | 201905    |
+------------+-----------+---------+-----------+
 */
--  增加分区
ALTER TABLE dept_partition
    ADD PARTITION (month = '201907');
-- 删除分区
ALTER TABLE dept_partition
    DROP PARTITION (month = '201906');
-- 查看分区数
SHOW PARTITIONS dept_partition;
/*
+---------------+--+
|   partition   |
+---------------+--+
| month=201709  |
| month=201903  |
| month=201904  |
| month=201905  |
| month=201906  |
+---------------+--+
 */

--  创建二级分区表
CREATE TABLE dept_partition2
(
    deptno int,
    dname  string,
    loc    string
)
    PARTITIONED BY (month string, day string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';

-- 加载数据到二级分区表
LOAD DATA LOCAL INPATH '/data/hive/dept.txt' INTO TABLE dept_partition2 PARTITION (month = '201906', day = '30');

-- 修改表
-- 重命名表
ALTER TABLE table_name
    RENAME TO new_table_name;


-- 增加/修改/替换列信息
-- 更新列
ALTER TABLE table_name
    CHANGE [COLUMN] col_old_name col_new_name column_tyoe [COMMENT col_comment];
-- 增加和替换列
ALTER TABLE table_name
    ADD | REPLACE COLUMS (col_name data_type);

-- 示例
ALTER TABLE dept_partition
    ADD COLUMNS (deptdesc string);

-- 将列deptdesc改名为desc
ALTER TABLE dept_partition
    CHANGE COLUMN deptdesc desc string;

-- 更改字段类型，change后字段名称写两遍
ALTER TABLE dept_partition2
    CHANGE deptno deptno string;


-- 数据导入
LOAD DATA [LOCAL] INPATH '/data/hive/student.txt' [OVERWRITE] INTO TABLE student [PARTITION (partCol1=cal1,...)]
/*
（1）load data:表示加载数据
（2）local:表示从本地加载数据到hive表(从本地复制上传)；否则从HDFS加载数据到hive表（在HDFS中移动）
（3）inpath:表示加载数据的路径
（4）overwrite:表示覆盖表中已有数据，否则表示追加
（5）into table:表示加载到哪张表
（6）student:表示具体的表
（7）partition:表示上传到指定分区
 */

--  通过查询语句向表中插数据
INSERT INTO TABLE student
SELECT clo1, col2, col3
FROM table_name;

-- 创建一张分区表
CREATE TABLE student
(
    id   int,
    name string
) PARTITIONED BY (month string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
-- 插入数据
INSERT INTO TABLE student PARTITION (month = '201906')
VALUES (1, 'zhangsan'),
       (2, '王五');


-- 查询小练习
-- 创建部门表
CREATE TABLE IF NOT EXISTS dept
(
    deptno int,
    dname  string,
    loc    string
) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
-- 创建员工表
CREATE TABLE IF NOT EXISTS emp
(
    empno    int,
    ename    string,
    job      string,
    mgr      int,
    hiredate string,
    sal      double,
    comm     double,
    deptno   int
)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
-- 导入数据
LOAD DATA LOCAL INPATH '/data/hive/dept.txt' INTO TABLE dept;
LOAD DATA LOCAL INPATH '/data/hive/emp.txt' INTO TABLE emp;

-- 查询名称和部门
SELECT ename AS name, deptno AS dn
FROM emp;

-- 分组函数，通常和聚合函数一起使用，按照一个或多个列结果进行分组，然后对每个组执行聚合操作,常与聚合函数一起使用，
SELECT *
FROM emp;
/*
+------------+------------+------------+----------+---------------+----------+-----------+-------------+--+
| emp.empno  | emp.ename  |  emp.job   | emp.mgr  | emp.hiredate  | emp.sal  | emp.comm  | emp.deptno  |
+------------+------------+------------+----------+---------------+----------+-----------+-------------+--+
| 7369       | SMITH      | CLERK      | 7902     | 1980-12-17    | 800.0    | NULL      | 20          |
| 7499       | ALLEN      | SALESMAN   | 7698     | 1981-2-20     | 1600.0   | 300.0     | 30          |
| 7521       | WARD       | SALESMAN   | 7698     | 1981-2-22     | 1250.0   | 500.0     | 30          |
| 7566       | JONES      | MANAGER    | 7839     | 1981-4-2      | 2975.0   | NULL      | 20          |
| 7654       | MARTIN     | SALESMAN   | 7698     | 1981-9-28     | 1250.0   | 1400.0    | 30          |
| 7698       | BLAKE      | MANAGER    | 7839     | 1981-5-1      | 2850.0   | NULL      | 30          |
| 7782       | CLARK      | MANAGER    | 7839     | 1981-6-9      | 2450.0   | NULL      | 10          |
| 7788       | SCOTT      | ANALYST    | 7566     | 1987-4-19     | 3000.0   | NULL      | 20          |
| 7839       | KING       | PRESIDENT  | NULL     | 1981-11-17    | 5000.0   | NULL      | 10          |
| 7844       | TURNER     | SALESMAN   | 7698     | 1981-9-8      | 1500.0   | 0.0       | 30          |
| 7876       | ADAMS      | CLERK      | 7788     | 1987-5-23     | 1100.0   | NULL      | 20          |
| 7900       | JAMES      | CLERK      | 7698     | 1981-12-3     | 950.0    | NULL      | 30          |
| 7902       | FORD       | ANALYST    | 7566     | 1981-12-3     | 3000.0   | NULL      | 20          |
| 7934       | MILLER     | CLERK      | 7782     | 1982-1-23     | 1300.0   | NULL      | 10          |
+------------+------------+------------+----------+---------------+----------+-----------+-------------+--+
 */

SELECT *
FROM dept;
/*
+--------------+-------------+-----------+--+
| dept.deptno  | dept.dname  | dept.loc  |
+--------------+-------------+-----------+--+
| 10           | ACCOUNTING  | 1700      |
| 20           | RESEARCH    | 1800      |
| 30           | SALES       | 1900      |
| 40           | OPERATIONS  | 1700      |
+--------------+-------------+-----------+--+
*/

-- 计算emp表每个部门的平均工资
SELECT e.deptno, avg(e.sal) AS avg_sal
FROM emp e
GROUP BY e.deptno;
/*
+-----------+---------------------+--+
| e.deptno  |       avg_sal       |
+-----------+---------------------+--+
| 10        | 2916.6666666666665  |
| 20        | 2175.0              |
| 30        | 1566.6666666666667  |
+-----------+---------------------+--+
 */

-- 计算emp每个部门中每个岗位的最高薪水
-- 1、每个部门，部门分组
-- 2、每个岗位，岗位分组
-- 2、最高薪水，选出部门中最高薪水
SELECT deptno, job
FROM emp
GROUP BY deptno, job;
/*
+---------+------------+--+
| deptno  |    job     |
+---------+------------+--+
| 10      | CLERK      |
| 10      | MANAGER    |
| 10      | PRESIDENT  |
| 20      | ANALYST    |
| 20      | CLERK      |
| 20      | MANAGER    |
| 30      | CLERK      |
| 30      | MANAGER    |
| 30      | SALESMAN   |
+---------+------------+--+
 */

SELECT e.deptno, e.job, max(e.sal) AS max_sal
FROM emp e
GROUP BY e.deptno, e.job;
/*
+-----------+------------+----------+--+
| e.deptno  |   e.job    | max_sal  |
+-----------+------------+----------+--+
| 10        | CLERK      | 1300.0   |
| 10        | MANAGER    | 2450.0   |
| 10        | PRESIDENT  | 5000.0   |
| 20        | ANALYST    | 3000.0   |
| 20        | CLERK      | 1100.0   |
| 20        | MANAGER    | 2975.0   |
| 30        | CLERK      | 950.0    |
| 30        | MANAGER    | 2850.0   |
| 30        | SALESMAN   | 1600.0   |
+-----------+------------+----------+--+
 */

-- 列转行，查看一个部门有哪些职位,及部门最高薪资
SELECT e.deptno, concat_ws('|', collect_set(e.job)) dept_job, max(e.sal) max_sal
FROM emp e
GROUP BY e.deptno;
/*
+-----------+--------------------------+----------+--+
| e.deptno  |         dept_job         | max_sal  |
+-----------+--------------------------+----------+--+
| 10        | MANAGER|PRESIDENT|CLERK  | 5000.0   |
| 20        | CLERK|MANAGER|ANALYST    | 3000.0   |
| 30        | SALESMAN|MANAGER|CLERK   | 2850.0   |
+-----------+--------------------------+----------+--+
*/

/*
 having与where不同点
（1）where后面不能写分组函数，而having后面可以使用分组函数。
（2）having只用于group by分组统计语句。
 */

-- 求每个部门的平均薪水大于2000的部门
/*
 1、求部门平均工资
 2、平均薪水>2000的部门
 */

-- 1
SELECT deptno, avg(sal) AS avg_sal
FROM emp
GROUP BY deptno;
/*
+---------+---------------------+--+
| deptno  |       avg_sal       |
+---------+---------------------+--+
| 10      | 2916.6666666666665  |
| 20      | 2175.0              |
| 30      | 1566.6666666666667  |
+---------+---------------------+--+
 */

-- 2
SELECT deptno, avg(sal) AS avg_sql
FROM emp
GROUP BY deptno
HAVING avg_sql > 2000;
/*
+---------+---------------------+--+
| deptno  |       avg_sql       |
+---------+---------------------+--+
| 10      | 2916.6666666666665  |
| 20      | 2175.0              |
+---------+---------------------+--+
 */

-- join
/*
 只支持等值连接，不支持非等值连接
 两个表m,n之间按照on条件连接，m中的一条记录和n中的一条记录组成一条新记录。
 join等值连接（内连接），只有某个值在m和n中同时存在时。
 left outer join左外连接，左边表中的值无论是否在b中存在时，都输出；右边表中的值，只有在左边表中存在时才输出，否则为null
 right outer join和left outer join相反。
 left semi join类似exists。即查找右表中的数据，是否在左表中存在，找出存在的数据。（左半连接）是 IN/EXISTS 子查询的一种更高效的实现。
 */

-- 根据员工表和部门表中的部门编号相等，查询员工编号、员工名称和部门名称
/*
 1、部门编号相等
 2、查询员工编号（empno）、员工名称（empname）、本门名称（deptname）
 */
-- 表的别名
/*
 （1）使用别名可以简化查询。
 （2）使用表名前缀可以提高执行效率。
 */
SELECT e.empno AS empno, e.ename AS ename, d.dname AS deptname
FROM emp AS e
         JOIN dept AS d
              ON e.deptno = d.deptno;
/*
+--------+---------+-------------+--+
| empno  |  ename  |  deptname   |
+--------+---------+-------------+--+
| 7369   | SMITH   | RESEARCH    |
| 7499   | ALLEN   | SALES       |
| 7521   | WARD    | SALES       |
| 7566   | JONES   | RESEARCH    |
| 7654   | MARTIN  | SALES       |
| 7698   | BLAKE   | SALES       |
| 7782   | CLARK   | ACCOUNTING  |
| 7788   | SCOTT   | RESEARCH    |
| 7839   | KING    | ACCOUNTING  |
| 7844   | TURNER  | SALES       |
| 7876   | ADAMS   | RESEARCH    |
| 7900   | JAMES   | SALES       |
| 7902   | FORD    | RESEARCH    |
| 7934   | MILLER  | ACCOUNTING  |
+--------+---------+-------------+--+
 */

--  内连接：只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来。
SELECT e.empno AS empno, e.ename AS ename, d.deptno AS deptno
FROM emp AS e
         JOIN dept AS d
              ON e.deptno = d.deptno;
/*
+--------+---------+---------+--+
| empno  |  ename  | deptno  |
+--------+---------+---------+--+
| 7369   | SMITH   | 20      |
| 7499   | ALLEN   | 30      |
| 7521   | WARD    | 30      |
| 7566   | JONES   | 20      |
| 7654   | MARTIN  | 30      |
| 7698   | BLAKE   | 30      |
| 7782   | CLARK   | 10      |
| 7788   | SCOTT   | 20      |
| 7839   | KING    | 10      |
| 7844   | TURNER  | 30      |
| 7876   | ADAMS   | 20      |
| 7900   | JAMES   | 30      |
| 7902   | FORD    | 20      |
| 7934   | MILLER  | 10      |
+--------+---------+---------+--+
*/

-- 左外连接
/*
 LEFT [OUTER] JOIN操作：左边表中的值无论是否在右表中存在，都输出；
                        右边表中的值，只有在左边表中存在才输出。左表中存在，右表中不存在的用null代替
 如：
    表dept
    +--------------+-------------+-----------+--+
    | dept.deptno  | dept.dname  | dept.loc  |
    +--------------+-------------+-----------+--+
    | 10           | ACCOUNTING  | 1700      |
    | 20           | RESEARCH    | 1800      |
    | 30           | SALES       | 1900      |
    | 40           | OPERATIONS  | 1700      |
    +--------------+-------------+-----------+--+

    表emp
    +------------+------------+------------+----------+---------------+----------+-----------+-------------+--+
    | emp.empno  | emp.ename  |  emp.job   | emp.mgr  | emp.hiredate  | emp.sal  | emp.comm  | emp.deptno  |
    +------------+------------+------------+----------+---------------+----------+-----------+-------------+--+
    | 7369       | SMITH      | CLERK      | 7902     | 1980-12-17    | 800.0    | NULL      | 20          |
    | 7499       | ALLEN      | SALESMAN   | 7698     | 1981-2-20     | 1600.0   | 300.0     | 30          |
    | 7521       | WARD       | SALESMAN   | 7698     | 1981-2-22     | 1250.0   | 500.0     | 30          |
    | 7566       | JONES      | MANAGER    | 7839     | 1981-4-2      | 2975.0   | NULL      | 20          |
    | 7654       | MARTIN     | SALESMAN   | 7698     | 1981-9-28     | 1250.0   | 1400.0    | 30          |
    | 7698       | BLAKE      | MANAGER    | 7839     | 1981-5-1      | 2850.0   | NULL      | 30          |
    | 7782       | CLARK      | MANAGER    | 7839     | 1981-6-9      | 2450.0   | NULL      | 10          |
    | 7788       | SCOTT      | ANALYST    | 7566     | 1987-4-19     | 3000.0   | NULL      | 20          |
    | 7839       | KING       | PRESIDENT  | NULL     | 1981-11-17    | 5000.0   | NULL      | 10          |
    | 7844       | TURNER     | SALESMAN   | 7698     | 1981-9-8      | 1500.0   | 0.0       | 30          |
    | 7876       | ADAMS      | CLERK      | 7788     | 1987-5-23     | 1100.0   | NULL      | 20          |
    | 7900       | JAMES      | CLERK      | 7698     | 1981-12-3     | 950.0    | NULL      | 30          |
    | 7902       | FORD       | ANALYST    | 7566     | 1981-12-3     | 3000.0   | NULL      | 20          |
    | 7934       | MILLER     | CLERK      | 7782     | 1982-1-23     | 1300.0   | NULL      | 10          |
    +------------+------------+------------+----------+---------------+----------+-----------+-------------+--+

 */

SELECT d.deptno, d.dname, e.empno, e.ename
FROM dept AS d
         LEFT JOIN emp AS e
                   ON e.deptno = d.deptno;
/*
+-----------+-------------+----------+----------+--+
| d.deptno  |   d.dname   | e.empno  | e.ename  |
+-----------+-------------+----------+----------+--+
| 10        | ACCOUNTING  | 7782     | CLARK    |
| 10        | ACCOUNTING  | 7839     | KING     |
| 10        | ACCOUNTING  | 7934     | MILLER   |
| 20        | RESEARCH    | 7369     | SMITH    |
| 20        | RESEARCH    | 7566     | JONES    |
| 20        | RESEARCH    | 7788     | SCOTT    |
| 20        | RESEARCH    | 7876     | ADAMS    |
| 20        | RESEARCH    | 7902     | FORD     |
| 30        | SALES       | 7499     | ALLEN    |
| 30        | SALES       | 7521     | WARD     |
| 30        | SALES       | 7654     | MARTIN   |
| 30        | SALES       | 7698     | BLAKE    |
| 30        | SALES       | 7844     | TURNER   |
| 30        | SALES       | 7900     | JAMES    |
| 40        | OPERATIONS  | NULL     | NULL     |
+-----------+-------------+----------+----------+--+
*/

-- 满外连接：返回所有表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话，那么就使用NULL值替代。
SELECT e.ename, e.empno, d.deptno, d.dname
FROM emp AS e
         FULL JOIN dept AS d
                   ON e.deptno = d.deptno;
/*
+----------+----------+-----------+-------------+--+
| e.ename  | e.empno  | d.deptno  |   d.dname   |
+----------+----------+-----------+-------------+--+
| MILLER   | 7934     | 10        | ACCOUNTING  |
| KING     | 7839     | 10        | ACCOUNTING  |
| CLARK    | 7782     | 10        | ACCOUNTING  |
| ADAMS    | 7876     | 20        | RESEARCH    |
| SCOTT    | 7788     | 20        | RESEARCH    |
| SMITH    | 7369     | 20        | RESEARCH    |
| JONES    | 7566     | 20        | RESEARCH    |
| FORD     | 7902     | 20        | RESEARCH    |
| TURNER   | 7844     | 30        | SALES       |
| ALLEN    | 7499     | 30        | SALES       |
| BLAKE    | 7698     | 30        | SALES       |
| MARTIN   | 7654     | 30        | SALES       |
| WARD     | 7521     | 30        | SALES       |
| JAMES    | 7900     | 30        | SALES       |
| NULL     | NULL     | 40        | OPERATIONS  |
+----------+----------+-----------+-------------+--+
*/

-- 排序
-- order by：全局排序，只有一个Reducer参与运算，会把所有数据加载到内存中进行排序
-- Sort by：Reducern局部排序，为每个reducer产生一个排序文件。每个Reducer内部进行排序，对全局结果集来说不是排序。
SELECT *
FROM emp SORT BY deptno DESC;

-- 分区排序（Distribute By）
/*
 控制某个特定行应该到哪个reducer
 */
--  设置reduce个数
SET mapreduce.job.reduces=3;
-- 先按照部门编号分区，再按照员工编号降序排序。
INSERT OVERWRITE LOCAL DIRECTORY '/opt/module/datas/distribute-result'
SELECT *
FROM emp DISTRIBUTE BY deptno SORT BY empno DESC;



-- 分桶及抽样查询
/*
 分区提供一个隔离数据和优化查询的便利方式，
 对于一张表或者分区，可进一步组织成桶，让其数据粒度更细
 分区针对的是数据的存储路径；分桶针对的是数据文件。
 创建分桶表时，数据通过子查询的方式导入
 */
-- 创建分桶表，指定分2个桶
CREATE TABLE stu_buck
(
    id   int,
    name string
) CLUSTERED BY (id) INTO 2 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
-- 创建普通表stu
CREATE TABLE stu
(
    id   int,
    name string
)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
-- 向普通表stu导入数据
LOAD DATA LOCAL INPATH '/data/hive/student.txt' INTO TABLE stu;
-- 设置属性
SET hive.enforce.bucketing=true;
SET mapreduce.job.reduces=-1;
-- 通过子查询的方式，导入数据到分桶表
INSERT INTO TABLE stu_buck
SELECT id, name
FROM stu;
-- 查询分桶的数据
SELECT *
FROM stu_buck TABLESAMPLE (BUCKET 1 OUT OF 2 ON id);
/*
+--------------+----------------+--+
| stu_buck.id  | stu_buck.name  |
+--------------+----------------+--+
| 1016         | ss16           |
| 1010         | ss10           |
| 1002         | ss2            |
| 1012         | ss12           |
| 1006         | ss6            |
| 1014         | ss14           |
| 1004         | ss4            |
| 1008         | ss8            |
+--------------+----------------+--+
*/


-- 常用函数使用
-- NVL：给值为NULL 的数据赋值。格式：NVL( value，default_value)。default_value需要和字段类型相同
-- 如果value 为NULL，返回default_value的值，否则返回value的值，如果两个参数都为NULL，则返回NULL。
SELECT comm, nvl(comm, -1) null_comm
FROM emp;
/*
+---------+------------+--+
|  comm   | null_comm  |
+---------+------------+--+
| NULL    | -1.0       |
| 300.0   | 300.0      |
| 500.0   | 500.0      |
| NULL    | -1.0       |
| 1400.0  | 1400.0     |
| NULL    | -1.0       |
| NULL    | -1.0       |
| NULL    | -1.0       |
| NULL    | -1.0       |
| 0.0     | 0.0        |
| NULL    | -1.0       |
| NULL    | -1.0       |
| NULL    | -1.0       |
| NULL    | -1.0       |
+---------+------------+--+
*/


-- case when 的使用
-- 求出不同部门男女各多少人
/*
 结果如下：
  dept_id  | male_count  | female_count
    A           2               1
    B           1               2
 */

CREATE TABLE emp_sex
(
    name    string,
    dept_id string,
    sex     string
)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";

SELECT dept_id,
       sum(CASE sex WHEN '男' THEN 1 ELSE 0 END) male_count,
       sum(CASE sex WHEN '女' THEN 1 ELSE 0 END) female_count
FROM emp_sex
GROUP BY dept_id;
/*
+----------+-------------+---------------+--+
| dept_id  | male_count  | female_count  |
+----------+-------------+---------------+--+
| A        | 2           | 1             |
| B        | 1           | 2             |
+----------+-------------+---------------+--+
*/

-- 行转列
/*
 相关函数：
    CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符
    CONCAT_WS(separator, [string | array(string)]+)：返回由分隔符分隔的字符串的连接
    COLLECT_SET(col)：返回一组消除了重复元素的对象
 */
-- 把星座和血型一样的人归类到一起
/*
 行转列
 列:
    +-------------------+----------------------------+-------------------------+--+
    | person_info.name  | person_info.constellation  | person_info.blood_type  |
    +-------------------+----------------------------+-------------------------+--+
    | 孙悟空             | 白羊座                     | A                       |
    | 大海               | 射手座                     | A                       |
    | 宋宋               | 白羊座                     | B                       |
    | 猪八戒             | 白羊座                     | A                       |
    | 凤姐               | 射手座                     | A                       |
    +-------------------+----------------------------+-------------------------+--+
行:
    射手座,A 大海|凤姐
    白羊座,A 孙悟空|猪八戒
    白羊座,B 宋宋
 */

CREATE TABLE person_info
(
    name          string,
    constellation string,
    blood_type    string
)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";

-- 从结果"大海|凤姐" => 需要将多个字段用指定符号连接,函数concat_ws(separator, fields)
-- 从整体结果"射手座,A 大海|凤姐" => 还需将前半段"射手座"和后半段"大海|凤姐"拼接,函数 CONCAT(string A/col, string B/col…)

-- 1. 将星座和血型拼接
SELECT name, concat(constellation, ",", blood_type) base
FROM person_info;
/*
+-------+--------+--+
| name  |  base  |
+-------+--------+--+
| 孙悟空 | 白羊座,A  |
| 大海   | 射手座,A  |
| 宋宋   | 白羊座,B  |
| 猪八戒 | 白羊座,A  |
| 凤姐   | 射手座,A  |
+-------+--------+--+
*/

-- 2. 列转行
SELECT t1.base, concat_ws('|', collect_set(t1.name)) name
FROM (SELECT name, concat(constellation, ",", blood_type) base
      FROM person_info) t1
GROUP BY t1.base;
/*
+-----------+----------+-----+
| t1.base   |   name         |
+-----------+----------+-----+
| 射手座,A   | 大海|凤姐      |
| 白羊座,A   | 孙悟空|猪八戒   |
| 白羊座,B   | 宋宋           |
+----------+----------+------+
*/
-- collect_list/set再识
/*
+-------------------------+---------------------------+--------------------+--+
| t_visit_video.username  | t_visit_video.video_name  | t_visit_video.day  |
+-------------------------+---------------------------+--------------------+--+
| 张三                    | 大唐双龙传                 | 2019-07-10         |
| 李四                    | 天下无贼                   | 2019-07-10         |
| 张三                    | 神探狄仁杰                 | 2019-07-10         |
| 李四                    | 霸王别姬                   | 2019-07-10         |
| 李四                    | 霸王别姬                   | 2019-07-10         |
| 王五                    | 机器人总动员               | 2019-07-10         |
| 王五                    | 放牛班的春天               | 2019-07-10         |
| 王五                    | 盗梦空间                   | 2019-07-10         |
+-------------------------+---------------------------+--------------------+--+
*/
-- 列转行
SELECT collect_list(video_name) movie
FROM t_visit_video;
/*
+-------------------------------------------------------------------------------------------------+--+
|                              movie                                                              |
+-------------------------------------------------------------------------------------------------+--+
| ["大唐双龙传","天下无贼","神探狄仁杰","霸王别姬","霸王别姬","机器人总动员","放牛班的春天","盗梦空间"]  |
+-------------------------------------------------------------------------------------------------+--+
*/
-- collet_list
-- 按用户分组，取出每个用户每天看过的所有视频的名字：
SELECT username, collect_list(video_name) movie
FROM t_visit_video
GROUP BY username;
/*
+-----------+-----------------------------+--+
| username  |            movie            |
+-----------+-----------------------------+--+
| 张三      | ["大唐双龙传","神探狄仁杰"]           |
| 李四      | ["天下无贼","霸王别姬","霸王别姬"]      |
| 王五      | ["机器人总动员","放牛班的春天","盗梦空间"]  |
+-----------+-----------------------------+--+
*/
-- collect_set
SELECT username, collect_set(video_name) movie
FROM t_visit_video
GROUP BY username;
/*
+-----------+-----------------------------+--+
| username  |            movie            |
+-----------+-----------------------------+--+
| 张三      | ["大唐双龙传","神探狄仁杰"]           |
| 李四      | ["天下无贼","霸王别姬"]             |
| 王五      | ["机器人总动员","放牛班的春天","盗梦空间"]  |
+-----------+-----------------------------+--+
*/
-- 突破group by限制
/*
 Hive中在group by查询的时候要求出现在select后面的列都必须是出现在group by后面的，
 即select列必须是作为分组依据的列，但是有的时候我们想根据A进行分组然后随便取出每个分组中的一个B，
 */
SELECT username /*A*/, collect_list(video_name)[0] movie/*B*/
FROM t_visit_video
GROUP BY username;
/*
+-----------+---------+--+
| username  |   movie   |
+-----------+---------+--+
| 张三      | 大唐双龙传   |
| 李四      | 天下无贼    |
| 王五      | 机器人总动员  |
+-----------+---------+--+
*/


-- 行转列
/*EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行。
explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows.
UDTFs can be used in the SELECT expression list and as a part of LATERAL VIEW.
 */
-- LATERAL VIEW ；lateral view与explode等udtf就是天生好搭档，explode将复杂结构一行拆成多行，然后再用lateral view做各种聚合。
-- 创建movie表
CREATE TABLE movie_info
(
    movie    string,
    category array<string>
)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t"
--         row format delimited fields terminated by "\t"  ==> 指定列分隔符
        COLLECTION ITEMS TERMINATED BY ",";
--          collection items terminated by ","             ==> 指定map Stract 和 array 分隔符

SELECT *
FROM movie_info;
/*
+-------------------+------------------------------------+--+
| movie_info.movie  |     movie_info.category            |
+-------------------+------------------------------------+--+
| 《疑犯追踪》       | ["悬疑","动作","科幻","剧情"]       |
| 《Lie to me》     | ["悬疑","警匪","动作","心理","剧情"] |
| 《战狼2》          | ["战争","动作","灾难"]             |
+-------------------+-----------------------------------+--+
*/

-- 行转列，炸开explode
SELECT movie, category_name
FROM movie_info LATERAL VIEW explode(category) table_tmp AS category_name;
/*
+--------------+----------------+--+
|    movie     | category_name  |
+--------------+----------------+--+
| 《疑犯追踪》  | 悬疑             |
| 《疑犯追踪》  | 动作             |
| 《疑犯追踪》  | 科幻             |
| 《疑犯追踪》  | 剧情             |
| 《Lie to me》| 悬疑             |
| 《Lie to me》| 警匪             |
| 《Lie to me》| 动作             |
| 《Lie to me》| 心理             |
| 《Lie to me》| 剧情             |
| 《战狼2》     | 战争             |
| 《战狼2》     | 动作             |
| 《战狼2》     | 灾难             |
+--------------+----------------+--+
*/
SELECT category_name, concat_ws('|', collect_list(movie)) movie
FROM movie_info LATERAL VIEW explode(category) table_tmp AS category_name
GROUP BY category_name;
/*
+----------------+-------------------------------------+--+
| category_name  |            movie                    |
+----------------+-------------------------------------+--+
| 剧情           | 《疑犯追踪》|《Lie to me》            |
| 动作           | 《疑犯追踪》|《Lie to me》|《战狼2》   |
| 心理           | 《Lie to me》                        |
| 悬疑           | 《疑犯追踪》|《Lie to me》            |
| 战争           | 《战狼2》                            |
| 灾难           | 《战狼2》                            |
| 科幻           | 《疑犯追踪》                         |
| 警匪           | 《Lie to me》                       |
+----------------+-------------------------------------+--+
*/

-- 窗口函数（给聚合函数开窗）

-- 在order by和limit 之前执行
/*
 1. OVER(partition by cli_name)：和聚合函数使用，实现分组聚合
 2. CURRENT ROW：当前行
 3. n PRECEDING：往前n行数据
 4. n FOLLOWING：往后n行数据
 5. UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点，UNBOUNDED FOLLOWING表示到后面的终点
 6. LAG(col,n,default_val)：往前第n行数据
 7. LEAD(col,n, default_val)：往后第n行数据
 8. NTILE(n)：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，NTILE返回此行所属的组的编号。注意：n必须为int类型
 */

/*
 需求
（1）查询在2017年4月份购买过的顾客及总人数
（2）查询顾客的购买明细及月购买总额
（3）上述的场景, 将每个顾客的cost按照日期进行累加
（4）查询每个顾客上次的购买时间
（5）查询前20%时间的订单信息
 */

-- 建表
CREATE TABLE business
(
    name      string COMMENT '姓名',
    orderdate string COMMENT '购买日期',
    cost      int COMMENT '花费金额'
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
/*
+----------------+---------------------+----------------+--+
| business.name  | business.orderdate  | business.cost  |
+----------------+---------------------+----------------+--+
| jack           | 2017-01-01          | 10             |
| tony           | 2017-01-02          | 15             |
| jack           | 2017-02-03          | 23             |
| tony           | 2017-01-04          | 29             |
| jack           | 2017-01-05          | 46             |
| jack           | 2017-04-06          | 42             |
| tony           | 2017-01-07          | 50             |
| jack           | 2017-01-08          | 55             |
| mart           | 2017-04-08          | 62             |
| mart           | 2017-04-09          | 68             |
| neil           | 2017-05-10          | 12             |
| mart           | 2017-04-11          | 75             |
| neil           | 2017-06-12          | 80             |
| mart           | 2017-04-13          | 94             |
+----------------+---------------------+----------------+--+
*/
-- （1）查询在2017年4月份购买过的顾客及总人数
SELECT name, count(*) OVER ()
FROM business
WHERE substring(orderdate, 1, 7) = '2017-04'
GROUP BY name;
/*
+-------+-----------------+--+
| name  | count_window_0  |
+-------+-----------------+--+
| mart  | 2               |
| jack  | 2               |
+-------+-----------------+--+
*/

SELECT date_format(orderdate, 'yyyy-MM') order_date, name, count(*) OVER () order_count
FROM business
WHERE date_format(orderdate, 'yyyy-MM') = '2017-04'
GROUP BY name, date_format(orderdate, 'yyyy-MM');
/*
+-------------+-------+--------------+--+
| order_date  | name  | order_count  |
+-------------+-------+--------------+--+
| 2017-04     | jack  | 2            |
| 2017-04     | mart  | 2            |
+-------------+-------+--------------+--+
*/
-- （2）查询顾客的购买明细及月购买总额
SELECT name, orderdate, cost, sum(cost) OVER (PARTITION BY month(orderdate))
FROM business;
/*
+-------+-------------+-------+---------------+--+
| name  |  orderdate  | cost  | sum_window_0  |
+-------+-------------+-------+---------------+--+
| jack  | 2017-01-01  | 10    | 205           |
| jack  | 2017-01-08  | 55    | 205           |
| tony  | 2017-01-07  | 50    | 205           |
| jack  | 2017-01-05  | 46    | 205           |
| tony  | 2017-01-04  | 29    | 205           |
| tony  | 2017-01-02  | 15    | 205           |
| jack  | 2017-02-03  | 23    | 23            |
| mart  | 2017-04-13  | 94    | 341           |
| jack  | 2017-04-06  | 42    | 341           |
| mart  | 2017-04-11  | 75    | 341           |
| mart  | 2017-04-09  | 68    | 341           |
| mart  | 2017-04-08  | 62    | 341           |
| neil  | 2017-05-10  | 12    | 12            |
| neil  | 2017-06-12  | 80    | 80            |
+-------+-------------+-------+---------------+--+
*/

-- 3）上述的场景, 将每个顾客的cost按照日期进行累加
/*
 over() 的使用
 */
SELECT name,
       orderdate,
       cost,
       sum(cost) OVER () AS sample1,--所有行相加
       sum(cost) OVER (PARTITION BY name) AS sample2,--按name分组，组内数据相加
       sum(cost) OVER (PARTITION BY name ORDER BY orderdate) AS sample3,--按name分组，组内数据累加
       sum(cost)
           OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW ) AS sample4,--和sample3一样,由起点到当前行的聚合
       sum(cost)
           OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN 1 PRECEDING AND CURRENT ROW) AS sample5, --当前行和前面一行做聚合
       sum(cost) OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING ) AS sample6,--当前行和前边一行及后面一行
       sum(cost)
           OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING ) AS sample7 --当前行及后面所有行
FROM business;
-- sample1 所有行相加
SELECT name,
       orderdate,
       cost,
       sum(cost) OVER () AS sample1
FROM business;
/*
+-------+-------------+-------+----------+--+
| name  |  orderdate  | cost  | sample1  |
+-------+-------------+-------+----------+--+
| jack  | 2017-01-01  | 10    | 661      |
| tony  | 2017-01-02  | 15    | 661      |
| jack  | 2017-02-03  | 23    | 661      |
| tony  | 2017-01-04  | 29    | 661      |
| jack  | 2017-01-05  | 46    | 661      |
| jack  | 2017-04-06  | 42    | 661      |
| tony  | 2017-01-07  | 50    | 661      |
| jack  | 2017-01-08  | 55    | 661      |
| mart  | 2017-04-08  | 62    | 661      |
| mart  | 2017-04-09  | 68    | 661      |
| neil  | 2017-05-10  | 12    | 661      |
| mart  | 2017-04-11  | 75    | 661      |
| neil  | 2017-06-12  | 80    | 661      |
| mart  | 2017-04-13  | 94    | 661      |
+-------+-------------+-------+----------+--+
14 rows selected (16.314 seconds)
*/
-- sample2 按照name分组，组内数据相加
SELECT name,
       orderdate,
       cost,
       sum(cost) OVER () AS sample1,
       sum(cost) OVER (PARTITION BY name) AS sample2
FROM business;
/*
+-------+-------------+-------+----------+----------+--+
| name  |  orderdate  | cost  | sample1  | sample2  |
+-------+-------------+-------+----------+----------+--+
| jack  | 2017-01-01  | 10    | 661      | 176      |
| jack  | 2017-02-03  | 23    | 661      | 176      |
| jack  | 2017-01-05  | 46    | 661      | 176      |
| jack  | 2017-04-06  | 42    | 661      | 176      |
| jack  | 2017-01-08  | 55    | 661      | 176      |
| mart  | 2017-04-13  | 94    | 661      | 299      |
| mart  | 2017-04-08  | 62    | 661      | 299      |
| mart  | 2017-04-09  | 68    | 661      | 299      |
| mart  | 2017-04-11  | 75    | 661      | 299      |
| neil  | 2017-06-12  | 80    | 661      | 92       |
| neil  | 2017-05-10  | 12    | 661      | 92       |
| tony  | 2017-01-07  | 50    | 661      | 94       |
| tony  | 2017-01-02  | 15    | 661      | 94       |
| tony  | 2017-01-04  | 29    | 661      | 94       |
+-------+-------------+-------+----------+----------+--+
14 rows selected (8.504 seconds)
*/
-- sample3 按照name分组，按照日期升序组内数据累加
SELECT name,
       orderdate,
       cost,
       sum(cost) OVER () AS sample1,
       sum(cost) OVER (PARTITION BY name) AS sample2,
       sum(cost) OVER (PARTITION BY name ORDER BY orderdate) AS sample3
FROM business;
/*
+-------+-------------+-------+----------+----------+----------+--+
| name  |  orderdate  | cost  | sample1  | sample2  | sample3  |
+-------+-------------+-------+----------+----------+----------+--+
| jack  | 2017-01-01  | 10    | 661      | 176      | 10       |
| jack  | 2017-01-05  | 46    | 661      | 176      | 56       |
| jack  | 2017-01-08  | 55    | 661      | 176      | 111      |
| jack  | 2017-02-03  | 23    | 661      | 176      | 134      |
| jack  | 2017-04-06  | 42    | 661      | 176      | 176      |
| mart  | 2017-04-08  | 62    | 661      | 299      | 62       |
| mart  | 2017-04-09  | 68    | 661      | 299      | 130      |
| mart  | 2017-04-11  | 75    | 661      | 299      | 205      |
| mart  | 2017-04-13  | 94    | 661      | 299      | 299      |
| neil  | 2017-05-10  | 12    | 661      | 92       | 12       |
| neil  | 2017-06-12  | 80    | 661      | 92       | 92       |
| tony  | 2017-01-02  | 15    | 661      | 94       | 15       |
| tony  | 2017-01-04  | 29    | 661      | 94       | 44       |
| tony  | 2017-01-07  | 50    | 661      | 94       | 94       |
+-------+-------------+-------+----------+----------+----------+--+
14 rows selected (8.773 seconds)
*/
-- sample4 按照name分组，组内数据由起点处到当前行聚合逐行累加
SELECT name,
       orderdate,
       cost,
       sum(cost) OVER () AS sample1,
       sum(cost) OVER (PARTITION BY name) AS sample2,
       sum(cost) OVER (PARTITION BY name ORDER BY orderdate) AS sample3,
       sum(cost)
           OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS sample4
FROM business;
/*
+-------+-------------+-------+----------+----------+----------+----------+--+
| name  |  orderdate  | cost  | sample1  | sample2  | sample3  | sample4  |
+-------+-------------+-------+----------+----------+----------+----------+--+
| jack  | 2017-01-01  | 10    | 661      | 176      | 10       | 10       |
| jack  | 2017-01-05  | 46    | 661      | 176      | 56       | 56       |
| jack  | 2017-01-08  | 55    | 661      | 176      | 111      | 111      |
| jack  | 2017-02-03  | 23    | 661      | 176      | 134      | 134      |
| jack  | 2017-04-06  | 42    | 661      | 176      | 176      | 176      |
| mart  | 2017-04-08  | 62    | 661      | 299      | 62       | 62       |
| mart  | 2017-04-09  | 68    | 661      | 299      | 130      | 130      |
| mart  | 2017-04-11  | 75    | 661      | 299      | 205      | 205      |
| mart  | 2017-04-13  | 94    | 661      | 299      | 299      | 299      |
| neil  | 2017-05-10  | 12    | 661      | 92       | 12       | 12       |
| neil  | 2017-06-12  | 80    | 661      | 92       | 92       | 92       |
| tony  | 2017-01-02  | 15    | 661      | 94       | 15       | 15       |
| tony  | 2017-01-04  | 29    | 661      | 94       | 44       | 44       |
| tony  | 2017-01-07  | 50    | 661      | 94       | 94       | 94       |
+-------+-------------+-------+----------+----------+----------+----------+--+
*/
-- sample5 当前行和当前行前面一行累加（两行累加）
SELECT name,
       orderdate,
       cost,
       sum(cost)
           OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS sample4,
       sum(cost)
           OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN 1 PRECEDING AND CURRENT ROW) AS sample5
FROM business;
/*
+-------+-------------+-------+----------+----------+--+
| name  |  orderdate  | cost  | sample4  | sample5  |
+-------+-------------+-------+----------+----------+--+
| jack  | 2017-01-01  | 10    | 10       | 10       |
| jack  | 2017-01-05  | 46    | 56       | 56       |
| jack  | 2017-01-08  | 55    | 111      | 101      |
| jack  | 2017-02-03  | 23    | 134      | 78       |
| jack  | 2017-04-06  | 42    | 176      | 65       |
| mart  | 2017-04-08  | 62    | 62       | 62       |
| mart  | 2017-04-09  | 68    | 130      | 130      |
| mart  | 2017-04-11  | 75    | 205      | 143      |
| mart  | 2017-04-13  | 94    | 299      | 169      |
| neil  | 2017-05-10  | 12    | 12       | 12       |
| neil  | 2017-06-12  | 80    | 92       | 92       |
| tony  | 2017-01-02  | 15    | 15       | 15       |
| tony  | 2017-01-04  | 29    | 44       | 44       |
| tony  | 2017-01-07  | 50    | 94       | 79       |
+-------+-------------+-------+----------+----------+--+
*/
-- sample6 当前行和前边一行及后边一行累加（三行累加）
SELECT name,
       orderdate,
       cost,
       sum(cost)
           OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN 1 PRECEDING AND CURRENT ROW) AS sample5,
       sum(cost) OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING ) AS sample6
FROM business;
/*
+-------+-------------+-------+----------+----------+--+
| name  |  orderdate  | cost  | sample5  | sample6  |
+-------+-------------+-------+----------+----------+--+
| jack  | 2017-01-01  | 10    | 10       | 56       |
| jack  | 2017-01-05  | 46    | 56       | 111      |
| jack  | 2017-01-08  | 55    | 101      | 124      |
| jack  | 2017-02-03  | 23    | 78       | 120      |
| jack  | 2017-04-06  | 42    | 65       | 65       |
| mart  | 2017-04-08  | 62    | 62       | 130      |
| mart  | 2017-04-09  | 68    | 130      | 205      |
| mart  | 2017-04-11  | 75    | 143      | 237      |
| mart  | 2017-04-13  | 94    | 169      | 169      |
| neil  | 2017-05-10  | 12    | 12       | 92       |
| neil  | 2017-06-12  | 80    | 92       | 92       |
| tony  | 2017-01-02  | 15    | 15       | 44       |
| tony  | 2017-01-04  | 29    | 44       | 94       |
| tony  | 2017-01-07  | 50    | 79       | 79       |
+-------+-------------+-------+----------+----------+--+
*/
-- sample7 当前行及后面组内所有行累加
SELECT name,
       orderdate,
       cost,
       sum(cost)
           OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN 1 PRECEDING AND CURRENT ROW) AS sample5,
       sum(cost) OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN 1 PRECEDING AND 1 FOLLOWING ) AS sample6,
       sum(cost)
           OVER (PARTITION BY name ORDER BY orderdate ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING ) AS sample7
FROM business;
/*
+-------+-------------+-------+----------+----------+----------+--+
| name  |  orderdate  | cost  | sample5  | sample6  | sample7  |
+-------+-------------+-------+----------+----------+----------+--+
| jack  | 2017-01-01  | 10    | 10       | 56       | 176      |
| jack  | 2017-01-05  | 46    | 56       | 111      | 166      |
| jack  | 2017-01-08  | 55    | 101      | 124      | 120      |
| jack  | 2017-02-03  | 23    | 78       | 120      | 65       |
| jack  | 2017-04-06  | 42    | 65       | 65       | 42       |
| mart  | 2017-04-08  | 62    | 62       | 130      | 299      |
| mart  | 2017-04-09  | 68    | 130      | 205      | 237      |
| mart  | 2017-04-11  | 75    | 143      | 237      | 169      |
| mart  | 2017-04-13  | 94    | 169      | 169      | 94       |
| neil  | 2017-05-10  | 12    | 12       | 92       | 92       |
| neil  | 2017-06-12  | 80    | 92       | 92       | 80       |
| tony  | 2017-01-02  | 15    | 15       | 44       | 94       |
| tony  | 2017-01-04  | 29    | 44       | 94       | 79       |
| tony  | 2017-01-07  | 50    | 79       | 79       | 50       |
+-------+-------------+-------+----------+----------+----------+--+
*/

-- （4）查询每个顾客上次的购买时间
/*
 log(col, num,default)往前num行的数据，不存在时默认为default，不设置默认值，不存在时用null补齐
 */
SELECT name,
       orderdate,
       cost,
       lag(orderdate, 1, '未购买过') OVER (PARTITION BY name ORDER BY orderdate ) AS time1,
       lag(orderdate, 2) OVER (PARTITION BY name ORDER BY orderdate) AS time2
FROM business;
/*
+-------+-------------+-------+-------------+-------------+--+
| name  |  orderdate  | cost  |    time1    |    time2    |
+-------+-------------+-------+-------------+-------------+--+
| jack  | 2017-01-01  | 10    | 1900-01-01  | NULL        |
| jack  | 2017-01-05  | 46    | 2017-01-01  | NULL        |
| jack  | 2017-01-08  | 55    | 2017-01-05  | 2017-01-01  |
| jack  | 2017-02-03  | 23    | 2017-01-08  | 2017-01-05  |
| jack  | 2017-04-06  | 42    | 2017-02-03  | 2017-01-08  |
| mart  | 2017-04-08  | 62    | 1900-01-01  | NULL        |
| mart  | 2017-04-09  | 68    | 2017-04-08  | NULL        |
| mart  | 2017-04-11  | 75    | 2017-04-09  | 2017-04-08  |
| mart  | 2017-04-13  | 94    | 2017-04-11  | 2017-04-09  |
| neil  | 2017-05-10  | 12    | 1900-01-01  | NULL        |
| neil  | 2017-06-12  | 80    | 2017-05-10  | NULL        |
| tony  | 2017-01-02  | 15    | 1900-01-01  | NULL        |
| tony  | 2017-01-04  | 29    | 2017-01-02  | NULL        |
| tony  | 2017-01-07  | 50    | 2017-01-04  | 2017-01-02  |
+-------+-------------+-------+-------------+-------------+--+
14 rows selected (17.271 seconds)
*/

-- （5）查询前20%时间的订单信息
/*
 NTILE(n)：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，NTILE返回此行所属的组的编号。注意：n必须为int类型
 ntile(n)和where sorter = m 构成 n/m，如：ntile（2）和where sorted = 1 构成显示所有列的1/2
 20% = 1/5 ==> ntile(5),where sorted = 1
 */
SELECT *
FROM (
         SELECT name, orderdate, cost, ntile(5) OVER (ORDER BY orderdate) sorted
         FROM business
     ) t
WHERE sorted = 1;
/*
+---------+--------------+---------+-----------+--+
| t.name  | t.orderdate  | t.cost  | t.sorted  |
+---------+--------------+---------+-----------+--+
| jack    | 2017-01-01   | 10      | 1         |
| tony    | 2017-01-02   | 15      | 1         |
| tony    | 2017-01-04   | 29      | 1         |
+---------+--------------+---------+-----------+--+
3 rows selected (8.716 seconds)
*/

-- rank函数
/*
 函数说明：
 RANK() 排序相同时会重复，总数不会变
 DENSE_RANK() 排序相同时会重复，总数会减少
 ROW_NUMBER() 会根据顺序计算
 */
-- 建表，加载数据
CREATE TABLE score
(
    name    string COMMENT '姓名',
    subject string COMMENT '学科',
    score   int COMMENT '分数'
)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY "\t";
LOAD DATA LOCAL INPATH '/data/hive/score.txt' INTO TABLE score;
-- 需求：计算每门学科成绩排名。
-- rank（） 排序相同时会重复，总数不变，按照学科分组，组内按照分数降序排列
SELECT name,
       subject,
       score,
       rank() OVER (PARTITION BY subject ORDER BY score DESC) rp
FROM score;
/*
+-------+----------+--------+-----+--+
| name  | subject  | score  | rp  |
+-------+----------+--------+-----+--+
| 孙悟空  | 数学    | 95     | 1   |
| 宋宋    | 数学    | 86     | 2   |
| 婷婷    | 数学    | 85     | 3   |
| 大海    | 数学    | 56     | 4   |
| 大海    | 英语    | 84     | 1   |
| 宋宋    | 英语    | 84     | 1   |
| 婷婷    | 英语    | 78     | 3   |
| 孙悟空  | 英语    | 68     | 4   |
| 大海    | 语文    | 94     | 1   |
| 孙悟空  | 语文    | 87     | 2   |
| 婷婷    | 语文    | 65     | 3   |
| 宋宋    | 语文    | 64     | 4   |
+-------+----------+--------+-----+--+
12 rows selected (15.748 seconds)
*/

-- DENSE_RANK() 排序相同时会重复，总数会减少
SELECT name,
       subject,
       score,
       rank() OVER (PARTITION BY subject ORDER BY score DESC) rp,
       dense_rank() OVER (PARTITION BY subject ORDER BY score DESC) drp
FROM score;
/*
+-------+----------+--------+-----+------+--+
| name  | subject  | score  | rp  | drp  |
+-------+----------+--------+-----+------+--+
| 孙悟空  | 数学    | 95     | 1   | 1    |
| 宋宋    | 数学    | 86     | 2   | 2    |
| 婷婷    | 数学    | 85     | 3   | 3    |
| 大海    | 数学    | 56     | 4   | 4    |
| 大海    | 英语    | 84     | 1   | 1    |
| 宋宋    | 英语    | 84     | 1   | 1    |
| 婷婷    | 英语    | 78     | 3   | 2    |
| 孙悟空  | 英语    | 68     | 4   | 3    |
| 大海    | 语文    | 94     | 1   | 1    |
| 孙悟空  | 语文    | 87     | 2   | 2    |
| 婷婷    | 语文    | 65     | 3   | 3    |
| 宋宋    | 语文    | 64     | 4   | 4    |
+-------+----------+--------+-----+------+--+
*/
-- ROW_NUMBER() 会根据顺序计算
SELECT name,
       subject,
       score,
       rank() OVER (PARTITION BY subject ORDER BY score DESC) rp,
       dense_rank() OVER (PARTITION BY subject ORDER BY score DESC) drp,
       row_number() OVER (PARTITION BY subject ORDER BY score DESC) rmp
FROM score;
/*
+-------+----------+--------+-----+------+------+--+
| name  | subject  | score  | rp  | drp  | rmp  |
+-------+----------+--------+-----+------+------+--+
| 孙悟空  | 数学    | 95     | 1   | 1    | 1    |
| 宋宋    | 数学    | 86     | 2   | 2    | 2    |
| 婷婷    | 数学    | 85     | 3   | 3    | 3    |
| 大海    | 数学    | 56     | 4   | 4    | 4    |
+---------+--------+--------+-----+------+------+--
| 大海    | 英语    | 84     | 1   | 1    | 1    |
| 宋宋    | 英语    | 84     | 1   | 1    | 2    |
| 婷婷    | 英语    | 78     | 3   | 2    | 3    |
| 孙悟空  | 英语    | 68     | 4   | 3    | 4    |
+--------+---------+--------+-----+------+------+--
| 大海    | 语文    | 94     | 1   | 1    | 1    |
| 孙悟空  | 语文    | 87     | 2   | 2    | 2    |
| 婷婷    | 语文    | 65     | 3   | 3    | 3    |
| 宋宋    | 语文    | 64     | 4   | 4    | 4    |
+-------+----------+--------+-----+------+------+--+
*/

你可能感兴趣的:(hive,hive)

cydia软件路径_在Cydia中提取Deb格式安装包文件
大家都知道越狱后可以安装deb格式的文件包了，并且我们经常看到一些大神在论坛分享一些deb格式的文件或插件，他们是如何提取出来的呢？本文就给大家介绍一下在Cydia中提取Deb格式安装包文件教程。Cydia下载的deb文件在哪，怎么提取出来？cydia下载的deb在/private/var/cache/apt/archives目录下，提取方式：1、用cydia安装软件后，系统提示“重新启动设备”或
Spark教程3：SparkSQL最全介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络 AHP 需求分析
文章目录SparkSQL最全介绍一、SparkSQL概述二、SparkSession：入口点三、DataFrame基础操作四、SQL查询五、SparkSQL函数六、与Hive集成七、数据源操作八、DataFrame与RDD互转九、高级特性十、性能优化十一、Catalyst优化器十二、SparkSQL应用场景十三、常见问题与解决方法SparkSQL最全介绍一、SparkSQL概述SparkSQL是A
打造个性化HiveSQL格式化插件：Hql_formatter实战大思兄的视界
本文还有配套的精品资源，点击获取简介：在软件开发中，代码格式化对于保持代码整洁和提升可读性至关重要。对于HiveSQL，一种用于大数据处理的查询语言，格式化工具可以显著提高开发效率。本项目名为Hql_formatter，是一个为SublimeText定制的HiveSQL格式化插件，通过改良现有的Python库sqlbutifier和sqlparse，实现了满足特定HiveSQL格式化需求的功能。开
编译gcc踩坑记录——libtool: error: ‘/usr/local/lib/libgmp.la‘ is not a valid libtool archive feige4242 linux 运维服务器
安装gcc依赖过程中出现错误，解决方法在google找到的。三个依赖如下：libgmplibmpfr依赖libgmplibmpc依赖libgmp、libmpfr直接就无脑（网上很多教程，这里就不赘述了）./configure--prefix=/home/xx/make&&makeinstall然后在libmpc时候就报错了：libtool:error:'/usr/local/lib/libgmp.
libtool: error: ‘/usr/.local/lib/libgmp.la‘ is not a valid libtool archive WSSWWWSSW 服务器 linux 运维
背景：安装gcc时提示需要vc++11，然后安装gcc依赖gmp、mpfr、mpc。到mpcmake时出错：libtool:error:‘/usr/.local/lib/libgmp.la’isnotavalidlibtoolarchive详细：/usr/bin/grep:/usr/.local/lib/libgmp.la:Nosuchfileordirectory/usr/bin/sed:can
新版azkaban4.0编译安装教程码农界的老油条 azkaban4.0 java
新版azkaban4.0编译安装教程由于官方没有提供安装包所以需要下载源码，按照本文安装可以完美运行解压wgethttps://github.com/azkaban/azkaban/archive/refs/tags/4.0.0.tar.gztar-zxvf4.0.0.tar.gz-C/opt/software/cdazkaban-4.0.0没有安装git的话需要先安装https://gradle
Harmony中的HAP、HAR、HSP区别云杰zd harmonyos 动画华为
HarmonyOS中的HAP、HAR、HSP区别详解1.基本概念HAP(HarmonyAbilityPackage)定义：应用安装和运行的基本单元特点：包含代码、资源、第三方库及配置文件支持声明Ability和Page分为Entry（主模块）和Feature（特性模块）两种类型HAR(HarmonyArchive)定义：静态共享包特点：编译态复用不支持声明Ability和Page适用于二三方库共享
CDH部署Hive详细指南暴躁哥大数据技术 hive hadoop 数据仓库
CDH部署Hive详细指南本文将详细介绍如何使用ClouderaManagerWeb界面部署Hive组件，包括安装、配置、优化和运维管理等内容。1.环境准备1.1系统要求1.1.1硬件要求服务器配置CPU：建议8核以上内存：建议32GB以上磁盘：建议使用企业级SAS或SSD网络：建议万兆网络集群规模小型集群：3-5节点中型集群：6-20节点大型集群：20节点以上1.1.2软件要求操作系统CentO
通过CDH安装Spark的详细指南暴躁哥大数据技术 spark 大数据分布式
通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。本文将详细介绍如何通过CDH安装和配置Spark。前提条件在开始安装之前，请确保满足以下条件：已安装CDH集群具有管理员权限所有节点之间网络互通系统时间同步足够的磁盘空间（建议至少预留20GB）安装步骤1.
torch-gpu版本 anaconda配置教程 GXYGGYXG python
教程Pytorch的GPU版本安装，在安装anaconda的前提下安装pytorch_pytorch-gpu-CSDN博客版本对应PyTorch中torch、torchvision、torchaudio、torchtext版本对应关系_torch2.0.1对应的torchvision-CSDN博客cuda下载地址CUDAToolkitArchive|NVIDIADevelopercudacudnn
保护你的Electron应用：深度解析asar文件与Virbox Protector的安全策略深盾科技 electron javascript 前端
在现代软件开发中，Electron框架因其跨平台特性而备受开发者青睐。然而，随着Electron应用的普及，如何保护应用中的核心资源文件——asar文件，成为了开发者必须面对的问题。今天，我们将深入探讨asar文件的特性，并重点介绍一款强大的保护工具——VirboxProtector。asar文件：Electron应用的“心脏”asar（AtomShellArchive）文件是Electron应用
order、sort、distribute和cluster by（Spark/Hive）有数的编程笔记 Spark/Hive spark hive 大数据
1.abstractORDERBY：完整查询结果的全局行排序。与SORTBY、CLUSTERBY、DISTRIBUTEBY互斥，不能同时使用。示例SELECT*FROMtable_nameORDERBYcolumn_name;SORTBY：只在每个分区内排序，局部排序结果不是全局有序。与ORDERBY、CLUSTERBY互斥，不能同时指定。示例SELECT*FROMtable_nameSORTBY
合并小文件汇总（Hive/Spark）有数的编程笔记 Spark/Hive hive spark hadoop
合并小文件的原因：过多的小文件会导致HDFS上元数据负载增加。并且小文件也会导致计算性能下降。1.使用hive时1.1.使用hive.merge参数，开启文件合并--控制在map阶段结束后合并输出的小文件，默认值为trueSEThive.merge.mapfiles=true;--控制在reduce阶段结束后合并输出小文件，默认值为falseSEThive.merge.mapredfiles=tr
Centos7.9安装Openssl 3.5 石小千 Linux 运维 linux
下载github下载地址https://github.com/openssl/openssl/releases/download/openssl-3.5.0/openssl-3.5.0.tar.gz国内镜像站下载地址https://raw.gitcode.com/gh_mirrors/ope/openssl/archive/refs/heads/openssl-3.5.0.zip准备yuminst
11、探索Perl模块世界：从创建到应用异步汪仔 Perl编程入门与实践 Perl模块 CPAN 模块创建
探索Perl模块世界：从创建到应用1.模块的重要性及用途在编程中，模块化设计是提高代码复用性和维护性的关键。Perl模块是将相关功能封装在一起的一组函数和变量，通过模块化，可以大大简化编程任务。使用模块不仅能节省时间，还能避免重复造轮子。通过CPAN（ComprehensivePerlArchiveNetwork），你可以找到几乎所有类型的Perl模块，涵盖从网络编程到数据库管理等多个领域。CPA
kali安装docker 云宫小铺 docker linux 运维
1.1、更新kali仓库GPG秘钥curl-fsSLhttps://archive.kali.org/archive-key.asc|sudotee/etc/apt/trusted.gpg.d/kali-archive-key.asc1.2、更新apt包列表sudoaptupdatesudoaptupgrade-y1.3、安装必要的依赖包sudoaptinstallapt-transport-ht
Anaconda安装与使用，新手避免踩坑小泥人Hyper python 开发语言
1.安装Anaconda1.1进入官网下载，有多种版本可以选择，挑最适合的即可官网地址：https://repo.anaconda.com/archive/1.2下载好后放入指定文件夹，或者跳转到对应的文件夹，执行下面的命令1.3跳转到该项目后执行bash命令进行安装bashAnaconda3-2024.02-1-Linux-x86_64.sh然后一直回车或者yes即可，直到出现Thankyouf
解决HiveOS刷显卡bios时提示小于200K不成功的问题 jemenchen 硬件工程驱动开发机器学习图形渲染
问题来由，当使用HiveOS在线刷显卡bios时候，由于老旧的先考rom文件大小只有128k，故其提示文件太小，有问题，而并不进行处理；问题分析：这个问题应该是HiveOS系统自身做了限定，防止用户刷成砖；问题定位：在HiveOs系统用，有这么一个文件叫做agent.command_advance.sh之类的（记忆的，晚点确认了贴出来），路径在/hive/bin/中；解决方案：vi打开此脚本文件，
十、HQL：排序、联合与 CTE 高级查询 IvanCodes Hive教程 hive 大数据
作者：IvanCodes日期：2025年5月15日专栏：Hive教程ApacheHive作为大数据领域主流的数据仓库解决方案，其查询语言HQL(HiveQueryLanguage)是数据分析师和工程师日常工作的核心。除了基础的SELECT-FROM-WHERE，HQL还提供了强大的排序、数据合并以及组织复杂查询的机制。本文将深入探讨HQL中的排序操作(SORTBY,ORDERBY,CLUSTERB
Hadoop等大数据处理框架的Java API 扬子鳄008 Java hadoop java 大数据
Hadoop是一个非常流行的大数据处理框架，主要用于存储和处理大规模数据集。Hadoop主要有两个核心组件：HDFS（HadoopDistributedFileSystem）和MapReduce。此外，还有许多其他组件，如YARN（YetAnotherResourceNegotiator）、HBase、Hive等。下面详细介绍Hadoop及其相关组件的JavaAPI及其使用方法。HadoopHad
python--将mysql建表语句转换成hive建表语句呆呆不呆～ spark python mysql hive spark
1.代码importjsonimportsysimportpymysqldefqueryDataBase(tablename):#连接数据库并查询列信息conn=pymysql.connect(user='root',password='123456',host='hadoop11')cursor=conn.cursor()cursor.execute("SELECTcolumn_name,dat
ER图：数据库设计的可视化语言 - 搞懂数据关系的基石大千AI助手人工智能 Python 大数据数据库
在数据库设计和数据建模领域，ER图（实体-关系图）绝对是最基础、最核心的可视化工具之一。它用最直观的方式描绘了现实世界中的数据及其关系，是构建可靠数据库的蓝图。今天，我们就来聊聊这个技术基石。本文来自「大千AI助手」技术实战系列，专注用真话讲技术，拒绝过度包装。往期文章推荐:20.决策树：被低估的规则引擎，80%可解释性需求的首选方案19.实战指南：用DataHub管理Hive元数据18.一键规范
手把手教你玩转 Sqoop：从数据库到大数据的「数据搬运工」 AAA建材批发王师傅数据库 sqoop 大数据 hive hdfs
一、Sqoop是什么？——数据界的「超级搬运工」兄弟们，今天咱们聊个大数据圈的「搬运小能手」——Sqoop！可能有人会问：这玩意儿跟Flume啥区别？简单来说：Flume是专门搬日志数据的「快递员」而Sqoop是搬数据库数据的「搬家公司」它的名字咋来的？SQL+Hadoop，直接告诉你核心技能：在关系型数据库（比如MySQL）和Hadoop家族（HDFS、Hive、HBase）之间疯狂倒腾数据！核
【向量数据库】Ubuntu编译安装FAISS 风好衣轻向量数据库 ubuntu faiss linux
参考官方的安装指导：https://github.com/facebookresearch/faiss/blob/main/INSTALL.md，不需要安装的可以跳过~$wgethttps://github.com/facebookresearch/faiss/archive/refs/tags/v1.8.0.tar.gz~$tar-zxvfv1.8.0.tar.gz~$cdfaiss-1.8.0
mac M1 brew 报错处理 tar: Error opening archive: Failed to open 如果我是温帅帅问题记录编辑器
tar:Erroropeningarchive:Failedtoopen'/Users/wenxiaoyu/Library/Caches/Homebrew/downloads/e10272a6b3f3af1a52a04edaa8964beef1b6e36f105ded54e943ea1e048dc951--ghostscript-9.54.0.big_sur.bottle.tar.gz'Error
Ubuntu更新cmake超过apt版本限制 CBCU Ubuntu ubuntu bash linux
参考链接1.使用APT库#1卸载老版cmakesudoaptremove--purge--auto-removecmakesudoaptpurge--auto-removecmake#2获取密钥wget-O-https://apt.kitware.com/keys/kitware-archive-latest.asc2>/dev/null|gpg--dearmor-|sudotee/etc/apt
c++26新功能—hive容器 fpcc C++11 C++c++hive
一、容器的演进科学进步的过程一般来说都是从先解决常用的、迫切的问题开始，然后再逐步解决一些少见不迫切的问题，直到最终解决到认知程度内的诸多问题。举一个网上的例子，以前说咱们无法生产水笔的尖头上的钢球，其实这对于国内的技术来说并不难，只是并不迫切而且利润也有限，结果经常的提及就被当成一个问题了，很快就解决了。C++作为一门技术，也是如此。STL中的容器，也是先从常见的向量、链表以及映射等等开始应用，
Hive 深度优化指南：从原理到实战，附完整代码解析落辰010 hive hadoop 数据仓库
在大数据处理领域，Hive凭借其强大的数据处理能力和SQL友好性，成为众多企业处理海量数据的首选工具。然而，随着数据量的不断增长，Hive的性能问题逐渐凸显。本文将从表设计、查询执行、资源管理等多个维度，深入探讨Hive优化的方法和技巧，并通过具体代码示例进行详细说明，帮助你显著提升Hive的运行效率。一、表设计优化1.1选择合适的存储格式Hive支持多种存储格式，如TextFile、ORC、Pa
Hive集成Paimon Edingbrugh.南空数据湖 hive 大数据 hive hadoop 数据仓库
引言在大数据领域，数据存储与处理技术不断演进，各类数据管理工具层出不穷。ApacheHive作为经典的数据仓库工具，以其成熟的生态和强大的批处理能力，长期服务于海量数据的存储与分析；而ApachePaimon作为新兴的流式湖仓存储引擎，具备实时写入、高效查询和统一批流处理等特性，为数据管理带来了新的活力。将Hive与Paimon进行集成，能够充分融合两者优势，实现数据的高效存储、实时处理与灵活分析
python的退出方式 SeaSky_Steven Python python exit 退出方式
os._exit()vssys.exit()转自：http://www.cnblogs.com/gaott/archive/2013/04/12/3016355.html概述python的程序有两种退出方式：os._exit()，sys.exit()。本文介绍这两种方式的区别和选择。os._exit()会直接将python程序终止，之后的所有代码都不会继续执行。sys.exit()会引发一个异常：
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option