Mike_H

Hive_6. 数据聚合 -- Group By & Grouping_SETS & RollUp & CUBE & Having

今天跟大家介绍一些 Hive 中的高级操作-数据聚合。这里主要根据以下三部分向大家介绍一下Hive 中常见的聚合：

基于 Group By 的基本聚合函数
高级聚合 -- GROUPING SETS & ROLLUP and CUBE
聚合条件 -- Having

1. 基于 Group by 的基本聚合函数

数据聚合是基于特定的条件使用数据汇总的形式来收集和表达更多的信息。Hive 提供了一些内置的聚合函数,如MAX, MIN, AVG等等。Hive 还支持高级的聚合: GROUPING SETS, ROLLUP, CUBE,分析函数[analytic functions],以及 windowing。
Hive 的基本内置的聚合函数通常使用GROUP BY子句。如果没有GROUP BY子句指定,默认情况下它是对整个表进行聚合。除了聚合函数, 所有其他 select 的列也必须包含在GROUP BY子句中(分析函数除外)。以下是几个例子使用内置的聚合函数:
注意：关于窗口函数 & 分区表函数请参考 SQL Windowing 项目: http://blog.csdn.net/mike_h/article/details/50245995

没有GROUP BY字段的聚合：

jdbc:hive2://> SELECT count(*) AS row_cnt FROM employee;
+----------+
| row_cnt |
+----------+
| 5 |
+----------+
1 row selected (60.709 seconds

对 GROUP BY字段进行聚合：

jdbc:hive2://> SELECT sex_age.sex, count(*) AS row_cnt 
. . . . . . .> FROM employee 
. . . . . . .> GROUP BY sex_age.sex;
+--------------+----------+
| sex_age.sex | row_cnt |
+--------------+----------+
| Female | 2 |
| Male | 3 |
+--------------+----------+
2 rows selected (100.565 seconds)

--select 字段名必须包含在 Group by 字段中

jdbc:hive2://> SELECT name, sex_age.sex, count(*) AS row_cnt 
. . . . . . .> FROM employee GROUP BY sex_age.sex;
Error: Error while compiling statement: FAILED: SemanticException [Error 10025]: Line 1:7 Expression not in GROUP BY key 'name' (state=42000,code=10025)

如果我们必须要 SELECT 一些 GROUP BY 中没有的字段, 我们有两种方法：

使用[analytic functions],引入后, 完全避免使用GROUP BY子句 (该方法会稍后进行介绍)
使用collect_set 函数,该函数返回一组对象和消除重复的元素

方法2 使用如下：

--根据性别和数据抽样来统计每个性别的人数

jdbc:hive2://> SELECT sex_age.sex,
. . . . . . .> collect_set(sex_age.age)[0] AS random_age, 
. . . . . . .> count(*) AS row_cnt 
. . . . . . .> FROM employee GROUP BY sex_age.sex;
+--------------+-------------+----------+
| sex_age.sex | random_age | row_cnt |
+--------------+-------------+----------+
| Female | 27 | 2 |
| Male | 35 | 3 |
+--------------+-------------+----------+
2 rows selected (48.15 seconds)

在一个 SELECT 语句中可以存在不同的聚合函数。当然也可以使用其他函数，如嵌套方式的条件函数。但是不支持嵌套的聚合函数。详细信息, 可以参阅下面的例子:

在一个 SELECT 语句中调用多个聚合函数 :

jdbc:hive2://> SELECT sex_age.sex, AVG(sex_age.age) AS avg_age, 
. . . . . . .> count(*) AS row_cnt 
. . . . . . .> FROM employee GROUP BY sex_age.sex; 
+--------------+---------------------+----------+
| sex_age.sex | avg_age | row_cnt |
+--------------+---------------------+----------+
| Female | 42.0 | 2 |
| Male | 31.666666666666668 | 3 |
+--------------+---------------------+----------+
2 rows selected (98.857 seconds)

使用带有 CASE WHEN 的聚合函数：

jdbc:hive2://> SELECT sum(CASE WHEN sex_age.sex = 'Male' 
. . . . . . .> THEN sex_age.age ELSE 0 END)/
. . . . . . .> count(CASE WHEN sex_age.sex = 'Male' THEN 1 
. . . . . . .> ELSE NULL END) AS male_age_avg FROM employee;
+---------------------+
| male_age_avg |
+---------------------+
| 31.666666666666668 |
+---------------------+
1 row selected (38.415 seconds)

使用带有COALESCE 和 IF 的聚合函数：

jdbc:hive2://> SELECT  
. . . . . . .> sum(coalesce(sex_age.age,0)) AS age_sum,      -- 返回一组数据中第一个不为 Null 的值，如果都为null，则返回null
. . . . . . .> sum(if(sex_age.sex = 'Female',sex_age.age,0)) -- false 的话则会0
. . . . . . .> AS female_age_sum FROM employee;
+----------+---------------+
| age_sum | female_age_sum|
+----------+---------------+
| 179 | 84 |
+----------+---------------+
1 row selected (42.137 seconds)

嵌套聚合函数是不允许的，如下所示：(聚合函数的运算都是基于初粒度的运算，类似于 Spark 中 RDD )

jdbc:hive2://> SELECT avg(count(*)) AS row_cnt
. . . . . . .> FROM employee;
Error: Error while compiling statement: FAILED: SemanticException [Error 10128]: Line 1:11 Not yet supported place for UDAF 'count' (state=42000,code=10128)

聚合函数可以使用 DISTINCT 关键字来返回唯一聚合值。

jdbc:hive2://> SELECT count(DISTINCT sex_age.sex) AS sex_uni_cnt,
. . . . . . .> count(DISTINCT name) AS name_uni_cnt 
. . . . . . .> FROM employee;     
+--------------+---------------+
| sex_uni_cnt  | name_uni_cnt  |
+--------------+---------------+
| 2            | 5             |
+--------------+---------------+
1 row selected (35.935 seconds)

注意：

当我们吧 COUNT 和 DISTINCT 放在一起的时候，Hive 通常会忽略掉 reducer 的数量设置( 例如 mapred.reduce.tasks = 20 ),此时仅仅使用一个 reducer。在处理大量数据的情况下，单一的 reducer 显然会变成性能的瓶颈。当然，折衷的方案是使用子查询：

--在整个处理过程中只触发单个 reducer
SELECT count(distinct sex_age.sex) AS sex_uni_cnt FROM employee;
--在聚合之前，使用子查询来选出唯一值，这样会更加高效 
SELECT count(*) AS sex_uni_cnt FROM (SELECT distinct sex_age.sex FROM employee) a;

在这种情况下，第一步会使用多个 reducer 来实现 DISTINCT 查询，使得数据取得唯一值，mapper 的输出到COUNT 阶段的分区也会随之减少，最终使得 Reducer 不会有负载压力。

平时利用 Hive 处理数据的时候可能会遇到聚合字段为 NULL 的情况，对于这种情况，如果一行中含有一个 NULL 字段，则第二行将会被忽略掉。为了避免这种情况，我们可以使用 COALESCE 来为 Null 字段赋默认值。具体实现如下：

--创建测试表

jdbc:hive2://> CREATE TABLE t AS SELECT * FROM
. . . . . . .> (SELECT employee_id-99 AS val1, 
. . . . . . .> (employee_id-98) AS val2 FROM employee_hr 
. . . . . . .> WHERE employee_id <= 101
. . . . . . .> UNION ALL
. . . . . . .> SELECT null val1, 2 AS val2 FROM employee_hr 
. . . . . . .> WHERE employee_id = 100) a;
No rows affected (0.138 seconds)

--检查创建表的行

jdbc:hive2://> SELECT * FROM t;
+---------+---------+
| t.val1  | t.val2  |
+---------+---------+
| 1       | 2       |
| NULL    | 2       |
| 2       | 3       |
+---------+---------+
3 rows selected (0.069 seconds)

--在做 Sum(val1+val2)操作时，会忽略掉第2行(NULL, 2)

jdbc:hive2://> SELECT sum(val1), sum(val1+val2) 
. . . . . . .> FROM t;                   
+------+------+
| _c0  | _c1  |
+------+------+
| 3    | 8    |
+------+------+
1 row selected (57.775 seconds)

jdbc:hive2://> SELECT sum(coalesce(val1,0)), 
. . . . . . .> sum(coalesce(val1,0)+val2) FROM t;
+------+------+
| _c0  | _c1  |
+------+------+
| 3    | 10   |
+------+------+
1 row selected (69.967 seconds)

hive.map.aggr 属性用来控制 map 任务中的聚合，它的默认值是 false，如果设置为 true的话，Hive 会直接在 map 任务中直接进行第一阶段的聚合，虽然会提高性能，但是也会消耗很多内存。

jdbc:hive2://> SET hive.map.aggr=true;
No rows affected (0.002 seconds)

2. 高级聚合 -- GROUPING SETS

蜂巢提供了 GROUPING SETS 关键字实现对同一个数据集进行的多个GROUP BY操作。实际上,GROUPING SETS 将 Job 某一阶段的所有处理操作都整合在一起，显然要比 GROUP BY 和 UNION ALL 多阶段操作更加高效。如果GROUPING SETS() 参数为空的话，将会做整体聚合。下面的例子将会介绍GROUPING SETS 的等价性。为了更好的理解，我们可以将 GROUPING SETS 理解为对 UNION ALL 的外部实现，对 UNION ALL 中每个GROUP BY 的内部实现。

SELECT name, work_place[0] AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name, work_place[0] 
GROUPING SETS((name, work_place[0]));
||
SELECT name, work_place[0] AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name, work_place[0]

SELECT name, work_place[0] AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name, work_place[0] 
GROUPING SETS(name, work_place[0]);
||
SELECT name, NULL AS main_place, count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name
UNION ALL
SELECT NULL AS name, work_place[0] AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY work_place[0];

SELECT name, work_place[0] AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name, work_place[0] 
GROUPING SETS((name, work_place[0]), name);
||
SELECT name, work_place[0] AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name, work_place[0]
UNION ALL
SELECT name, NULL AS main_place, count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name;

SELECT name, work_place[0] AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name, work_place[0]
GROUPING SETS((name, work_place[0]), name, work_place[0], ());
||
SELECT name, work_place[0] AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name, work_place[0]
UNION ALL
SELECT name, NULL AS main_place, count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY name
UNION ALL
SELECT NULL AS name, work_place[0] AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id
GROUP BY work_place[0]
UNION ALL
SELECT NULL AS name, NULL AS main_place, 
count(employee_id) AS emp_id_cnt 
FROM employee_id;

随着大家对Hive 使用的深入，对 Hive GROUPING SETS 运算符的问题也就随之增多，虽然大部分 issue 已经解决了。不过相信随着业务的进一步深入，更多的问题将会呈现出来，有兴趣的朋友可以去看看。

这里跟大家介绍一下一个 Hive 当前版本的一个 issue：针对 GROUPING SETS 的解析错误：https://issues.apache.org/jira/browse/HIVE-6950

jdbc:hive2://> SELECT sex_age.sex, sex_age.age, 
. . . . . . .> count(name) AS name_cnt 
. . . . . . .> FROM employee
. . . . . . .> GROUP BY sex_age.sex, sex_age.age
. . . . . . .> GROUPING SETS((sex_age.sex, sex_age.age));
Error: Error while compiling statement: FAILED: ParseException line 1:131 missing ) at ',' near ''
line 1:145 extraneous input ')' expecting EOF near '' (state=42000,code=40000)

不过该问题已经在 Hive 1.2.0 版本中 Fixed了。

3. 高级聚合 -- ROLLUP and CUBE

Cube & GROUPING__ID 关键字在 Hive 中使用实例：https://www.qubole.com/blog/product/cube-keyword-in-apache-hive/

ROLLUP 语句通过指定的一组维度来使得 SELECT 语句能进行多级聚合。它能以高效且最小查询开销的优势来扩展 Group bY 语句。跟 GROUPING SETS 比较，它能创建特定 level 的聚合，ROLLUP 创建 n+1 level 的聚合，N 就是分组的字段数。ROLLUP 有如下功能：

它是一种能计算 Goup by 语句中指定的标准聚合值
它能够创建 high level 的分层汇总 -- 从左向右的分组列整合

具体示例如下：

GROUP BY a,b,c WITH ROLLUP

等效于：

GROUP BY a,b,c GROUPING SETS ((a,b,c),(a,b),(a),())

CUBE 语句用来需要分组的字段和为所有可能的组合创建聚合。如果有 N 个字段指定为 CUBE ，那么将会有 2ⁿ 个聚合组合返回。如下所示：

GROUP BY a,b,c WITH CUBE

等效于：

GROUP BY a,b,c GROUPING SETS ((a,b,c),(a,b),(b,c),(a,c),(a),(b),(c),())

The GROUPING__ID function works as an extension to distinguish entire rows from each other. It accepts one or more columns and returns the decimal equivalent of the BIT vector for each column specified afterGROUP BY. The returned decimal number is

GROUPING__ID 函数作为一个扩展来跟其他行做区分。它会接收一个或多个字段，之后根据 GROUP BY 后的每个字段返回一个十进制的比特向量。返回的十进制数值是从二进制的 1 和 0 转换而来的，用来表示每一行的字段已经聚合过了(此时对应的值将不为 NULL)。离 GROUP BY 比较近的字段会先进行排序。如下所示，对应的是 start_date

jdbc:hive2://> SELECT GROUPING__ID, 
. . . . . . .> BIN(CAST(GROUPING__ID AS BIGINT)) AS bit_vector, 
. . . . . . .> name, start_date, count(employee_id) emp_id_cnt 
. . . . . . .> FROM employee_hr 
. . . . . . .> GROUP BY start_date, name 
. . . . . . .> WITH CUBE ORDER BY start_date;
+---------------+-------------+----------+-------------+------------+
| grouping__id  | bit_vector  |   name   | start_date  | emp_id_cnt |
+---------------+-------------+----------+-------------+------------+
| 2             | 10          | Steven   | NULL        | 1          |
| 2             | 10          | Michael  | NULL        | 1          |
| 2             | 10          | Lucy     | NULL        | 1          |
| 0             | 0           | NULL     | NULL        | 4          |
| 2             | 10          | Will     | NULL        | 1          |
| 3             | 11          | Lucy     | 2010-01-03  | 1          |
| 1             | 1           | NULL     | 2010-01-03  | 1          |
| 1             | 1           | NULL     | 2012-11-03  | 1          |
| 3             | 11          | Steven   | 2012-11-03  | 1          |
| 1             | 1           | NULL     | 2013-10-02  | 1          |
| 3             | 11          | Will     | 2013-10-02  | 1          |
| 1             | 1           | NULL     | 2014-01-29  | 1          |
| 3             | 11          | Michael  | 2014-01-29  | 1          |
+---------------+-------------+----------+-------------+------------+
13 rows selected (136.708 seconds)

4. 聚合条件 – HAVING

从 HIve 0.7.0 版本开始，Hive 便支持 HAVING 来进行条件过滤 GROUP BY 的结果集。通过 HAVING ，我们可以避免GROUP BY后面跟着子查询。如下所示：

jdbc:hive2://> SELECT sex_age.age FROM employee 
. . . . . . .> GROUP BY sex_age.age HAVING count(*)<=1;
+--------------+
| sex_age.age  |
+--------------+
| 57           |
| 27           |
| 35           |
+--------------+
3 rows selected (74.376 seconds)

如果不适用 HAVING ，我们可以通过子查询进行实现：

jdbc:hive2://> SELECT a.age
. . . . . . .> FROM
. . . . . . .> (SELECT count(*) as cnt, sex_age.age 
. . . . . . .> FROM employee GROUP BY sex_age.age
. . . . . . .> ) a WHERE a.cnt<=1;
+--------+
| a.age  |
+--------+
| 57     |
| 27     |
| 35     |
+--------+
3 rows selected (87.298 seconds)

Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
Flutter——数据库Drift开发详细教程(七) 怀君 flutter flutter 数据库
目录入门设置漂移文件入门变量数组定义表支持的列类型漂移特有的功能导入嵌套结果LIST子查询Dart互操作SQL中的Dart组件类型转换器现有的行类Dart文档注释结果类名称支持的语句自定义SQL类型定义类型使用自定义类型在Dart中在SQL中方言意识支持的SQLite扩展json1fts5地缘垄断自定义查询带有生成的api的语句自定义选择语句自定义更新语句入门Drift提供了一个dart_api来
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
【Android】安卓四大组件之内容提供者（ContentProvider）：从基础到进阶 m0_59734531 Android android Java ContentProvider 安卓四大组件
你手机里的通讯录，存储了所有联系人的信息。如果你想把这些联系人信息分享给其他App，就可以通过ContentProvider来实现。。一、什么是ContentProvider‌ContentProvider‌是Android四大组件之一，负责实现‌跨应用程序的数据共享与访问‌，通过统一接口封装数据存储细节，提供标准化操作方式。其中主要功能包括：数据抽象层：将应用内部的数据（如SQLite数据库、文
AnythingLLM教程系列之 12 AnythingLLM 上的 Ollama 与 MySQL+PostgreSQL 知识大胖 NVIDIA GPU和大语言模型开发教程 mysql postgresql 数据库 anythingllm ollama
简介一款全栈应用程序，可让您将任何文档、资源或内容转换为上下文，任何LLM都可以在聊天期间将其用作参考。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。本文将介绍如何在AnythingLLM上将Ollama与MySQL+PostgreSQL连接起来。系列文章如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI应用程序，可以执行RAG、A
Java实习模拟面试之安徽九德 —— 面向对象编程、Spring框架与数据库技术详解培风图南以星河揽胜 java面试 java 面试 spring
关键词：Java实习生、模拟面试、安徽九德、SpringBoot、MySQL、Redis、面向对象编程、团队协作一、前言作为一名计算机相关专业的学生，想要顺利进入一家互联网公司或软件开发企业实习，技术面试是必须面对的一道门槛。本文将带你走进一场真实的Java实习生模拟面试场景，以“安徽九德”公司为背景，围绕其发布的招聘岗位要求，进行一次全方位的技术面试演练。本次模拟面试涵盖以下核心知识点：Java
优化版三国主题MySQL建表与查询练习（细节增强）韩公子的Linux大集市五 MySQL运维DBA mysql 数据库
文章目录优化版三国主题MySQL建表与查询练习（细节增强）题目一：三国人物信息表（全面优化）建表语句（增强约束与注释）插入数据（含完整信息）查询练习（增强实用性）题目二：三国战役表（增强关系设计）建表语句（完整关系模型）插入数据（完整战役信息）查询练习（多表关联）综合实战演练1.人物能力值分析2.战役地图查询3.胜负因素分析设计亮点总结优化版三国主题MySQL建表与查询练习（细节增强）题目一：三国
Spring Boot基础小李是个程序 spring boot 后端 java
5.SpringBoot配置解析5.1.基础服务端口：server.port=8080（应用启动后监听8080端口）应用名称：spring.application.name=Chat64（注册到服务发现等场景时的标识）5.2.数据库连接（MySQL）URL：jdbc:mysql://localhost:3306/ai-chat（连接本地3306端口的ai-chat数据库，含时区、编码等参数）驱动：
Docker初识：mysql8主从复制（单向）- 主从搭建扩展知识滴水可藏海 #mysql 数据库
主从服务（master-slave）新学习到的知识。1、全库同步与部分同步上回书说到Docker初识：mysql8主从复制（单向）的配置都是针对全库配置的。但是实际上并不需要针对全库做备份，只需要对一些特别重要的库或者表来进行同步。例如information_schema等。可以通过配置文件中的一些属性指定需要针对哪些库或者哪些表记录binlog。Master配置：#需要同步的二进制数据库名bin
Mysql字段没有索引，通过where x = 3 for update是使用什么级别的锁
没有索引时，FORUPDATE会锁住整个表现在，你正在一本一本地翻看所有书，寻找“维修中”的书，并且你对管理员说：“在我清点和修改完之前，别人不能动这些书，也不能往这个范围里加新书！”问题1：如何锁住你找到的“维修中”的书？你每找到一本“维修中”的书，就给它贴上一个“正在处理，请勿触碰”的标签（行级排他锁）。问题2：如何防止别人“往这个范围里加新书”？这是最关键的。因为你没有“状态”的目录卡片（没
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
MySQL多表关系详解六七_Shmily 数据库 mysql android 数据库
MySQL中的多表关系是关系型数据库设计的核心，它描述了不同表之间数据如何相互关联。合理设计表关系是构建高效、无冗余、易于维护的数据库模式的关键。MySQL主要支持三种基本的多表关系：1.一对一关系(One-to-OneRelationship)概念：表A中的一条记录最多只与表B中的一条记录相关联，反之亦然。实现方式：共享主键：表B的主键同时也是指向表A主键的外键。这是最严格的实现，确保绝对的一对
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
FlinkSQL 自定义函数详解 Tit先生基础 flink sql 大数据 java
FlinkSQL函数详解自定义函数除了内置函数之外，FlinkSQL还支持自定义函数，我们可以通过自定义函数来扩展函数的使用FlinkSQL当中自定义函数主要分为四大类:1.ScalarFunction:标量函数特点:每次只接收一行的数据，输出结果也是1行1列典型的标量函数如:upper(str),lower(str),abs(salary)2.TableFunction:表生成函数特点:运行时每
什么是ORM？它如何简化后端开发？破碎的天堂鸟学习教程数据库
什么是ORM？ORM（对象关系映射，Object-RelationalMapping）是一种编程技术，用于解决面向对象编程语言与关系型数据库之间的数据转换问题。其核心是将数据库中的表结构映射为程序中的类和对象，使开发者能够以操作对象的方式操作数据库，而非直接编写SQL语句。具体而言：映射机制：数据库表→编程语言中的类（如User类对应users表）表字段→类的属性（如username字段对应Use
flink自定义函数逆风飞翔的小叔 flink 入门到精通 flink 大数据 big data
前言在很多情况下，尽管flink提供了丰富的转换算子API可供开发者对数据进行各自处理，比如map()，filter()等，但在实际使用的时候仍然不能满足所有的场景，这时候，就需要开发人员基于常用的转换算子的基础上，做一些自定义函数的处理1、来看一个常用的操作原始待读取的文件核心代码importorg.apache.flink.api.common.functions.FilterFunction
Java异常处理吴鹰飞侠 java 开发语言
Java异常处理是编程中的重要一环，它能让程序在遇到错误时不中断，而是优雅地处理异常，继续执行或给出合理的反馈。掌握异常处理是编写健壮程序的基础。异常是指程序运行过程中发生的错误情况，通常会导致程序的中断。Java中的异常分为两类：1.编译时异常（CheckedException）：必须显式处理（如IOException、SQLException等）。2.运行时异常（UncheckedExcept
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
ARM64+KylinOS环境下MySQL数据库的图文版安装步骤和故障排查 weixin_47690215 数据库 mysql
前言随着信息技术应用创新产业的快速发展，ARM64架构处理器与麒麟操作系统（KylinOS）已成为我国关键信息基础设施建设的核心组合。MySQL作为全球最流行的开源关系型数据库，在金融、政务等关键领域的国产化替代进程中发挥着重要作用。本文档针对ARM64架构与KylinOSV10SP2/SP3的深度适配需求，提供完整的MySQL8.0部署方案及故障排查体系。背景意义技术自主可控：基于华为鲲鹏、飞腾
如何将多个.sql文件合并成一个：Windows和Linux/Mac详细指南尽兴- 运维后端 windows linux macos sql 数据库
在日常数据库管理和开发工作中，我们经常需要将多个SQL脚本文件合并成一个文件以便于执行或备份。本文将详细介绍在Windows和Linux/Mac系统下合并SQL文件的方法，并提供实用建议。一、Windows系统合并SQL文件方法1：使用copy命令打开命令提示符：导航到存放SQL文件的文件夹在文件夹地址栏输入cmd后按回车执行合并命令：copy*.sqltotal.sql此命令会将当前目录下所有.
mysql忘记密码的三种解决方案学掌门数据库程序员 IT mysql android 数据库
1、修改密码的三种方式mysql用户分为root用户（超级管理员，拥有所有权限）和普通用户，mysql服务器通过权限表来控制用户对数据库的访问,这些权限表存于root用户下的mysql数据库中。在使用mysql数据库过程中，往往需要修改密码的操作，下面介绍三种修改密码的方式：1）使用mysqladmin命令在命令行指定新密码mysqladmin-uroot-ppassword'新密码’回车，将提醒
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

Hive_6. 数据聚合 -- Group By & Grouping_SETS & RollUp & CUBE & Having

1. 基于 Group by 的基本聚合函数

注意：

2. 高级聚合 -- GROUPING SETS

3. 高级聚合 -- ROLLUP and CUBE

4. 聚合条件 – HAVING

你可能感兴趣的:(Hive,SQL,Functions)