一瓢一瓢的饮 alanchan

11、hive综合应用示例：json解析、窗口函数应用（连续登录、级联累加、topN）、拉链表应用

Apache Hive 系列文章

1、apache-hive-3.1.2简介及部署（三种部署方式-内嵌模式、本地模式和远程模式）及验证详解
2、hive相关概念详解–架构、读写文件机制、数据存储
3、hive的使用示例详解-建表、数据类型详解、内部外部表、分区表、分桶表
4、hive的使用示例详解-事务表、视图、物化视图、DDL(数据库、表以及分区)管理详细操作
5、hive的load、insert、事务表使用详解及示例
6、hive的select（GROUP BY、ORDER BY、CLUSTER BY、SORT BY、LIMIT、union、CTE）、join使用详解及示例
7、hive shell客户端与属性配置、内置运算符、函数（内置运算符与自定义UDF运算符）
8、hive的关系运算、逻辑预算、数学运算、数值运算、日期函数、条件函数和字符串函数的语法与使用示例详解
9、hive的explode、Lateral View侧视图、聚合函数、窗口函数、抽样函数使用详解
10、hive综合示例：数据多分隔符（正则RegexSerDe）、url解析、行列转换常用函数（case when、union、concat和explode）详细使用示例
11、hive综合应用示例：json解析、窗口函数应用（连续登录、级联累加、topN）、拉链表应用
12、Hive优化-文件存储格式和压缩格式优化与job执行优化（执行计划、MR属性、join、优化器、谓词下推和数据倾斜优化）详细介绍及示例
13、java api访问hive操作示例

文章目录

Apache Hive 系列文章
一、解析JSON的常用函数及JSONSerde
- 1、两种处理方式
- 2、get_json_object
- - 1）、语法
  - 2）、示例
- 3、json_tuple
- - 1）、语法
  - 2）、示例
- 4、JSONSerde
二、窗口函数的实际应用场景
- 1、示例-连续登录用户
- - 1）、方案一：表中的数据自连接，构建笛卡尔积
  - 2）、方案二：使用窗口函数来实现
  - - 1、窗口函数lead
    - 2、实现
- 2、示例-级联累加求和
- - 1）、方案一：非窗口函数实现
  - 2）、方案二：窗口函数实现
  - - 1、窗口函数sum
    - 2、示例
- 3、示例-topN
三、拉链表的功能应用场景及使用
- 1、方案一：直接更新hive中的数据
- 2、方案二：按天快照全量数据表
- 3、方案三：通过拉链表更新数据
- 4、拉链表设计
- 5、实现步骤
- - 1）、第一次全量同步
  - 2）、增量采集
  - 3）、合并历史拉链表与增量表数据
  - 4）、将合并后的数据覆盖原拉链表中
- 6、拉链表实现示例
- - 1）、创建拉链表
  - 2）、模拟增量数据采集
  - 3）、创建临时表
  - 4）、合并历史拉链表与增量表
  - 5）、覆盖到拉链表中

本文介绍了hive关于json解析、窗口函数的几个应用以及拉链表的具体应用示例。
本文分为三个部分，即json解析、窗口函数常见的应用场景、拉链表的应用示例。
本文前提是hive环境可用。
本文部分数据来源于互联网。

一、解析JSON的常用函数及JSONSerde

1、两种处理方式

Hive中为了实现JSON格式的数据解析，提供了两种解析JSON数据的方式，在实际工作场景下，可以根据不同数据，不同的需求来选择合适的方式对JSON格式数据进行处理。

2、get_json_object

用于解析JSON字符串，可以从JSON字符串中返回指定的某个对象列的值

1）、语法

nget_json_object(json_txt, path) - Extract a json object from path

#第一个参数：指定要解析的JSON字符串
#第二个参数：指定要返回的字段，通过$.columnName的方式来指定path
#每次只能返回JSON对象中一列的值

2）、示例

create table tb_json_test1 (
    json string
);
--加载数据
load data local inpath '/usr/local/bigdata/device.json' into table tb_json_test1;

select * from tb_json_test1;
0: jdbc:hive2://server4:10000> select * from tb_json_test1;
+----------------------------------------------------+
|                 tb_json_test1.json                 |
+----------------------------------------------------+
| {"device":"device_30","deviceType":"kafka","signal":98.0,"time":1616817201390} |
| {"device":"device_40","deviceType":"route","signal":99.0,"time":1616817201887} |
| {"device":"device_21","deviceType":"bigdata","signal":77.0,"time":1616817202142} |
| {"device":"device_31","deviceType":"kafka","signal":98.0,"time":1616817202405} |
| {"device":"device_20","deviceType":"bigdata","signal":12.0,"time":1616817202513} |
| {"device":"device_54","deviceType":"bigdata","signal":14.0,"time":1616817202913} |
。。。
+----------------------------------------------------+

select
    --获取设备名称
    get_json_object(json,"$.device") as device,
    --获取设备类型
    get_json_object(json,"$.deviceType") as deviceType,
    --获取设备信号强度
    get_json_object(json,"$.signal") as signal,
    --获取时间
    get_json_object(json,"$.time") as stime
from tb_json_test1;

0: jdbc:hive2://server4:10000> select
. . . . . . . . . . . . . . .>     --获取设备名称
. . . . . . . . . . . . . . .>     get_json_object(json,"$.device") as device,
. . . . . . . . . . . . . . .>     --获取设备类型
. . . . . . . . . . . . . . .>     get_json_object(json,"$.deviceType") as deviceType,
. . . . . . . . . . . . . . .>     --获取设备信号强度
. . . . . . . . . . . . . . .>     get_json_object(json,"$.signal") as signal,
. . . . . . . . . . . . . . .>     --获取时间
. . . . . . . . . . . . . . .>     get_json_object(json,"$.time") as stime
. . . . . . . . . . . . . . .> from tb_json_test1;
+------------+-------------+---------+----------------+
|   device   | devicetype  | signal  |     stime      |
+------------+-------------+---------+----------------+
| device_30  | kafka       | 98.0    | 1616817201390  |
| device_40  | route       | 99.0    | 1616817201887  |
| device_21  | bigdata     | 77.0    | 1616817202142  |
| device_31  | kafka       | 98.0    | 1616817202405  |
。。。
+------------+-------------+---------+----------------+

3、json_tuple

用于实现JSON字符串的解析，可以通过指定多个参数来解析JSON返回多列的值

1）、语法

njson_tuple(jsonStr, p1, p2, ..., pn)   like get_json_object, but it takes multiple names and return a tuple
# 第一个参数：指定要解析的JSON字符串
# 第二个参数：指定要返回的第1个字段
# ……
# 第N+1个参数：指定要返回的第N个字段
# 功能类似于get_json_object，但是可以调用一次返回多列的值，属于UDTF类型函数，一般搭配lateral view使用
# 返回的每一列都是字符串类型

2）、示例

--单独使用
select
    --解析所有字段
    json_tuple(json,"device","deviceType","signal","time") as (device,deviceType,signal,stime)
from tb_json_test1;
0: jdbc:hive2://server4:10000> select
. . . . . . . . . . . . . . .>     --解析所有字段
. . . . . . . . . . . . . . .>     json_tuple(json,"device","deviceType","signal","time") as (device,deviceType,signal,stime)
. . . . . . . . . . . . . . .> from tb_json_test1;
+------------+-------------+---------+----------------+
|   device   | devicetype  | signal  |     stime      |
+------------+-------------+---------+----------------+
| device_30  | kafka       | 98.0    | 1616817201390  |
| device_40  | route       | 99.0    | 1616817201887  |
| device_21  | bigdata     | 77.0    | 1616817202142  |
| device_31  | kafka       | 98.0    | 1616817202405  |
| device_20  | bigdata     | 12.0    | 1616817202513  |
。。。

--搭配侧视图使用
select json,
  device,deviceType,signal,stime
from tb_json_test1
lateral view json_tuple(json,"device","deviceType","signal","time") b as device,deviceType,signal,stime;
0: jdbc:hive2://server4:10000> select json,
. . . . . . . . . . . . . . .>   device,deviceType,signal,stime
. . . . . . . . . . . . . . .> from tb_json_test1
. . . . . . . . . . . . . . .> lateral view json_tuple(json,"device","deviceType","signal","time") b as device,deviceType,signal,stime;
+----------------------------------------------------+------------+-------------+---------+----------------+
|                        json                        |   device   | devicetype  | signal  |     stime      |
+----------------------------------------------------+------------+-------------+---------+----------------+
| {"device":"device_30","deviceType":"kafka","signal":98.0,"time":1616817201390} | device_30  | kafka       | 98.0    | 1616817201390  |
| {"device":"device_40","deviceType":"route","signal":99.0,"time":1616817201887} | device_40  | route       | 99.0    | 1616817201887  |
| {"device":"device_21","deviceType":"bigdata","signal":77.0,"time":1616817202142} | device_21  | bigdata     | 77.0    | 1616817202142  |
。。。

4、JSONSerde

上述解析JSON的过程中是将数据作为一个JSON字符串加载到表中，再通过JSON解析函数对JSON字符串进行解析，灵活性比较高，但是对于如果整个文件就是一个JSON文件，在使用起来就相对比较麻烦。
Hive中为了简化对于JSON文件的处理，内置了一种专门用于解析JSON文件的Serde解析器，在创建表时，只要指定使用JSONSerde解析表的文件，就会自动将JSON文件中的每一列进行解析。

--JsonSerDe
--创建表
create table tb_json_test2 (
    device string,
    deviceType string,
    signal double,
    `time` string
)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
STORED AS TEXTFILE;

load data local inpath '/usr/local/bigdata/device.json' into table tb_json_test2;

select * from tb_json_test2;
0: jdbc:hive2://server4:10000> create table tb_json_test2 (
. . . . . . . . . . . . . . .>     device string,
. . . . . . . . . . . . . . .>     deviceType string,
. . . . . . . . . . . . . . .>     signal double,
. . . . . . . . . . . . . . .>     `time` string
. . . . . . . . . . . . . . .> )
. . . . . . . . . . . . . . .> ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe'
. . . . . . . . . . . . . . .> STORED AS TEXTFILE;
No rows affected (0.063 seconds)
0: jdbc:hive2://server4:10000> select * from  tb_json_test2;
+-----------------------+---------------------------+-----------------------+---------------------+
| tb_json_test2.device  | tb_json_test2.devicetype  | tb_json_test2.signal  | tb_json_test2.time  |
+-----------------------+---------------------------+-----------------------+---------------------+
| device_30             | kafka                     | 98.0                  | 1616817201390       |
| device_40             | route                     | 99.0                  | 1616817201887       |
| device_21             | bigdata                   | 77.0                  | 1616817202142       |
| device_31             | kafka                     | 98.0                  | 1616817202405       |
| device_20             | bigdata                   | 12.0                  | 1616817202513       |

二、窗口函数的实际应用场景

1、示例-连续登录用户

基于以上的需求根据数据寻找规律，要想得到连续登录用户，找到两个相同用户ID的行之间登录日期之间的关系。
例如：统计连续登录两天的用户，只要用户ID相等，并且登录日期之间相差1天即可。

1）、方案一：表中的数据自连接，构建笛卡尔积

--1、连续登录用户
--建表
create table tb_login(
     userid string,
     logintime string
) 
row format delimited fields terminated by '\t';

load data local inpath '/usr/local/bigdata/login.log' into table tb_login;

select * from tb_login;
0: jdbc:hive2://server4:10000> select * from tb_login;
+------------------+---------------------+
| tb_login.userid  | tb_login.logintime  |
+------------------+---------------------+
| A                | 2021-03-22          |
| B                | 2021-03-22          |
| C                | 2021-03-22          |
| A                | 2021-03-23          |
| C                | 2021-03-23          |
| A                | 2021-03-24          |
| B                | 2021-03-24          |
+------------------+---------------------+

--自连接过滤实现
--a.构建笛卡尔积
select
    a.userid as a_userid,
    a.logintime as a_logintime,
    b.userid as b_userid,
    b.logintime as b_logintime
from tb_login a,tb_login b;

--上述查询结果保存为临时表
create table tb_login_tmp as
select
    a.userid as a_userid,
    a.logintime as a_logintime,
    b.userid as b_userid,
    b.logintime as b_logintime
from tb_login a,tb_login b;

--过滤数据：用户id相同并且登录日期相差1
select
    a_userid,a_logintime,b_userid,b_logintime
from tb_login_tmp
where a_userid = b_userid
  and cast(substr(a_logintime,9,2) as int) - 1 = cast(substr(b_logintime,9,2) as int);
0: jdbc:hive2://server4:10000> select
. . . . . . . . . . . . . . .>     a_userid,a_logintime,b_userid,b_logintime
. . . . . . . . . . . . . . .> from tb_login_tmp
. . . . . . . . . . . . . . .> where a_userid = b_userid
. . . . . . . . . . . . . . .>   and cast(substr(a_logintime,9,2) as int) - 1 = cast(substr(b_logintime,9,2) as int);
+-----------+--------------+-----------+--------------+
| a_userid  | a_logintime  | b_userid  | b_logintime  |
+-----------+--------------+-----------+--------------+
| A         | 2021-03-23   | A         | 2021-03-22   |
| C         | 2021-03-23   | C         | 2021-03-22   |
| A         | 2021-03-24   | A         | 2021-03-23   |
+-----------+--------------+-----------+--------------+
--统计连续两天登录用户
select
    distinct a_userid
from tb_login_tmp
where a_userid = b_userid
  and cast(substr(a_logintime,9,2) as int) - 1 = cast(substr(b_logintime,9,2) as int);

2）、方案二：使用窗口函数来实现

1、窗口函数lead

用于从当前数据中基于当前行的数据向后偏移取值

--语法
lead(colName，N，defautValue)
--colName：取哪一列的值
--N：向后偏移N行
--defaultValue：如果取不到返回的默认值

2、实现

基于用户的登录信息：
连续两天登录：用户下次登录时间 = 本次登录以后的第二天
连续三天登录：用户下下次登录时间 = 本次登录以后的第三天
……
可以对用户ID进行分区，按照登录时间进行排序，通过lead函数计算出用户下次登录时间
通过日期函数计算出登录以后第二天的日期，如果相等即为连续两天登录。

----窗口函数实现

--实现连续登录2天
with t1 as (
    select
        userid,
        logintime,
        --本次登录日期的第二天
        date_add(logintime,1) as nextday,
        --按照用户id分区，按照登录日期排序，取下一次登录时间，取不到就为0
        lead(logintime,1,0) over (partition by userid order by logintime) as nextlogin
    from tb_login )
select distinct userid from t1 where nextday = nextlogin;
0: jdbc:hive2://server4:10000> with t1 as (
. . . . . . . . . . . . . . .>     select
. . . . . . . . . . . . . . .>         userid,
. . . . . . . . . . . . . . .>         logintime,
. . . . . . . . . . . . . . .>         --本次登录日期的第二天
. . . . . . . . . . . . . . .>         date_add(logintime,1) as nextday,
. . . . . . . . . . . . . . .>         --按照用户id分区，按照登录日期排序，取下一次登录时间，取不到就为0
. . . . . . . . . . . . . . .>         lead(logintime,1,0) over (partition by userid order by logintime) as nextlogin
. . . . . . . . . . . . . . .>     from tb_login )
. . . . . . . . . . . . . . .> select distinct userid from t1 where nextday = nextlogin;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+---------+
| userid  |
+---------+
| A       |
| C       |
+---------+

--实现连续3天登录
with t1 as (
    select
        userid,
        logintime,
        --本次登录日期的第三天
        date_add(logintime,2) as nextday,
        --按照用户id分区，按照登录日期排序，取下下一次登录时间，取不到就为0
        lead(logintime,2,0) over (partition by userid order by logintime) as nextlogin
    from tb_login )
select distinct userid from t1 where nextday = nextlogin;
0: jdbc:hive2://server4:10000> with t1 as (
. . . . . . . . . . . . . . .>     select
. . . . . . . . . . . . . . .>         userid,
. . . . . . . . . . . . . . .>         logintime,
. . . . . . . . . . . . . . .>         --本次登录日期的第三天
. . . . . . . . . . . . . . .>         date_add(logintime,2) as nextday,
. . . . . . . . . . . . . . .>         --按照用户id分区，按照登录日期排序，取下下一次登录时间，取不到就为0
. . . . . . . . . . . . . . .>         lead(logintime,2,0) over (partition by userid order by logintime) as nextlogin
. . . . . . . . . . . . . . .>     from tb_login )
. . . . . . . . . . . . . . .> select distinct userid from t1 where nextday = nextlogin;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+---------+
| userid  |
+---------+
| A       |
+---------+

--实现连续N天
select
    userid,
    logintime,
    --本次登录日期的第N天
    date_add(logintime,N-1) as nextday,
    --按照用户id分区，按照登录日期排序，取下下一次登录时间，取不到就为0
    lead(logintime,N-1,0) over (partition by userid order by logintime) as nextlogin
from tb_login;

2、示例-级联累加求和

1）、方案一：非窗口函数实现

分组统计每个用户每个月的消费金额，然后构建自连接，根据条件分组聚合

--1、建表加载数据
create table tb_money(
     userid string,
     mth string,
     money int
) 
row format delimited fields terminated by '\t';

load data local inpath '/usr/local/bigdata/money.tsv' into table tb_money;

select * from tb_money;
0: jdbc:hive2://server4:10000> select * from tb_money;
+------------------+---------------+-----------------+
| tb_money.userid  | tb_money.mth  | tb_money.money  |
+------------------+---------------+-----------------+
| A                | 2021-01       | 5               |
| A                | 2021-01       | 15              |
| B                | 2021-01       | 5               |
| A                | 2021-01       | 8               |
| B                | 2021-01       | 25              |
| A                | 2021-01       | 5               |
| A                | 2021-02       | 4               |
| A                | 2021-02       | 6               |
| B                | 2021-02       | 10              |
| B                | 2021-02       | 5               |
| A                | 2021-03       | 7               |
| B                | 2021-03       | 9               |
| A                | 2021-03       | 11              |
| B                | 2021-03       | 6               |
+------------------+---------------+-----------------+

--2、统计得到每个用户每个月的消费总金额
create table tb_money_mtn as
select
    userid,
    mth,
    sum(money) as m_money
from tb_money
group by userid,mth;

select * from tb_money_mtn;

--方案一：自连接分组聚合
--1、基于每个用户每个月的消费总金额进行自连接
select a.*,b.*
from tb_money_mtn a 
join tb_money_mtn b on a.userid = b.userid;

--2、将每个月之前月份的数据过滤出来
select a.*,b.*
from tb_money_mtn a 
join tb_money_mtn b on a.userid = b.userid
where  b.mth <= a.mth;

--3、同一个用户 同一个月的数据分到同一组  再根据用户、月份排序
select
    a.userid,
    a.mth,
       max(a.m_money) as current_mth_money,  --当月花费
       sum(b.m_money) as accumulate_money    --累积花费
from tb_money_mtn a join tb_money_mtn b on a.userid = b.userid
where b.mth <= a.mth
group by a.userid,a.mth
order by a.userid,a.mth;
0: jdbc:hive2://server4:10000> select
. . . . . . . . . . . . . . .>     a.userid,
. . . . . . . . . . . . . . .>     a.mth,
. . . . . . . . . . . . . . .>        max(a.m_money) as current_mth_money,  --当月花费
. . . . . . . . . . . . . . .>        sum(b.m_money) as accumulate_money    --累积花费
. . . . . . . . . . . . . . .> from tb_money_mtn a join tb_money_mtn b on a.userid = b.userid
. . . . . . . . . . . . . . .> where b.mth <= a.mth
. . . . . . . . . . . . . . .> group by a.userid,a.mth
. . . . . . . . . . . . . . .> order by a.userid,a.mth;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+-----------+----------+--------------------+-------------------+
| a.userid  |  a.mth   | current_mth_money  | accumulate_money  |
+-----------+----------+--------------------+-------------------+
| A         | 2021-01  | 33                 | 33                |
| A         | 2021-02  | 10                 | 43                |
| A         | 2021-03  | 18                 | 61                |
| B         | 2021-01  | 30                 | 30                |
| B         | 2021-02  | 15                 | 45                |
| B         | 2021-03  | 15                 | 60                |
+-----------+----------+--------------------+-------------------+

2）、方案二：窗口函数实现

分组统计每个用户每个月的消费金额，然后使用窗口聚合函数实现

1、窗口函数sum

用于实现基于窗口的数据求和

--语法
sum(colName) over (partition by col order by col)
--colName：对某一列的值进行求和

2、示例

基于每个用户每个月的消费金额，可以通过窗口函数对用户进行分区，按照月份排序
然后基于聚合窗口，从每个分区的第一行累加到当前和，即可得到累计消费金额。

--方案二：窗口函数实现
--统计每个用户每个月消费金额及累计总金额
select
    userid,
    mth,
    m_money,
    sum(m_money) over (partition by userid order by mth) as t_money
from tb_money_mtn;
0: jdbc:hive2://server4:10000> select
. . . . . . . . . . . . . . .>     userid,
. . . . . . . . . . . . . . .>     mth,
. . . . . . . . . . . . . . .>     m_money,
. . . . . . . . . . . . . . .>     sum(m_money) over (partition by userid order by mth) as t_money
. . . . . . . . . . . . . . .> from tb_money_mtn;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+---------+----------+----------+----------+
| userid  |   mth    | m_money  | t_money  |
+---------+----------+----------+----------+
| A       | 2021-01  | 33       | 33       |
| A       | 2021-02  | 10       | 43       |
| A       | 2021-03  | 18       | 61       |
| B       | 2021-01  | 30       | 30       |
| B       | 2021-02  | 15       | 45       |
| B       | 2021-03  | 15       | 60       |
+---------+----------+----------+----------+

--实现近几个月的累计消费金额
select
    userid,
    mth,
    m_money,
    sum(m_money) over (partition by userid order by mth rows between 1 preceding and 2 following) as t_money
from tb_money_mtn;

0: jdbc:hive2://server4:10000> select
. . . . . . . . . . . . . . .>     userid,
. . . . . . . . . . . . . . .>     mth,
. . . . . . . . . . . . . . .>     m_money,
. . . . . . . . . . . . . . .>     sum(m_money) over (partition by userid order by mth rows between 1 preceding and 2 following) as t_money
. . . . . . . . . . . . . . .> from tb_money_mtn;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+---------+----------+----------+----------+
| userid  |   mth    | m_money  | t_money  |
+---------+----------+----------+----------+
| A       | 2021-01  | 33       | 61       |
| A       | 2021-02  | 10       | 61       |
| A       | 2021-03  | 18       | 28       |
| B       | 2021-01  | 30       | 60       |
| B       | 2021-02  | 15       | 60       |
| B       | 2021-03  | 15       | 30       |
+---------+----------+----------+----------+

3、示例-topN

TopN函数：row_number、rank、dense_rank
row_number：对每个分区的数据进行编号，如果值相同，继续编号
rank：对每个分区的数据进行编号，如果值相同，编号相同，但留下空位
dense_rank：对每个分区的数据进行编号，如果值相同，编号相同，不留下空位
基于row_number实现，按照部门分区，每个部门内部按照薪水降序排序

--3、分组TopN问题
--建表加载数据

create table tb_emp(
    empno string,
    ename string,
    job string,
    managerid string,
    hiredate string,
    salary double,
    bonus double,
    deptno string
) 
row format delimited fields terminated by '\t';

load data local inpath '/usr/local/bigdata/emp.txt' into table tb_emp;

select * from tb_emp;
0: jdbc:hive2://server4:10000> select * from tb_emp;
+---------------+---------------+-------------+-------------------+------------------+----------------+---------------+----------------+
| tb_emp.empno  | tb_emp.ename  | tb_emp.job  | tb_emp.managerid  | tb_emp.hiredate  | tb_emp.salary  | tb_emp.bonus  | tb_emp.deptno  |
+---------------+---------------+-------------+-------------------+------------------+----------------+---------------+----------------+
| 7369          | SMITH         | CLERK       | 7902              | 1980-12-17       | 800.0          | NULL          | 20             |
| 7499          | ALLEN         | SALESMAN    | 7698              | 1981-2-20        | 1600.0         | 300.0         | 30             |
| 7521          | WARD          | SALESMAN    | 7698              | 1981-2-22        | 1250.0         | 500.0         | 30             |
| 7566          | JONES         | MANAGER     | 7839              | 1981-4-2         | 2975.0         | NULL          | 20             |
| 7654          | MARTIN        | SALESMAN    | 7698              | 1981-9-28        | 1250.0         | 1400.0        | 30             |
| 7698          | BLAKE         | MANAGER     | 7839              | 1981-5-1         | 2850.0         | NULL          | 30             |
| 7782          | CLARK         | MANAGER     | 7839              | 1981-6-9         | 2450.0         | NULL          | 10             |
| 7788          | SCOTT         | ANALYST     | 7566              | 1987-4-19        | 3000.0         | NULL          | 20             |
| 7839          | KING          | PRESIDENT   |                   | 1981-11-17       | 5000.0         | NULL          | 10             |
| 7844          | TURNER        | SALESMAN    | 7698              | 1981-9-8         | 1500.0         | 0.0           | 30             |
| 7876          | ADAMS         | CLERK       | 7788              | 1987-5-23        | 1100.0         | NULL          | 20             |
| 7900          | JAMES         | CLERK       | 7698              | 1981-12-3        | 950.0          | NULL          | 30             |
| 7902          | FORD          | ANALYST     | 7566              | 1981-12-3        | 3000.0         | NULL          | 20             |
| 7934          | MILLER        | CLERK       | 7782              | 1982-1-23        | 1300.0         | NULL          | 10             |
+---------------+---------------+-------------+-------------------+------------------+----------------+---------------+----------------+

--基于row_number实现，按照部门分区，每个部门内部按照薪水降序排序
select
    empno,
    ename,
    salary,
    deptno,
    row_number() over (partition by deptno order by salary desc) as rn
from tb_emp;
0: jdbc:hive2://server4:10000> select
. . . . . . . . . . . . . . .>     empno,
. . . . . . . . . . . . . . .>     ename,
. . . . . . . . . . . . . . .>     salary,
. . . . . . . . . . . . . . .>     deptno,
. . . . . . . . . . . . . . .>     row_number() over (partition by deptno order by salary desc) as rn
. . . . . . . . . . . . . . .> from tb_emp;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
+--------+---------+---------+---------+-----+
| empno  |  ename  | salary  | deptno  | rn  |
+--------+---------+---------+---------+-----+
| 7839   | KING    | 5000.0  | 10      | 1   |
| 7782   | CLARK   | 2450.0  | 10      | 2   |
| 7934   | MILLER  | 1300.0  | 10      | 3   |
| 7788   | SCOTT   | 3000.0  | 20      | 1   |
| 7902   | FORD    | 3000.0  | 20      | 2   |
| 7566   | JONES   | 2975.0  | 20      | 3   |
| 7876   | ADAMS   | 1100.0  | 20      | 4   |
| 7369   | SMITH   | 800.0   | 20      | 5   |
| 7698   | BLAKE   | 2850.0  | 30      | 1   |
| 7499   | ALLEN   | 1600.0  | 30      | 2   |
| 7844   | TURNER  | 1500.0  | 30      | 3   |
| 7654   | MARTIN  | 1250.0  | 30      | 4   |
| 7521   | WARD    | 1250.0  | 30      | 5   |
| 7900   | JAMES   | 950.0   | 30      | 6   |
+--------+---------+---------+---------+-----+

--过滤每个部门的薪资最高的前两名
with t1 as (
    select
        empno,
        ename,
        salary,
        deptno,
        row_number() over (partition by deptno order by salary desc) as rn
    from tb_emp )
select * from t1 where rn < 3;

三、拉链表的功能应用场景及使用

Hive在实际工作中主要用于构建离线数据仓库，定期的从各种数据源中同步采集数据到Hive中，经过分层转换提供数据应用。
例如每天需要从RMDB中同步最新的订单信息、用户信息、店铺信息等到数据仓库中，进行订单分析、用户分析。如果同步后的数据发送了变化，一般的解决办法如下。

1、方案一：直接更新hive中的数据

在Hive中直接更新数据，即覆盖原来已经存在的数据。

2、方案二：按天快照全量数据表

每次数据改变，根据日期构建一份全量的快照表，每天一张表

3、方案三：通过拉链表更新数据

构建拉链表，通过时间标记发生变化的数据的每种状态的时间周期

4、拉链表设计

拉链表的设计是将更新的数据进行状态记录，没有发生更新的数据不进行状态存储，用于存储所有数据在不同时间上的所有状态，通过时间进行标记每个状态的生命周期，查询时，根据需求可以获取指定时间范围状态的数据，默认用9999-12-31等最大值来表示最新状态。示例如下：

5、实现步骤

为方便说明下面的步骤，现定义如下：
dw_zipper：拉链表，最终用于数据分析的表
ods_zipper_update：增量表，过程性表，用完后一般而言会清空（overwrite）方便下一次使用
tmp_zipper：拉链临时表，即原历史拉链表与增量表合并后的数据表，过程性表，一般而言用完后会清空（overwrite），方便下一次使用

1）、第一次全量同步

一般而言，系统上线后，第一次全量同步至拉链表dw_zipper中。

2）、增量采集

按照采集的频率，存储于增量表ods_zipper_update。使用完后会清空。

3）、合并历史拉链表与增量表数据

将dw_zipper和ods_zipper_update合并至tmp_zipper中，该步骤会比较耗时。
示例：

--合并拉链表与增量表
insert overwrite table tmp_zipper
select
    userid,
    phone,
    nick,
    gender,
    addr,
    starttime,
    endtime
from ods_zipper_update
union all
--查询原来拉链表的所有数据，并将这次需要更新的数据的endTime更改为更新值的startTime
select
    a.userid,
    a.phone,
    a.nick,
    a.gender,
    a.addr,
    a.starttime,
    --如果这条数据没有更新或者这条数据不是要更改的数据，就保留原来的值，否则就改为新数据的开始时间-1
    if(b.userid is null or a.endtime < '9999-12-31', a.endtime , date_sub(b.starttime,1)) as endtime
from dw_zipper a  
left join ods_zipper_update b on a.userid = b.userid ;

4）、将合并后的数据覆盖原拉链表中

insert overwrite table dw_zipper
select * from tmp_zipper;

6、拉链表实现示例

1）、创建拉链表

--1、建表加载数据
--创建拉链表
create table dw_zipper(
    userid string,
    phone string,
    nick string,
    gender int,
    addr string,
    starttime string,
    endtime string
) 
row format delimited fields terminated by '\t';

--加载模拟数据
load data local inpath '/root/hivedata/zipper.txt' into table dw_zipper;
--查询
select userid,nick,addr,starttime,endtime from dw_zipper;
0: jdbc:hive2://server4:10000> select * from dw_zipper;
+-------------------+------------------+-----------------+-------------------+-----------------+----------------------+--------------------+
| dw_zipper.userid  | dw_zipper.phone  | dw_zipper.nick  | dw_zipper.gender  | dw_zipper.addr  | dw_zipper.starttime  | dw_zipper.endtime  |
+-------------------+------------------+-----------------+-------------------+-----------------+----------------------+--------------------+
| 001               | 186xxxx1234      | laoda           | 0                 | sh              | 2021-01-01           | 9999-12-31         |
| 002               | 186xxxx1235      | laoer           | 1                 | bj              | 2021-01-01           | 9999-12-31         |
| 003               | 186xxxx1236      | laosan          | 0                 | sz              | 2021-01-01           | 9999-12-31         |
| 004               | 186xxxx1237      | laosi           | 1                 | gz              | 2021-01-01           | 9999-12-31         |
| 005               | 186xxxx1238      | laowu           | 0                 | sh              | 2021-01-01           | 9999-12-31         |
| 006               | 186xxxx1239      | laoliu          | 1                 | bj              | 2021-01-01           | 9999-12-31         |
| 007               | 186xxxx1240      | laoqi           | 0                 | sz              | 2021-01-01           | 9999-12-31         |
| 008               | 186xxxx1241      | laoba           | 1                 | gz              | 2021-01-01           | 9999-12-31         |
| 009               | 186xxxx1242      | laojiu          | 0                 | sh              | 2021-01-01           | 9999-12-31         |
| 010               | 186xxxx1243      | laoshi          | 1                 | bj              | 2021-01-01           | 9999-12-31         |
+-------------------+------------------+-----------------+-------------------+-----------------+----------------------+--------------------+

2）、模拟增量数据采集

--创建ods层增量表 加载数据
create table ods_zipper_update(
    userid string,
    phone string,
    nick string,
    gender int,
    addr string,
    starttime string,
    endtime string
) 
row format delimited fields terminated by '\t';

load data local inpath '/usr/local/bigdata/update.txt' into table ods_zipper_update;

select * from ods_zipper_update;
0: jdbc:hive2://server4:10000> select
. . . . . . . . . . . . . . .>     userid,
. . . . . . . . . . . . . . .>     phone,
. . . . . . . . . . . . . . .>     nick,
. . . . . . . . . . . . . . .>     gender,
. . . . . . . . . . . . . . .>     addr,
. . . . . . . . . . . . . . .>     starttime,
. . . . . . . . . . . . . . .>     endtime
. . . . . . . . . . . . . . .> from ods_zipper_update;
+---------+--------------+---------+---------+-------+-------------+-------------+
| userid  |    phone     |  nick   | gender  | addr  |  starttime  |   endtime   |
+---------+--------------+---------+---------+-------+-------------+-------------+
| 008     | 186xxxx1241  | laoba   | 1       | sh    | 2021-01-02  | 9999-12-31  |
| 011     | 186xxxx1244  | laoshi  | 1       | jx    | 2021-01-02  | 9999-12-31  |
| 012     | 186xxxx1245  | laoshi  | 0       | zj    | 2021-01-02  | 9999-12-31  |
+---------+--------------+---------+---------+-------+-------------+-------------+

3）、创建临时表

--创建临时表
create table tmp_zipper(
    userid string,
    phone string,
    nick string,
    gender int,
    addr string,
    starttime string,
    endtime string
) 
row format delimited fields terminated by '\t';

4）、合并历史拉链表与增量表

--合并拉链表与增量表
insert overwrite table tmp_zipper
select
    userid,
    phone,
    nick,
    gender,
    addr,
    starttime,
    endtime
from ods_zipper_update
union all
--查询原来拉链表的所有数据，并将这次需要更新的数据的endTime更改为更新值的startTime
select
    a.userid,
    a.phone,
    a.nick,
    a.gender,
    a.addr,
    a.starttime,
    --如果这条数据没有更新或者这条数据不是要更改的数据，就保留原来的值，否则就改为新数据的开始时间-1
    if(b.userid is null or a.endtime < '9999-12-31', a.endtime , date_sub(b.starttime,1)) as endtime
from dw_zipper a  
left join ods_zipper_update b on a.userid = b.userid ;

0: jdbc:hive2://server4:10000> insert overwrite table tmp_zipper
. . . . . . . . . . . . . . .> select
. . . . . . . . . . . . . . .>     userid,
. . . . . . . . . . . . . . .>     phone,
. . . . . . . . . . . . . . .>     nick,
. . . . . . . . . . . . . . .>     gender,
. . . . . . . . . . . . . . .>     addr,
. . . . . . . . . . . . . . .>     starttime,
. . . . . . . . . . . . . . .>     endtime
. . . . . . . . . . . . . . .> from ods_zipper_update
. . . . . . . . . . . . . . .> union all
. . . . . . . . . . . . . . .> --查询原来拉链表的所有数据，并将这次需要更新的数据的endTime更改为更新值的startTime
. . . . . . . . . . . . . . .> select
. . . . . . . . . . . . . . .>     a.userid,
. . . . . . . . . . . . . . .>     a.phone,
. . . . . . . . . . . . . . .>     a.nick,
. . . . . . . . . . . . . . .>     a.gender,
. . . . . . . . . . . . . . .>     a.addr,
. . . . . . . . . . . . . . .>     a.starttime,
. . . . . . . . . . . . . . .>     --如果这条数据没有更新或者这条数据不是要更改的数据，就保留原来的值，否则就改为新数据的开始时间-1(因为是每天同步，所以更改发生在上一天)
. . . . . . . . . . . . . . .>     if(b.userid is null or a.endtime < '9999-12-31', a.endtime , date_sub(b.starttime,1)) as endtime
. . . . . . . . . . . . . . .> from dw_zipper a  
. . . . . . . . . . . . . . .> left join ods_zipper_update b on a.userid = b.userid ;
WARN  : Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
No rows affected (121.538 seconds)
0: jdbc:hive2://server4:10000> select * from table tmp_zipper;
Error: Error while compiling statement: FAILED: ParseException line 1:20 mismatched input 'tmp_zipper' expecting ( near 'table' in virtual table source (state=42000,code=40000)
0: jdbc:hive2://server4:10000> select * from tmp_zipper;
+--------------------+-------------------+------------------+--------------------+------------------+-----------------------+---------------------+
| tmp_zipper.userid  | tmp_zipper.phone  | tmp_zipper.nick  | tmp_zipper.gender  | tmp_zipper.addr  | tmp_zipper.starttime  | tmp_zipper.endtime  |
+--------------------+-------------------+------------------+--------------------+------------------+-----------------------+---------------------+
| 001                | 186xxxx1234       | laoda            | 0                  | sh               | 2021-01-01            | 9999-12-31          |
| 002                | 186xxxx1235       | laoer            | 1                  | bj               | 2021-01-01            | 9999-12-31          |
| 003                | 186xxxx1236       | laosan           | 0                  | sz               | 2021-01-01            | 9999-12-31          |
| 004                | 186xxxx1237       | laosi            | 1                  | gz               | 2021-01-01            | 9999-12-31          |
| 005                | 186xxxx1238       | laowu            | 0                  | sh               | 2021-01-01            | 9999-12-31          |
| 006                | 186xxxx1239       | laoliu           | 1                  | bj               | 2021-01-01            | 9999-12-31          |
| 007                | 186xxxx1240       | laoqi            | 0                  | sz               | 2021-01-01            | 9999-12-31          |
| 008                | 186xxxx1241       | laoba            | 1                  | gz               | 2021-01-01            | 2021-01-01          |
| 009                | 186xxxx1242       | laojiu           | 0                  | sh               | 2021-01-01            | 9999-12-31          |
| 010                | 186xxxx1243       | laoshi           | 1                  | bj               | 2021-01-01            | 9999-12-31          |
| 008                | 186xxxx1241       | laoba            | 1                  | sh               | 2021-01-02            | 9999-12-31          |
| 011                | 186xxxx1244       | laoshi           | 1                  | jx               | 2021-01-02            | 9999-12-31          |
| 012                | 186xxxx1245       | laoshi           | 0                  | zj               | 2021-01-02            | 9999-12-31          |
+--------------------+-------------------+------------------+--------------------+------------------+-----------------------+---------------------+

5）、覆盖到拉链表中

--覆盖拉链表
insert overwrite table dw_zipper
select * from tmp_zipper;

0: jdbc:hive2://server4:10000> select * from dw_zipper;
+-------------------+------------------+-----------------+-------------------+-----------------+----------------------+--------------------+
| dw_zipper.userid  | dw_zipper.phone  | dw_zipper.nick  | dw_zipper.gender  | dw_zipper.addr  | dw_zipper.starttime  | dw_zipper.endtime  |
+-------------------+------------------+-----------------+-------------------+-----------------+----------------------+--------------------+
| 001               | 186xxxx1234      | laoda           | 0                 | sh              | 2021-01-01           | 9999-12-31         |
| 002               | 186xxxx1235      | laoer           | 1                 | bj              | 2021-01-01           | 9999-12-31         |
| 003               | 186xxxx1236      | laosan          | 0                 | sz              | 2021-01-01           | 9999-12-31         |
| 004               | 186xxxx1237      | laosi           | 1                 | gz              | 2021-01-01           | 9999-12-31         |
| 005               | 186xxxx1238      | laowu           | 0                 | sh              | 2021-01-01           | 9999-12-31         |
| 006               | 186xxxx1239      | laoliu          | 1                 | bj              | 2021-01-01           | 9999-12-31         |
| 007               | 186xxxx1240      | laoqi           | 0                 | sz              | 2021-01-01           | 9999-12-31         |
| 008               | 186xxxx1241      | laoba           | 1                 | gz              | 2021-01-01           | 2021-01-01         |
| 009               | 186xxxx1242      | laojiu          | 0                 | sh              | 2021-01-01           | 9999-12-31         |
| 010               | 186xxxx1243      | laoshi          | 1                 | bj              | 2021-01-01           | 9999-12-31         |
| 008               | 186xxxx1241      | laoba           | 1                 | sh              | 2021-01-02           | 9999-12-31         |
| 011               | 186xxxx1244      | laoshi          | 1                 | jx              | 2021-01-02           | 9999-12-31         |
| 012               | 186xxxx1245      | laoshi          | 0                 | zj              | 2021-01-02           | 9999-12-31         |
+-------------------+------------------+-----------------+-------------------+-----------------+----------------------+--------------------+

以上，介绍了hive关于json解析、窗口函数的几个应用以及拉链表的具体应用示例。

你可能感兴趣的:(#,hive专栏,hive,hadoop,大数据,数据分析,数据仓库)

基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
2025.07.09华为机考真题解析-第一题100分春秋招笔试突围最新互联网春秋招试题合集华为
点击直达笔试专栏《大厂笔试突围》春秋招笔试突围在线OJ笔试突围OJ01.花园灯具照明设计问题描述K小姐正在为她的私人花园设计照明系统。花园是一条长廊，由nnn
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
【Python办公】Excel透视转数据图表(饼状图\柱状图\折线图-可拓展) 小庄-Python办公 Python办公自动化 python excel 开发语言 Excel透视 Excel透视工具 python数据分析数据分析
目录专栏导读前言项目概述技术栈选择核心依赖库核心架构设计类结构设计数据流设计界面设计实现布局结构动态界面更新核心功能实现1.透视表计算2.数据排序功能3.数据可视化4.数据统计功能错误处理和用户体验输入验证异常处理项目亮点和创新点1.灵活的多列组合2.智能数据类型处理3.一体化的数据处理流程4.用户友好的界面设计使用场景扩展建议功能扩展性能优化总结完整代码结尾专栏导读欢迎来到Python办公自动化
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
2025.07.09华为机考真题解析-第二题200分春秋招笔试突围最新互联网春秋招试题合集华为算法
点击直达笔试专栏《大厂笔试突围》春秋招笔试突围在线OJ笔试突围OJ02.地铁线路故障预警系统问题描述LYA负责管理一个城市的地铁网络系统。地铁网络由nnn
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p