小刘新鲜事儿

hive窗口函数练习题

一、第一套练习

需求：
1、求用户明细并统计每天的用户总数
2、计算从第一天到现在的所有 score 大于80分的用户总数
3、计算每个用户到当前日期分数大于80的天数

test_window.txt数据：

20191020,11111,85
20191020,22222,83
20191020,33333,86
20191021,11111,87
20191021,22222,65
20191021,33333,98
20191022,11111,67
20191022,22222,34
20191022,33333,88
20191023,11111,99
20191023,22222,33

建表：

0: jdbc:hive2://hadoop:11240> create table test_window(logday string,userid string,score int)
. . . . . . . . . . . . . . > row format delimited
. . . . . . . . . . . . . . > fields terminated by ',';
0: jdbc:hive2://hadoop:11240> load data local inpath '/home/xiaokang/hivedata/test_window.txt'
. . . . . . . . . . . . . . > into table test_window;
0: jdbc:hive2://hadoop:11240> select * from test_window;
+---------------------+---------------------+--------------------+
| test_window.logday  | test_window.userid  | test_window.score  |
+---------------------+---------------------+--------------------+
| 20191020            | 11111               | 85                 |
| 20191020            | 22222               | 83                 |
| 20191020            | 33333               | 86                 |
| 20191021            | 11111               | 87                 |
| 20191021            | 22222               | 65                 |
| 20191021            | 33333               | 98                 |
| 20191022            | 11111               | 67                 |
| 20191022            | 22222               | 34                 |
| 20191022            | 33333               | 88                 |
| 20191023            | 11111               | 99                 |
| 20191023            | 22222               | 33                 |
+---------------------+---------------------+--------------------+

1、求用户明细并统计每天的用户总数

0: jdbc:hive2://hadoop:11240> select *,count()over(partition by logday)as day_total from test_window;
+---------------------+---------------------+--------------------+------------+
| test_window.logday  | test_window.userid  | test_window.score  | day_total  |
+---------------------+---------------------+--------------------+------------+
| 20191020            | 33333               | 86                 | 3          |
| 20191020            | 22222               | 83                 | 3          |
| 20191020            | 11111               | 85                 | 3          |
| 20191021            | 33333               | 98                 | 3          |
| 20191021            | 22222               | 65                 | 3          |
| 20191021            | 11111               | 87                 | 3          |
| 20191022            | 33333               | 88                 | 3          |
| 20191022            | 22222               | 34                 | 3          |
| 20191022            | 11111               | 67                 | 3          |
| 20191023            | 22222               | 33                 | 2          |
| 20191023            | 11111               | 99                 | 2          |
+---------------------+---------------------+--------------------+------------+

2、计算从第一天到现在的所有 score 大于80分的用户总数

0: jdbc:hive2://hadoop:11240> select *,count()over(order by logday rows between unbounded preceding and current row) as total from test_window where score>80;
+---------------------+---------------------+--------------------+--------+
| test_window.logday  | test_window.userid  | test_window.score  | total  |
+---------------------+---------------------+--------------------+--------+
| 20191020            | 33333               | 86                 | 1      |
| 20191020            | 22222               | 83                 | 2      |
| 20191020            | 11111               | 85                 | 3      |
| 20191021            | 33333               | 98                 | 4      |
| 20191021            | 11111               | 87                 | 5      |
| 20191022            | 33333               | 88                 | 6      |
| 20191023            | 11111               | 99                 | 7      |
+---------------------+---------------------+--------------------+--------+

3、计算每个用户到当前日期分数大于80的天数

0: jdbc:hive2://hadoop:11240> select *,count()over(partition by userid order by logday rows between unbounded preceding and current row) as total
. . . . . . . . . . . . . . > from test_window where score>80 order by logday,userid;
+---------------------+---------------------+--------------------+--------+
| test_window.logday  | test_window.userid  | test_window.score  | total  |
+---------------------+---------------------+--------------------+--------+
| 20191020            | 11111               | 85                 | 1      |
| 20191020            | 22222               | 83                 | 1      |
| 20191020            | 33333               | 86                 | 1      |
| 20191021            | 11111               | 87                 | 2      |
| 20191021            | 33333               | 98                 | 2      |
| 20191022            | 33333               | 88                 | 3      |
| 20191023            | 11111               | 99                 | 3      |
+---------------------+---------------------+--------------------+--------+

二、第二套练习

需求：
1、查询在2017年4月份购买过的顾客及总人数
2、查询顾客的购买明细及月购买总额
3、查询顾客的购买明细及到目前为止每个顾客购买总金额
4、查询顾客上次的购买时间----lag()over()偏移量分析函数的运用

数据：

jack,2017-01-01,10
tony,2017-01-02,15
jack,2017-02-03,23
tony,2017-01-04,29
jack,2017-01-05,46
jack,2017-04-06,42
tony,2017-01-07,50
jack,2017-01-08,55
mart,2017-04-08,62
mart,2017-04-09,68
neil,2017-05-10,12
mart,2017-04-11,75
neil,2017-06-12,80
mart,2017-04-13,94

建表：

0: jdbc:hive2://hadoop:11240> create table business(name string,orderdate string,cost int)
. . . . . . . . . . . . . . > row format delimited
. . . . . . . . . . . . . . > fields terminated by ',';
0: jdbc:hive2://hadoop:11240> load data local inpath "/home/xiaokang/hivedata/business.txt"
. . . . . . . . . . . . . . > into table business;
0: jdbc:hive2://hadoop:11240> select * from business;
+----------------+---------------------+----------------+
| business.name  | business.orderdate  | business.cost  |
+----------------+---------------------+----------------+
| jack           | 2017-01-01          | 10             |
| tony           | 2017-01-02          | 15             |
| jack           | 2017-02-03          | 23             |
| tony           | 2017-01-04          | 29             |
| jack           | 2017-01-05          | 46             |
| jack           | 2017-04-06          | 42             |
| tony           | 2017-01-07          | 50             |
| jack           | 2017-01-08          | 55             |
| mart           | 2017-04-08          | 62             |
| mart           | 2017-04-09          | 68             |
| neil           | 2017-05-10          | 12             |
| mart           | 2017-04-11          | 75             |
| neil           | 2017-06-12          | 80             |
| mart           | 2017-04-13          | 94             |
+----------------+---------------------+----------------+

1、查询在2017年4月份购买过的顾客及总人数

在本例中：

over()必须跟在聚合函数（本例中count()）后面，over()叫做开窗函数。
开窗的意义在于它开了一个窗口，这个窗口叫做数据集。
开窗的作用范围：仅仅是给前面的聚合函数count()使用的
开窗等于开一部分数据集出来
over()中为空，表示对整个数据集开窗

0: jdbc:hive2://hadoop:11240> select name,count(*) over()
. . . . . . . . . . . . . . > from business
. . . . . . . . . . . . . . > where substring(orderdate,1,7)='2017-04'
+-------+-----------------+
| name  | count_window_0  |
+-------+-----------------+
| mart  | 5               |
| mart  | 5               |
| mart  | 5               |
| mart  | 5               |
| jack  | 5               |
+-------+-----------------+

2、查询顾客的购买明细及所有顾客的购买总额
所有人的花费求和

0: jdbc:hive2://hadoop:11240> select *,sum(cost)over() 
. . . . . . . . . . . . . . > from business;
+----------------+---------------------+----------------+---------------+
| business.name  | business.orderdate  | business.cost  | sum_window_0  |
+----------------+---------------------+----------------+---------------+
| mart           | 2017-04-13          | 94             | 661           |
| neil           | 2017-06-12          | 80             | 661           |
| mart           | 2017-04-11          | 75             | 661           |
| neil           | 2017-05-10          | 12             | 661           |
| mart           | 2017-04-09          | 68             | 661           |
| mart           | 2017-04-08          | 62             | 661           |
| jack           | 2017-01-08          | 55             | 661           |
| tony           | 2017-01-07          | 50             | 661           |
| jack           | 2017-04-06          | 42             | 661           |
| jack           | 2017-01-05          | 46             | 661           |
| tony           | 2017-01-04          | 29             | 661           |
| jack           | 2017-02-03          | 23             | 661           |
| tony           | 2017-01-02          | 15             | 661           |
| jack           | 2017-01-01          | 10             | 661           |
+----------------+---------------------+----------------+---------------+

3、查询顾客的购买明细以及每位顾客的总花费
按人分组求和

0: jdbc:hive2://hadoop:11240> select *,sum(cost) over(distribute by name)
. . . . . . . . . . . . . . > from business;
+----------------+---------------------+----------------+---------------+
| business.name  | business.orderdate  | business.cost  | sum_window_0  |
+----------------+---------------------+----------------+---------------+
| jack           | 2017-01-05          | 46             | 176           |
| jack           | 2017-01-08          | 55             | 176           |
| jack           | 2017-01-01          | 10             | 176           |
| jack           | 2017-04-06          | 42             | 176           |
| jack           | 2017-02-03          | 23             | 176           |
| mart           | 2017-04-13          | 94             | 299           |
| mart           | 2017-04-11          | 75             | 299           |
| mart           | 2017-04-09          | 68             | 299           |
| mart           | 2017-04-08          | 62             | 299           |
| neil           | 2017-05-10          | 12             | 92            |
| neil           | 2017-06-12          | 80             | 92            |
| tony           | 2017-01-04          | 29             | 94            |
| tony           | 2017-01-02          | 15             | 94            |
| tony           | 2017-01-07          | 50             | 94            |
+----------------+---------------------+----------------+---------------+

4、查询顾客的购买明细及到目前为止每个顾客购买总金额
按人分组，按时间排序，花费累加

# 方法一：
0: jdbc:hive2://hadoop:11240> select * ,sum(cost) over(distribute by name sort by orderdate)
. . . . . . . . . . . . . . > from business;
+----------------+---------------------+----------------+---------------+
| business.name  | business.orderdate  | business.cost  | sum_window_0  |
+----------------+---------------------+----------------+---------------+
| jack           | 2017-01-01          | 10             | 10            |
| jack           | 2017-01-05          | 46             | 56            |
| jack           | 2017-01-08          | 55             | 111           |
| jack           | 2017-02-03          | 23             | 134           |
| jack           | 2017-04-06          | 42             | 176           |
| mart           | 2017-04-08          | 62             | 62            |
| mart           | 2017-04-09          | 68             | 130           |
| mart           | 2017-04-11          | 75             | 205           |
| mart           | 2017-04-13          | 94             | 299           |
| neil           | 2017-05-10          | 12             | 12            |
| neil           | 2017-06-12          | 80             | 92            |
| tony           | 2017-01-02          | 15             | 15            |
| tony           | 2017-01-04          | 29             | 44            |
| tony           | 2017-01-07          | 50             | 94            |
+----------------+---------------------+----------------+---------------+

#方法二：
0: jdbc:hive2://hadoop:11240> select *,
. . . . . . . . . . . . . . > sum(cost)
. . . . . . . . . . . . . . > over(partition by name
. . . . . . . . . . . . . . > order by orderdate rows between unbounded preceding and current row)
. . . . . . . . . . . . . . > as total_amount
. . . . . . . . . . . . . . > from business;
+----------------+---------------------+----------------+---------------+
| business.name  | business.orderdate  | business.cost  | total_amount  |
+----------------+---------------------+----------------+---------------+
| jack           | 2017-01-01          | 10             | 10            |
| jack           | 2017-01-05          | 46             | 56            |
| jack           | 2017-01-08          | 55             | 111           |
| jack           | 2017-02-03          | 23             | 134           |
| jack           | 2017-04-06          | 42             | 176           |
| mart           | 2017-04-08          | 62             | 62            |
| mart           | 2017-04-09          | 68             | 130           |
| mart           | 2017-04-11          | 75             | 205           |
| mart           | 2017-04-13          | 94             | 299           |
| neil           | 2017-05-10          | 12             | 12            |
| neil           | 2017-06-12          | 80             | 92            |
| tony           | 2017-01-02          | 15             | 15            |
| tony           | 2017-01-04          | 29             | 44            |
| tony           | 2017-01-07          | 50             | 94            |
+----------------+---------------------+----------------+---------------+

5、查询顾客上次的购买时间----lag()over()偏移量分析函数的运用

0: jdbc:hive2://hadoop:11240> select *,
#如果上次的购买时间为null，将其处理为1970-01-01
. . . . . . . . . . . . . . > lag(orderdate,1,'1970-01-01') over(partition by name order by orderdate) last_date
. . . . . . . . . . . . . . > from business;
+----------------+---------------------+----------------+-------------+
| business.name  | business.orderdate  | business.cost  |  last_date  |
+----------------+---------------------+----------------+-------------+
| jack           | 2017-01-01          | 10             | 1970-01-01  |
| jack           | 2017-01-05          | 46             | 2017-01-01  |
| jack           | 2017-01-08          | 55             | 2017-01-05  |
| jack           | 2017-02-03          | 23             | 2017-01-08  |
| jack           | 2017-04-06          | 42             | 2017-02-03  |
| mart           | 2017-04-08          | 62             | 1970-01-01  |
| mart           | 2017-04-09          | 68             | 2017-04-08  |
| mart           | 2017-04-11          | 75             | 2017-04-09  |
| mart           | 2017-04-13          | 94             | 2017-04-11  |
| neil           | 2017-05-10          | 12             | 1970-01-01  |
| neil           | 2017-06-12          | 80             | 2017-05-10  |
| tony           | 2017-01-02          | 15             | 1970-01-01  |
| tony           | 2017-01-04          | 29             | 2017-01-02  |
| tony           | 2017-01-07          | 50             | 2017-01-04  |
+----------------+---------------------+----------------+-------------+

6、查询顾客下一次的购买时间

0: jdbc:hive2://hadoop:11240> select *,
. . . . . . . . . . . . . . > lead(orderdate,1,'9999-99-99') over(partition by name order by orderdate) last_date
. . . . . . . . . . . . . . > from business;
+----------------+---------------------+----------------+-------------+
| business.name  | business.orderdate  | business.cost  |  last_date  |
+----------------+---------------------+----------------+-------------+
| jack           | 2017-01-01          | 10             | 2017-01-05  |
| jack           | 2017-01-05          | 46             | 2017-01-08  |
| jack           | 2017-01-08          | 55             | 2017-02-03  |
| jack           | 2017-02-03          | 23             | 2017-04-06  |
| jack           | 2017-04-06          | 42             | 9999-99-99  |
| mart           | 2017-04-08          | 62             | 2017-04-09  |
| mart           | 2017-04-09          | 68             | 2017-04-11  |
| mart           | 2017-04-11          | 75             | 2017-04-13  |
| mart           | 2017-04-13          | 94             | 9999-99-99  |
| neil           | 2017-05-10          | 12             | 2017-06-12  |
| neil           | 2017-06-12          | 80             | 9999-99-99  |
| tony           | 2017-01-02          | 15             | 2017-01-04  |
| tony           | 2017-01-04          | 29             | 2017-01-07  |
| tony           | 2017-01-07          | 50             | 9999-99-99  |
+----------------+---------------------+----------------+-------------+

7、查询顾客购买明细及月购买总额
先按姓名进行分组，再按月份进行分组

hive> select *,
. . > sum(cost)over(partition by name,substr(orderdate,1,7)) as total
. . > from business;

8、查询日期前20%的订单信息
先按日期排序，并分成5组

hive> select *,
. . > ntile(5)over(order by orderdate) as sortgroup_num
. . > from business;

再查询出分组号为1的记录

hive> select * from
. . > (select *,
. . > ntile(5)over(order by orderdate) as sortgroup_num
. . > from business) t
. . > where t.sortgroup_num = 1;

三、第三套练习

需求：
1、每门学科学生成绩排名(是否并列排名、空位排名三种实现)
2、每门学科成绩排名top n的学生

score.txt

name	subject	score
孙悟空	语文	87
孙悟空	数学	95
孙悟空	英语	68
大海	语文	94
大海	数学	56
大海	英语	84
宋宋	语文	64
宋宋	数学	86
宋宋	英语	84
婷婷	语文	65
婷婷	数学	85
婷婷	英语	78

建表：

0: jdbc:hive2://hadoop:11240> create table score(name string,subject string,score int)
. . . . . . . . . . . . . . > row format delimited fields terminated by "\t";
0: jdbc:hive2://hadoop:11240> load data local inpath '/home/xiaokang/hivedata/score.txt' into table score;
0: jdbc:hive2://hadoop:11240> select * from score;
+-------------+----------------+--------------+
| score.name  | score.subject  | score.score  |
+-------------+----------------+--------------+
| 孙悟空         | 语文             | 87           |
| 孙悟空         | 数学             | 95           |
| 孙悟空         | 英语             | 68           |
| 大海          | 语文             | 94           |
| 大海          | 数学             | 56           |
| 大海          | 英语             | 84           |
| 宋宋          | 语文             | 64           |
| 宋宋          | 数学             | 86           |
| 宋宋          | 英语             | 84           |
| 婷婷          | 语文             | 65           |
| 婷婷          | 数学             | 85           |
| 婷婷          | 英语             | 78           |
+-------------+----------------+--------------+

1、每门学科学生成绩排名(是否并列排名、空位排名三种实现)

row_number()按照值排序时产生一个自增编号，不会重复（如：1、2、3、4、5、6）
rank() 按照值排序时产生一个自增编号，值相等时会重复，会产生空位（如：1、2、3、3、3、6）
dense_rank() 按照值排序时产生一个自增编号，值相等时会重复，不会产生空位（如：1、2、3、3、3、4）

0: jdbc:hive2://hadoop:11240> select *,
. . . . . . . . . . . . . . > row_number()over(partition by subject order by score desc) as row_number_method,
. . . . . . . . . . . . . . > rank()over(partition by subject order by score desc) as rank_method,
. . . . . . . . . . . . . . > dense_rank()over(partition by subject order by score desc) as dense_rank_method
. . . . . . . . . . . . . . > from score;
+-------------+----------------+--------------+--------------------+--------------+--------------------+
| score.name  | score.subject  | score.score  | row_number_method  | rank_method  | dense_rank_method  |
+-------------+----------------+--------------+--------------------+--------------+--------------------+
| 孙悟空         | 数学             | 95           | 1                  | 1            | 1                  |
| 宋宋          | 数学             | 86           | 2                  | 2            | 2                  |
| 婷婷          | 数学             | 85           | 3                  | 3            | 3                  |
| 大海          | 数学             | 56           | 4                  | 4            | 4                  |
| 宋宋          | 英语             | 84           | 1                  | 1            | 1                  |
| 大海          | 英语             | 84           | 2                  | 1            | 1                  |
| 婷婷          | 英语             | 78           | 3                  | 3            | 2                  |
| 孙悟空         | 英语             | 68           | 4                  | 4            | 3                  |
| 大海          | 语文             | 94           | 1                  | 1            | 1                  |
| 孙悟空         | 语文             | 87           | 2                  | 2            | 2                  |
| 婷婷          | 语文             | 65           | 3                  | 3            | 3                  |
| 宋宋          | 语文             | 64           | 4                  | 4            | 4                  |
+-------------+----------------+--------------+--------------------+--------------+--------------------+

2、每门学科成绩排名前三的学生

0: jdbc:hive2://hadoop:11240> select * from (
. . . . . . . . . . . . . . > select *,
. . . . . . . . . . . . . . > row_number() over(partition by subject order by score desc) as rmp
. . . . . . . . . . . . . . > from score
. . . . . . . . . . . . . . > ) as t
. . . . . . . . . . . . . . > where t.rmp<=3;
+---------+------------+----------+--------+
| t.name  | t.subject  | t.score  | t.rmp  |
+---------+------------+----------+--------+
| 孙悟空     | 数学         | 95       | 1      |
| 宋宋      | 数学         | 86       | 2      |
| 婷婷      | 数学         | 85       | 3      |
| 宋宋      | 英语         | 84       | 1      |
| 大海      | 英语         | 84       | 2      |
| 婷婷      | 英语         | 78       | 3      |
| 大海      | 语文         | 94       | 1      |
| 孙悟空     | 语文         | 87       | 2      |
| 婷婷      | 语文         | 65       | 3      |
+---------+------------+----------+--------+

Android导入compile 'com.roughike:bottom-bar:2.3.1'会导致V7包报错
出现问题Error:Executionfailedfortask':app:transformDexArchiveWithExternalLibsDexMergerForDebug'.>java.lang.RuntimeException:java.lang.RuntimeException:com.android.builder.dexing.DexArchiveMergerException:
z-library 镜像网站 0x0007 linux 运维服务器
基于各种你知道的，你不知道的原因，z-library的访问，尤其在国内的访问需要很多手段，没有一劳永逸的方法，只有与时俱进，不忘初心，砥砺前行，永不停歇收集了一些镜像站，随时可能失效，不定期更新：https://annas-archive.org/https://zlib.apphttps://zbook.lol/https://zlibrary.mlhttps://zlib.missuo.me/
各种版本Android Studio下载地址
官网各种AndroidStudio版本：https://developer.android.com/studio/archive，如下：当前（2025-07-05）官方提供的版本最旧的只能到2017年的版本了，有时候想安装旧的版本，比如我在学Gradle时，有教程在讲解时使用的AndroidStudio是较旧的版本，所以我想保持开发环境一样，这时就需要下载到旧的版本，但是官网上已经找不到下载链接了
ubuntu 6.8.0 安装xenomai3.3 ZPC8210 ROS ubuntu linux 运维
通过以下步骤来获取和准备Linux内核6.8.0的源码，并应用Xenomai补丁：1.下载Linux内核6.8.0源码你可以从TheLinuxKernelArchives下载Linux内核6.8.0的源码。以下是具体步骤：访问内核官方网站：打开TheLinuxKernelArchives。找到对应版本的内核：在网站中找到内核6.8.0的下载链接。通常在v6.x目录下。下载源码：下载linux-6.
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
数据仓库技术及应用（Hive 产生背景与架构设计，存储模型与数据类型）娟恋无暇数据仓库笔记 hive
1.Hive产生背景传统Hadoop架构存在的一些问题：MapReduce编程必须掌握Java，门槛较高传统数据库开发、DBA、运维人员学习门槛高HDFS上没有Schema的概念，仅仅是一个纯文本文件Hive的产生：为了让用户从一个现有数据基础架构转移到Hadoop上现有数据基础架构大多基于关系型数据库和SQL查询Facebook诞生了Hive2.Hive是什么官网：https://hive.ap
Log Miner 挖挖挖
|LogMiner简介LogMiner是Oracle自Oracle8i以后推出的一个可以分析数据库redolog和archivelog内容的工具，可以通过日志分析所有对数据库的DDL和DML操作，也可以分析出操作的时间与操作时的SCN和进行操作的机器，对于DML操作还可以查询出还原操作的sql。|LogMiner组成源数据库产生LogMiner分析的所有重做日志文件的数据库挖掘数据库是执行LogM
apt-get install E: 无法定位软件包问题欧阳秦穆
在etc/apt的sources.list添加镜像源debhttp://archive.ubuntu.com/ubuntu/trustymainuniverserestrictedmultiverse然后sudoapt-getupdate接着安装就可以了
hive中2种常用的join方式潘达斯奈基~ 大数据 hive hadoop 数据仓库
在最近的项目代码review中，发现之前代码小表关联大表的业务，小表经过过滤后，数据只有400多条，而大表有1600万条，之前的逻辑是使用的是小表join大表，运行时间1小时12分钟；经过优化后，使用了mapjoin的方式，将小表放到内存中，运行时间7分钟。借此机会回顾下hive中2种常用的join方式：MapJoin、ReduceJoin（也叫CommonJoin）应对场景：MapJoin：适用
linux安装java jdk17 ng
1、下载jdk包wget--header=“Cookie:oraclelicense=accept-securebackup-cookie”https://download.oracle.com/java/17/archive/jdk-17.0.10_linux-x64_bin.tar.gz2、解压jdk包：tar-zxvfjdk-17.0.10_linux-x64_bin.tar.gz3、编辑配
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
spark处理kafka的用户行为数据写入hive 月光一族吖 spark kafka hive
在CentOS上部署Hadoop（Hadoop3.4.1）和Hive（Hive3.1.2）的详细步骤说明。这份指南面向单机安装（伪集群模式），如果需要搭建真正的多节点集群，各节点间的网络互访、SSH免密登录以及配置同步需进一步调整。注意：本指南假设你已拥有root权限或者具有sudo权限，并且系统连接Internet（用于下载安装包）。步骤中的版本号可根据实际需要进行更改。一、环境准备更新系统软件
.NET Framework 3.5 中的功能简介 benben0701 ASP.NET3.x .net windows wcf linq asp.net cryptography
.NETFramework3.5中的功能简介(1)我在前文《.NETFramework版本解析》（http://blog.csdn.net/johnsuna/archive/2008/03/23/2208684.aspx）中提到：.NETFramework3.5=.NETFramework3.0+.NETFramework3.0SP1.NETFramework3.0=.NETFramework2.
ubuntu FreeRadius服务器安装 flowHEHE ubuntu系统安装 ubuntu 服务器
1、获取安装源（1）wgethttps://github.com/FreeRADIUS/freeradius-server/archive/v3.0.x.zip（2）unzipv3.0.x.zip（3）cdfreeradius-server-3.0.x/2、创建ubuntu相关依赖（1）sudoapt-getinstalldevscriptsquiltdebhelperfakerootequivs
Hbase和关系型数据库、HDFS、Hive的区别别这么骄傲 hive hbase 数据库
目录1.Hbase和关系型数据库的区别2.Hbase和HDFS的区别3.Hbase和Hive的区别1.Hbase和关系型数据库的区别关系型数据库Hbase存储适合结构化数据，单机存储适合结构化和半结构数据的松散数据，分布式存储功能（1）支持ACID（2）支持join（3）使用主键PK（4）数据类型：int、varchar等（1）仅支持单行事务（2）不支持join，把数据糅合到一张大表（3）行键ro
大数据基础知识-Hadoop、HBase、Hive一篇搞定原来是猪猪呀 hadoop 大数据分布式
HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构，其核心设计包括分布式文件系统（HDFS）和MapReduce编程模型；Hadoop是一个开源的分布式计算框架，旨在帮助用户在不了解分布式底层细节的情况下，开发分布式程序。它通过利用集群的力量，提供高速运算和存储能力，特别适合处理超大数据集的应用程序。Hadoop生态圈Hadoop生态圈是一个由多个基于Hadoop开发的相
Hadoop、HDFS、Hive、Hbase区别及联系静心观复大数据 hadoop hdfs hive
Hadoop、HDFS、Hive和HBase是大数据生态系统中的关键组件，它们都是由Apache软件基金会管理的开源项目。下面将深入解析它们之间的区别和联系。HadoopHadoop是一个开源的分布式计算框架，它允许用户在普通硬件上构建可靠、可伸缩的分布式系统。Hadoop通常指的是整个生态系统，包括HadoopCommon（共享库和工具）、HadoopDistributedFileSystem(
Python 进攻性渗透测试（一）
原文：annas-archive.org/md5/dccde1d96c9ad81f97529d78e3e69c9b译者：飞龙协议：CCBY-NC-SA4.0序言Python是一种易学的跨平台编程语言，具有无限的第三方库。许多开源黑客工具都是用Python编写的，可以轻松地集成到你的脚本中。本书被分成了清晰的小部分，你可以按照自己的节奏学习，并专注于对你最有兴趣的领域。你将学会如何编写自己的脚本，并
Python 进攻性渗透测试（二）
原文：annas-archive.org/md5/dccde1d96c9ad81f97529d78e3e69c9b译者：飞龙协议：CCBY-NC-SA4.0第四章：追捕我吧！在今天的世界里，绕过和劫持软件在互联网上到处都是。然而，明确的使用和执行方式才是让你成为一名优秀的业余黑客的关键。这可以通过正确选择工具并遵循必要的过程，完美地完成手头的任务来实现。在本章中，我们将涵盖以下主题，帮助你实现这一
大数据面试题之Hive(1) 小的~~ 大数据大数据 hive hadoop
说下为什么要使用Hive?Hive的优缺点?Hive的作用是什么?说下Hive是什么?跟数据仓库区别?Hive架构Hive内部表和外部表的区别?为什么内部表的删除，就会将数据全部删除，而外部表只删除表结构?为什么用外部表更好?Hive建表语句?创建表时使用什么分隔符?Hive删除语句外部表删除的是什么?Hive数据倾斜以及解决方案Hive如果不用参数调优，在map和reduce端应该做什么Hive
centos使用wget下载jdk8 任意放逐 centos java linux
首先官网找需要的的jdk版本https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html我这里选择的是弹出下载提示框：勾选点Downloadjdk…这里需要使用一个账号登录，可以自行在网上搜一个账号，我就不给了。然后退回原来的页面下载，用一个能看到下载链接的软件下载，我使用的是idm
Qt Creator 11.0创建ROS2 Humble工程余加木 ROS2 Qt qt 开发语言
QtCreator11.0创建ROS2Humble项目工程安装ROSProjectManager插件创建ROS2项目在src下添加packagegitcloneROS2功能包编译运行安装ROSProjectManager插件安装ROSProjectManager的主要流程参考官方的流程，地址（ros_qtc_plugin）。此处采用二进制安装：sudoaptinstalllibarchive-to
ORACLE 正确删除归档日志的方法俗尘某某程序员记录 oracle 归档日志
ORACLE正确删除归档日志的方法我们都知道在controlfile中记录着每一个archivelog文件的相关信息，当然们在OS下把这些物理文件delete掉后，在我们的controlfile中仍然记录着这些archivelog文件的相关信息，在oracle的OEM管理器中有可视化的日志展现出，当我们手工清除archive目录下的文件后，这些记录并没有被我们从controlfile中清除掉，也就
Java web开发常见中间件多版本下载备用却诚Salong 安装问题和解决方法 java 中间件开发语言
备注：每次换电脑都要重新构建一下环境，下载找资源很麻烦，官网英文网页找个历史版本看不懂，还要慢慢去搜，所以直接整理一波，需要的自行收藏。1.nodejs自选版本下载：地址：https://nodejs.org/download/release/网速快，自选任何版本下载。2.maven自选版本下载：地址：https://archive.apache.org/dist/maven/maven-3/网速
GUI框架：谈谈框架 baozi3026 框架 command mfc button class string
转帖请注明出处http://www.cppblog.com/cexer/archive/2009/11/15/100988.html1开篇废话我喜欢用C++写GUI框架，因为那种成就感是实实在在地能看到的。从毕业到现在写了好多个了，都是实验性质的。什么拳脚飞刀毒暗器，激光核能反物质，不论是旁门左道的阴暗伎俩，还是名门正派的高明手段，只要是C++里有的技术都试过了。这当中接触过很多底层或是高级的技术
2024年Python最新统信UOS_麒麟KYLINOS上安装特定版本python_统信uos安装python 2401_84558914 程序员 python linux 服务器
准备解压…/16-libidn2-dev_2.0.5.1-1+dde_amd64.deb…正在解压libidn2-dev:amd64(2.0.5.1-1+dde)…/var/cache/apt/archives/libidn2-dev_2.0.5.1-1+dde_amd64.deb正在选中未选择的软件包libp11-kit-dev:amd64。准备解压…/17-libp11-kit-dev_0.2
鲲鹏CPU+麒麟操作系统arm环境安装MySQL 运维小乔 mysql 数据库
系统环境背景：CPU：鲲鹏920操作系统：Ky10SP3MySQL版本：8.4.2一、下载MySQL官网地址：https://downloads.mysql.com/archives/community/二：MySQL安装前准备2.1关闭防火墙[root@ky-b~]#systemctlstopfirewalld[root@ky-b~]#systemctldisablefirewalldRemov
如何在Ubuntu上运行Jar包？ wljslmz Linux技术 ubuntu jar linux
Java，一种广泛使用的面向对象编程语言，以其“编写一次，到处运行”的理念著称，是跨平台应用程序开发的首选。其核心优势在于Java虚拟机（JVM），它使得编写的Java代码能够在任何安装了JVM的设备上运行，无需重新编译。Ubuntu作为Linux发行版中的佼佼者，凭借其开源、稳定、易用的特性，成为了众多开发者部署Java应用的优选平台。Jar（JavaArchive）文件是一种归档文件格式，用于
织梦DedeCMS转WordPress asqq8
最近，有个用户找模板兔迁移网站，源站用的dede，需要转成wp，文章数量大概7000-8000篇，其中有个需求是保证旧文章的链接有效，在wp上的新文章与旧文章的链接类型不一样，所以这涉及到伪静态来处理跳转。虽然网上都很多教程，但是在这次导入过程中还是遇到过一些问题。以下教程是dede的数据表得与wp的数据表在同一个数据库下！要是不在，可以将dede_archives先导入到wp的数据库里。一般流程
拥抱Linux Mint，安装迅雷和微信 zhqh100 linux 运维服务器
迅雷的下载地址http://archive.kylinos.cn/kylin/partner/pool/com.xunlei.download_1.0.0.1_amd64.debLinuxMint自带的Transmission今天下载速度还可以，几兆的速度，挺满意的微信的下载地址https://linux.weixin.qq.com/搜狗拼音输入法虽然有官网，但官网最后说是支持Ubuntu20.0
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

hive窗口函数练习题

一、第一套练习

二、第二套练习

三、第三套练习

你可能感兴趣的:(Hive,hive)