小坏讲微服务

大数据之Hive 函数完整使用（第八章）

大数据之Hive 函数

总结
- 函数区别
一、系统内置函数
- 1）查看系统自带的函数
- 2）显示自带的函数的用法
- 3）详细显示自带的函数的用法
二、常用内置函数(空字段赋值)
- 1）函数说明
- 2）数据准备
- 3）查询方式（1）
- 4）查询（2）
三、CASE WHEN THEN ELSE END
- 1）数据准备
- 2）需求
- 3）创建本地 emp_sex.txt，导入数据
- 4）创建 hive 表并导入数据
- 5）按需求查询数据
四、行转列
- 1）相关函数说明
- 2）数据准备
- 3）需求
- 4）创建本地 constellation.txt，导入数据
- 5）创建 hive 表并导入数据
- 6）按需求查询数据
五、列转行
- 1）函数说明
- 2）数据准备
- 3）需求
- 4）创建本地 movie.txt，导入数据
- 5）创建 hive 表并导入数据
- 6）按需求查询数据
六、窗口函数（开窗函数）
- 1）相关函数说明
- 2）数据准备：name，orderdate，cost
- 3）需求
- 4）创建本地 business.txt，导入数据
- 5）创建 hive 表并导入数据
- 6）按需求查询数据
- - （1）查询在 2017 年 4 月份购买过的顾客及总人数
  - （2）查询顾客的购买明细及月购买总额
  - （3）将每个顾客的 cost 按照日期进行累加
  - （4）查看顾客上次的购买时间
  - （5）查询前 20%时间的订单信息
七、Rank
- 1）函数说明
- 2）数据准备
- 3）需求
- 4）创建本地 score.txt，导入数据
- 5）创建 hive 表并导入数据
- 6）按需求查询数据
- - 1、rank()
  - 2、dense_rank()
  - 3、row_number()
  - 4、每门学科的排序
八、自定义函数
九、自定义 UDF 函数
- 0）需求
- 1）创建一个 Maven 工程 Hive
- 2）导入依赖
- 3）创建一个类
- 4）打成 jar 包上传到服务器/opt/module/data/myudf.jar
- 5）将 jar 包添加到 hive 的 classpath
- 6）创建临时函数与开发好的 java class 关联
- 7）即可在 hql 中使用自定义的函数
十、自定义 UDTF 函数
- 0）需求
- 1）代码实现
- 2）打成 jar 包上传到服务器/opt/module/hive/data/myudtf.jar
- 3）将 jar 包添加到 hive 的 classpath 下
- 4）创建临时函数与开发好的 java class 关联
- 5）使用自定义的函数
十一 GenericUDTF 炸列多个列
- 1、代码
- 2）打成 jar 包上传到服务器/opt/module/hive/data/myudtf2.jar
- 3）将 jar 包添加到 hive 的 classpath 下
- 4）创建临时函数与开发好的 java class 关联
- 5）使用自定义的函数
其他函数的使用

总结

函数区别

UDF: 一进一出 （之前是一行数据经过这个函数还是一行）、普通函数
UDAF: 多进一出（类似聚合、给你好多行、给我聚合成一行、count）聚合函数
UDTF: 一进多出 (类似MR 给你一行单词、类似给我切分成了多行) 炸连函数

一、系统内置函数

1）查看系统自带的函数

hive> show functions;

2）显示自带的函数的用法

说是将所有的字符都转换成大写（uppercase）
hive (default)> desc function upper;
OK
tab_name
upper(str) - Returns str with all characters changed to uppercase
Time taken: 0.184 seconds, Fetched: 1 row(s)

3）详细显示自带的函数的用法

hive> desc function extended upper;

二、常用内置函数(空字段赋值)

1）函数说明

NVL：给值为 NULL 的数据赋值，它的格式是 NVL( value，default_value)。它的功能是如
果 value 为 NULL，则 NVL 函数返回 default_value 的值，否则返回 value 的值，如果两个参数都为 NULL ，则返回 NULL。

2）数据准备

采用员工表

3）查询方式（1）

如果员工的 comm 为 NULL，则用-1 代替

hive (default)> select comm,nvl(comm, -1) from emp;

OK
comm	_c1
NULL	-1.0
1600.0	1600.0
500.0	500.0
NULL	-1.0
1400.0	1400.0
NULL	-1.0
NULL	-1.0
NULL	-1.0
10.0	10.0
NULL	-1.0
NULL	-1.0
NULL	-1.0
NULL	-1.0
NULL	-1.0
NULL	-1.0
Time taken: 2.213 seconds, Fetched: 15 row(s)

4）查询（2）

如果员工的 comm 为 NULL，则用领导 id 代替

hive (default)> select comm, nvl(comm,mgr) from emp;

OK
comm _c1
NULL 7902.0
300.0 300.0
500.0 500.0
NULL 7839.0
1400.0 1400.0
NULL 7839.0
NULL 7839.0
NULL 7566.0
NULL NULL
0.0 0.0
NULL 7788.0
NULL 7698.0
NULL 7566.0
NULL 7782.0

三、CASE WHEN THEN ELSE END

1）数据准备

2）需求

求出不同部门男女各多少人。结果如下：

dept_Id 男 女
A 2 1
B 1 2

3）创建本地 emp_sex.txt，导入数据

[hadoop@hadoop102 datas]$ vi emp_sex.txt

悟空 A 男
大海 A 男
宋宋 B 男
凤姐 A 女
婷姐 B 女
婷婷 B 女

4）创建 hive 表并导入数据

create table emp_sex(
name string, 
dept_id string, 
sex string) 
row format delimited fields terminated by "\t";
load data local inpath '/opt/module/hive/data/emp_sex.txt' into table 
emp_sex;

5）按需求查询数据

select
 dept_id,
 sum(case sex when '男' then 1 else 0 end) male_count,
 sum(case sex when '女' then 1 else 0 end) female_count
from emp_sex
group by dept_id;

四、行转列

1）相关函数说明

CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字
符串;

CONCAT_WS(separator, str1, str2,…)：它是一个特殊形式的 CONCAT()。第一个参数剩余参
数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将
为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接
的字符串之间;

注意: CONCAT_WS must be "string or array

COLLECT_SET(col)：函数只接受基本数据类型，它的主要作用是将某字段的值进行去重
汇总，产生 Array 类型字段。

2）数据准备

3）需求

把星座和血型一样的人归类到一起。结果如下：

射手座,A 大海|凤姐
白羊座,A 孙悟空|猪八戒
白羊座,B 宋宋|苍老师

4）创建本地 constellation.txt，导入数据

[atguigu@hadoop102 datas]$ vim person_info.txt

孙悟空 白羊座 A
大海 射手座 A
宋宋 白羊座 B
猪八戒 白羊座 A
凤姐 射手座 A
苍老师 白羊座 B

5）创建 hive 表并导入数据

create table person_info(
name string, 
constellation string, 
blood_type string) 
row format delimited fields terminated by "\t";
load data local inpath "/opt/module/hive/data/person_info.txt" into table 
person_info;

6）按需求查询数据

SELECT
t1.c_b,
CONCAT_WS("|",collect_set(t1.name))
FROM (
SELECT
NAME,
CONCAT_WS(',',constellation,blood_type) c_b
FROM person_info
)t1
GROUP BY t1.c_b

五、列转行

1）函数说明

EXPLODE(col)：将 hive 一列中复杂的 Array 或者 Map 结构拆分成多行。

LATERAL VIEW
用法：LATERAL VIEW udtf(expression) tableAlias AS
columnAlias 解释：用于和 split, explode 等 UDTF 一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。

2）数据准备

3）需求

将电影分类中的数组数据展开。结果如下

《疑犯追踪》	悬疑
《疑犯追踪》	动作
《疑犯追踪》	科幻
《疑犯追踪》	剧情
《Lie to me》	悬疑
《Lie to me》	警匪
《Lie to me》	动作
《Lie to me》	心理
《Lie to me》	剧情
《战狼 2》	战争
《战狼 2》	动作
《战狼 2》	灾难

4）创建本地 movie.txt，导入数据

[atguigu@hadoop102 datas]$ vi movie_info.txt
《疑犯追踪》	悬疑,动作,科幻,剧情
《Lie to me》 悬疑,警匪,动作,心理,剧情
《战狼 2》 战争,动作,灾难

5）创建 hive 表并导入数据

create table movie_info( movie string, category string)
row format delimited fields terminated by "\t";

load data local inpath "/opt/module/data/movie.txt" into table

6）按需求查询数据

SELECT
movie, category_name
FROM
movie_info lateral VIEW
explode(split(category,",")) movie_info_tmp AS category_name;

六、窗口函数（开窗函数）

1）相关函数说明

OVER()：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化。


意思解释是：
over()：里面啥也没写(带表所有的数据、所有行)、
select name,count(*) over() from business group by name;
有多少个name就有多少个组、每一个组对应这所有数据的总和

over：里面啥也没写(所有的数据、所有行) 开出来的数据是一一对应的关系、
你有多少条、照样有多少组、只不过说相同数据中的组是一行的

gropu by： 是多对一，相同的数据只有一个组

CURRENT ROW：当前行
n PRECEDING：往前 n 行数据
n FOLLOWING：往后 n 行数据
UNBOUNDED：起点，
UNBOUNDED PRECEDING 表示从前面的起点，
 UNBOUNDED FOLLOWING 表示到后面的终点
LAG(col,n,default_val)：往前第 n 行数据
LEAD(col,n, default_val)：往后第 n 行数据
NTILE(n)：把有序窗口的行分发到指定数据的组中，各个组有编号，编号从 1 开始，对
于每一行，NTILE 返回此行所属的组的编号。注意：n 必须为 int 类型。

2）数据准备：name，orderdate，cost

jack,2017-01-01,10
tony,2017-01-02,15
jack,2017-02-03,23
tony,2017-01-04,29
jack,2017-01-05,46
jack,2017-04-06,42
tony,2017-01-07,50
jack,2017-01-08,55
mart,2017-04-08,62
mart,2017-04-09,68
neil,2017-05-10,12
mart,2017-04-11,75
neil,2017-06-12,80
mart,2017-04-13,94

3）需求

（1）查询在 2017 年 4 月份购买过的顾客及总人数
（2）查询顾客的购买明细及月购买总额
（3）上述的场景, 将每个顾客的 cost 按照日期进行累加
（4）查询每个顾客上次的购买时间
（5）查询前 20%时间的订单信息

4）创建本地 business.txt，导入数据

[atguigu@hadoop102 datas]$ vi business.txt

5）创建 hive 表并导入数据

create table business(
name string,
orderdate string,
cost int
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';
load data local inpath "/opt/module/data/business.txt" into table 
business;

6）按需求查询数据

（1）查询在 2017 年 4 月份购买过的顾客及总人数

求有几个客户、不是总次数

select name,count(*) over () 
from business
where substring(orderdate,1,7) = '2017-04'
group by name;

显示

Total MapReduce CPU Time Spent: 9 seconds 870 msec
OK
name	count_window_0
mart	2
jack	2

（2）查询顾客的购买明细及月购买总额

select name,orderdate,cost,sum(cost) over(partition by month(orderdate)) 
from business;

显示

Total MapReduce CPU Time Spent: 5 seconds 860 msec
OK
name	orderdate	cost	sum_window_0
jack	2017-01-05	46	111
jack	2017-01-08	55	111
jack	2017-01-01	10	111
jack	2017-02-03	23	23
jack	2017-04-06	42	42
mart	2017-04-13	94	299
mart	2017-04-11	75	299
mart	2017-04-09	68	299
mart	2017-04-08	62	299
neil	2017-05-10	12	12
neil	2017-06-12	80	80
tony	2017-01-04	29	94
tony	2017-01-02	15	94
tony	2017-01-07	50	94

（3）将每个顾客的 cost 按照日期进行累加

select name,orderdate,cost,
sum(cost) over() as sample1,--所有行相加
sum(cost) over(partition by name) as sample2,--按 name 分组，组内数据相加
sum(cost) over(partition by name order by orderdate) as sample3,--按 name
分组，组内数据累加
sum(cost) over(partition by name order by orderdate rows between 
UNBOUNDED PRECEDING and current row ) as sample4 ,--和 sample3 一样,由起点到
当前行的聚合
sum(cost) over(partition by name order by orderdate rows between 1 
PRECEDING and current row) as sample5, --当前行和前面一行做聚合
sum(cost) over(partition by name order by orderdate rows between 1 
PRECEDING AND 1 FOLLOWING ) as sample6,--当前行和前边一行及后面一行
sum(cost) over(partition by name order by orderdate rows between current 
row and UNBOUNDED FOLLOWING ) as sample7 --当前行及后面所有行
from business;

方式1

select name,orderdate,cost,sum(cost) over(partition by name,order by orderdate) from business;

Total MapReduce CPU Time Spent: 5 seconds 410 msec
OK
name	orderdate	cost	sum_window_0
jack	2017-01-01	10	10
jack	2017-01-05	46	56
jack	2017-01-08	55	111
jack	2017-02-03	23	134
jack	2017-04-06	42	176
mart	2017-04-08	62	62
mart	2017-04-09	68	130
mart	2017-04-11	75	205
mart	2017-04-13	94	299
neil	2017-05-10	12	12
neil	2017-06-12	80	92
tony	2017-01-02	15	15
tony	2017-01-04	29	44
tony	2017-01-07	50	94
Time taken: 32.024 seconds, Fetched: 14 row(s)

rows 必须跟在 order by 子句之后，对排序的结果进行限制，使用固定的行数来限制分
区中的数据行数量

（4）查看顾客上次的购买时间

select name,orderdate,cost,
lag(orderdate,1,'1900-01-01') over(partition by name order by orderdate ) 
as time1, lag(orderdate,2) over (partition by name order by orderdate) as 
time2 
from business;

select name,orderdate, lag(orderdate,1,orderdate) over(partition by name order by orderdate) from business;

（5）查询前 20%时间的订单信息

select * from (
 select name,orderdate,cost, ntile(5) over(order by orderdate) sorted
 from business
) t
where sorted = 1;

七、Rank

1）函数说明

RANK() 排序相同时会重复，总数不会变
DENSE_RANK() 排序相同时会重复，总数会减少
ROW_NUMBER() 会根据顺序计算

2）数据准备

3）需求

计算每门学科成绩排名。

4）创建本地 score.txt，导入数据

[atguigu@hadoop102 datas]$ vi score.txt

5）创建 hive 表并导入数据

create table score(
name string,
subject string, 
score int) 
row format delimited fields terminated by "\t";
load data local inpath '/opt/module/data/score.txt' into table score;

6）按需求查询数据

select name,
subject,
score,
rank() over(partition by subject order by score desc) rp,
dense_rank() over(partition by subject order by score desc) drp,
row_number() over(partition by subject order by score desc) rmp
from score;
name subject score rp drp rmp

孙悟空 数学 95 1 1 1
宋宋 数学 86 2 2 2
婷婷 数学 85 3 3 3
大海 数学 56 4 4 4
宋宋 英语 84 1 1 1
大海 英语 84 1 1 2
婷婷 英语 78 3 2 3
孙悟空 英语 68 4 3 4
大海 语文 94 1 1 1
孙悟空 语文 87 2 2 2
婷婷 语文 65 3 3 3
宋宋 语文 64 4 4 4

扩展：求出每门学科前三名的学生？

1、rank()

排序相同时会重复，总数不会变

select * ,rank() over(order by score) from score;


Total MapReduce CPU Time Spent: 3 seconds 130 msec
OK
score.name	score.subject	score.score	rank_window_0
大海	数学	56	1
宋宋	语文	64	2
婷婷	语文	65	3
孙悟空	英语	68	4
婷婷	英语	78	5
宋宋	英语	84	6
大海	英语	84	6
婷婷	数学	85	8
宋宋	数学	86	9
孙悟空	语文	87	10
大海	语文	94	11
孙悟空	数学	95	12

2、dense_rank()

排序相同时会重复，总数会减少

 select * ,dense_rank() over(order by score) from score;


score.name	score.subject	score.score	dense_rank_window_0
大海	数学	56	1
宋宋	语文	64	2
婷婷	语文	65	3
孙悟空	英语	68	4
婷婷	英语	78	5
宋宋	英语	84	6
大海	英语	84	6
婷婷	数学	85	7
宋宋	数学	86	8
孙悟空	语文	87	9
大海	语文	94	10
孙悟空	数学	95	11
Time taken: 18.061 seconds, Fetched: 12 row(s)

3、row_number()

会根据顺序计算

select * ,row_number() over(order by score) from score;

```java
score.name	score.subject	score.score	row_number_window_0
大海	数学	56	1
宋宋	语文	64	2
婷婷	语文	65	3
孙悟空	英语	68	4
婷婷	英语	78	5
宋宋	英语	84	6
大海	英语	84	7
婷婷	数学	85	8
宋宋	数学	86	9
孙悟空	语文	87	10
大海	语文	94	11
孙悟空	数学	95	12
Time taken: 24.1 seconds, Fetched: 12 row(s)

4、每门学科的排序

select *,rank() over(partition by subject order by score) from score;

score.name	score.subject	score.score	rank_window_0
大海	数学	56	1
婷婷	数学	85	2
宋宋	数学	86	3
孙悟空	数学	95	4
孙悟空	英语	68	1
婷婷	英语	78	2
宋宋	英语	84	3
大海	英语	84	3
宋宋	语文	64	1
婷婷	语文	65	2
孙悟空	语文	87	3
大海	语文	94	4
Time taken: 25.578 seconds, Fetched: 12 row(s

求每门学科前三名
select *,rank() over(partition by subject order by score desc

select 
 name,
 subject,
 score
 from (select *,rank() over(partition by subject order by score desc) rk
from score) t1
where rk<=3

八、自定义函数

1）Hive 自带了一些函数，比如：max/min 等，但是数量有限，自己可以通过自定义 UDF 来
方便的扩展。

2）当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义
函数（UDF：user-defined function）。

3）根据用户自定义函数类别分为以下三种：

（1）UDF（User-Defined-Function）一进一出
（2）UDAF（User-Defined Aggregation Function）聚集函数，多进一出
类似于：count/max/min
（3）UDTF（User-Defined Table-Generating Functions）
一进多出如 lateral view explode()

4）官方文档地址
https://cwiki.apache.org/confluence/display/Hive/HivePlugins

5）编程步骤：
（1）继承 Hive 提供的类
org.apache.hadoop.hive.ql.udf.generic.GenericUDF
org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
（2）实现类中的抽象方法
（3）在 hive 的命令行窗口创建函数添加 jar
add jar linux_jar_path创建 function
create [temporary] function [dbname.]function_name AS class_name;
（4）在 hive 的命令行窗口删除函数
drop [temporary] function [if exists] [dbname.]function_name;

九、自定义 UDF 函数

0）需求

自定义一个 UDF 实现计算给定字符串的长度，例如：

hive(default)> select my_len("abcd"); 4

1）创建一个 Maven 工程 Hive

2）导入依赖

<dependencies>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>3.1.2</version>
</dependency>
</dependencies>

3）创建一个类

package org.example.udf;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

/**
 * @ClassName MyUDF
 * @Author 小坏
 * @Date 2021/9/23、11:34
 * @Version 1.0
 */
public class MyUDF extends GenericUDF {
     

    /**
     * 校验数据参数个数
     *
     * @param objectInspectors
     * @return
     * @throws UDFArgumentException
     */
    @Override
    public ObjectInspector initialize(ObjectInspector[] objectInspectors) throws UDFArgumentException {
     
        if (objectInspectors.length != 1) {
     
            throw new UDFArgumentException("参数个数不为1");
        }
        //返回类型是INT类型
        return PrimitiveObjectInspectorFactory.javaIntObjectInspector;
    }

    /**
     * 处理数据的方法
     *
     * @param deferredObjects
     * @return
     * @throws HiveException
     */
    @Override
    public Object evaluate(DeferredObject[] deferredObjects) throws HiveException {
     

        //1、取出输入数据
        String input = deferredObjects[0].toString();

        //防止为null
        if (input == null) {
     
            return 0;
        }
     //返回长度
        return input.length();
    }

    @Override
    public String getDisplayString(String[] strings) {
     
        return "";
    }
}

4）打成 jar 包上传到服务器/opt/module/data/myudf.jar

5）将 jar 包添加到 hive 的 classpath

hive (default)> add jar /opt/module/data/myudf.jar;

Added [/opt/module/hive-3.1.2/lib/demo-hive-1.0-SNAPSHOT.jar] to class path
Added resources: [/opt/module/hive-3.1.2/lib/demo-hive-1.0-SNAPSHOT.jar]

6）创建临时函数与开发好的 java class 关联

hive (default)> create temporary function my_len as "com.atguigu.hive.
MyStringLength";

7）即可在 hql 中使用自定义的函数

hive (default)> select ename,my_len(ename) ename_len from emp;

十、自定义 UDTF 函数

0）需求

自定义一个 UDTF 实现将一个任意分割符的字符串切割成独立的单词，例如：

hive(default)> select myudtf("hello,world,hadoop,hive", ",");

hello
world
hadoop
hive

1）代码实现

package com.atguigu.udtf;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import 
org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import 
org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import 
org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectIn
spectorFactory;
import java.util.ArrayList;
import java.util.List;
public class MyUDTF extends GenericUDTF {
     
 private ArrayList<String> outList = new ArrayList<>();
 @Override
 public StructObjectInspector initialize(StructObjectInspector argOIs) 
throws UDFArgumentException {
     
 //1.定义输出数据的列名和类型
 List<String> fieldNames = new ArrayList<>();
 List<ObjectInspector> fieldOIs = new ArrayList<>();
 //2.添加输出数据的列名和类型
 fieldNames.add("lineToWord");
 
fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
 return 
ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, 
fieldOIs);
 }
 @Override
 public void process(Object[] args) throws HiveException {
     
 
 //1.获取原始数据
 String arg = args[0].toString();
 //2.获取数据传入的第二个参数，此处为分隔符
 String splitKey = args[1].toString();
 //3.将原始数据按照传入的分隔符进行切分
 String[] fields = arg.split(splitKey);
 //4.遍历切分后的结果，并写出
 for (String field : fields) {
     
 //集合为复用的，首先清空集合
 outList.clear();
 //将每一个单词添加至集合
 outList.add(field);
 //将集合内容写出
 forward(outList);
 }
 }
 @Override
 public void close() throws HiveException {
     
 } }

2）打成 jar 包上传到服务器/opt/module/hive/data/myudtf.jar

3）将 jar 包添加到 hive 的 classpath 下

hive (default)> add jar /opt/module/hive/data/myudtf.jar;

4）创建临时函数与开发好的 java class 关联

hive (default)> create temporary function myudtf as 
"com.atguigu.hive.MyUDTF";

5）使用自定义的函数

hive (default)> select myudtf("hello,world,hadoop,hive",",");

十一 GenericUDTF 炸列多个列

1、代码

package org.example.udf;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

import java.util.ArrayList;
import java.util.List;

/**
 * @ClassName UDTF2
 * @Author 小坏
 * @Date 2021/9/24、20:12
 * @Version 1.0
 *
 *
 * 输入数据：hello,atguigu:hello,hive
 *
 * 输出数据
 *
 * hello atguigu
 *
 * hello hive
 */
public class MyUDTF2 extends GenericUDTF {
     
    //输出数据的集合
    private ArrayList<String> outPutList = new ArrayList<>();
    /**
     * 初始化方法
     * 炸裂出来多个列、所以是集合
     *
     * @param argOIs
     * @return
     * @throws UDFArgumentException
     */
    @Override
    public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {
     
        //输出数据的默认列名、可以别名覆盖
        //两个列
        List<String> fieldNames = new ArrayList<>();
        fieldNames.add("word1");
        fieldNames.add("word2");

        //输出数据的类型
        List<ObjectInspector> fieldOIs = new ArrayList<>();

        //类型校验器两个
        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

        //最终返回值
        return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
    }


    @Override
    public void process(Object[] args) throws HiveException {
     
        //取出输入数据
        String input = args[0].toString();

        //按照，分割字符串  输入数据：hello,atguigu:hello,hive  冒号分隔
        String[] fields = input.split(":");

        for (String field : fields) {
     
            //清空集合
            outPutList.clear();

            //将field按照，分割
            String[] words = field.split(",");
            outPutList.add(words[0]);
            outPutList.add(words[1]);

            //写出数据
            forward(outPutList);
        }

        //遍历数据写出

    }

    @Override
    public void close() throws HiveException {
     

    }
}

2）打成 jar 包上传到服务器/opt/module/hive/data/myudtf2.jar

3）将 jar 包添加到 hive 的 classpath 下

hive (default)> add jar /opt/module/hive/data/myudtf2.jar;

4）创建临时函数与开发好的 java class 关联

create temporary function  my_udtf2  AS "org.example.udf.MyUDTF2"

5）使用自定义的函数

hive (default)> select my_udtf2 (words) from udtf2;
OK
word1	word2
hello	atguigu
hello	hive
Time taken: 0.117 seconds, Fetched: 2 row(s)
hive (default)>

其他函数的使用

常用日期函数
unix_timestamp:返回当前或指定时间的时间戳	
select unix_timestamp();
select unix_timestamp("2020-10-28",'yyyy-MM-dd');

from_unixtime：将时间戳转为日期格式
select from_unixtime(1603843200);

current_date：当前日期
select current_date;

current_timestamp：当前的日期加时间
select current_timestamp;

to_date：抽取日期部分
select to_date('2020-10-28 12:12:12');

year：获取年
select year('2020-10-28 12:12:12');

month：获取月
select month('2020-10-28 12:12:12');

day：获取日
select day('2020-10-28 12:12:12');

hour：获取时
select hour('2020-10-28 12:12:12');

minute：获取分
select minute('2020-10-28 12:12:12');

second：获取秒
select second('2020-10-28 12:12:12');

weekofyear：当前时间是一年中的第几周
select weekofyear('2020-10-28 12:12:12');

dayofmonth：当前时间是一个月中的第几天
select dayofmonth('2020-10-28 12:12:12');

months_between： 两个日期间的月份　前面日期减后面
select months_between('2020-04-01','2020-10-28');

add_months：日期加减月
select add_months('2020-10-28',-3);

datediff：两个日期相差的天数
select datediff('2020-11-04','2020-10-28');

date_add：日期加天数
select date_add('2020-10-28',4);

date_sub：日期减天数
select date_sub('2020-10-28',-4);

last_day：日期的当月的最后一天
select last_day('2020-02-30');

date_format(): 格式化日期
select date_format('2020-10-28 12:12:12','yyyy/MM/dd HH:mm:ss');

常用取整函数
round： 四舍五入
select round(3.14);
select round(3.54);

ceil：  向上取整
select ceil(3.14);
select ceil(3.54);

floor： 向下取整
select floor(3.14);
select floor(3.54);

常用字符串操作函数
upper： 转大写
select upper('low');

lower： 转小写
select lower('low');

length： 长度
select length("atguigu");

trim：  前后去空格
select trim(" atguigu ");

lpad： 向左补齐，到指定长度
select lpad('atguigu',9,'g');

rpad：  向右补齐，到指定长度
select rpad('atguigu',9,'g');

regexp_replace：使用正则表达式匹配目标字符串，匹配成功后替换！
SELECT regexp_replace('2020/10/25', '/', '-');

集合操作
size： 集合中元素的个数
select size(friends) from test3;

map_keys： 返回map中的key
select map_keys(children) from test3;

map_values: 返回map中的value
select map_values(children) from test3;

array_contains: 判断array中是否包含某个元素
select array_contains(friends,'bingbing') from test3;

sort_array： 将array中的元素排序
select sort_array(friends) from test3;

grouping_set:多维分析

select deptid,gender,count(*) from staff group by deptid,gender grouping sets((deptid,gender),deptid,gender,());


Total MapReduce CPU Time Spent: 7 seconds 730 msec
OK
deptid	gender	_c2
NULL	NULL	5
10	NULL	1
20	NULL	2
30	NULL	2
NULL	feale	1
20	feale	1
NULL	female	2
10	female	1
30	female	1
NULL	male	2
20	male	1
30	male	1

你可能感兴趣的:(小坏讲大数据(hive),第三阶段,hive,big,data)

MybatisPlus 夏尔子爵 java maven intellij-idea
一MybatisPlus(MP)介绍MyBatis-Plus（简称MP）是一个MyBatis的增强工具，在MyBatis的基础上只做增强不做改变，为简化开发、提高效率而生。二MybatisPlus(MP)特性1无侵入：只做增强不做改变，引入它不会对现有工程产生影响，如丝般顺滑2损耗小：启动即会自动注入基本CURD，性能基本无损耗，直接面向对象操作3强大的CRUD操作：内置通用Mapper、通用Se
c++_primer_chapter14 oymaster c++_primer_5th c++算法开发语言
十四章重载运算与类型转换一、运算符重载基本概念执行a+b其实是隐形执行了operator+(a,b),隐形调用了一个函数a作为成员函数的时候执行运算符时，函数自带一个this指针，因此函数只需要一个参数StrVec&StrVec::operator=(constStrVec&s){if(&s!=this){autonewdata=alloc_n_copy(s.begin(),s.end());fr
npm包无法识别命令 oymaster bug记录 npm 前端 node.js
问题描述：今天hexo新文章时，无法找到hexo命令，明明昨天还好好的，突然npm下的包都无法识别命令了。node版本如下：原因：环境变量没配好，去查看npm的变量时，它的路径是C:\Users*\AppData\Roaming\npm，进入文件夹啥也没有解决办法：使用npmconfiggetprefix找到当前包目录，添加到系统变量中即可
背包问题-动态规划算法(附带Python代码解析) 心碎小猫p 算法动态规划 python
一.背包问题概述：给定n种物品和一个容量为capacity的背包，其中每一个物品的重量和价值已知。问：应该如何选择装入背包的物品，使得装入背包中的物品的总价值最大？二.分析过程：1.思路：对于每一个物品只有两种选择，第一种情况：装入当前物品；第二种情况：不装入当前物品。我们从第一个物品开始，将其重量和背包容量进行比较，如果比背包容量小，则选择将这个物品装入背包，记录它的价值（如果比背包容量大，忽略
44、深度学习-自学之路-自己搭建深度学习框架-6、自动优化，就是把原来的权重更新的部分用面向对象的方式再写一次小宇爱深度学习-自学之路深度学习人工智能
importnumpyasnpnp.random.seed(1)data=np.array([[0,0],[0,1],[1,0],[1,1]])target=np.array([[0],[1],[0],[1]])#weights_0_1=np.random.rand(2,3)#weights_1_2=np.random.rand(3,1)weights_0_1=np.array([[0.1,0.2
布隆过滤器：一种简单而高效的集合查询方法菜就多练少说 Redis 分布式系统哈希算法散列表算法
今天，我们来介绍一个非常高效、空间节约的集合查询工具——布隆过滤器（BloomFilter）。它是一种概率型数据结构，特别适合用于检测一个元素是否存在于集合中，并且它的查询速度非常快，且占用的空间非常小。尽管布隆过滤器有可能误判（假阳性），但是它不会漏判（假阴性）。一、布隆过滤器的基本概念布隆过滤器由一个位数组和多个哈希函数构成。它的工作原理如下：添加元素：通过多个哈希函数对元素进行哈希，得到多个
Python的PyTorch+CNN深度学习技术在人脸识别项目中的应用 mosquito_lover1 python 深度学习 pytorch cnn
人脸识别技术是一种基于人脸特征进行身份识别的生物识别技术，其核心原理包括人脸检测、人脸对齐、特征提取、特征匹配、身份识别。一、应用场景安防：门禁、监控。金融：刷脸支付、身份验证。社交：自动标注、美颜。医疗：患者身份确认、情绪分析。二、关键技术深度学习：CNN在人脸检测、特征提取中表现优异。大数据：大规模数据集（如LFW、MegaFace）提升模型泛化能力。硬件加速：GPU、TPU等加速计算，提升实
OpenGauss数据库 - 初识OpenGauss Ssaty. 数据库 database mysql
第1关：创建数据库本关任务：创建指定数据库。gsql-dpostgres-Ugaussdb-W'passwd123@123';createdatabasemydb;第2关：创建表本关任务：在数据库中创建一个表。CREATEDATABASEtestdb;\ctestdb;CREATETABLEt_emp(idint
Python解决“数字分组求偶数和”问题啥都鼓捣的小yao 经典算法练习 python 算法
Python解决“数字分组求偶数和”问题问题描述测试样例问题解决代码问题描述小M面对一组从1到9的数字，这些数字被分成多个小组，并从每个小组中选择一个数字组成一个新的数。目标是使得这个新数的各位数字之和为偶数。任务是计算出有多少种不同的分组和选择方法可以达到这一目标。numbers:一个由多个整数字符串组成的列表，每个字符串可以视为一个数字组。小M需要从每个数字组中选择一个数字。例如对于[123,
C++基础语法总结清梚不喝粥 C++c++算法开发语言
语言学习的基础思路：helloworld：打印语句数据类型/变量输入数据数组函数结构：返回值参数值独有特性：java/C++面向对象C语言/C++：指针结构体数据结构学习顺序：数组对象/结构体链表链表和数组可以实现的更加有性格一点的结构：队列栈二叉树学习一些复杂的或者组合形式的：各种树哈希表集合数据类型/变量一、基本数据类型1.整数类型：-char：通常是1个字节，表示字符或小整数范围。-shor
类与对象的总结清梚不喝粥 Java学习之旅 java
类与对象的概念：类：分析一些事物所具有的共同的属性、功能、特征等，都可以将他们看做一个类。类别用class表示。对象：从概念上讲：对象是现实中具体存在的事物。从程序上讲：对象是一份数据储存在内存中。eg：猫类-某一只猫狗类-正在吃某盆饭的某只狗银行为例，每一个银行号都是一个具体的用户对象，所属的类就是银行的用户类。代码中的类：在程序中至少有一个类，只能创建一个主函数的类。java中的类：一篇文章彻
MTHM506 - Statistical Data Modelling 后端
MTHM506-StatisticalDataModellingIndividualassessmentsheetMarksachievedinthisassignmentwillcontributetowards50%ofthefinalmodulemark.Youshouldattemptallquestionsonthissheet.Notethatthequestionsareorgani
iptables防火墙详解伟大无须多言网络服务器 apache
iptables防火墙详解一、iptables概念防火墙基础从逻辑上讲，防火墙可以大体分为主机防火墙和网络防火墙。网络防火墙和主机防火墙并不冲突，可以理解为，网络防火墙主外（集体），主机防火墙主内（个人）。主机防火墙：针对于单个主机进行防护。网络防火墙：往往处于网络入口或边缘，针对于网络入口进行防护，服务于防火墙背后的本地局域网。从物理上讲，防火墙可以分为硬件防火墙和软件防火墙。硬件防火墙：在硬件
基于Vue的简单成绩管理系统啊sen丶 vue.js 前端 javascript
1、整体框架编号科目成绩操作{{index+1}}{{item.subject}}{{item.score}}删除暂无数据总分：{{sumscore}}平均分：{{avgscore}}科目：分数：添加2、标签部分constapp=newVue({el:'#app',data:{list:[{id:1,subject:'语文',score:20},{id:2,subject:'数学',score:9
Simulink Design Assignment 后端
UniversityofEdinburghElectricalEngineeringDataConverterDesigninSimulinkSimulinkDesignAssignmentDesignanaudiobandADCwiththefollowingspecificationsover20Hz-20kHz:[1]Maximumstableinputamplitude(MSA)atlea
使用一个一维数组涉及一个计算多个数的平均值，最多20个数 weixin_44799641 数据结构和算法算法
/*array-2.1使用一个一维数组涉及一个计算多个数的平均值，最多20个数*/#includeintmain(intargc,char*argv[]){intMax=0;inti;floatnumber[20];floatsummary;floataverage;summary=0;printf("pleaseinputthenumberofdata:");scanf("%d",&Max);i
Caused by: java.lang.ClassNotFoundException: org.springframework.data.repository.config.BootstrapMod... weixin_30444105 开发工具 java 数据库
1、起因，启动SpringBoot2.0的时候报了这个错误。说找不到类，咱也是刚学SpringBoot2.0，咱也不懂，咱也不知道问谁，研究一翻，找不到原因就百度了。参考链接：https://blog.csdn.net/sswqzx/article/details/87432287报错如下所示：1"C:\ProgramFiles\Java\jdk1.8.0_161\bin\java.exe"-ea
计算机网络安全研究生专业大学排名,2020年最好的网络空间安全专业大学排名... 陆无名计算机网络安全研究生专业大学排名
很多考生和家长都关心大学专业排名的问题。2020年3月，金平果中评榜发布了2020中国大学分专业竞争力排行榜共计436个榜单。全面、系统、客观、公正地评价了中国大陆2667所大学的实力和水平。接下来和小编看一下2020-2021网络空间安全专业排名前21强都是哪些院校。2020网络空间安全专业大学排名北京电子科技学院北京电子科技学院是一所为全国各级党政机关培养信息安全和办公自动化专门人才的普通高等
SQL Server所有数据类型大全 web_13233421436 面试学习路线阿里巴巴 java 数据库服务器
数据类型列表整数类型：bigint、int、smallint、tinyint精确数值类型：decimal、numeric近似数值类型：float、real字符类型：char、varchar、text、nchar、nvarchar、ntext日期和时间类型：date、time、datetime2、datetimeoffset、smalldatetime、datetime二进制类型：binary、va
解决Spring Boot中的线程安全问题微赚淘客系统开发者@聚娃科技 spring boot 安全 java
解决SpringBoot中的线程安全问题大家好，我是微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！SpringBoot中的线程安全挑战与解决方案在开发SpringBoot应用程序时，线程安全是一个关键问题。由于SpringBoot应用程序通常是多线程运行的，因此正确处理线程安全问题对于保证系统的稳定性和性能至关重要。本文将探讨在SpringBoot中常见的线程安全问题，并提供解
2. EXCEL中函数和公式《AI赋能Excel》涛涛讲AI AI编程效率工具大模型人工智能 excel deepseek 大模型 AI
欢迎来到滔滔讲AI。今天我们来学习和讨论下函数和公式是什么，以及它们之间的区别。点击图片查看视频2、AI赋能EXCEL-函数和公式一、什么是函数首先，我们来了解一下函数。函数是Excel中预定义的计算工具，能够帮助我们快速进行各种计算。比如说，SUM函数可以用来求和，AVERAGE函数可以用来求平均值。二、什么是公式接下来，我们再看看公式。公式是你自己在Excel中输入的计算表达式，它们可以包含数
逐梦深空——我与祖国共成长一望无际的大草原工作总结高级数据应用文学数字孪生成长深空深地
“青山遮不住，毕竟东流去”，在数字化智能化的浪潮中，我与祖国同舟共济，共赴深空科技之梦。作为信息化数字化智能化技术方面的一位普通公民，我深知自己肩负的使命——在数字化转型的浪潮中，在自己有限的百年（约36500天）生命里，为祖国的繁荣发展贡献自己的青春和智慧。我的祖国，祖国正以惊人的速度跨入数智化新时代，移动支付、智慧城市、智能制造、云计算、大数据……每一步跃进，都离不开信息技术的支撑。我有幸成为
讲真的！不满足这些条件，别死磕软考高级！公众号-希赛网学习方法职场和发展
软考高级的难度较大，很多考生都是考了好几次才拿证的，也有一些考生考了几次后依然没过。小希建议，不满足以下这些条件的话，没必要死磕软考高级。一、有持证需求对于有软考高级证书持证需求的考生来说，还是很有必要坚持考下去直到拿证的。比如：所在单位有专业技术职务空缺，想聘副高，但不具备高级专业技术资格的，可以考软考高级。软考实行以考代评，只要通过考试，不需要参加评审即可拿证。用人单位可从获得软考证书的人员中
Python Cookbook-2.10 处理字符串中的 zip 文件我不会编程555 #Python学习 python 开发语言
任务程序接收到了一个字符串，其内容是一个zip文件，需要读取这个zip文件中的信息。解决方案应对这种问题，采用Python标准库的cStringIO模块的拿手好戏:importcStringIO，zipfileclassZipString(ZipFile):def__init__(self,datastring):ZipFile.__init__(self,cStringIO.StringIO(d
一文讲清楚 AI Agent（智能体）网络风云人工智能
AIAgent（人工智能代理，一般直接叫做智能体）以各种形态存在于我们生活的方方面面，大家比较熟知的有Siri、小爱同学等虚拟助手，但其实在自动驾驶、教育、娱乐、医疗、科研、智能家居等等到处都有它们的身影。它是能够感知环境、做出决策并执行行动以实现特定目标的智能实体。AIAgent的核心特点是自主性、适应性和交互性，它可以在复杂的环境中独立完成任务，并根据环境变化调整策略。AIAgent广泛应用于
用Netty实现物联网04：自定义通信协议湘王 CTO的几把刷子物联网 Java Netty 车联网自定义通信协议
上一讲咱们澄清了Netty的一些基本概念，然后也写了一个服务端与客户端通信的简单应答程序。从这一讲开始，就来一步步搭建一个Netty物联网应用。大多数硬件电子产品，都自带了嵌入式软件，或者说固件。这些嵌入式软件/固件基本上都是用C/C++编写的。由于这些小微电子设备资源极其有限，所以它们的通讯方式和协议也极为简单：99.99%都只支持TCP/UDP通讯协议，HTTP根本不在考虑之列。但同时，这些电
基于YOLOv5、FaceNet与KNN的人脸识别系统 reset2021 人脸识别系统 YOLO facenet knn 人脸检测
步骤1：环境配置安装依赖库：安装Python3.x安装TensorFlow、Keras、OpenCV等深度学习库获取数据集：收集训练用的多个人脸图像（每个用户至少几十张）将图像按用户分类存放在data/train/user1,user2等文件夹中步骤2：训练YOLO模型配置YOLO数据集：创建一个data.yaml文件，配置您的数据集路径和标签train:./data/train/images/v
mongodb的并发优化 hzulwy 数据库数据库
MongoDB的锁模式MongoDB的锁设计MongoDB的高性能表现离不开它的多粒度锁机制。多粒度主要可以针对不同层级的数据库对象进行枷锁，通过避免全局性的互斥来提升并发能力。从整个数据库层面看，MongoDB的并发锁的分层如下图所示：从上往下是一个逐步细分的关系，分别为Global(全局)、Database(数据库)、Collection(集合)、Document(文档)。需要说明的是，mon
小米、小鹏、蔚来等宣布切入「人形机器人」赛道，车企为什么纷纷下场造机器人？有哪些新机会？日记成书热门实事机器人
车企集体跨界人形机器人赛道的核心逻辑与机遇一、车企“造人”的底层驱动力技术复用与降维打击车企在电动化与智能化领域积累的核心技术（如电机、传感器、AI算法、动力电池等）可直接迁移至人形机器人研发，形成“技术溢出”效应。例如：小鹏Iron的端到端大模型与自动驾驶算法同源，触控反馈技术源自智能座舱交互系统；广汽GoMate的“可变轮足移动结构”基于汽车底盘技术优化，实现高速运动与精细操作；特斯拉Opti
Docker部署 MongoDB及常用命令 KawYang docker mongodb
docker部署dockerrun-d\--namemongo\-eMONGO_INITDB_ROOT_USERNAME=root\-eMONGO_INITDB_ROOT_PASSWORD=123456\-p27017:27017\-v./local-mongo-data:/data/db\mongo:latest或者编写docker-compose.yaml文件。如下：version:'3.1'
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

大数据之Hive 函数 完整使用（第八章）

大数据之Hive 函数

总结

函数区别

一、系统内置函数

1）查看系统自带的函数

2）显示自带的函数的用法

3）详细显示自带的函数的用法

二、常用内置函数(空字段赋值)

1）函数说明

2）数据准备

3）查询方式（1）

4）查询（2）

三、CASE WHEN THEN ELSE END

1）数据准备

2）需求

3）创建本地 emp_sex.txt，导入数据

4）创建 hive 表并导入数据

5）按需求查询数据

四、行转列

1）相关函数说明

2）数据准备

3）需求

4）创建本地 constellation.txt，导入数据

5）创建 hive 表并导入数据

6）按需求查询数据

五、列转行

1）函数说明

2）数据准备

3）需求

4）创建本地 movie.txt，导入数据

5）创建 hive 表并导入数据

6）按需求查询数据

六、窗口函数（开窗函数）

1）相关函数说明

2）数据准备：name，orderdate，cost

3）需求

4）创建本地 business.txt，导入数据

5）创建 hive 表并导入数据

6）按需求查询数据

（1） 查询在 2017 年 4 月份购买过的顾客及总人数

（2） 查询顾客的购买明细及月购买总额

（3） 将每个顾客的 cost 按照日期进行累加

（4） 查看顾客上次的购买时间

（5） 查询前 20%时间的订单信息

七、Rank

1）函数说明

2）数据准备

3）需求

4）创建本地 score.txt，导入数据

5）创建 hive 表并导入数据

6）按需求查询数据

1、rank()

2、dense_rank()

3、row_number()

4、每门学科的排序

八、自定义函数

九、自定义 UDF 函数

0）需求

1）创建一个 Maven 工程 Hive

2）导入依赖

3）创建一个类

4）打成 jar 包上传到服务器/opt/module/data/myudf.jar

5）将 jar 包添加到 hive 的 classpath

6）创建临时函数与开发好的 java class 关联

7）即可在 hql 中使用自定义的函数

十、自定义 UDTF 函数

0）需求

1）代码实现

2）打成 jar 包上传到服务器/opt/module/hive/data/myudtf.jar

3）将 jar 包添加到 hive 的 classpath 下

4）创建临时函数与开发好的 java class 关联

5）使用自定义的函数

十一 GenericUDTF 炸列多个列

1、代码

2）打成 jar 包上传到服务器/opt/module/hive/data/myudtf2.jar

3）将 jar 包添加到 hive 的 classpath 下

4）创建临时函数与开发好的 java class 关联

5）使用自定义的函数

其他函数的使用

大数据之Hive 函数完整使用（第八章）

（1）查询在 2017 年 4 月份购买过的顾客及总人数

（2）查询顾客的购买明细及月购买总额

（3）将每个顾客的 cost 按照日期进行累加

（4）查看顾客上次的购买时间

（5）查询前 20%时间的订单信息