gssgch

Hive专题八---Hive函数--自定义函数UDF

交流QQ: 824203453

欢迎访问博主个人主页：http://www.oldsheep.cn

hive函数使用

系统自带的函数

1）查看系统自带的函数

hive> show functions;

2）显示自带的函数的用法

hive> desc function upper;

3）详细显示自带的函数的用法

hive> desc function extended upper;

测试函数小技巧：

直接用常量来测试函数即可

select substr("abcdefg",1,3);

而且，可以将hive的本地运行自动模式开启：

hive>set hive.exec.mode.local.auto=true;

HIVE 的所有函数手册：

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-Built-inTable-GeneratingFunctions(UDTF)

转换函数

类型转select cast("5" as int) ;

select cast("2017-08-03" as date) ;
select cast(current_timestamp as date);

1	1995-05-05 13:30:59	1200.3
2	1994-04-05 13:30:59	2200
3	1996-06-01 12:20:30	80000.5

create table t_fun(id string,birthday string,salary string)
row format delimited fields terminated by ',';

查询：

select id,cast(birthday as date) as bir,cast(salary as float) from t_fun;

数学运算函数

select round(5.4);   ## 5  四舍五入

select round(5.1345,3) ;  ##5.135

select ceil(5.4) ; // select ceiling(5.4) ;   ## 6  向上取整

select floor(5.4);  ## 5  向下取整

select abs(-5.4) ;  ## 5.4  绝对值

select greatest(id1,id2,id3) ;  ## 6  单行函数

select least(3,5,6) ;  ##求多个输入参数中的最小值

示例：

有表如下：

select greatest(cast(s1 as double),cast(s2 as double),cast(s3 as double)) from t_fun2;

结果：

+---------+--+

| _c0 |

+---------+--+

| 2000.0 |

| 9800.0 |

+---------+--+

select max(age) from t_person group by ..;    分组聚合函数
select min(age) from t_person group by...;    分组聚合函数

字符串函数

substr(string str, int start) ## 截取子串

substring(string str, int start)

示例：

select substr("abcdefg",2) ;

substr(string, int start, int len)

substring(string, int start, int len)

示例：

select substr("abcdefg",2,3) ;  ## bcd

concat(string A, string B...) ## 拼接字符串

concat_ws(string SEP, string A, string B...)

示例：

select concat("ab","xy") ;  ## abxy
select concat_ws(".","192","168","33","44") ; ## 192.168.33.44

length(string A)

示例：

select length("192.168.33.44");  ## 13

split(string str, string pat) ## 切分字符串，返回数组

示例：~~select split("192.168.33.44",".") ;~~ 错误的，因为.号是正则语法中的特定字符

select split("192.168.33.44","\\.") ;

upper(string str) ##转大写

lower(string str) ##转小写

时间函数

select current_timestamp; ## 返回值类型：timestamp，获取当前的时间戳(详细时间信息)

select current_date;   ## 返回值类型：date，获取当前的日期

## 字符串格式转unix时间戳——unix_timestamp：返回值是一个长整数类型

## 如果不带参数，取当前时间的秒数时间戳long--(距离格林威治时间1970-1-1 0:0:0秒的差距)

select unix_timestamp();

unix_timestamp(string date, string pattern)

示例：

select unix_timestamp("2017-08-10 17:50:30");
select unix_timestamp("2017-08-10 17:50:30","yyyy-MM-dd HH:mm:ss");

## unix时间戳转字符串格式——from_unixtime

from_unixtime(bigint unixtime[, string format])

示例：

select from_unixtime(unix_timestamp());
select from_unixtime(unix_timestamp(),"yyyy/MM/dd HH:mm:ss");

## 将字符串转成日期date

select to_date("2017-09-17 16:58:32");

求年：

select year("2017-09-17 16:58:32");

求月份：

select month("2017-09-17 16:58:32");

hive (test) > select datediff("2018-10-10","2018-10-01");

OK

_c0

9

Time taken: 0.056 seconds, Fetched: 1 row(s)

hive (test)> select date_add("2018-10-10",3);

OK

_c0

2018-10-13

时间函数大全：

select

current_date,

current_timestamp,

unix_timestamp(current_timestamp),

unix_timestamp(current_timestamp,'yyyy-MM-dd'),

from_unixtime(1550545559,'yyyy-MM-dd hh'),

from_unixtime(1550545559,'yyyy-MM-dd hh:mm:ss'),

year(current_timestamp),

month(current_timestamp),

day(current_timestamp),

weekofyear(current_timestamp),

dayofmonth(current_timestamp),

hour(current_timestamp),

minute(current_timestamp),

second(current_timestamp),

date_add(current_date,1),

date_add(current_date,-1),

add_months(current_date,1),

add_months(current_date,-1),

last_Day(current_date),

next_Day(current_date ,'TU'),

date_add(current_date,-1),

datediff(current_date,'2019-03-08')

条件控制函数

IF

select id,if(age>25,'working','worked') from t_user;
select moive_name,if(array_contains(actors,'吴刚'),'好电影',’烂片儿’) from t_movie;

case when

语法：

CASE   [ expression ]

       WHEN condition1 THEN result1

       WHEN condition2 THEN result2

       ...

       WHEN conditionn THEN resultn

       ELSE result

END

case when有两种用法：简单匹配和条件匹配：

简单匹配

case 字段 when 值1 then 返回值1

when 值2 then 返回值2

else 返回值3

end as 别名

条件匹配

case when 表达式1 then 返回值1

when 表达式2 then 返回值2

else 返回值3

end as 别名

有如下数据：

1,zhangsan,18,beijing,20000

2,lisi,28,shanghai,1500

3,wangwu,38,wuhan,4000

4,zhaoliu,35,changsha,10050

5,tianqi,23,shijiazhuang,30000

6,wangba,45,qinhuangdao,28000

7,wushuai,55,haerbin,80000

查询：

把年龄和收入都用阶段表示

年龄 ----> 少年/中年等

收入 -----> 屌丝/还行/oldsheep/土豪

建表：

create table t10(id int,name string,age int,addr string,income int)

row format delimited fields terminated by ',';

查询：

select id,name,

case

when age<=20 then '少年'

when age>20 and age<=40 then '青年'

when age>40 and age<=60 then '中年'

when age>60 then '老年'

end as status,

addr,

income,

case

when income<=5000 then '穷屌丝'

when income>5000 and income<=15000 then '富屌丝'

when income>15000 and income<=30000 then '还行'

when income>30000 and income<=60000 then 'oldsheep'

when income>60000 then '土豪'

end as level

from t10;

结果：

+-----+-----------+---------+---------------+---------+--------+--+

+-----+-----------+---------+---------------+---------+--------+--+

| 1 | zhangsan | 少年 | beijing | 20000 | 还行 |

| 2 | lisi | 青年 | shanghai | 1500 | 穷屌丝 |

| 3 | wangwu | 青年 | wuhan | 4000 | 穷屌丝 |

| 4 | zhaoliu | 青年 | changsha | 10050 | 富屌丝 |

| 5 | tianqi | 青年 | shijiazhuang | 30000 | 还行 |

| 6 | wangba | 中年 | qinhuangdao | 28000 | 还行 |

| 7 | wushuai | 中年 | haerbin | 80000 | 土豪 |

+-----+-----------+---------+---------------+---------+--------+--+

集合函数

array(3,5,8,9) 构造一个整数数组

array(‘hello’,’moto’,’semense’,’chuizi’,’xiaolajiao’) 构造一个字符串数组

array_contains(Array, value) 返回boolean值

示例：

select moive_name,array_contains(actors,'吴刚') from t_movie;

select array_contains(array('a','b','c'),'c') ;

sort_array(Array) 返回排序后的数组

示例：

select sort_array(array('c','b','a')) ;

select 'haha',sort_array(array('c','b','a')) as xx from (select 0) tmp;

size(Array) 返回一个集合的长度，int值

示例：

select moive_name,size(actors) as actor_number from t_movie;

size(Map) 返回一个imap的元素个数，int值

size(array) 返回一个数组的长度,int值

map_keys(Map) 返回一个map字段的所有key，结果类型为：数组

map_values(Map) 返回一个map字段的所有value，结果类型为：数组

常见分组聚合函数

sum(字段) : 求这个字段在一个组中的所有值的和

avg(字段) ：求这个字段在一个组中的所有值的平均值

max(字段) ：求这个字段在一个组中的所有值的最大值

min(字段) ：求这个字段在一个组中的所有值的最小值

count()：求一个组中的满足某条件的数据条数！

举例说明：

1,mary,female,jiuye

2,tom,male,meijiuye

3,kitty,female,meijiuye

4,white,male,jiuye

5,jack,male,jiuye

6,rose,female,meijiuye

建表语句：

create table t_count(id int,name string,gender string,job string)

row format delimited fields terminated by ',';

请求出，男生和女生中分别已就业的人数

方式1 ：在count计数时进行判断是否需要计入

select sex,count(if(job='jiuye',1,null))

from  t11

group by sex;

方式3：在count计数时判断是否需要计入：

select sex,count(case when job='jiuye' then 1 else null end)

from  t11

group by sex;

方式3：先过滤掉不需要计入的数据，再分组计数

select sex,count(1)

from

(

select *

from t11

where job='jiuye') o1

group by o1.sex;

collect_set() :将某个字段在一组中的所有值形成一个集合（数组）返回

举例：

有数据如下：

1,zhangsan,数学

1,zhangsan,化学

1,zhangsan,语文

1,zhangsan,搭讪学

2,lisi,数学

2,lisi,化学

2,lisi,聊骚

2,lisi,成人搏斗学

3,wangwu,防狼术

3,wangwu,跆拳道

需求：

查询出如下结果：

1	zhangsan	数学化学语文搭讪学
2	lisi	数学化学聊骚
.....	....	....

创建表：

create table t13(id int,name string,subject string)

row format delimited fields terminated by ',';

加载数据：

load data local inpath '/root/hivedata/collectset.dat' into table t13;

select id,name,collect_set(subject)

from t13

group by id,name;

查询结果如下：

+-----+-----------+------------------------------------------------------------+--+

| id | name | _c2 |

+-----+-----------+--------------------------------------------------------------+--+

| 1 | zhangsan | ["数学","化学","语文","街头搭讪学"] |

| 2 | lisi | ["数学","化学","聊骚","成人搏斗学"] |

| 3 | wangwu | ["防狼术","跆拳道"] |

+-----+-----------+----------------------------------------------------------------+--+

disctinct

数据：

1,zhangsan,28,beijing

1,lisi,29,shanghai

1,wangwu,30,beijing

2,zhaoliu,18,tianjin

2,tianqi,19,shenzhen

3,wangba,21,shenzhen

建表：

create table t_distinct(id int,

name string,

age int,

addr string)

row format delimited fields terminated by ',';

加载数据：

load data local inpath '/root/hivedata/distinct.dat' into table t_distinct;

表生成函数

表生成函数行转列函数：explode()

假如有以下数据，把所有的学科转换成列数据。

1,zhangsan,化学:物理:数学:语文

2,lisi,化学:数学:生物:生理:卫生

3,wangwu,化学:语文:英语:体育:生物

映射成一张表：

create table t_stu_subject(id int,name string,subjects array)

row format delimited fields terminated by ','

collection items terminated by ':';

加载数据：

load data local inpath '/root/hivedata/explode.dat' into table t_stu_subject;

使用explode()对数组字段“炸裂”

可以利用这个explode的结果，求去重的课程：

select distinct tmp.sub

from

(select explode(subjects) as sub from t_stu_subject) tmp;

表生成函数lateral view

虽然炸裂函数可以使用把行转成列了，但是生成的结果数据中不能包含原有的id，name字段。

想实现原样恢复的结果（结果如下图所示），可以使用lateral view来实现。

select id,name,tmp.sub

from t_stu_subject lateral view explode(subjects) tmp as sub;

查询结果：

理解： lateral view 相当于两个表在join

左表：是原表

右表：是explode(某个集合字段)之后产生的表

而且：这个join只在同一行的数据间进行

如此，便做更多的查询：

比如，查询选修了生物课的同学

select a.id,a.name,a.sub from

(select id,name,tmp.sub as sub from t_stu_subject lateral view explode(subjects) tmp as sub) a

where sub='生物';

json解析函数

需求：有如下json格式的电影评分数据：

{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}

{"movie":"661","rate":"3","timeStamp":"978302109","uid":"1"}

{"movie":"914","rate":"3","timeStamp":"978301968","uid":"1"}

{"movie":"3408","rate":"4","timeStamp":"978300275","uid":"1"}

{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}

{"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"}

需要做各种统计分析。

发现，直接对json做sql查询不方便，需要将json数据解析成普通的结构化数据表。可以采用hive中内置的json_tuple()函数

实现步骤：

创建一个原始表用来对应原始的json数据

create table t_json(json string);

注意： json数据不需要切分，所以不需要指定分隔符。

加载数据：

load data local inpath '/root/hivedata/ratings.data' into table t_json;

利用json_tuple进行json数据解析

测试，示例：

select json_tuple(json,'movie','rate','timeStamp','uid') as(movie,rate,ts,uid) from t_json limit 10;

产生结果：

窗口分析函数：

row_number() over()

语法： row_number()为数据加行号。 over中写划分窗口的条件，比如怎么分组怎么排序等。

需求：需要查询出每种性别中年龄最大的2条数据

数据如下：

1,18,a,male

2,19,b,male

3,22,c,female

4,16,d,female

5,30,e,renyao

6,26,f,female

7,16,d,renyao

8,30,e,renyao

9,26,f,female

10,14,b,male

创建表：

create table t_rn(id int,age int,name string,sex string)

row format delimited fields terminated by ',';

使用row_number函数，对表中的数据按照性别分组，按照年龄倒序排序并进行标记

hql代码：

select id,age,name,sex,

row_number() over(partition by sex order by age desc) as rank from t_rownumber;

产生结果：

然后，利用上面的结果，查询出rank<=2的即为最终需求

select id,age,name,sex

from

(select id,age,name,sex,

row_number() over(partition by sex order by age desc) as rank

from t_rownumber) tmp

where rank<=2;

sum() over()

sum over常用于级联求和

语法： sum(求和的字段) over （窗口的生成的条件，及行的起始位置）

需求：

有一张每个店铺的销量纪录表。

数据字段为：店铺名称，月份，销售额。

a,01,10
a,01,20
a,02,100

要求统计每一个店铺的月份总销量，及累积到当前月份的总销量。

实现：使用sum()over()窗口分析函数来实现

步骤1：先求出每家店铺每个月的总金额

create table t_tmp as

select name,month,sum(sale) as amt from shop group by name,month;

+-------+--------+-------+--+

| name | month | amt |

+-------+--------+-------+--+

| a | 01 | 350 |

| a | 02 | 5000 |

| a | 03 | 600 |

| b | 01 | 7800 |

| b | 02 | 2500 |

| c | 01 | 470 |

| c | 02 | 630 |

+-------+--------+-------+--+

步骤2：实现级联求和

select name,month,amt,

sum(amt) over(partition by name order by month rows between unbounded preceding and current row) as accumulate

from t_tmp;

sum over中的累加的语法格式：

重要提示

sum()over()的累加范围指定语法：

sum() over(partition by x order by y rows between 8 preceding and current row)

sum() over(partition by x order by y rows between 8 preceding and 5 following)

sum() over(partition by x order by y rows between unbounded preceding and 5 following)

sum() over(partition by x order by y rows between unbounded preceding and unbounded following)

sum over需要指定累加的范围，起始行和终止行的位置。

起始位置和终止位置：

窗口内的第一行：unbounded preceding

窗口内当前行的前3行：3 preceding

当前行： current row

窗口中的最后一行   unbounded following

当前行的下一行  1 following

自定义函数

1）Hive 自带了一些函数，比如：max/min等，但是数量有限，自己可以通过自定义UDF来方便的扩展。

2）当Hive提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。

3）根据用户自定义函数类别分为以下三种：

（1）UDF（User-Defined-Function）

一进一出

（2）UDAF（User-Defined Aggregation Function）

聚集函数，多进一出

类似于：count/max/min

（3）UDTF（User-Defined Table-Generating Functions）

一进多出

如lateral view explore()

4）官方文档地址

https://cwiki.apache.org/confluence/display/Hive/HivePlugins

需求：

有如下数据：

id,salay,bonus,subsidy

a,100,50,120

b,220,150,20

c,220,450,220

3个字段分别表示：用户id，基本工资，业绩提成，股权收益

需要查询出每个人的三类收益中最高的是哪一种收益。

求的不是最高收益，而是最高收益的类型。

a,100,50,120,subsidy

b,220,150,20,salary

c,220,450,220,bonus

hive中有一个函数greatest(f1,f2,f3)可以求出n个字段中的最大值，但满足不了本案例的需求。此时，我们可以考虑自己开发一个hive的函数（hive具备这个机制）

创建表：

create table t19(id int, salary int,bonus int,subsidy int)

row format delimited fields terminated by ',';

通过需求分析，如果有如下函数：

select id,f_c(salary,bonus,subsidy) from t19

f_c(salary,bonus,subsidy) :能够接收3个整数，返回哪一个是最大的，就很容易实现需求；

可惜这样的函数在hive中没有；

解决方案：自定义一个这样的函数；

实现思路：

hive的函数无非也就是一个逻辑的封装，可以接收参数，返回结果，跟java中的方法本质上没有区别。

hive就允许用户开发一个java的方法，来实现你想要的函数的功能；

然后在hive中定义一个自己命名的函数，并将这个函数跟你的java方法所在的类关联起来即可。

实现的流程：

创建javase 工程
导入hive的依赖jar包
自定义类，继承父类UDF 重写方法
evaluate方法的业务逻辑实现
打成jar包，提交到hive运行的环境中
注册临时函数
使用注册的函数查询

实现步骤：

创建java工程，
导入hive的所有的java包

3，开发一个java类继承（HIVE的父类UDF），重载一个方法： evaluate()

方法的功能：

输入：3个整数值

返回：最大值所在的序号（然后使用case when来进行匹配）

public class HighestIncomType extends UDF{

     // 重载evaluate方法，而且必须是public

     public int evaluate(int a,int b,int c) {

      // 最简单的一行代码

return (a >b && a> c)?0:(b>c ? 1:2);

     }

}

4, 将java工程打成jar包，上传到hive所在的机器上

5, 在hive的提示符中，将jar包添加到hive的运行时classpath

6, 注册临时函数

在hive的提示中，用hive语法声明一个自定义函数，并与jar包中的java类关联

hive (default)> add jar /root/myudf.jar ;

Added [/root/myudf.jar] to class path

Added resources: [/root/myudf.jar]

hive (default)>  create temporary function f_c as 'cn.huige.hiveudf.MyUDF';

OK

Time taken: 0.7 seconds

7. 就可以在sql查询中使用这个临时函数了

select id,

case

when type=0 then '基本工资'

when type=1 then '股权收益'

else '津贴'

end as type

from

(select id,f_c(salary,bonus,subsidy) as type from t19) o1;

自定义函数永久生效

上述创建的函数是临时生效的，当hive窗口退出之后，函数就不能使用了。

如果需要创建的函数是永久生效的。就需要做一些其他的配置。

把自定义函数的jar包，放到hive的lib目录下。

[root@hdp-03 ~]# cp myudf.jar apps/apache-hive-1.2.2-bin/lib/

注册永久的函数

hive (default)>  create function f_c as 'cn.huige.hiveudf.MyUDF';

交流QQ: 824203453

欢迎访问博主个人主页：http://www.oldsheep.cn

你可能感兴趣的:(hive)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
初级练习[3]:Hive SQL子查询应用大数据深度洞察 Hive hive sql hadoop 数据仓库大数据数据库
目录环境准备看如下链接子查询查询所有课程成绩均小于60分的学生的学号、姓名查询没有学全所有课的学生的学号、姓名解释：没有学全所有课，也就是该学生选修的课程数<总的课程数。查询出只选修了三门课程的全部学生的学号和姓名环境准备看如下链接环境准备https://blog.csdn.net/qq_45115959/article/details/142057624?spm=1001.2014.3001.5
Linux下载压缩包：tar.gz、zip、tar.bz2格式全攻略 promise524 Linux linux 运维服务器后端 bash shell
在Linux中，下载各种格式的压缩包（如.tar.gz、.zip、.tar.bz2等）通常使用命令行工具如wget和curl。1.使用wget下载压缩包wget是Linux中最常用的文件下载工具，支持HTTP、HTTPS、FTP等协议，可以直接从命令行下载文件。基本命令：wget[URL]下载.tar.gz文件wgethttps://test.com/archive.tar.gz此命令将从指定的U
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
中级练习[3]：Hive SQL用户行为与商品销售数据分析大数据深度洞察 Hive hive 数据仓库大数据 sql
目录1.用户累计消费金额及VIP等级查询1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询2.1题目需求2.2代码实现3.每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现1.用户累计消费金额及VIP等级查询1.1题目需求从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额，以及每个用户在其每个下单日期的VIP等级。VIP等
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
博客园怎么了？ YYH1992
新年好，给大家拜个早年！今年来到安徽过年，无聊中，不知不觉中又来到博客园了（忠实粉丝哦），却发现一件奇怪的事情，请看截图难道博客园被挂马了？抑或其它问题？如果真有问题，还请dudu抓紧时间修正，免得影响我们园子的声誉！我要下线了，出去买回家的车票了，只能年后回家了。。。转载于:https://www.cnblogs.com/HollisYao/archive/2008/02/06/1065351.
linux下文件的复制、移动与删除搬砖中年人
一、文件复制命令cp命令格式：cp[-adfilprsu]源文件(source)目标文件(destination)cp[option]source1source2source3...directory参数说明：-a:是指archive的意思，也说是指复制所有的目录-d:若源文件为连接文件(linkfile)，则复制连接文件属性而非文件本身-f:强制(force)，若有重复或其它疑问时，不会询问用户
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册 vvvae1234 apache
ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着ApacheDoris用户的增加，新的数据源连接需求也随之增加。因此，从3.0版本开始，ApacheDoris引入了TrinoConnector兼容框架。Trino/Presto作为业界较早应用
SAP HANA makaitai BW sap 数据库工具报表 layer 服务器
原文地址：http://LiuAlex.com/archives/1776也是刚刚开始学习HANA的一些知识，一边看书一遍做笔记，说到底无非是用自己的语言来理解标准帮组文档所讲解的意思，肯定有理解失误的地方，毕竟没有参加过标准培训，即使有培训，从老师那边来的知识也不可能是完整的传授过来，中间多少的知识遗漏是正常的，所以多看看HELP的文档，应该可以原汁原味的理解作者的意思。这张图片是从SAPHAN
Hive SQL查询汇总分析大数据深度洞察 Hive hive sql hadoop 数据仓库数据库大数据
目录SQL查询汇总分析成绩查询查询编号为“02”的课程的总成绩查询参加考试的学生个数分组查询查询各科成绩最高和最低的分查询每门课程有多少学生参加了考试（有考试成绩）查询男生、女生人数分组结果的条件查询平均成绩大于60分的学生的学号和平均成绩查询至少选修四门课程的学生学号查询同姓（假设每个学生姓名的第一个字为姓）的学生名单并统计同姓人数大于2的姓查询每门课程的平均成绩，结果按平均成绩升序排序，平均成
RMAN-08137 rman delete archivelog force jnrjian 数据库 oracle
deleteforcearchiveloguntiltime'trunc(sysdate-4)'backedup1timestodevicetypedisk;SymptomsDatabaseAClonedtoDatabaseBonCloneserver.GoldenGateisConfiguredonSourcedatbaseA.DatabaseBwhichisclonedfromSourcedo
hive表格统计信息不准确 weixin_41956627 hive hive hadoop 数据仓库
问题描述有个hive分区表，orc存储格式，有个分区，查询selectcount(1)fromtablewheredt='yyyyMMdd'结果是0，但查询select*fromtablewheredt='yyyyMMdd'又能查到数据，去hdfs对应目录下查看，也能看到有数据文件解决执行如下sqlANALYZETABLEdb.table1PARTITION(dt='20240908')COMPU
Conda创建环境失败：000和404错误柚柚柚柚柚 conda
一、首先下载Anaconda1.打开网址Indexof/anaconda/archive/|清华大学开源软件镜像站|TsinghuaOpenSourceMirror，滑到最底部，下载Anaconda3-5.3.1-Linux-x86_64.sh。2.使用winscp拖动本地的Anaconda3-5.3.1-Linux-x86_64.sh到服务器的个人工作目录下。二、安装Anaconda软件，创建虚
C#中两个问号的含义 weixin_30363981 测试
stringstrParam=Request.Params["param"]??"";取??左边的值,如果??左边的值为null则取右边的值转载于:https://www.cnblogs.com/shadowtale/archive/2012/10/19/2731152.html
如何下载各个版本的tomcat-比如tomcat9 耳边轻语999 tomcat java
1，找到tomcat官网https://tomcat.apache.org/ApacheTomcat®-Welcome!找到tomcat9，或者archives1.1，找到对应版本1.2，找到小版本1.3，找到bin2，Indexof/dist/tomcat/tomcat-9/v9.0.39/bin2.1，下载对应的解压版本或者安装版本
Percona-toolkit工具详解小一_d28d
1.pt工具安装[root@master~]#yuminstall-ypercona-toolkit-3.1.0-2.el7.x86_64.rpm2.常用工具使用介绍2.1pt-archiver归档表#重要参数--limit100每次取100行数据用pt-archive处理--txn-size100设置100行为一个事务提交一次，--where'id>/root/db/checksum.logpt
Ubuntu更换apt-get的下载源愤愤的有痣青年
将以下内容替换/etc/apt/sources.list中的内容deb-srchttp://archive.ubuntu.com/ubuntuxenialmainrestricted#Addedbysoftware-propertiesdebhttp://mirrors.aliyun.com/ubuntu/xenialmainrestricteddeb-srchttp://mirrors.aliy
apt 下载指定架构的包及离线安装的方法错误重复学习记录 linux
#设置系统架构sudodpkg--add-architectureamd64#安装apt-rdependssudoaptinstallapt-rdepends#创建单独的目录mkdir-p/home/apt/postgresql-client-common#仅下载安装包sudoapt-getinstall--download-onlysudomv/var/cache/apt/archives/*/
游戏运营环节的一些关键转化率 turtle081025 数据分析游戏网络游戏运营
转载于http://www.gamedatas.com/archives/134转化率这个指标在各行各业的数据分析中运用的非常之广泛，例如：电商中就会存在，点击到订单生成的一系列转化率，传统的销售行业也会在做广告的时候考虑该广告能够转化多少订单，而在游戏行业，转化率同样是一个不容忽视的指标。一般来说，游戏运营的过程中主要会关注到这些转化率：1.下载-安装（激活）转化率；2.安装（激活）-注册转化率
Python API操作RocketMQ 京城小筑 #Python编程 python
背景：开发背景:公司相关报表需求需要将订单业务数据同步至RocketMQ中，由于需要保证开发的一致性(多个部门协同开发)，所以采用读取Hive离线数据的方式通过PythonAPI写入RocketMQ中，便于其他开发同事调用~开发环境:本地调试系统MacPython3.7.5rocketmq0.4.4(Python模块)rocketmq-client-python2.0.0(Python模块)服务器
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f

Hive专题八---Hive函数--自定义函数UDF

hive函数使用

系统自带的函数

转换函数

数学运算函数

字符串函数

时间函数

条件控制函数

IF

case when

集合函数

常见分组聚合函数

表生成函数

表生成函数 行转列函数：explode()

表生成函数lateral view

json解析函数

窗口分析函数：

row_number() over()

sum() over()

自定义函数

需求：

实现思路：

实现步骤：

自定义函数永久生效

你可能感兴趣的:(hive)

表生成函数行转列函数：explode()