扛麻袋的少年

Hive 内置函数

本文目录

1.内置函数
2.Hive函数分类
3.常用函数介绍
- 3.1 nvl
- 3.2 case when then else end
- 3.3 concat相关函数
- - Ⅰ.concat
  - Ⅱ.concat_ws
- 3.4 collect_相关函数
- - Ⅰ.collect_set
  - Ⅱ.collect_list
- 3.5 explode + lateral view
- 3.6 grouping sets 多维分析
- 3.7 开窗函数
- - Ⅰ.over()大致介绍
  - Ⅱ.over() 括号中会使用到的几个关键词（如何使用参考下文3.1）
  - Ⅲ.通过几个需求来了解over()的使用：
  - - 1.查询在2017年4月份购买过的顾客及总人数
    - 2.查询顾客的购买明细及月购买金额
    - 3.查询顾客的购买明细，将每个顾客的cost按照日期进行累加
    - - 3.1 over 中的几个关键字使用介绍
    - 4.LAG查询每个顾客上次的购买时间
    - 5.查询前 20% 时间的订单信息
- 3.8 rank、dense_rank
- 3.9 row_number
4.自定义函数

1.内置函数

进入 hive 客户端，通过命令show functions来查看系统内置的函数，默认内置了 289 个函数。通过命令desc function 函数名可以查看自带函数的描述，通过命令desc function extended 函数名可查看自带函数详细的用法（附带Example）。如下所示：

# 1.查看函数描述
hive (test)> desc function upper;
OK
tab_name
upper(str) - Returns str with all characters changed to uppercase
Time taken: 0.014 seconds, Fetched: 1 row(s)

# 2.查看函数详细用法
hive (test)> desc function extended upper;
OK
tab_name
upper(str) - Returns str with all characters changed to uppercase
Synonyms: ucase
Example:
  > SELECT upper('Facebook') FROM src LIMIT 1;
  'FACEBOOK'
Function class:org.apache.hadoop.hive.ql.udf.generic.GenericUDFUpper
Function type:BUILTIN
Time taken: 0.066 seconds, Fetched: 7 row(s)

2.Hive函数分类

Hive 中的函数，分三种：

UDF (一进一出，普通函数)
UDTF (多进一出，聚合函数)
UDAF (一进多出，炸裂函数)

一和多指的是输入数据的行数。

UDF函数：输入一行数据，返回一行数据。比如：upper(转大写)、substring(截取) 函数

UDTF函数：输入多行数据，返回一行数据，就是我们常用的聚合函数。比如：sum(求和)、avg(求平均数)函数

UDAF函数：输入一行数据，返回多行数据，又叫做炸裂函数。比如：explode(用于打散行，将一行的数据拆分成多行，它的参数必须为map或array)函数（炸裂函数：比如一行有很多单词，逗号分割，最后将单词通过逗号拆开，一个单词放一行，即输入一行输出多行）

如下图所示，通过命令：desc function extended 函数名;可以来查看函数是什么类型

3.常用函数介绍

由于博主有 MySQL 、Oracle 相关知识。此处部分函数的使用和 MySQL、Oracle 完全一致，就不在此过多描述

3.1 nvl

函数说明：
给值为 NULL 的数据赋值，它的格式是 NVL( value，default_value)。它的功能是如果 value 为 NULL，则 NVL 函数返回 default_value 的值，否则返回 value 的值，如果两个参数都为 NULL ，则返回 NULL。【Oracle 中也有 NVL 函数】。

示例：
select nvl(null,'默认值');   #返回默认值
select nvl("111","222");  #返回111
select nvl(100+100,"222");  #返回200

3.2 case when then else end

函数说明：
多条件判断函数，类似 Java 中的 if else 语句。condition是一个返回布尔类型的表达式，如果表达式返回true，则整个函数返回相应result的值，如果表达式皆为false，则返回 ElSE 后 result 的值，如果省略了 ELSE 子句，则返回 NULL。【MySQL、Oracle 中均有 case when then else end 函数】

格式：
CASE WHEN condition THEN result 

[WHEN...THEN...] 

ELSE result 

END

3.3 concat相关函数

Ⅰ.concat

函数说明：
CONCAT(string A/col, string B/col…) 返回输入字符串连接后的结果，支持任意个输入字符串。【MySQL、Oracle中均有 concat 函数】

示例：
SELECT concat("Hello","----","World");   # 返回 Hello----World

Ⅱ.concat_ws

函数说明：
CONCAT_WS(separator, str1, str2,…) ：它是一个特殊形式的 CONCAT()。第一个参数为参数间的分隔符。分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL，返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串。分隔符将被加到被连接的字符串之间;

示例：
select concat_ws("-","Hello","World","HaHaHa");   #返回Hello-World-HaHaHa
注意：
CONCAT_WS 中传入的参数，必须是 string字符串 或者 array字符串数组。传入 array字符串数组，concat_ws 可配合 collect_set、collect_list 使用。

3.4 collect_相关函数

数据：

Ⅰ.collect_set

函数说明：
collect_set 函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总，产生 Array 类型字段。

示例：
# collect_set
select dept_no,collect_set(user_name) from user_info group by dept_no;

Ⅱ.collect_list

函数说明：
collect_list 与 collect_set 不同的是它不会去重。

示例：
#collect_list
select dept_no,collect_list(user_name) from user_info group by dept_no;

3.5 explode + lateral view

提示： explode 是 UDTF函数，UDTF函数通常需要配合 lateral view 侧写表使用。

函数说明：
explode(col)：将一行数据转换成列数据，可以用于array和map类型的数据。就是将 hive 一行中复杂的array或者map结构拆分成多行。

数据：

需求：
将电影分类中的数组数据展开。结果如下：

SQL:
# 表名.* 方式
select 
   movie,
   category_name.*    
from 
   movie_info 
lateral view 
   explode(split(category,'/')) category_name;
# 列名方式
select 
   movie,
   category_name    
from 
   movie_info 
lateral view 
   explode(split(category,'/')) movie_info_tmp as category_name;
分析：
如果使用 select movie,explode(split(category,'/')) from movie_info;则会报错：UDTF’s are not supported outside the SELECT clause, nor nested in expressions

原因：
当使用UDTF函数的时候，hive只允许对拆分字段进行访问。
正确命令： select explode(split(category,'/')) from movie_info;
错误命令： select movie,explode(split(category,'/')) from movie_info;

如果想访问除了拆分字段以外的字段，怎么办呢?
用lateral view侧视图！官方文档，参考：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView

lateral view为侧视图，意义是为了配合UDTF函数来使用，把某一行数据拆分成多行数据。不加 lateral view 的UDTF只能提取单个字段拆分，并不能塞回原来数据表中。加上lateral view就可以将拆分的单个字段数据与原始表数据关联上。explode 只炸裂一个列，直接炸裂即可。如果炸裂的同时，还需要原表相关的字段，就需要加 lateral view 侧写表了

注意：在使用 lateral view 的时候需要指定视图别名和生成的新列别名

【参考自：https://blog.csdn.net/u011110301/article/details/104198588】

3.6 grouping sets 多维分析

使用 grouping sets 对数据进行多维度分析。如何使用 grouping sets 可参考官方文档：Enhanced Aggregation, Cube, Grouping and Rollup

1.需求：
①查看公司的总人数
②查看公司男性多少人，女性多少人
③查看公司每个部门有多少人
④查看公司每个部门男性、女性有多少人

2.数据如下：

3.基础SQL语句查询

①查看公司的总人数
select count(*) from db_user;
②查看公司男性多少人，女性多少人
select user_sex, count(*) from db_user group by user_sex;
③查看公司每个部门有多少人
select dept_no, count(*) from db_user group by dept_no;
④查看公司每个部门男性、女性有多少人
select dept_no, user_sex, count(*) from db_user group by dept_no, user_sex;
4.使用 GROUPING SETS 一个语句即可完成！！！！
select 
    dept_no,
    user_sex,
    count(*) 
from 
    db_user 
group by 
    dept_no,user_sex 
grouping sets
    ((),user_sex,dept_no,(user_sex,dept_no));
查询结果：

5.聚合查询，使用grouping sets 和 group by 的对比图(摘自官方文档)

3.7 开窗函数

提示：MySQL 在 8.X 版本也引入了开窗函数，与 Hive 中使用一样。随便找了个 blog 了解一下吧。MySQL 8.x 开窗函数 blog

官方文档，参考：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics

数据：

Ⅰ.over()大致介绍

说明：
group by 可以根据某个字段对数据集进行分组。over() 也类似，可以指定字段。但是它和 group by 还是不同的。

不同点在于：
group by 按照某个字段分组，比如说部门id，那么只要 id 相同的就都在一个组中，聚合时会对组中所有数据进行聚合。
over() 则不同，它可以指定窗口大小随着行的改变而改变，比如说 over 根据某个字段分组(此处说分组也不妥)，它可以在组内开窗，再次指定哪些行分为一组。

Ⅱ.over() 括号中会使用到的几个关键词（如何使用参考下文3.1）

关键词含义

PARTITION BY 以某个字段分区

ORDER BY 用于排序，配合聚合函数可实现累加

CURRENT ROW 当前行

n PRECEDING 往前 n 行数据

n FOLLOWING 往后 n 行的数据

UNBOUNDED 起点
UNBOUNDED PRECEDING 表示从前面的起点
UNBOUNDED FOLLOWING 表示到后面的终点

LAG(col,n,default_val) 往前第 n 行数据【col 字段，n 往前推n行，default_val 往前推的n行，如果该行为空，使用default_val字段】

LEAD(col,n,default_val) 往后第 n 行数据【col 字段，n 往前推n行，default_val 往前推的n行，如果该行为空，使用default_val字段】

FIRST_VALUE 这最多需要两个参数。第一个参数是您想要第一个值的列，第二个（可选）参数必须是默认值为 false 的布尔值。如果设置为 true 则跳过空值

LAST_VALUE 这最多需要两个参数。第一个参数是您想要最后一个值的列，第二个（可选）参数必须是默认为 false 的布尔值。如果设置为 true 则跳过空值。

NTILE(n) 把有序窗口的行，分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，NTILE返回慈航所属的组的编号。注意：n必须为 int 类型

提示：这几个关键字可以非常方便在开窗中对行数的控制。在下面的【需求 3.1 中会有使用到】，点击链接到 3.1 查看 →→To 3.1。你也可以参见官方文档示例：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics

通过案例来了解一下over()的含义

案例一：over()存在的意义
# 这个SQL是会直接报错的，因为使用count聚合函数，却没有 group by name;
select name,count(name) from order_info;
# 加个 over() 在聚合函数后，在hive中就能够正常运行了。
select name,count(name) over() from order_info;
运行结果：

结果分析：

为什么是14呢？因为库中一共就有14条记录。

over() 在 group by 查询之后生效。我们执行 select name from order_info;会有14条记录。over() 即开窗的意思，over() 括号中没有限制条件，即代表将select name from order_info;的14条记录作为窗口数据集，count(name) 就是对窗口里面的数据集进行 count 计算。select name 有14条数据，返回数据就为14条，count(name) 就是对 over() 窗口中的数据集计算，所以14条数据的 count(name) 都是14。

总结：
over() 开窗，窗口中的数据就是除聚合函数外查询到的数据。本例即： select name from order_info;会有14条记录，count(name)就是对窗口中的数据求 count，就是 14 咯。

案例二：over()分区使用
# over() 指定按照 name 分区
select 
   name,
   count(name) over(partition by name) 
from 
   order_info;
查询结果：>

关键词	含义
PARTITION BY	以某个字段分区
ORDER BY	用于排序，配合聚合函数可实现累加
CURRENT ROW	当前行
n PRECEDING	往前 n 行数据
n FOLLOWING	往后 n 行的数据
UNBOUNDED	起点 UNBOUNDED PRECEDING 表示从前面的起点 UNBOUNDED FOLLOWING 表示到后面的终点
LAG(col,n,default_val)	往前第 n 行数据【col 字段，n 往前推n行，default_val 往前推的n行，如果该行为空，使用default_val字段】
LEAD(col,n,default_val)	往后第 n 行数据【col 字段，n 往前推n行，default_val 往前推的n行，如果该行为空，使用default_val字段】
FIRST_VALUE	这最多需要两个参数。第一个参数是您想要第一个值的列，第二个（可选）参数必须是默认值为 false 的布尔值。如果设置为 true 则跳过空值
LAST_VALUE	这最多需要两个参数。第一个参数是您想要最后一个值的列，第二个（可选）参数必须是默认为 false 的布尔值。如果设置为 true 则跳过空值。
NTILE(n)	把有序窗口的行，分发到指定数据的组中，各个组有编号，编号从1开始，对于每一行，NTILE返回慈航所属的组的编号。注意：n必须为 int 类型

Ⅲ.通过几个需求来了解over()的使用：

1.查询在2017年4月份购买过的顾客及总人数

select 
   name,
   count(*) over ()
from 
   order_info
where 
   date_format(orderdate,'yyyy-MM') = '2017-04'
group by 
   name;

2.查询顾客的购买明细及月购买金额

select 
   name,
   orderdate,
   cost,
   sum(cost) over(partition by month(orderdate))
from
   order_info;

3.查询顾客的购买明细，将每个顾客的cost按照日期进行累加

备注：累加功能，在 over() 中加个 order by 即可。

select 
   name,
   orderdate,
   cost,
   sum(cost) over(partition by name order by orderdate)
from
   order_info;

3.1 over 中的几个关键字使用介绍

①sum(cost) over(partition by name order by orderdate) 按name分组，组内数据累加

②sum(cost) over(partition by name order by orderdate rows between UNBOUNDED PRECEDING and CURRENT ROW) 按name分组，由起点到当前行的聚合，与①一样，①默认也是起点到当前行的聚合

③sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING and CURRENT ROW) 按name分组，当前行与前面1行做聚合

④ sum(cost) over(partition by name order by orderdate rows between 1 PRECEDING and 1 FOLLOWING) 按name分组，当前行与前面1行与后面一行做聚合

⑤sum(cost) over(partition by name order by orderdate rows between CURRENT ROW and 1 FOLLOWING) 按name分组，当前行与后面1行做聚合

⑤sum(cost) over(partition by name order by orderdate rows between CURRENT ROW and UNBOUNDED FOLLOWING) 按name分组，当前行与后面所有行做聚合

4.LAG查询每个顾客上次的购买时间

提示：lag(col,n,default_val)：【col 字段，n 往前推n行，default_val 往前推的n行，如果改行为空，使用default_val字段】

① Lag 将前n条数据整体往下瞬移的意思。可以做页面访问轨迹。比如：从【A页面 > B页面 > C页面】访问
select 
    name,
    orderdate,
    (lag(orderdate,1,orderdate) over(partition by name order by orderdate)) upPurchaseTime
from 
    order_info;
② Lead 与 Lag 正好反方向。功能一致
# lead 1行，为 null 使用本行的 orderdate
select 
    name,
    orderdate,
    lead(orderdate,1,orderdate) over(partition by name order by orderdate)
from 
    order_info;
② lead 往后2行
# lead 2行，为 null 使用本行的 orderdate
select 
    name,
    orderdate,
    lead(orderdate,2,orderdate) over(partition by name order by orderdate)
from 
    order_info;

5.查询前 20% 时间的订单信息

按时间排序，20%即分成5个组，取第一个组的数据，使用到 ntile(n) 配合 over()完成

select
    tb.name,
    tb.orderdate,
    tb.cose
from (
    select 
        name,
        orderdate,
        cost,
        ntile(5) over(order by orderdate) groupId  
    from 
        order_info;
) tb
where
    tb.groupId = 1

3.8 rank、dense_rank

提示：需要配合开窗函数 over() 使用。
MySQL 在 8.x版本也引入了开窗函数，就很容易实现类似 rank、dense_rank 的功能。

函数说明：
rank 函数用于排序，排序相同时会重复，总数不会变。
dense_rank 函数用于排序，排序相同时总数会减少。

举例：
类似成绩排名。第一个人500分，第二个人500分。并列第一。第三个人499。说的就是他是第二名？还是第三名的问题。rank 总数不会变，排序后是 1、1、3；dense_rank 总数则会减少，排序后是1、1、2

数据：

示例：
# rank 排序后总数不会变，排序后是 1、1、3
select
   name,
   grade,
   rank() over(order by grade desc)
from 
   grade_info;

# dense_rank 总数则会减少，排序后是1、1、2
select
   name,
   grade,
   dense_rank() over(order by grade desc)
from 
   grade_info;

3.9 row_number

提示：需要配合开窗函数 over() 使用

MySQL 在 8.x版本也引入了开窗函数，就很容易实现类似 row_number 的功能。如果没有开窗函数，就比较复杂了，可参考：MySQL语句练习50题

函数说明：
row_number 函数，是给每一行添加一个编号，编号从1 开始，与 Oracle 中的 ROWNUM 差不多。

数据：
使用 3.7 数据

示例：
select
    name,
    grade,
    row_number() over()
from 
    grade_info;

提示：
其他没介绍的内置函数，自行研究吧。通过命令show functions来查看系统内置的函数，默认内置了 289 个函数。

4.自定义函数

总有 Hive 内置函数解决不了的问题，就需要我们来自定义 Hive 函数了。常用来自定义的是 UDF、UDTF 函数。聚合函数 UDAF 基本已经都内置了。此处就重点介绍自定义UDF函数和自定义UDTF函数

Hive 自定义函数，本文不做介绍，如需了解。跳转查看：https://blog.csdn.net/lzb348110175/article/details/117653668

下一篇：Hive自定义函数

博主写作不易，加个关注呗

求关注、求点赞，加个关注不迷路ヾ(◍°∇°◍)ﾉﾞ

我不能保证所写的内容都正确，但是可以保证不复制、不粘贴。保证每一句话、每一行代码都是亲手敲过的，错误也请指出，望轻喷 Thanks♪(･ω･)ﾉ

你可能感兴趣的:(#,Hive,hive,hadoop,big,data)

read+write实现:链表放到文件+文件数据放到链表的功能孩之链表数据结构算法
思路一、定义链表：1节点结构（数据int型）2链表操作（创建节点、插入节点、释放链表、打印链表）。二、链表保存到文件1打开文件2遍历链表、写文件：遍历链表,write()将节点数据写入文件。3关闭文件三、从文件加载数据到链表1打开文件2读文件、建链表：read()从文件读取数据，创建节点(放数据)。接起来，建链表。3关闭文件代码：//定义节点结构typedefstructNode{intdata;
matlab快速入门（2）-- 数据处理与可视化 kyle~ matlab matlab 人工智能算法
MATLAB的数据处理1.数据导入与导出(1)从文件读取数据Excel文件：data=readtable('data.xlsx');%读取为表格（Table）CSV文件：data=readtable('data.csv');%自动处理表头和分隔符文本文件：data=load('data.txt');%数值数据直接加载为矩阵(2)导出数据到文件保存为Excel：writetable(data,'ou
数据结构 | C语言实现带头双向循环链表 koi li 数据结构(C语言版)c语言链表数据结构
1.Data.h#pragmaonce#include#include#includetypedefintLTDataType;typedefstructLTListNode{structLTListNode*prev;structLTListNode*next;LTDataTypex;}LTNode;LTNode*LTInit();voidLTPushBack(LTNode*phead,LTDa
解析csv文件转为自己想要的报文格式码码届神码 java 算法数据结构
解析第一版注意文件编码格式为utf-8，且文件用记事本打开最后没有空出来的行。文件名称分隔符.需要转义。//第一层@DatapublicclassAddi0{privateStringname;privateStringcode;privateListchildren;}//第二层@DatapublicclassAddi1{privateStringname;privateStringcode;p
Jupyter Notebook代码实现了一个简单的全连接神经网络，用于对MNIST手写数字数据集进行分类任务 pk_xz123456 PyTorch入门案例 jupyter 神经网络分类
{"cells":[{"cell_type":"code","execution_count":7,"metadata":{
智能风控/数据分析聚合分组连接やっはろ数据分析数据分析 pandas 数据挖掘
目录data。head（）查看前几行配环境添加环境变量聚合groupby方法基本用法分组示例聚合操作示例转换操作示例过滤操作示例实例方法示例总结apply方法结合使用groupby和applymerge聚合基本语法参数说明【连接键】DataFrame示例内连接（INNERJOIN）左连接（LEFTJOIN）右连接（RIGHTJOIN）真实全外连接（FULLOUTERJOIN）示例内连接（INNER
python eml解析_提取邮件（eml格式）保存为html-python | 学步园 weixin_39820158 python eml解析
#-*-coding:utf-8-*-__author__='[email protected]'importosimportsysimportemailimporterrnoimportmimetypesPATH=os.path.abspath(os.path.dirname(sys.argv[0]))ITEM_PATH=PATH+"\item"PATH_DATA=os.path.abspat
【Spring Security Oauth2】构建授权服务器(三)：使用数据库存储客户端信息 apple_csdn 数据库 spring 服务器 springcloud
一、环境准备1、回顾【SpringSecurityOauth2】构建授权服务器(一)：内存模式2、Sql脚本createdatabased_study_oauth2charactersetutf8;used_study_oauth2;--auto-generateddefinitioncreatetableoauth_client_details(client_idvarchar(255)notn
如何分析HCI的Command Packet和Event Packet包 haokaihaohe110 Linux command bt networking interface microsoft 音乐
HCIPacket包括四种，即Command，Event，ACL和SCO/eSCO，对应到MS-Stack中的定义，即为COMMAND_PACKET，EVENT_PACKET，DATA_PACKET_ACL和DATA_PACKET_SCO。如下（详细参照bt_hcip.h）：enumHCI_TYPE{COMMAND_PACKET=1,DATA_PACKET_ACL=2,DATA_PACKET_SC
Mongo数据库简介 chqj_163
作者：[佚名]-发布：2010-11-1810:16:59-来源：无忧技术网转载http://www.liqwei.com/database/other/2010/778.shtmlMongo是一个高性能，开源，无模式的文档型数据库，它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。Mongo使用C++开发，提供了以下功能：◆面向集合的存储：适合存储对象及JSON形式的数据。◆动态查询：
详细介绍：使用 Axios 上传图片文件还是鼠鼠 javascript 前端开发语言 ajax bootstrap 前端框架 vscode
目录1.项目背景和功能概述2.（index.html完整代码）结构解析3.JavaScript部分解析3.1事件监听和图片上传3.2处理响应和错误4.完整流程5.总结6.适用场景这篇文章将展示如何通过Axios发送POST请求来实现图片上传。通过用户选择图片文件后，使用FormData构造上传的文件数据，并通过Axios将其提交到服务器。服务器返回图片的URL后，页面会显示上传的图片。下面是详细的
echarts样式设置笔记 weixin_45907672 vue echarts 前端 javascript
设置x轴的小标题xAxis:{type:'value',name:'DRGs组数',data:['2014','2015','2016','2017','2018','2019','2020']}设置y轴的小标题yAxis:[{type:'value',name:'预算总额',min:0,max:25,interval:5,//可以添加单位和后缀//axisLabel:{//formatter:'
sqoop导出orc数据至mysql,将Sqoop导入为OrC文件终有尽头
IsthereanyoptioninsqooptoimportdatafromRDMSandstoreitasORCfileformatinHDFS?Alternativestried:importedastextformatandusedatemptabletoreadinputastextfileandwritetohdfsasorcinhive解决方案AtleastinSqoop1.4.5t
sqoop从orc文件到oracle,Sqoop import as OrC file 余革革
问题IsthereanyoptioninsqooptoimportdatafromRDMSandstoreitasORCfileformatinHDFS?Alternativestried:importedastextformatandusedatemptabletoreadinputastextfileandwritetohdfsasorcinhive回答1:AtleastinSqoop1.4.
Hadoop---(6)Sqoop（数据传输） Mr Cao sqoop 大数据
6.SqoopSqoop是一个用于hadoop数据和结构化数据之间转换的工具。全称SQL-TO-HADOOP.它可以把hadoop数据，包括hive和hbase存储的数据转化为结构化数据也就是数据库的数据，也可以把关系型数据库数据转化为hadoop数据这些转换操作全是通过Hadoop的MapTask来完成的，并不会涉及到Reduce操作。这是因为我们只是进行数据的拷贝，并不会对数据进行处理或者计算
Sqoop 支持 ORC 文件格式吃鱼的羊 sqoop
ORC介绍ORC文件格式是Hive0.11.0版本引入的一种文件格式。ORC的引入是为了解决其他Hive文件格式的局限性。使用ORC文件格式提升Hive读取、写入及处理数据的性能。与RCFile对比，ORC文件格式有很多优点：每个Task只输出一个文件，降低NameNode的负载。Hive数据类型支持，包括：datetime、decimal以及复杂数据类型（struct、list、map、unio
solidity：智能合约结构介绍 FAFU_kyp #solidity智能合约区块链
合约结构介绍1.SPDX版权声明bytecodemetadata介绍2.pragmasolidity版本限制3.contract关键字4.import导入声明5.interface:接口6.library:库合约合约结构介绍1.SPDX版权声明第1行//SPDX-License-Identifier:MIT就是合约的版权声明。其中SPDX-License-Identifier(SPDX许可标示)是
labelme_json_to_dataset ValueError: path is on mount ‘D:‘,start on C 广药门徒 json
这是你的labelme运行时label照片的盘和保存目的地址的盘不同都值得报错labelme_json_to_datasetValueError:pathisonmount'D:',startonC只需要放一个盘但可以不放一个目录
yolov5--hsv增强，hyp超参数， yuyuyue249 YOLO 计算机视觉机器学习
一.hyp超参数:文件位置：data/hyps/hyp.scratch-low.yaml具体如下：lr0:0.01#initiallearningrate(SGD=1E-2,Adam=1E-3)lrf:0.01#finalOneCycleLRlearningrate(lr0*lrf)momentum:0.937#SGDmomentum/Adambeta1weight_decay:0.0005#op
【llm对话系统】大模型 Llama 源码分析之并行训练方案 kakaZhui llama 人工智能 AIGC chatgpt
1.引言训练大型语言模型(LLM)需要巨大的计算资源和内存。为了高效地训练这些模型，我们需要采用各种并行策略，将计算和数据分布到多个GPU或设备上。Llama作为当前最流行的开源大模型之一，其训练代码中采用了多种并行技术。本文将深入Llama的训练代码，分析其并行训练方案，主要关注参数并行和部分结构参数共享。2.并行训练策略概述常见的并行训练策略包括：数据并行(DataParallelism,DP
《Kotlin核心编程》热身篇——Kotlin基础内容总结 Swuagg Kotlin kotlin 开发语言 android
1Kotlin设计哲学目标：更好的Java编程方式：面向对象命令式编程+函数式编程（Scala有包括宏）一些改良：单例模式，data数据类，NPE，可变性，更多的语法糖，类型推导2Kotlin基础语法2.1类型声明类型声明：类型名放在后面方法返回值类型，是否需要显示类型声明：表达式函数体（单行表达式与等号），代码块函数体。需要进行显示类型声明的情况：a、是函数的参数；b、是非表达式定义的函数，返回
Python 批量下载 ERA-5 Reanalysis 数据 zhe是我呀数据下载 ERA-5数据下载 python
ECMWF大气再分析数据集ERA-interim已被ERA-5数据集取代，ERA-5详细信息看这里下面介绍下载的具体步骤：1.要下载ERA-5数据集，需要先注册一个CDS账号。登录之后进入ClimateDataStoreAPI页面复制自己的key和url，如下图2.创建.cdsapirc文件，windows系统就是自己的用户目录下面，linux就是根目录，内容为自己的key和url，示例如下图
【自然语言处理（NLP）】基于Transformer架构的预训练语言模型：BERT 训练之数据集处理、训练代码实现道友老李自然语言处理(NLP)自然语言处理 transformer
文章目录介绍BERT训练之数据集处理BERT原理及模型代码实现数据集处理导包加载数据生成下一句预测任务的数据从段落中获取nsp数据生成遮蔽语言模型任务的数据从token中获取mlm数据将文本转换为预训练数据集创建Dataset加载WikiText-2数据集BERT训练代码实现导包加载数据构建BERT模型模型损失训练获取BERT编码器个人主页：道友老李欢迎加入社区：道友老李的学习社区介绍**自然语言
活动火热报名中 | Data+AI 融合趋势下的智能数仓平台建设人工智能大数据阿里云数据库数据
活动介绍随着AI应用浪潮的深入，Data+AI能够让数据和AI团队在一个平台上进行协作,端到端的完成模型开发部署等。MaxCompute作为阿里云最核心的核心战略级云数仓产品之一，在Data+AI融合趋势下，通过经典数据仓库能力定义与云数据架构的深刻理解，构建出面向下一代智能云数仓，并为用户提供了Data+AI一体化开发体验。本次活动，我们将聚焦“Data+AI融合趋势下的智能数仓平台建设”，诚邀
Python中将实体类列表数据导出到Excel文件傻啦嘿哟关于python那些事儿 python excel 开发语言
目录一、环境准备二、定义实体类三、创建实体类列表四、将实体类列表转换为DataFrame五、导出DataFrame到Excel文件六、完整代码示例七、扩展功能八、总结在数据处理和报告生成中，将实体类（即自定义对象）的列表数据导出到Excel文件是一项常见任务。Python提供了多种库来实现这一目标，其中最流行的是pandas和openpyxl。本文将通过一个实战案例，展示如何使用这两个库将实体类列
【漏洞复现】广联达 Linkworks OA ArchiveWebService XML实体注入漏洞 0x0000001 漏洞复现 xml 网络安全 web安全渗透测试网络安全
免责声明：本文旨在提供有关特定漏洞的信息，以帮助用户了解潜在风险。发布此信息旨在促进网络安全意识和技术进步，并非出于恶意。读者应理解，利用本文提到的漏洞或进行相关测试可能违反法律或服务协议。未经授权访问系统、网络或应用程序可能导致法律责任或严重后果。作者对读者基于本文内容的行为不承担责任。读者在使用信息时必须遵守适用法律法规和服务协议，独自承担所有风险和责任。如有侵权，请联系删除。漏洞描述广联达L
python 导出mysql 视图_python脚本-导出MySQL数据到excel weixin_39568781 python 导出mysql 视图
#!/usr/bin/envpython#coding=utf8importxlwtimportMySQLdbimportdatetimehost='localhost'user='scott'passwd='oracle'db='test'port=3307unix_socket='/data/mysql3307/tmp/3307.sock'sql_exec_30='select*fromtes
Python - 小玩意 - 数据字典转Excel 冷风扇666 #搞懂Python python excel
importpandasaspd#pip--default-timeout=500000installpandas#pip--default-timeout=500000installopenpyxl#数据字典data_dict={'ID':
ARINC429协议分析 Eidolon_li FPGA fpga开发
描述本章内容主要说明ARINC429协议分析方法，包含429数据模型，以及各模型的含义协议模型定义如下表所示，ARINC429在发送一帧过程中，首先发送以START开始，以END结束，共发送32bits数据，其中0~7bits为Lable数据，9~8bits为SDI数据，10~28bits为数据，29~30bits为SSM，31bit为校验位End30292827262524校验位SSMDATA（
hbase无法建表：org.apache.hadoop.hbase.PleaseHoldException: Master is initializing magicchu CDH HBASE 大数据
1.环境：cdh6.2.12.现象：hbaseshell进去后，list命令执行正常，执行建表语句后报错：ERROR:org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing提示master正在初始化中，查看master日志：WARNorg.apache.hadoop.hbase.master.HMaster:hbase:na
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那