大王派我来巡山～

hive基础

DDL（data definition language）

创建数据库

创建表

hive中数据类型

create table as select建表

create table like语法

修改表名

修改列

更新列

替换列

清空表

关系运算符

聚合函数

字符串函数

substring:截取字符串

replace :替换

regexp_replace:正则替换

regexp:正则匹配

repeat:重复字符串

split :字符串切割

nvl :替换 null 值

concat :拼接字符串

concat_ws:以指定分隔符拼接字符串或者字符串数组

get_json_object:解析 json 字符串

日期函数

unix_timestamp:返回当前或指定时间的时间戳

from_unixtime:转化 UNIX 时间戳(从 1970-01-01 00:00:00 UTC 到指定时间的秒数)到当前时区的时间格式

current_date:当前日期

current_timestamp:当前的日期加时间，并且精确的毫秒

month:获取日期中的月

day:获取日期中的日

hour:获取日期中的小时

datediff:两个日期相差的天数(结束日期减去开始日期的天数

date_add:日期加天数

date_sub:日期减天数

date_format:将标准日期解析成指定格式字符串

流程控制函数

case when:条件判断函数

if: 条件判断，类似于 Java 中三元运算符

集合函数

size:集合中元素的个数

map:创建 map 集合

map_keys: 返回 map 中的 key

map_values: 返回 map 中的 value

array 声明 array 集合

array_contains: 判断 array 中是否包含某个元素

sort_array:将 array 中的元素排序

struct 声明 struct 中的各属性

named_struct 声明 struct 的属性和值

collect_list 收集并形成 list 集合，结果不去重

collect_list 收集并形成 list 集合，结果不去重collect_set 收集并形成 set 集合，结果去重

开窗函数

聚合函数

跨行取值函数

分区

增加分区

删除分区

修复分区

hive文件格式

Text File

ORC

Parquet

DDL（data definition language）

创建数据库

//
CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value, ...)];

创建表

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
[(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]

TEMPORARY:临时表，该表只在当前会话可见，会话结束，表会被删除。
EXTERNAL：外部表，与之相对应的是内部表(管理表)。管理表意味着 Hive 会完全接管该表，包括元数据和HDFS中的数据。而外部表则意味着hive只接管元数据而不接管HDFS中的数据。
data_type：数据类型（可以使用cast进行类型转换：cast（'1' as int）+2）
partition by ：分区字段

hive中数据类型

数据类型	说明
tinyint	1byte有符号整数
samllint	2byte有符号整数
int	4byte有符号整数
bigint	8byte有符号整数
boolean	布尔类型
float	单精度浮点数
double	双精度浮点数
decimal	十进制精准数字类型
varchar	字符序列需指定最大长度
string	字符串无需指定最大长度
timestamp	时间类型
binary	二进制数据
array	数组类型
map
struct	结构体

create table as select建表

该语法允许用户利用 select 查询语句返回的结果，直接建表，表的结构和查询语句的结构保持一致，且保证包含 select 查询语句放回的内容

create table like语法

该语法允许用户复刻一张已经存在的表结构，与上述的 CTAS 语法不同，该语法创建出来的表中不包含数据

修改表名

ALTER TABLE table_name RENAME TO new_table_name

修改列

// 该语句允许用户增加新的列，新增列的位置位于末尾。
ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)

更新列

// 该语句允许用户修改指定列的列名、数据类型、注释信息以及在表中的位置。
ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]

替换列

该语句允许用户用新的列集替换表中原有的全部列。
ALTER TABLE table_name REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)

清空表

truncate 只能清空管理表，不能删除外部表中数据。
TRUNCATE [TABLE] table_name

关系运算符

操作符	描述
A=B
A<=>B	如果 A 和 B 都为 null 或者都不为 null，则返回 true，如果只有一边为 null，返回 false
A<>B,A!=B	A或者 B 为 null 则返回 null;如果 A 不等于 B，则返回 true，反之返回 false
A	A 或者 B 为 null，则返回 null;如果 A 小于 B，则返回 true，反之返回 false
A<=B	A 或者 B 为 null，则返回 null;如果 A 小于等于 B，则返回 true，反之返回 false
A>B	A 或者 B 为 null，则返回 null;如果 A 大于 B，则返回 true，反之返回 false
A>=B	A 或者 B 为 null，则返回 null;如果 A 大于等于 B，则返回 true，反之返回 false
A [not] between B and C	如果 A，B 或者 C 任一为 null，则结果为 null。如果 A 的值大于等于 B 而且小于或等于 C，则结果为 true，反之为 false。如果使用 not 关键字则可达到相反的效果。
A is null	如果 A 等于 null，则返回 true，反之返回 false
A is not null	如果 A 不等于 null，则返回 true，反之返回 false
in(数值 1，数值 2)	使用 in 运算显示列表中的值
A [not] like B	B 是一个 SQL 下的简单正则表达式，如果 A 与其匹配的话，则返回 true;反之返回 false。B 的表达式说明如下:‘x%’表示 A 必须以字母‘x’开头， ‘%x’表示 A 必须以字母‘x’结尾，而‘%x%’表示 A
A rlike B, A regexp B	B 是基于 java 的正则表达式，如果 A 与其匹配，则返回 true;反之返回 false。匹配使用的是 JDK 中的正则表达式接口实现的，因为正则也依据其中的规则。例如，正则表达式必须和整个字符串 A 相匹配，而不是只需与其字符串匹配。

聚合函数

操作符	描述
count(*)	统计所有行数，包含null值
count(某列)	统计该列有多少行，不包括null值
max()	求最大值，不包括null，除非所有值都是null
min()	求最小值，不包括null，除非所有值都是null
sum()	求和，不包括null
avg（）	求平均值，不包括null

字符串函数

substring:截取字符串

语法一:substring(string A, int start) 返回值:string
说明:返回字符串 A 从 start 位置到结尾的字符串 语法二:substring(string A, int start, int len) 返回值:string
说明:返回字符串 A 从 start 位置开始，长度为 len 的字符串 
(1)获取第二个字符以后的所有字符 hive> select substring("atguigu",2);
输出:
tguigu
(2)获取倒数第三个字符以后的所有字符 hive> select substring("atguigu",-3);
输出:
igu
(3)从第 3 个字符开始，向后获取 2 个字符 hive> select substring("atguigu",3,2);
输出:
gu

replace :替换

语法:replace(string A, string B, string C) 返回值:string
说明:将字符串 A 中的子字符串 B 替换为 C。 hive> select replace('atguigu', 'a', 'A')
输出:
hive> Atguigu

regexp_replace:正则替换

语法:regexp_replace(string A, string B, string C)
返回值:string
说明:将字符串 A 中的符合 java 正则表达式 B 的部分替换为 C。注意，在有些情况下
要使用转义字符。
案例实操:
hive> select regexp_replace('100-200', '(\\d+)', 'num')
输出:
hive> num-num

regexp:正则匹配

语法:字符串 regexp 正则表达式
返回值:boolean
说明:若字符串符合正则表达式，则返回 true，否则返回 false。
(1)正则匹配成功，输出 true
hive> select 'dfsaaaa' regexp 'dfsa+'
输出:
hive> true
(2)正则匹配失败，输出 false
hive> select 'dfsaaaa' regexp 'dfsb+';
输出:
hive> false

repeat:重复字符串

语法:repeat(string A, int n) 返回值:string
说明:将字符串 A 重复 n 遍。 hive> select repeat('123', 3);
输出:
hive> 123123123

split :字符串切割

语法:split(string str, string pat)
返回值:array
说明:按照正则表达式 pat 匹配到的内容分割 str，分割后的字符串，以数组的形式返
回。
hive> select split('a-b-c-d','-');
输出:
hive> ["a","b","c","d"]

nvl :替换 null 值

语法:nvl(A,B)
说明:若 A 的值不为 null，则返回 A，否则返回 B。 hive> select nvl(null,1);
输出:
hive> 1

concat :拼接字符串

语法:concat(string A, string B, string C, ......) 返回:string
说明:将 A,B,C......等字符拼接为一个字符串
hive> select concat('beijing','-','shanghai','-','shenzhen');
输出:
hive> beijing-shanghai-shenzhen

concat_ws:以指定分隔符拼接字符串或者字符串数组

语法:concat_ws(string A, string...| array(string)) 返回值:string
说明:使用分隔符 A 拼接多个字符串，或者一个数组的所有元素。 hive>select concat_ws('-','beijing','shanghai','shenzhen');
输出:
hive> beijing-shanghai-shenzhen
hive> select concat_ws('- ',array('beijing','shenzhen','shanghai'));
输出:
hive> beijing-shanghai-shenzhen

get_json_object:解析 json 字符串

语法:get_json_object(string json_string, string path)
返回值:string
说明:解析 json 的字符串 json_string，返回 path 指定的内容。如果输入的 json 字符串
无效，那么返回 NULL。
1.获取 json 数组里面的 json 具体数据
 hive> select get_json_object('[{"name":"大海海","sex":"男
","age":"25"},{"name":"小宋宋","sex":"男 ","age":"47"}]','$.[0].name');
输出:
hive> 大海海
2.获取 json 数组里面的数据
 hive> select get_json_object('[{"name":"大海海","sex":"男 ","age":"25"},{"name":"小宋宋","sex":"男","age":"47"}]','$.[0]');
 输出:
hive> {"name":"大海海","sex":"男","age":"25"}

日期函数

unix_timestamp:返回当前或指定时间的时间戳

语法:unix_timestamp()
返回值:bigint
案例实操:
hive> select unix_timestamp('2022/08/08 08-08-08','yyyy/MM/dd HH- mm-ss');

输出:
1659946088

from_unixtime:转化 UNIX 时间戳(从 1970-01-01 00:00:00 UTC 到指定时间的秒数)到当前时区的时间格式

语法:from_unixtime(bigint unixtime[, string format])
返回值:string
案例实操:
hive> select from_unixtime(1659946088);
输出:
2022-08-08 08:08:08

current_date:当前日期

hive> select current_date;
输出:
2022-07-11

current_timestamp:当前的日期加时间，并且精确的毫秒

hive> select current_timestamp;
输出:
2022-07-11 15:32:22.402

month:获取日期中的月

语法:month (string date) 返回值:int
案例实操:
hive> select month('2022-08-08 08:08:08');
输出:
8

day:获取日期中的日

语法:day (string date) 返回值:int
案例实操:
hive> select day('2022-08-08 08:08:08')
输出:
8

hour:获取日期中的小时

语法:hour (string date) 返回值:int
案例实操:
hive> select hour('2022-08-08 08:08:08');
输出:
8

datediff:两个日期相差的天数(结束日期减去开始日期的天数

语法:datediff(string enddate, string startdate)
返回值:int
案例实操:
hive> select datediff('2021-08-08','2022-10-09');
输出:
-427

date_add:日期加天数

语法:date_add(string startdate, int days) 返回值:string
说明:返回开始日期 startdate 增加 days 天后的日期
案例实操:
hive> select date_add('2022-08-08',2);
输出:
2022-08-10

date_sub:日期减天数

语法:date_sub (string startdate, int days) 返回值:string
说明:返回开始日期 startdate 减少 days 天后的日期。
案例实操:
hive> select date_sub('2022-08-08',2);
输出:
2022-08-06

date_format:将标准日期解析成指定格式字符串

hive> select date_format('2022-08-08','yyyy 年-MM 月-dd 日')
输出:
2022 年-08 月-08 日

流程控制函数

case when:条件判断函数

语法一:case when a then b [when c then d]* [else e] end
返回值:T
说明:如果 a 为 true，则返回 b;如果 c 为 true，则返回 d;否则返回 e
hive> select case when 1=2 then 'tom' when 2=2 then 'mary' else 'tim' end from tabl eName;
mary
 语法二: case a when b then c [when d then e]* [else f] end
返回值: T
说明:如果 a 等于 b，那么返回 c;如果 a 等于 d，那么返回 e;否则返回 f
hive> select case 100 when 50 then 'tom' when 100 then 'mary' else 'tim' end from t ableName;
mary

if: 条件判断，类似于 Java 中三元运算符

语法:if(boolean testCondition, T valueTrue, T valueFalseOrNull)
返回值:T
说明:当条件 testCondition 为 true 时，返回 valueTrue;否则返回 valueFalseOrNull
(1)条件满足，输出正确
hive> select if(10 > 5,'正确','错误');
输出:正确
(2)条件满足，输出错误
hive> select if(10 < 5,'正确','错误');
输出:错误

集合函数

size:集合中元素的个数

 hive> select size(friends) from test; --2/2 每一行数据中的 friends 集合里的个数

map:创建 map 集合

语法:map (key1, value1, key2, value2, ...)
说明:根据输入的 key 和 value 对构建 map 类型
案例实操:
hive> select map('xiaohai',1,'dahai',2);
输出:
hive> {"xiaohai":1,"dahai":2}

map_keys: 返回 map 中的 key

hive> select map_keys(map('xiaohai',1,'dahai',2));
输出:
hive>["xiaohai","dahai"]

map_values: 返回 map 中的 value

hive> select map_values(map('xiaohai',1,'dahai',2));
输出:
hive>[1,2]

array 声明 array 集合

语法:array(val1, val2, ...) 说明:根据输入的参数构建数组 array 类
案例实操:
hive> select array('1','2','3','4');
输出:
hive>["1","2","3","4"]

array_contains: 判断 array 中是否包含某个元素

hive> select array_contains(array('a','b','c','d'),'a');
输出:
hive> true

sort_array:将 array 中的元素排序

hive> select sort_array(array('a','d','c'));
输出:
hive> ["a","c","d"]

struct 声明 struct 中的各属性

语法:struct(val1, val2, val3, ...) 说明:根据输入的参数构建结构体 struct 类
案例实操:
hive> select struct('name','age','weight');
输出:
hive> {"col1":"name","col2":"age","col3":"weight"}

named_struct 声明 struct 的属性和值

hive> select named_struct('name','xiaosong','age',18,'weight',80);
输出:
hive> {"name":"xiaosong","age":18,"weight":80}

collect_list 收集并形成 list 集合，结果不去重

hive>
select
  sex,
  collect_list(job)
from
  employee
group by
sex
结果：
 女 ["行政","研发","行政","前台"] 
 男 ["销售","研发","销售","前台"]

collect_list 收集并形成 list 集合，结果不去重collect_set 收集并形成 set 集合，结果去重

hive>
select
  sex,
 collect_set(job)
from
  employee
group by
sex

结果：
 女 ["行政","研发","前台"] 
 男 ["销售","研发","前台"]

开窗函数

聚合函数

max:最大值。
min:最小值
sum:求和
avg:平均值
count:计数

跨行取值函数

常用窗口函数——lead和lag
功能:获取当前行的上/下边某行、某个字段的值。 
语法:
select
order_id,
user_id,
order_date,
amount,
lag(order_date,1, '1970-01-01') over (partition by user_id order by order_date) last_date,
lead(order_date,1, '9999-12-31') over (partition by user_id order by order_date) next_date
from order_info;

--------------------------------------------------------------------------------
first_value和last_value
功能:获取窗口内某一列的第一个值/最后一个值
语法:
select
order_id,
user_id,
order_date,
amount,
first_value(order_date,false) over (partition by user_id order by order_date) first_date, 
last_value(order_date,false) over (partition by user_id order by order_date) last_date
from order_info; order_id user_id

--------------------------------------------------------------------------------
rank、dense_rank、row_number
功能:计算排名 
语法:
select
stu_id,
course,
score,
rank() over(partition by course order by score desc) rk,
dense_rank() over(partition by course order by score desc) dense_rk,
row_number() over(partition by course order by score desc) rn
from score_info;

备注：row_number()不重复排序，rank()重复且跳数字排序，dense_rank()重复且不跳数字排序。

分区

增加分区

alter table dept_partition add partition(day='20220403');

删除分区

alter table dept_partition
drop partition (day='20220403');

删除多个分区：
alter table dept_partition
drop partition (day='20220404'), partition(day='20220405');

修复分区

Hive 将分区表的所有分区信息都保存在了元数据中，只有元数据与HDFS上的分区路
径一致时，分区表才能正常读写数据。若用户手动创建/删除分区路径，Hive 都是感知不到的，
这样就会导致 Hive 的元数据和 HDFS 的分区路径不一致。再比如，若分区表为外部表， 
用户执行drop partition命令后，分区元数据会被删除，而HDFS的分区路径不会被删除， 
同样会导致Hive的元数据和HDFS的分区路径不一致。
若出现元数据和HDFS路径不一致的情况，可通过如下几种手段进行修复。 

(1)add partition
若手动创建 HDFS 的分区路径，Hive 无法识别，可通过 add partition 命令增加分区元数 据信息，从而使元数据和分区路径保持一致。

(2)drop partition
若手动删除HDFS的分区路径，Hive无法识别，可通过drop partition命令删除分区元 数据信息，从而使元数据和分区路径保持一致。

(3)msck
若分区元数据和 HDFS 的分区路径不一致，还可使用 msck 命令进行修复，以下是该命 令的用法说明。
说明:
msck repair table table_name add partitions:该命令会增加HDFS路径存在但元数据缺 失的分区信息。
msck repair table table_name drop partitions:该命令会删除 HDFS 路径已经删除但元数 据仍然存在的分区信息。
msck repair table table_name sync partitions:该命令会同步HDFS路径和元数据分区信 息，相当于同时执行上述的两个命令。
msck repair table table_name:等价于 msck repair table table_name add partitions 命令

hive文件格式

Hive 表中的数据选择一个合适的文件格式，对提高查询性能的提高是十分有益的。Hive 表数据的存储格式，可以选择 text file、orc、parquet、sequence file 等。

Text File

文本文件是 Hive 默认使用的文件格式，文本文件中的一行内容，就对应 Hive 表中的一行记录。

ORC

ORC(Optimized Row Columnar)file format 是 Hive 0.11 版里引入的一种列式存储的文件格式。ORC 文件能够提高 Hive 读写数据和处理数据的性能。与列式存储相对的是行式存储，下图是两者的对比:

(1)行存储的特点

查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。

(2)列存储的特点

因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量;每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

前文提到的text file和sequence file都是基于行存储的，orc和parquet是基于列式存储的。orc 文件的具体结构如下图所示:

每个 Orc 文件由 Header、Body 和 Tail 三部分组成。其中 Header 内容为 ORC，用于表示文件类型。

Body 由 1 个或多个 stripe 组成，每个 stripe 一般为 HDFS 的块大小，每一个 stripe 包含多条记录，这些记录按照列进行独立存储，每个 stripe 里有三部分组成，分别是 Index Data， Row Data，Stripe Footer。

Index Data:一个轻量级的 index，默认是为各列每隔 1W 行做一个索引。每个索引会记录第 n 万行的位置，和最近一万行的最大值和最小值等信息。

Row Data:存的是具体的数据，按列进行存储，并对每个列进行编码，分成多个Stream 来存储。

Stripe Footer:存放的是各个 Stream 的位置以及各 column 的编码信息。

Tail 由 File Footer 和 PostScript 组成。File Footer 中保存了各 Stripe 的其实位置、索引长

度、数据长度等信息，各 Column 的统计信息等;PostScript 记录了整个文件的压缩类型以及 File Footer 的长度信息等。

在读取 ORC 文件时，会先从最后一个字节读取 PostScript 长度，进而读取到 PostScript，从里面解析到File Footer长度，进而读取FileFooter，从中解析到各个Stripe信息，再读各个 Stripe，即从后往前读。

Parquet

Parquet 文件是 Hadoop 生态中的一个通用的文件格式，它也是一个列式存储的文件格式。Parquet 文件的格式如下图所示:

上图展示了一个 Parquet 文件的基本结构，文件的首尾都是该文件的 Magic Code，用于校验它是否是一个 Parquet 文件。

首尾中间由若干个 Row Group 和一个 Footer(File Meta Data)组成。

每个Row Group包含多个Column Chunk，每个Column Chunk包含多个Page。以下是 Row Group、Column Chunk 和 Page 三个概念的说明:

行组(Row Group):一个行组对应逻辑表中的若干行。

列块(Column Chunk):一个行组中的一列保存在一个列块中。页(Page):一个列块的数据会划分为若干个页。

Footer(File Meta Data)中存储了每个行组(Row Group)中的每个列快(ColumnChunk)的元数据信息，元数据信息包含了该列的数据类型、该列的编码方式、该类的 Data Page 位置等信息。

你可能感兴趣的:(大数据,hive,hadoop,数据仓库,大数据)

【Oracle篇】使用impdp导入报错ORA-39001:ORA-39000:ORA-39142:incompatible version number xxx in dump file的问题解决奈斯DB Oracle专栏 oracle 数据库
《博主介绍》：✨又是一天没白过，我是奈斯，从事IT领域✨《擅长领域》：✌️擅长阿里云AnalyticDBforMySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(MongoDB)有了解✌️大佬们都喜欢静静的看文章，并且也会默默的点赞收藏加关注如标题所示这篇文章是记录并分享一下使用数据泵导入时的报错，这个报错是博主在一年之
大数据分析案例-基于逻辑回归算法构建抑郁非抑郁推文识别模型艾派森大数据分析案例合集机器学习人工智能 python 数据挖掘回归
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+喜欢大数据分析项目的小伙伴，希望可以多多支持该系列的其他文章大数据分析案例合集
move移动语义详解 Say-hai C++c++面试
move移动语义移动语义是C++11引入的一种机制，用于提高程序的性能和资源管理效率，特别是在涉及大数据对象的场景下。移动语义通过转移资源所有权，而不是复制资源，减少了不必要的拷贝操作。一、为什么需要移动语义？当对象需要被复制时（如函数返回值或传参），通常会调用复制构造函数（copyconstructor）。复制操作往往意味着需要分配新资源并将原资源的数据拷贝到新资源中；而如果不需要保留原对象的内
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
ubuntu22.04 + isaac gym环境配置流程 Yakusha linux bash c++
1.CUDA安装1.看系统架构：uname-m2.去官网下载适配你显卡驱动的最新cuda，可以通过nvidia-smi查看https://developer.nvidia.com/cuda-toolkit-archive3.然后执行，全选continue和yessudo./cuda_12.4.1_550.54.15_linux.run在bashrc中添加：exportPATH=/usr/local
企业数字化规划蓝图、企业数字化运营分析管理大数据平台建设方案公众号：优享智库数字化转型数据治理主数据数据仓库大数据
**企业数字化规划蓝图及运营分析管理大数据平台建设方案****一、企业数字化规划蓝图**1.**数字化目标设定**企业在规划数字化进程时，首先需要明确数字化目标。这些目标应当与企业的整体战略和发展规划相一致，包括但不限于提高运营效率、优化客户体验、创新业务模式等。同时，目标应具体、可衡量，以便于后续的实施和评估。2.**技术平台规划**技术平台是支撑企业数字化的基础。在规划阶段，需要确定所需的技术
使用Flink进行流式图处理 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
使用Flink进行流式图处理1.背景介绍1.1大数据时代的到来随着互联网、物联网和移动互联网的快速发展,数据呈现出爆炸式增长。根据IDC的预测,到2025年,全球数据量将达到175ZB。传统的批处理系统已经无法满足对实时数据处理的需求。因此,流式计算应运而生,成为大数据处理的重要组成部分。1.2流式计算的概念流式计算是一种新兴的数据处理范式,它能够持续不断地处理来自各种数据源的数据流。与传统的批处
python与excel整合全教程刘同学Python学习日记 python excel 开发语言
Python与Excel的整合非常强大，尤其适合处理大数据、自动化表格操作以及进行高级数据分析。以下是一个全教程，涵盖常用的Python库及其应用：1.准备工作安装必要的库：使用以下命令安装常用库：pipinstallopenpyxlpandasxlrdxlsxwriterpywin32openpyxl:用于操作Excel的.xlsx文件（推荐）。pandas:强大的数据分析工具，支持读取和写入E
如何写一份合格的大数据简历（附简历模板）教程 itLeeyw573 老板必点的高分简历 sqlite oracle mysql sql zookeeper kafka big data
一、简历的重要性简历是求职者给招聘者的第一印象，一份合格的简历能够快速让招聘者了解你的基本信息、工作经历、技能特长等，从而决定是否给予你面试机会。它是开启理想工作大门的钥匙，所以一定要重视起来。【编辑/下载】：大数据开发简历范文二、简历结构基本信息：包含姓名、性别、联系方式（电话、邮箱）、求职意向。姓名要突出显示，联系方式务必准确无误，求职意向明确且具体，比如“Java开发工程师”，让招聘者一眼就
MongoDB 大俗大雅，上来问分片真三俗 -- 4 分什么分 Austindatabases mongodb 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2710人左右1+2+3+4+5+6+7+8+9）(123456群均已爆满，7群400+，开8群9群)这是MongoDB宣传周的第五篇，这周真漫长，
大数据技术在数据安全治理中的应用罗思付之技术屋综合技术探讨及方案专栏大数据
摘要面对新形势下的数据安全治理挑战，顺应数据安全领域的技术发展趋势，针对大型国企在数据安全治理实际应用中突出的关键权限人员识别问题，提出了一种基于图算法的关键权限人员识别技术。该技术可以发现系统中潜在的权限影响因素，并可从多个角度衡量不同含义的权重影响力，识别结果可解释性强。针对数据安全治理中的用户与实体行为异常检测问题，提出一种基于生成对抗网络的用户与实体行为异常检测方法，实验结果表明，所提方法
阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
kettle常用的数据库连接示例星月情缘02 ETL技术 kettle sql连接
kettle是一款强大的数据抽取转换工具，在数据仓库，ETL任务处理中使用的非常频繁的开源工具。它也支持众多的数据库连接类型。下面是支持的数据库连接对比图。请参考学习。就介绍这么多。
Hadoop错误: put: Lease mismatch on ... by DFSClient_NONMAPREDUCE_-499992815_1.... 学习总结星月情缘02 ETL技术 Hadoop hdfs租约 hadoop错误
错误总结分享:使用了hadoop挺长时间了，多数人应该很熟悉它的特点了吧，但是今天突然遇到个错误，从来没见过，一时自己也想不到是什么原因，就在网上查了一些资料，得到了解决的办法，再次分享一下。过程:使用kettle数据清洗工具在进行同步任务的过程中，最后数据是被加载到hdfs的，这里用shell脚本实现，hdfsdfs-put-r/hdfs的目录。结果程序执行到这一步的时候报错了。错误描述就是文章
【硬刚大数据】2021年从零到大数据专家之Hbase八股文王知无(import_bigdata)
欢迎关注博客主页：https://blog.csdn.net/u013411339欢迎点赞、收藏、留言，欢迎留言交流！本文由【王知无】原创，首发于CSDN博客！本文首发CSDN论坛，未经过官方和本人允许，严禁转载！本文是对《【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)》的面试部分补充。硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
多租户架构未提供足够的租户安全培训和教育图幻未来网络安全
多租户架构下租户安全培训与教育的需求分析与解决方案引言随着云计算和大数据技术的飞速发展，多租户架构已成为企业数字化转型的重要基石。多租户架构允许一个应用程序实例为多个租户提供服务，从而降低了企业的运营成本。然而，这种架构也带来了一系列的安全挑战。为了解决这些问题，企业需要加强对租户的安全培训和教育，确保租户了解如何在使用多租户架构时保护自己的数据和应用程序。本文将探讨多租户架构下的租户安全培训和教
一文了解大数据概论程序员
一.大数据概论1.1大数据概念大数据（bigdata）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决，海量数据的存储和海量数据的分析计算问题。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit
Hadoop3.3.4伪分布式环境搭建凡许真分布式 hadoop 伪分布式 hadoop3.3.4
文章目录前言一、准备1.下载Hadoop2.配置环境变量3.配置免密二、Hadoop配置1.hadoop-env.sh2.hdfs-site.xml3.core-site.xml4.mapred-site.xml5.yarn-site.xml三、格式化四、启动五、访问web页面前言hadoop学习——伪分布式环境——普通用户搭建一、准备1.下载Hadoop2.配置环境变量vi~/.bash_pro
Hadoop HA 格式化NameNode 顺序凡许真 hadoop 大数据分布式 HA
文章目录前言一、启动JournalNode二、格式化NameNode1.执行格式化命令2.启动namenode3.执行格式化命令4.启动namenode其他前言记录搭建HadoopHA架构时格式化namenode问题一、启动JournalNode分别启动JournalNode，命令如下hadoop-daemon.shstartjournalnode二、格式化NameNode1.执行格式化命令找其中
Hive（3）：Hive客户端使用不死鸟.亚历山大.狼崽子 hive hive 大数据 hadoop
1HiveClient、HiveBeelineClientHive发展至今，总共历经了两代客户端工具。第一代客户端（deprecated不推荐使用）：$HIVE_HOME/bin/hive,是一个shellUtil。主要功能：一是可用于以交互或批处理模式运行Hive查询；二是用于Hive相关服务的启动，比如metastore服务。第二代客户端（recommended推荐使用）：$HIVE_HOME
Shell变量获取Hive返回值 for your wish Hive Shell
while循环的使用，if循环的使用，执行hive语句并赋值给shell变量grep过滤无效字符的使用hive.cli.print.header可以控制在cli中是否显示表的列名counts0=`hive-e"sethive.cli.print.header=false;selectcasewhencount(1)>0then1else0endcountfromdwb.mid_organizati
中国BI步入增长大周期，腾讯云ChatBI加速AI+BI融合大数据在线 AI 云静思园人工智能腾讯云大数据 ChatBI AI+BI
过去十年，大数据技术的快速发展，让数据消费前进一大步，数据价值得到一定程度的挖掘与释放，真正开启了“用数”的大时代。但数据分析繁杂的技术栈、复杂的处理过程以及程式化的交互方式，让“数据消费”的门槛始终降不下来，一定程度制约着企业迈向“用好数”的新阶段。如今，随着大模型和生成式AI的迅猛发展，数据消费正迎来一场巨大变革。大模型与数据分析天然的融合属性，使得商业智能（以下简称：BI）迎来全面重塑，BI
hive部署关关呀 hive hadoop hdfs
1.在/opt/softwares上传hive的安装包，并解压到/opt/module中2.将apache-hive-3.1.2-bin改名为hive3.修改/etc/profile.d/my_env.sh4.source/etc/profile.d/my_env.sh让它生效5.在lib解决日志jar包冲突
乐学智伴：基于人工智能与大数据的学生个性化学习辅助平台 IT源码大师人工智能大数据学习
详细描述：1.引言：教育科技的时代背景在信息化和数字化的浪潮下，教育领域正经历着深刻的变革。传统的教学模式以教师为中心，难以满足学生个性化学习的需求。随着人工智能、大数据和云计算等技术的快速发展，教育科技（EdTech）为个性化学习提供了全新的解决方案。通过智能化工具和数据分析，学生可以根据自身的学习特点和进度，制定个性化的学习计划，从而提高学习效率和效果。“乐学智伴”是一款基于人工智能与大数据技
Hive全面解析精讲绿萝蔓蔓绕枝生 hive 数据库大数据 Hive精讲
目录一、Hive概述1、定义2、起源3、Hive的优势和特点4、Hive下载安装二、Hive的命令行模式1、Hive命令行模式2、Beenline命令行模式三、Hive的交互模式1、Hive元数据管理1、Hive交互模式2、Beeline交互模式3、交互模式操作四、Hive数据1、数据库(Database)2、数据表3、Hive数据类型4、Hive数据结构5、HQL五、Hive建表语句1、默认分隔
GitHub 仓库的 Archived 功能详解：中英双语阿正的梦工坊 Debugging github
GitHub仓库的Archived功能详解一、什么是GitHub仓库的“Archived”功能？在GitHub上，“Archived”是一个专门用于标记仓库状态的功能。当仓库被归档后，它变为只读模式，所有的功能如提交代码、创建issue和pullrequest等将被禁用。被归档的仓库仍然可以被查看、克隆，但无法直接在其基础上进行进一步的开发。二、为什么需要Archived功能？标记停止维护对于项目
Hive存储系统全面测试报告蚂蚁质量软件测试测试用例功能测试
引言在大数据时代，数据存储和处理技术的重要性日益凸显。ApacheHive作为一个基于Hadoop的数据仓库工具，因其能够提供类SQL查询功能（HiveQL）而广受欢迎。Hive的设计初衷是为了简化大数据集的查询和管理，它允许用户通过简单的SQL语句来操作存储在Hadoop分布式文件系统（HDFS）上的大规模数据集。然而，随着数据量的激增和业务需求的多样化，Hive存储系统的功能、性能和安全性面临
企业数字化转型AI能力中台（总体架构、系统功能）建设方案公众号：优享智库数字化转型数据治理主数据数据仓库人工智能架构
**企业数字化转型AI能力中台建设方案**一、建设背景与目标随着大数据、云计算、人工智能等技术的快速发展，企业正面临着数字化转型的重要机遇。为了提升企业的智能化水平，加快业务创新，建设AI能力中台成为企业的迫切需求。本方案旨在为企业打造一套功能完善的AI能力中台，实现数据采集与整合、算法模型管理、智能分析与可视化等核心功能，推动企业在各个业务领域实现智能化升级和创新。二、总体架构设计AI能力中台采
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

hive基础

DDL（data definition language）

创建数据库

创建表

hive中数据类型

create table as select建表

create table like语法

修改表名

修改列

更新列

替换列

清空表

关系运算符

聚合函数

字符串函数

substring:截取字符串

replace :替换

regexp_replace:正则替换

regexp:正则匹配

repeat:重复字符串

split :字符串切割

nvl :替换 null 值

concat :拼接字符串

concat_ws:以指定分隔符拼接字符串或者字符串数组

get_json_object:解析 json 字符串

日期函数

unix_timestamp:返回当前或指定时间的时间戳

from_unixtime:转化 UNIX 时间戳(从 1970-01-01 00:00:00 UTC 到指定时间的秒数)到 当前时区的时间格式

current_date:当前日期

current_timestamp:当前的日期加时间，并且精确的毫秒

month:获取日期中的月

day:获取日期中的日

hour:获取日期中的小时

datediff:两个日期相差的天数(结束日期减去开始日期的天数

date_add:日期加天数

date_sub:日期减天数

date_format:将标准日期解析成指定格式字符串

流程控制函数

case when:条件判断函数

if: 条件判断，类似于 Java 中三元运算符

集合函数

size:集合中元素的个数

map:创建 map 集合

map_keys: 返回 map 中的 key

map_values: 返回 map 中的 value

array 声明 array 集合

array_contains: 判断 array 中是否包含某个元素

sort_array:将 array 中的元素排序

struct 声明 struct 中的各属性

named_struct 声明 struct 的属性和值

collect_list 收集并形成 list 集合，结果不去重

collect_list 收集并形成 list 集合，结果不去重collect_set 收集并形成 set 集合，结果去重

开窗函数

聚合函数

跨行取值函数

分区

增加分区

删除分区

修复分区

hive文件格式

Text File

ORC

Parquet

你可能感兴趣的:(大数据,hive,hadoop,数据仓库,大数据)

from_unixtime:转化 UNIX 时间戳(从 1970-01-01 00:00:00 UTC 到指定时间的秒数)到当前时区的时间格式