之首木乔

hive函数

关系运算符
以下运算符比较传递的操作数，并根据操作数之间的比较是否成立来生成TRUE或FALSE值。

操作员

操作数类型

描述

A = B

所有原始类型

如果表达式A等于表达式B，则为TRUE，否则为FALSE。

A == B 所有原始类型 =运算符的同义词。
A <=> B

所有原始类型

对于非空操作数，使用EQUAL（=）运算符返回相同的结果，但如果两个均为NULL，则返回TRUE，如果其中之一为NULL，则返回FALSE。（从0.9.0版开始。）

A <> B

所有原始类型

如果A或B为NULL，则为NULL，如果表达式A不等于表达式B，则为TRUE，否则为FALSE。

A！= B

所有原始类型

<>运算符的同义词。

所有原始类型

如果A或B为NULL，则为NULL，如果表达式A小于表达式B，则为TRUE，否则为FALSE。

A <= B

所有原始类型

如果A或B为NULL，则为NULL，如果表达式A小于或等于表达式B，则为TRUE，否则为FALSE。

A> B

所有原始类型

如果A或B为NULL，则为NULL，如果表达式A大于表达式B，则为TRUE，否则为FALSE。

A> = B

所有原始类型

如果A或B为NULL，则为NULL，如果表达式A大于或等于表达式B，则为TRUE，否则为FALSE。

A [NOT] BETWEEN B AND C
所有原始类型

如果A，B或C为NULL，则为NULL；如果A大于或等于B，而A小于或等于C，则为TRUE，否则为FALSE。可以使用NOT关键字将其反转。（从0.9.0版开始。）

A IS NULL

所有类型

如果表达式A的计算结果为NULL，则为TRUE，否则为FALSE。

A IS NOT NULL
所有类型

如果表达式A的计算结果为NULL，则为FALSE，否则为TRUE。

A IS [NOT] (TRUE|FALSE) 布尔类型
仅当A满足条件时评估为TRUE。（因为：3.0.0 ）注意：NULL为UNKNOWN，因此（UNKNOWN IS TRUE）和（UNKNOWN IS FALSE）都评估为FALSE。

A [NOT] LIKE B
字符串

如果A或B为NULL，则为NULL，如果字符串A与SQL简单正则表达式B匹配，则为TRUE，否则为FALSE。逐个字符进行比较。B中的_字符匹配A中的任何字符（类似于posix正则表达式中的。），而B中的％字符匹配A中任意数目的字符（类似于posix正则表达式中的。*）。例如，像’foo’这样的’foobar’的值为FALSE，而像’foo_ _ _'这样的’foobar’的值为TRUE，而’foobar’这样的’foo％'的值为。

A RLIKE B 字符串
如果A或B为NULL，则为NULL，如果A的任何子字符串（可能为空）与Java正则表达式B匹配，则为TRUE，否则为FALSE。例如，'foobar’RLIKE’foo’的计算结果为TRUE，‘foobar’RLIKE’^ f。* r $'的计算结果也为TRUE。

A REGEXP B

字符串
与RLIKE相同。

算术运算符
以下运算符支持对操作数的各种常见算术运算。所有返回号码类型；如果任何操作数为NULL，则结果也为NULL。

操作员

操作数类型

描述

A + B

所有数字类型

给出将A和B相加的结果。结果的类型与操作数类型的公共父级（在类型层次结构中）相同。例如，由于每个整数都是浮点数，因此float是整数的包含类型，因此浮点数上的+运算符和int会导致浮点数。

A-B

所有数字类型

给出从A减去B的结果。结果的类型与操作数类型的公共父级（在类型层次结构中）相同。

A * B

所有数字类型

给出将A和B相乘的结果。结果的类型与操作数类型的公共父级（在类型层次结构中）相同。请注意，如果乘法导致溢出，则必须将其中一个运算符强制转换为类型层次结构中较高的类型。

A / B

所有数字类型

给出将A除以B的结果。在大多数情况下，该结果为双精度类型。当A和B都是整数时，结果是双精度类型，除非将hive.compat配置参数设置为“ 0.13”或“ latest”，在这种情况下，结果是十进制类型。

A DIV B 整数类型给出将A除以BEg 17 div 3所得的整数部分结果为5。
A％B

所有数字类型

给出A除以B的结果。结果的类型与操作数类型的公共父级（在类型层次结构中）相同。

A & B
所有数字类型

给出A和B的按位与的结果。结果的类型与操作数类型的公共父级（在类型层次结构中）相同。

A | B
所有数字类型

给出A和B的按位或的结果。结果的类型与操作数类型的公共父级（在类型层次结构中）相同。

A ^ B

所有数字类型

给出A和B的按位XOR结果。结果的类型与操作数类型的公共父级（在类型层次结构中）相同。

~A
所有数字类型

给出A的按位NOT的结果。结果的类型与A的类型相同。

逻辑运算符
以下运算符为创建逻辑表达式提供支持。它们都根据操作数的布尔值返回布尔值TRUE，FALSE或NULL。NULL表现为“未知”标志，因此，如果结果取决于未知状态，则结果本身是未知的。

操作员

操作数类型

描述

A和B

布尔值

如果A和B均为TRUE，则为TRUE，否则为FALSE。如果A或B为NULL，则为NULL。

A或B

布尔值

如果A或B或两者均为TRUE，则为TRUE，否则为FALSE或NULL为NULL。

NOT A
布尔值

如果A为FALSE，则为TRUE；如果A为NULL，则为NULL。否则为FALSE。

! A
布尔值

与NOT A相同。

A IN (val1, val2, …)
布尔值

如果A等于任何值，则为TRUE。从Hive开始，IN语句支持0.13 子查询。

A NOT IN (val1, val2, …)
布尔值

如果A不等于任何值，则为TRUE。从Hive开始，NOT IN语句支持0.13 子查询。

[NOT] EXISTS (subquery)

如果子查询返回至少一行，则为TRUE。从Hive 0.13开始受支持。

字符串运算符

操作员

操作数类型

描述

A || B
字符串

连接操作数-的简写concat(A,B)。从Hive 2.2.0开始受支持。

复杂类型构造函数
以下函数构造复杂类型的实例。

构造函数

操作数

描述

map
（key1，value1，key2，value2，…）

使用给定的键/值对创建一个映射。

struct
（val1，val2，val3，…）

用给定的字段值创建一个结构。结构字段名称将为col1，col2，…。

named_struct

(name1, val1, name2, val2, …)

用给定的字段名称和值创建一个结构。（从Hive 0.8.0开始。）

array
（val1，val2，…）

用给定的元素创建一个数组。

create_union

(tag, val1, val2, …)

使用tag参数指向的值创建联合类型。

复杂类型上的运算符
以下运算符提供了访问复杂类型中的元素的机制。

操作员

操作数类型

描述

A[n]
A是一个数组，n是一个整数

返回数组A中的第n个元素。第一个元素的索引为0。例如，如果A是包含[‘foo’，‘bar’]的数组，则A [0]返回’foo’，而A [1]返回’酒吧’。

M[key]
M是Map 并且键的类型为K

返回与映射中的键对应的值。例如，如果M是包含{‘f’->‘foo’，‘b’->‘bar’，‘all’->‘foobar’}的映射，则M [‘all’]返回’foobar’。

S.x
S是一个struct

返回S的x字段。例如，对于结构foobar {int foo，int bar}，foobar.foo返回存储在结构的foo字段中的整数。

内建功能
数学函数
Hive支持以下内置数学函数；当参数为NULL时，大多数返回NULL：

返回类型

姓名（签名）

描述

DOUBLE round(DOUBLE a)
返回的舍入BIGINT值a。

DOUBLE round(DOUBLE a, INT d)
返回a四舍五入到d小数位。

DOUBLE bround(DOUBLE a) 返回a使用HALF_EVEN舍入模式的舍入后的BIGINT值（从Hive 1.3.0，2.0.0开始）。也称为高斯舍入或银行家舍入。例如：bround（2.5）= 2，bround（3.5）= 4。
DOUBLE bround(DOUBLE a, INT d) 使用HALF_EVEN舍入模式返回a舍入到d小数位（从Hive 1.3.0，2.0.0开始）。例如：bround（8.25，1）= 8.2，bround（8.35，1）= 8.4。
BIGINT floor(DOUBLE a)
返回BIGINT等于或小于的最大值a。

BIGINT ceil(DOUBLE a), ceiling(DOUBLE a)
返回等于或大于的最小BIGINT值a。

DOUBLE rand(), rand(INT seed)
返回从0到1均匀分布的随机数（逐行变化）。指定种子将确保所生成的随机数序列具有确定性。

DOUBLE exp(DOUBLE a), exp(DECIMAL a)
返回这里是自然对数的底数。Hive 0.13.0中添加了十进制版本。eae

DOUBLE ln(DOUBLE a), ln(DECIMAL a)
返回参数的自然对数a。Hive 0.13.0中添加了十进制版本。

DOUBLE
log10(DOUBLE a), log10(DECIMAL a)

返回参数的以10为底的对数a。Hive 0.13.0中添加了十进制版本。

DOUBLE
log2(DOUBLE a), log2(DECIMAL a)

返回参数的以2为底的对数a。Hive 0.13.0中添加了十进制版本。

DOUBLE
log(DOUBLE base, DOUBLE a)

log(DECIMAL base, DECIMAL a)

返回base参数的底数对数a。Hive 0.13.0中添加了十进制版本。

DOUBLE
pow(DOUBLE a, DOUBLE p), power(DOUBLE a, DOUBLE p)

返回 ap

DOUBLE sqrt(DOUBLE a), sqrt(DECIMAL a)
返回的平方根a。Hive 0.13.0中添加了十进制版本。

STRING

bin(BIGINT a)

以二进制格式返回数字（请参见http://dev.mysql.com/doc/refman/5.0/en/string-functions.html#function_bin）。

STRING

hex(BIGINT a) hex(STRING a) hex(BINARY a)

如果参数是INTor binary，hex则以STRING十六进制格式返回数字。否则，如果数字为a STRING，它将每个字符转换为十六进制表示形式并返回结果STRING。（见http://dev.mysql.com/doc/refman/5.0/en/string-functions.html#function_hex，BINARY版本蜂巢0.12.0）。

BINARY

unhex(STRING a)

十六进制的倒数。将每对字符解释为十六进制数字，并转换为数字的字节表示形式。（BINARYHive 0.12.0以后的版本，用于返回字符串。）

STRING

conv(BIGINT num, INT from_base, INT to_base), conv(STRING num, INT from_base, INT to_base)

将数字从给定的基数转换为另一个（请参见http://dev.mysql.com/doc/refman/5.0/en/mathematical-functions.html#function_conv）。

DOUBLE

abs(DOUBLE a)

返回绝对值。

INT or DOUBLE

pmod(INT a, INT b), pmod(DOUBLE a, DOUBLE b)

返回的正值a mod b。

DOUBLE
sin(DOUBLE a), sin(DECIMAL a)

返回a（a以弧度为单位）的正弦值。Hive 0.13.0中添加了十进制版本。

DOUBLE
asin(DOUBLE a), asin(DECIMAL a)

返回a-1 <= a <= 1的反正弦值，否则返回NULL 。Hive 0.13.0中添加了十进制版本。

DOUBLE
cos(DOUBLE a), cos(DECIMAL a)

返回a（a以弧度为单位）的余弦值。Hive 0.13.0中添加了十进制版本。

DOUBLE
acos(DOUBLE a), acos(DECIMAL a)

返回a-1 <= a <= 1 的反余弦值，否则返回NULL 。Hive 0.13.0中添加了十进制版本。

DOUBLE
tan(DOUBLE a), tan(DECIMAL a)

返回a（a以弧度为单位）的切线。Hive 0.13.0中添加了十进制版本。

DOUBLE
atan(DOUBLE a), atan(DECIMAL a)

返回的反正切值a。Hive 0.13.0中添加了十进制版本。

DOUBLE
degrees(DOUBLE a), degrees(DECIMAL a)

将的值a从弧度转换为度。Hive 0.13.0中添加了十进制版本。

DOUBLE
radians(DOUBLE a), radians(DOUBLE a)

将值a从度转换为弧度。Hive 0.13.0中添加了十进制版本。

INT or DOUBLE

positive(INT a), positive(DOUBLE a)

返回a。

INT or DOUBLE

negative(INT a), negative(DOUBLE a)

返回-a。

DOUBLE or INT

sign(DOUBLE a), sign(DECIMAL a)

返回符号a“ 1.0”（如果a为正）或“ -1.0”（如果a为负），否则返回“ 0.0”。十进制版本返回INT而不是DOUBLE。Hive 0.13.0中添加了十进制版本。

DOUBLE

e()

返回的值e。

DOUBLE

pi()

返回的值pi。

BIGINT factorial(INT a) 返回a （从Hive 1.2.0开始）的阶乘。有效a值为[0…20]。
DOUBLE cbrt(DOUBLE a) 返回adouble值的多维数据集根（从Hive 1.2.0开始）。
INT

BIGINT

shiftleft(TINYINT|SMALLINT|INT a, INT b)

shiftleft(BIGINT a, INT b)

按位左移（从Hive 1.2.0开始）。a b向左移动位置。

为tinyint，smallint和int返回int a。为bigint返回bigint a。

INT

BIGINT

shiftright(TINYINT|SMALLINT|INT a, INT b)

shiftright(BIGINT a, INT b)

按位右移（从Hive 1.2.0开始）。a b向右移动位置。

为tinyint，smallint和int返回int a。为bigint返回bigint a。

INT

BIGINT

shiftrightunsigned(TINYINT|SMALLINT|INTa, INT b),

shiftrightunsigned(BIGINT a, INT b)

按位无符号右移（从Hive 1.2.0开始）。向右移动位置。a b

为tinyint，smallint和int返回int a。为bigint返回bigint a。

T greatest(T v1, T v2, …) 返回值列表的最大值（从Hive 1.1.0开始）。修复了当一个或多个参数为NULL且放宽了严格的类型限制（与“>”运算符一致时，从Hive 2.0.0开始）时返回NULL的问题。
T least(T v1, T v2, …) 返回值列表中的最小值（从Hive 1.1.0开始）。修复了当一个或多个参数为NULL并且放宽了严格的类型限制（与Hive 2.0.0相同）时返回严格的类型限制的问题。
INT width_bucket(NUMERIC expr, NUMERIC min_value, NUMERIC max_value, INT num_buckets)
通过将expr映射到第i个大小相等的存储桶中，返回0到num_buckets + 1之间的整数。通过将[min_value，max_value]分成大小相等的区域来制作存储桶。如果expr max_value，则返回num_buckets + 1。请参阅https://docs.oracle.com/cd/B19306_01/server.102/b14200/functions214.htm （自Hive 3.0.0起）

十进制数据类型的数学函数和运算符

Version

Hive 0.11.0（HIVE-2693）中引入了十进制数据类型。

所有常规算术运算符（例如+，-，*，/）和相关的数学UDF（Floor，Ceil，Round等）都已更新为处理十进制类型。有关支持的UDF的列表，请参阅数学的UDF在蜂巢的数据类型。

收集功能
Hive支持以下内置收集功能：

返回类型

姓名（签名）

描述

int

size(Map)

返回地图类型中的元素数。

int

size(Array)

返回数组类型中的元素数。

array

map_keys(Map)

返回包含输入映射键的无序数组。

array

map_values(Map)

返回包含输入映射值的无序数组。

boolean

array_contains(Array, value)

如果数组包含值，则返回TRUE。

array

sort_array(Array)

根据数组元素的自然顺序对输入数组进行升序排序并返回（从0.9.0版本开始）。

类型转换功能
Hive支持以下类型转换功能：

返回类型

姓名（签名）

描述

binary

binary(string|binary)

将参数转换为二进制。

Expected “=” to follow “type”

cast(expr as )

将表达式expr的结果转换为。例如，cast（'1’as BIGINT）会将字符串’1’转换为其整数表示。如果转换不成功，则返回null。如果cast（expr为boolean），则Hive对于非空字符串返回true。

日期功能
Hive支持以下内置日期功能：

返回类型

姓名（签名）

描述

string

from_unixtime(bigint unixtime[, string format])

将unix纪元（1970-01-01 00:00:00 UTC）的秒数转换为一个字符串，该字符串表示当前系统时区中该时刻的时间戳，格式为“ 1970-01-01 00:00： 00”。

bigint

unix_timestamp()

以秒为单位获取当前的Unix时间戳。此函数不是确定性的，其值在查询执行范围内也不是固定的，因此会阻止对查询的适当优化-自2.0版以来已弃用此函数，而推荐使用CURRENT_TIMESTAMP常量。

bigint

unix_timestamp(string date)

yyyy-MM-dd HH:mm:ss使用默认时区和默认语言环境将时间字符串格式转换为Unix时间戳（以秒为单位），如果失败，则返回0：unix_timestamp（‘2009-03-20 11:30:01’）= 1237573801

bigint

unix_timestamp(string date, string pattern)

将具有给定模式的时间字符串（请参阅[ http://docs.oracle.com/javase/tutorial/i18n/format/simpleDateFormat.html]）转换为Unix时间戳（以秒为单位），如果失败，则返回0：unix_timestamp（‘2009 -03-20’，‘yyyy-MM-dd’）= 1237532400。

pre 2.1.0: string

2.1.0 on: date
to_date(string timestamp)

返回时间戳字符串（Hive 2.1.0之前）的日期部分：to_date（“ 1970-01-01 00:00:00”）=“ 1970-01-01”。从Hive 2.1.0开始，返回日期对象。

在Hive 2.1.0（HIVE-13248）之前，返回类型为String，因为创建方法时不存在Date类型。

int

year(string date)

返回日期或时间戳字符串的年份部分：year（“ 1970-01-01 00:00:00”）= 1970，year（“ 1970-01-01”）= 1970。

int

quarter(date/timestamp/string) 返回日期，时间戳或范围在1到4之间的字符串的一年的四分之一（从Hive 1.3.0开始）。示例：quarter（‘2015-04-08’）= 2。
int

month(string date)

返回日期或时间戳字符串的月份部分：month（“ 1970-11-01 00:00:00”）= 11，month（“ 1970-11-01”）= 11。

int

day(string date) dayofmonth(date)

返回日期或时间戳字符串的日期部分：day（“ 1970-11-01 00:00:00”）= 1，day（“ 1970-11-01”）= 1。

int

hour(string date)

返回时间戳的小时：hour（‘2009-07-30 12:58:59’）= 12，hour（‘12：58：59’）= 12。

int

minute(string date)

返回时间戳的分钟。

int

second(string date)

返回时间戳的秒数。

int

weekofyear(string date)

返回时间戳字符串的星期数：weekofyear（“ 1970-11-01 00:00:00”）= 44，weekofyear（“ 1970-11-01”）= 44。

int
extract(field FROM source)

从源中检索字段，例如天或小时（从Hive 2.2.0开始）。源必须是日期，时间戳，时间间隔或可以转换为日期或时间戳的字符串。支持的字段包括：日，星期几，小时，分钟，月，季度，秒，周和年。

例子：

select extract(month from “2016-10-20”) results in 10.

select extract(hour from “2016-10-20 05:06:07”) results in 5.

select extract(dayofweek from “2016-10-20 05:06:07”) results in 5.

select extract(month from interval ‘1-3’ year to month) results in 3.

select extract(minute from interval ‘3 12:20:30’ day to second) results in 20.

int

datediff(string enddate, string startdate)

返回从开始日期到结束日期的天数：datediff（‘2009-03-01’，‘2009-02-27’）= 2。

pre 2.1.0: string

2.1.0 on: date
date_add(date/timestamp/string startdate, tinyint/smallint/int days)

添加开始日期的天数：date_add（‘2008-12-31’，1）=‘2009-01-01’。

在Hive 2.1.0（HIVE-13248）之前，返回类型为String，因为创建方法时不存在Date类型。

pre 2.1.0: string

2.1.0 on: date
date_sub(date/timestamp/string startdate, tinyint/smallint/int days)

减去开始日期的天数：date_sub（‘2008-12-31’，1）=‘2008-12-30’。

在Hive 2.1.0（HIVE-13248）之前，返回类型为String，因为创建方法时不存在Date类型。

timestamp

from_utc_timestamp({undefinedany primitive type} ts, string timezone)

将UTC中的timestamp *转换为给定的时区（从Hive 0.8.0开始）。

时间戳是一种原始类型，包括时间戳/日期，tinyint / smallint / int / bigint，float / double和十进制。

小数部分被视为秒。整数值以毫秒为单位。例如，from_utc_timestamp （2592000.0，‘PST’），from_utc_timestamp （2592000000，‘PST’）和from_utc_timestamp （timestamp’1970-01-30 16:00:00’，‘PST’）都返回时间戳1970-01-30 08:00:00。

timestamp

to_utc_timestamp({undefinedany primitive type} ts, string timezone)

将给定时区中的时间戳*转换为UTC（从Hive 0.8.0开始）。

时间戳是一种原始类型，包括时间戳/日期，tinyint / smallint / int / bigint，float / double和十进制。

小数部分被视为秒。整数值以毫秒为单位。例如，to_utc_timestamp（2592000.0，‘PST’），to_utc_timestamp（2592000000，‘PST’）和to_utc_timestamp（timestamp’1970-01-30 16:00:00’，‘PST’）都返回时间戳1970-01-31 00:00:00。

date current_date
返回查询评估开始时的当前日期（从Hive 1.2.0开始）。同一查询中对current_date的所有调用均返回相同的值。

timestamp current_timestamp
返回查询评估开始时的当前时间戳（从Hive 1.2.0开始）。同一查询中对current_timestamp的所有调用均返回相同的值。

string add_months(string start_date, int num_months, output_date_format)
返回起始日期之后num_months的日期（从Hive 1.1.0开始）。start_date是字符串，日期或时间戳。num_months是一个整数。如果start_date是该月的最后一天，或者如果结果月份的天数少于start_date的天部分，则结果是结果月份的最后一天。否则，结果与start_date具有相同的日组成部分。默认输出格式为“ yyyy-MM-dd”。

在Hive 4.0.0之前，日期的时间部分将被忽略。

从Hive 4.0.0开始，add_months支持可选参数output_date_format，该参数接受一个String，该String表示输出的有效日期格式。这样可以在输出中保留时间格式。

例如：

add_months（‘2009-08-31’，1）返回’2009-09-30’。
add_months（‘2017-12-31 14:15:16’，2，‘YYYY-MM-dd HH：mm：ss’）返回’2018-02-28 14:15:16’。

string last_day(string date) 返回日期所属月份的最后一天（从Hive 1.1.0开始）。date是格式为“ yyyy-MM-dd HH：mm：ss”或“ yyyy-MM-dd”的字符串。日期的时间部分将被忽略。
string next_day(string start_date, string day_of_week) 返回第一个日期，该日期晚于start_date，并命名为day_of_week （从Hive 1.2.0开始）。start_date是字符串/日期/时间戳。day_of_week是2个字母，3个字母或一周中某天的全名（例如Mo，tue，FRIDAY）。start_date的时间部分将被忽略。例如：next_day（‘2015-01-14’，‘TU’）= 2015-01-20。
string trunc(string date, string format) 返回截断为格式指定单位的日期（从Hive 1.2.0开始）。支持的格式：MONTH / MON / MM，YEAR / YYYY / YY。示例：trunc（‘2015-03-17’，‘MM’）= 2015-03-01。
double months_between(date1, date2) 返回日期date1和date2之间的月份数（从Hive 1.2.0开始）。如果date1晚于date2，则结果为正。如果date1早于date2，则结果为负。如果date1和date2是月份的同一天或月份的最后几天，则结果始终是整数。否则，UDF将基于31天的月份来计算结果的分数部分，并考虑时间分量date1和date2的差异。date1和date2类型可以是日期，时间戳或字符串，格式为“ yyyy-MM-dd”或“ yyyy-MM-dd HH：mm：ss”。结果四舍五入到小数点后8位。例如：months_between（‘1997-02-28 10:30:00’，‘1996-10-30’）= 3.94959677
string date_format(date/timestamp/string ts, string fmt)
将日期/时间戳记/字符串转换为日期格式fmt指定的格式的字符串值（从Hive 1.2.0开始）。支持的格式是Java SimpleDateFormat格式– https://docs.oracle.com/javase/7/docs/api/java/text/SimpleDateFormat.html 。第二个参数fmt应该是常量。示例：date_format（‘2015-04-08’，‘y’）=‘2015’。

date_format可用于实现其他UDF，例如：

dayname（date）是date_format（date，‘EEEE’）
dayofyear（date）是date_format（date，‘D’）
条件函数
返回类型

姓名（签名）

描述

if(boolean testCondition, T valueTrue, T valueFalseOrNull)

当testCondition为true时返回valueTrue，否则返回valueFalseOrNull。

boolean isnull( a ) 如果a为NULL，则返回true，否则返回false。
boolean isnotnull ( a ) 如果a不为NULL，则返回true，否则返回false。
T nvl(T value, T default_value) 如果value为null，则返回默认值，否则返回值（从HIve 0.11开始）。
T

COALESCE(T v1, T v2, …)

返回第一个不为NULL的v，如果所有v均为NULL，则返回NULL。

CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END

当a = b时，返回c; 当a = d时，返回e; 否则返回f。

CASE WHEN a THEN b [WHEN c THEN d]* [ELSE e] END

当a = true时，返回b; 当c = true时，返回d; 否则返回e。

T nullif( a, b )
如果a = b，则返回NULL。否则返回a （从Hive 2.3.0开始）。

简写：CASE，当a = b时为NULL，否则为a

void assert_true(boolean condition) 如果’condition’不为true，则引发异常，否则返回null（从Hive 0.8.0开始）。例如，选择assert_true（2 <1）。
字符串函数
Hive支持以下内置的String函数：

返回类型

姓名（签名）

描述

int

ascii(string str)

返回str的第一个字符的数值。

string

base64(binary bin)

将参数从二进制转换为基本64字符串（从Hive 0.12.0开始）。

int character_length(string str) 返回str中包含的UTF-8字符数（从Hive 2.2.0开始）。函数char_length是该函数的简写。
string chr(bigint|double A) 返回具有与A等效的二进制值的ASCII字符（从Hive 1.3.0和2.1.0开始）。如果A大于256，则结果等于chr（A％256）。示例：选择chr（88）; 返回“ X”。
string

concat(string|binary A, string|binary B…)

返回按顺序串联作为参数传入的字符串或字节所得到的字符串或字节。例如，concat（‘foo’，‘bar’）的结果为’foobar’。请注意，此函数可以接受任意数量的输入字符串。

array>

context_ngrams(array, array, int K, int pf)

给定字符串“ context”，从一组标记化语句返回前k个上下文N-gram。有关更多信息，请参见StatisticsAndDataMining。

string

concat_ws(string SEP, string A, string B…)

与上面的concat（）类似，但具有自定义分隔符SEP。

string

concat_ws(string SEP, array)

就像上面的concat_ws（）一样，但是采用字符串数组。（从Hive 0.9.0开始）

string

decode(binary bin, string charset)

使用提供的字符集（“ US-ASCII”，“ ISO-8859-1”，“ UTF-8”，“ UTF-16BE”，“ UTF-16LE”，“ UTF- 16’）。如果任一参数为null，则结果也将为null。（从Hive 0.12.0开始。）

string elt(N int,str1 string,str2 string,str3 string,…)
返回索引号处的字符串。例如elt（2，‘hello’，‘world’）返回’world’。如果N小于1或大于参数个数，则返回NULL。

（请参阅https://dev.mysql.com/doc/refman/5.7/zh-CN/string-functions.html#function_elt）

binary

encode(string src, string charset)

int field(val T,val1 T,val2 T,val3 T,…)
返回val1，val2，val3，…列表中val的索引；如果未找到，则返回0。例如，字段（“ world”，“ say”，“ hello”，“ world”）返回3。
支持所有原始类型，使用str.equals（x）比较参数。如果val为NULL，则返回值为0。

（请参阅https://dev.mysql.com/doc/refman/5.7/zh-CN/string-functions.html#function_field）

int

find_in_set(string str, string strList)

返回str在strList中的第一次出现，其中strList是一个逗号分隔的字符串。如果任一参数为null，则返回null。如果第一个参数包含逗号，则返回0。例如，find_in_set（‘ab’，‘abc，b，ab，c，def’）返回3。

string

format_number(number x, int d)

将数字X格式化为’＃，###，###。##'之类的格式，四舍五入到D小数位，然后将结果作为字符串返回。如果D为0，则结果没有小数点或小数部分。（由于蜂房的0.10.0 ;臭虫以固定在浮子类型蜂房0.14.0，在加入十进制型支撑蜂巢0.14.0）

string

get_json_object(string json_string, string path)

根据指定的json路径从json字符串中提取json对象，并返回提取的json对象的json字符串。如果输入的json字符串无效，它将返回null。注意：json路径只能包含字符[0-9a-z_]，即不能包含大写或特殊字符。另外，键*不能以数字开头。*这是由于对Hive列名的限制。

boolean

in_file(string str, string filename)

如果字符串str在文件名中显示为整行，则返回true。

int

instr(string str, string substr)

返回substrin 中第一次出现的位置str。返回null的如果任一参数是null返回0，如果substr不能在找到str。请注意，这不是基于零的。中的第一个字符的str索引为1。

int

length(string A)

返回字符串的长度。

int

locate(string substr, string str[, int pos])

返回在位置pos之后的str中第一次出现substr的位置。

string

lower(string A) lcase(string A)

返回将B的所有字符都转换为小写形式的字符串。例如，lower（‘fOoBaR’）会导致’foobar’。

string

lpad(string str, int len, string pad)

返回str，在其左边填充pad，长度为len。如果str大于len，则返回值缩短为len个字符。如果填充字符串为空，则返回值为null。

string

ltrim(string A)

返回从A的开头（左侧）起修剪空格所得的字符串。例如，ltrim（‘foobar’）的结果为’foobar’。

array>

ngrams(array, int N, int K, int pf)

从一组标记化的句子中返回前k个N-gram，例如句子（）UDAF返回的句子。有关更多信息，请参见StatisticsAndDataMining。

int octet_length(string str) 返回以UTF-8编码保存字符串str所需的八位字节数（从Hive 2.2.0开始）。请注意，octet_length（str）可以大于character_length（str）。
string

parse_url(string urlString, string partToExtract [, string keyToExtract])

从URL返回指定的部分。partToExtract的有效值包括HOST，PATH，QUERY，REF，PROTOCOL，AUTHORITY，FILE和USERINFO。例如，parse_url（‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1’，‘HOST’）返回’facebook.com’。通过将键作为第三个参数，也可以提取QUERY中特定键的值，例如parse_url（‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1’， ‘QUERY’，‘k1’）返回’v1’。

string

printf(String format, Obj… args)

返回根据do printf样式格式字符串格式化的输入（从Hive 0.9.0开始）。

string quote(String text)
返回带引号的字符串（包括任何单引号HIVE-4.0.0的转义字符）

输入项
输出量
空值空值
谁的 ‘谁的’
别 ‘别’
string

regexp_extract(string subject, string pattern, int index)

返回使用模式提取的字符串。例如，regexp_extract（‘foothebar’，‘foo（。*？）（bar）’，2）返回’bar’。请注意，使用预定义的字符类时必须格外小心：使用’\ s’作为第二个参数将与字母s匹配；’\ s’是匹配空格等所必需的。'index’参数是Java regex Matcher group（）方法的索引。有关’index’或Java regex group（）方法的更多信息，请参见docs / api / java / util / regex / Matcher.html。

string

regexp_replace(string INITIAL_STRING, string PATTERN, string REPLACEMENT)

返回将替换INITIAL_STRING中所有与PATTERN中定义的Java正则表达式语法匹配的子字符串替换为REPLACEMENT的实例所产生的字符串。例如，regexp_replace（“ foobar”，“ oo | ar”，“”）返回’fb’。请注意，使用预定义的字符类时必须格外小心：使用’\ s’作为第二个参数将与字母s匹配；’\ s’是匹配空格等所必需的。

string

repeat(string str, int n)

重复str n次。

string replace(string A, string OLD, string NEW) 返回字符串A，其中所有不重叠的OLD都替换为NEW（从Hive 1.3.0和2.1.0开始）。示例：选择replace（“ ababab”，“ abab”，“ Z”）; 返回“ Zab”。
string

reverse(string A)

返回反转的字符串。

string

rpad(string str, int len, string pad)

返回str，右用pad填充到len的长度。如果str大于len，则返回值缩短为len个字符。如果填充字符串为空，则返回值为null。

string

rtrim(string A)

返回从A的结尾（右侧）修剪空格所得到的字符串。例如，rtrim（‘foobar’）结果为’foobar’。

array

sentences(string str, string lang, string locale)

将一串自然语言文本标记为单词和句子，其中每个句子在适当的句子边界处断开并作为单词数组返回。“ lang”和“ locale”是可选参数。例如，句子（“ Hello there！你好吗？”）返回（（“ Hello”，“ there”），（“ How”，“ are”，“ you”）））。

string

space(int n)

返回n个空格的字符串。

array

split(string str, string pat)

在pat周围拆分str（pat是一个正则表达式）。

map

str_to_map(text[, delimiter1, delimiter2])

使用两个定界符将文本拆分为键/值对。Delimiter1将文本分成KV对，Delimiter2将每个KV对分开。默认的定界符是’，‘代表定界符1，’：'代表定界符2。

string

substr(string|binary A, int start) substring(string|binary A, int start)

返回A的字节数组的子字符串或切片，从字符串的起始位置开始到字符串A的结尾。例如，substr（‘foobar’，4）的结果为’bar’（请参见[ http://dev.mysql.com /doc/refman/5.0/zh-CN/string-functions.html#function_substr ]）。

string

substr(string|binary A, int start, int len) substring(string|binary A, int start, int len)

从长度为len的起始位置返回A的字节数组的子字符串或切片。例如，substr（‘foobar’，4，1）的结果为’b’（请参阅[ http://dev.mysql.com/doc/refman/5.0/en/string-functions.html#function_substr ]）。

string substring_index(string A, string delim, int count) 在计数出现定界符delim之前，从字符串A返回子字符串（从Hive 1.3.0开始）。如果count为正，则返回最后定界符左侧的所有内容（从左侧开始计数）。如果count为负，则返回最后定界符右边的所有内容（从右边开始计数）。搜索delim时，Substring_index执行区分大小写的匹配。例如：substring_index（‘www.apache.org’，’。’，2）=‘www.apache’。
string

通过将字符串中存在的字符替换为from字符串中的相应字符来翻译输入to字符串。这类似于PostgreSQL中的translate功能。如果此UDF的任何参数为NULL，则结果也为NULL。（自Hive 0.10.0起，适用于字符串类型）

从Hive 0.14.0开始添加了对Char / varchar的支持。

string

trim(string A)

返回由A两端的空格修剪产生的字符串。例如，trim（‘foobar’）结果为’foobar’

binary

unbase64(string str)

将参数从基数为64的字符串转换为BINARY。（从Hive 0.12.0开始。）

string

upper(string A) ucase(string A)

返回将A的所有字符都转换为大写形式的字符串。例如，upper（‘fOoBaR’）的结果为’FOOBAR’。

string initcap(string A) 返回字符串，每个单词的首字母大写，所有其他字母小写。单词由空格分隔。（从Hive 1.1.0开始。）
int levenshtein(string A, string B) 返回两个字符串之间的Levenshtein距离（从Hive 1.2.0开始）。例如，levenshtein（‘kitten’，‘sitting’）得出3。
string soundex(string A) 返回字符串的soundex代码（从Hive 1.2.0开始）。例如，soundex（‘Miller’）生成M460。
数据屏蔽功能
Hive支持以下内置数据屏蔽功能：

返回类型

姓名（签名）

描述

string

mask(string str[, string upper[, string lower[, string number]]])

返回str的掩码版本（从Hive 2.1.0开始）。默认情况下，大写字母转换为“ X”，小写字母转换为“ x”，数字转换为“ n”。例如mask（“ abcd-EFGH-8765-4321”）的结果为xxxx-XXXX-nnnn-nnnn。您可以通过提供其他参数来覆盖掩码中使用的字符：第二个参数控制大写字母的掩码字符，第三个参数控制小写字母的字符，第四个参数控制数字的字符。例如，mask（“ abcd-EFGH-8765-4321”，“ U”，“ l”，“＃”）生成llll-UUUU-####-####。

string mask_first_n(string str[, int n]) 返回带有str的被屏蔽版本，其中前n个值被屏蔽（从Hive 2.1.0开始）。大写字母转换为“ X”，小写字母转换为“ x”，数字转换为“ n”。例如，mask_first_n（“ 1234-5678-8765-4321”，4）生成nnnn-5678-8765-4321。
string mask_last_n(string str[, int n]) 返回带有掩码的最后一个n值的str的掩码版本（从Hive 2.1.0开始）。大写字母转换为“ X”，小写字母转换为“ x”，数字转换为“ n”。例如，mask_last_n（“ 1234-5678-8765-4321”，4）生成1234-5678-8765-nnnn。
string mask_show_first_n(string str[, int n]) 返回带掩码的str版本，显示未掩码的前n个字符（从Hive 2.1.0开始）。大写字母转换为“ X”，小写字母转换为“ x”，数字转换为“ n”。例如，mask_show_first_n（“ 1234-5678-8765-4321”，4）的结果为1234-nnnn-nnnn-nnnn。
string mask_show_last_n(string str[, int n]) 返回str的掩码版本，显示未掩码的最后n个字符（从Hive 2.1.0开始）。大写字母转换为“ X”，小写字母转换为“ x”，数字转换为“ n”。例如，mask_show_last_n（“ 1234-5678-8765-4321”，4）的结果为nnnn-nnnn-nnnn-4321。
string mask_hash(string|char|varchar str) 返回基于str的哈希值（从Hive 2.1.0开始）。哈希是一致的，可用于将跨表的掩码值连接在一起。对于非字符串类型，此函数返回null。
Misc. 功能
返回类型

姓名（签名）

描述

varies

java_method(class, method[, arg1[, arg2…]])

的同义词reflect。（从Hive 0.9.0开始。）

varies

reflect(class, method[, arg1[, arg2…]])

通过使用反射匹配参数签名来调用Java方法。（从Hive 0.7.0开始。）有关示例，请参见反射（通用）UDF。

int

hash(a1[, a2…])

返回参数的哈希值。（从Hive 0.4开始。）

string current_user() 从配置的身份验证器管理器（从Hive 1.2.0开始）返回当前用户名。可以与连接时提供的用户相同，但是与某些身份验证管理器（例如HadoopDefaultAuthenticator）不同。
string logged_in_user() 从会话状态返回当前的用户名（从Hive 2.2.0开始）。这是连接到Hive时提供的用户名。
string current_database() 返回当前数据库名称（从Hive 0.13.0开始）。
string md5(string/binary) 计算字符串或二进制文件的MD5 128位校验和（从Hive 1.3.0开始）。该值以32个十六进制数字的字符串形式返回，如果参数为NULL，则返回NULL。示例：md5（‘ABC’）=‘902fbdd2b1df0c4f70b4a5d23525e932’。
string
sha1(string/binary)

sha(string/binary)

计算字符串或二进制文件的SHA-1摘要，并以十六进制字符串形式返回值（从Hive 1.3.0开始）。例如：sha1（‘ABC’）=‘3c01bdbb26f358bab27f267924aa2c9a03fcfdb8’。
bigint crc32(string/binary) 计算字符串或二进制参数的循环冗余校验值，并返回bigint值（从Hive 1.3.0开始）。例如：crc32（‘ABC’）= 2743272264。
string sha2(string/binary, int) 计算SHA-2系列哈希函数（SHA-224，SHA-256，SHA-384和SHA-512）（从Hive 1.3.0开始）。第一个参数是要哈希的字符串或二进制。第二个参数表示结果的所需位长度，该位长度必须具有224、256、384、512或0（等于256）的值。从Java 8开始支持SHA-224。如果任一参数为NULL或哈希长度不是允许的值之一，则返回值为NULL。例如：sha2（‘ABC’，256）=‘b5d4045c3f466fa91fe2cc6abe79232a1a57cdf104f7a26e716e0a1e2789df78’。
binary aes_encrypt(input string/binary, key string/binary) 使用AES加密输入（自Hive 1.3.0起）。可以使用128、192或256位的密钥长度。如果安装了Java密码学扩展（JCE）无限强度管辖权策略文件，则可以使用192位和256位密钥。如果任一参数为NULL或密钥长度不是允许的值之一，则返回值为NULL。示例：base64（aes_encrypt（‘ABC’，‘1234567890123456’））=‘y6Ss + zCYObpCbgfWfyNWTw ==’。
binary aes_decrypt(input binary, key string/binary) 使用AES解密输入（自Hive 1.3.0起）。可以使用128、192或256位的密钥长度。如果安装了Java密码学扩展（JCE）无限强度管辖权策略文件，则可以使用192位和256位密钥。如果任一参数为NULL或密钥长度不是允许的值之一，则返回值为NULL。示例：aes_decrypt（unbase64（‘y6Ss + zCYObpCbgfWfyNWTw ==’），‘1234567890123456’）=‘ABC’。
string version() 返回Hive版本（从Hive 2.1.0开始）。该字符串包含2个字段，第一个是内部版本号，第二个是内部散列。示例：“ select version（）;”可能会返回“ 2.1.0.2.5.0.0-1245 r027527b9c5ce1a3d7d0b6d2e6de2378fb0c39232”。实际结果将取决于您的构建。
bigint surrogate_key([write_id_bits, task_id_bits]) 在向表中输入数据时自动为行生成数字ID。只能用作酸表或仅插入表的默认值。
xpath 路径

LanguageManual XPathUDF中描述了以下功能：

xpath，xpath_short，xpath_int，xpath_long，xpath_float，xpath_double，xpath_number，xpath_string
get_json_object

支持受限版本的JSONPath：

$：根对象
. ：子运算符
[]：数组的下标运算符
*：[]的通配符
不支持的语法值得注意：

：零长度字符串作为键
…：递归下降
@：当前对象/元素
()：脚本表达式
?()：过滤（脚本）表达式。
[,]：联合运算符
[start:end.step]：数组切片运算符
示例：src_json表是单列（json），单行表：

±—+
json

±—+

{“store”:

{“fruit”:[{“weight”:8,“type”:“apple”},{“weight”:9,“type”:“pear”}],

“bicycle”:{“price”:19.95,“color”:“red”}

“email”:“amy@only_for_json_udf_test.net”,

“owner”:“amy”

}

±—+

可以使用以下查询来提取json对象的字段：

hive> SELECT get_json_object(src_json.json, ‘$.owner’) FROM src_json;

amy

hive> SELECT get_json_object(src_json.json, ‘$.store.fruit[0]’) FROM src_json;

{“weight”:8,“type”:“apple”}

hive> SELECT get_json_object(src_json.json, ‘$.non_exist_key’) FROM src_json;

NULL

内置汇总功能（UDAF）
Hive支持以下内置聚合函数：

返回类型

姓名（签名）

描述

BIGINT

count(*), count(expr), count(DISTINCT expr[, expr…])

count（*）-返回检索到的行总数，包括包含NULL值的行。

count（expr）-返回为其提供的表达式为非NULL的行数。

count（DISTINCT expr [，expr]）-返回为其提供的表达式唯一且非NULL的行数。可以使用hive.optimize.distinct.rewrite优化执行。

DOUBLE

sum(col), sum(DISTINCT col)

返回组中元素的总和或组中列的不同值的总和。

DOUBLE

avg(col), avg(DISTINCT col)

返回组中元素的平均值或组中列的不同值的平均值。

DOUBLE

min(col)

返回组中列的最小值。

DOUBLE

max(col)

返回组中列的最大值。

DOUBLE

variance(col), var_pop(col)

返回组中数字列的方差。

DOUBLE

var_samp(col)

返回组中数字列的无偏样本方差。

DOUBLE

stddev_pop(col)

返回组中数字列的标准偏差。

DOUBLE

stddev_samp(col)

返回组中数字列的无偏样本标准差。

DOUBLE

covar_pop(col1, col2)

返回组中一对数字列的总体协方差。

DOUBLE

covar_samp(col1, col2)

返回组中一对数字列的样本协方差。

DOUBLE

corr(col1, col2)

返回组中一对数字列的皮尔逊相关系数。

DOUBLE

percentile(BIGINT col, p)

返回组中列的精确第p 个百分位数（不适用于浮点类型）。p必须在0到1之间。注意：只能为整数值计算真实百分位数。如果您输入的内容不是整数，请使用PERCENTILE_APPROX。

array

percentile(BIGINT col, array(p1 [, p2]…))

返回组中列的精确百分位数p 1，p 2，…（不适用于浮点类型）。p i必须在0到1之间。注意：只能为整数值计算真实百分位数。如果您输入的内容不是整数，请使用PERCENTILE_APPROX。

DOUBLE

percentile_approx(DOUBLE col, p [, B])

返回组中数字列（包括浮点类型）的大约p 个百分位数。B参数控制近似精度，但要以存储为代价。值越高，近似值越好，默认值为10,000。当col中的不同值的数量小于B时，这将给出一个精确的百分位值。

array

percentile_approx(DOUBLE col, array(p1 [, p2]…) [, B])

与上面相同，但是接受并返回一个百分位值数组，而不是单个值。

double
regr_avgx(independent, dependent)

等效于avg（dependent）。从Hive 2.2.0开始。

double
regr_avgy(independent, dependent)

等效于avg（独立）。从Hive 2.2.0开始。

double
regr_count(independent, dependent)

返回用于拟合线性回归线的非空对的数量。从Hive 2.2.0开始。

double
regr_intercept(independent, dependent)

返回线性回归线的y截距，即等式中的b值=独立* a *独立+ b。从Hive 2.2.0开始。

double
regr_r2(independent, dependent)

返回回归的确定系数。从Hive 2.2.0开始。

double
regr_slope(independent, dependent)

返回线性回归线的斜率，即等式= a *独立+ b中a的值。从Hive 2.2.0开始。

double
regr_sxx(independent, dependent)

等效于regr_count（独立，从属）* var_pop（独立）。从Hive 2.2.0开始。

double
regr_sxy(independent, dependent)

等效于regr_count（独立，从属）* covar_pop（独立，从属）。从Hive 2.2.0开始。

double regr_syy(independent, dependent)
等效于regr_count（独立，从属）* var_pop（独立）。从Hive 2.2.0开始。

array

histogram_numeric(col, b)

使用b个非均匀间隔的bin计算组中数字列的直方图。输出是大小为b的双值（x，y）坐标数组，这些坐标表示箱的中心和高度

array

collect_set(col)

返回消除了重复元素的一组对象。

array

collect_list(col)

返回具有重复项的对象列表。（从Hive 0.13.0开始。）

INTEGER ntile(INTEGER x)
将有序分区划分为x多个桶，并为分区中的每一行分配一个桶号。这样可以轻松计算三分位数，四分位数，十分位数，百分位数和其他常见的汇总统计信息。（从Hive 0.11.0开始。）

内置表生成函数（UDTF）
普通的用户定义函数（例如concat（））接受单个输入行并输出单个输出行。相反，表生成函数将单个输入行转换为多个输出行。

行集列类型

姓名（签名）

描述

explode(ARRAY a)

将数组分解为多行。返回带有单列（col）的行集，该数组代表数组中每个元素的一行。

Tkey,Tvalue

explode(MAP m)

将地图分解为多行。返回一个行集合与两列（键，值），一个行从输入图中的每个键-值对。（从Hive 0.8.0开始。）。

int,T posexplode(ARRAY a) 使用附加的int类型位置列将数组分解为多行（原始数组中项的位置，从0开始）。返回具有两列（pos，val）的行集，该数组中的每个元素一行。
T1,…,Tn

inline(ARRAY a)

将结构数组分解为多行。返回具有N列的行集（N =结构中顶级元素的数量），数组中每个结构一行一行。（从Hive0.10开始。）

T1,…,Tn/r stack(int r,T1 V1,…,Tn/r Vn) 将n个值V 1，…，V n分解为r行。每行将有n / r列。r必须是常数。

string1,…,stringn

json_tuple(string jsonStr,string k1,…,string kn)

接收JSON字符串和一组n个键，并返回n个值的元组。这是get_json_objectUDF的一种更有效的版本，因为它只需一次调用就可以获取多个密钥。

string 1,…,stringn

parse_url_tuple(string urlStr,string p1,…,string pn)

接受URL字符串和一组n个URL部分，并返回n个值的元组。这类似于parse_url()UDF，但可以一次从URL中提取多个部分。有效的部件名称是：主机，路径，查询，参考，协议，授权，文件，用户信息，查询：<密钥>。

使用范例
爆炸（数组）

select explode(array(‘A’,‘B’,‘C’));

select explode(array(‘A’,‘B’,‘C’)) as col;

select tf.* from (select 0) t lateral view explode(array(‘A’,‘B’,‘C’)) tf;

select tf.* from (select 0) t lateral view explode(array(‘A’,‘B’,‘C’)) tf as col;

col

A
B
C

explode (map)

select explode(map(‘A’,10,‘B’,20,‘C’,30));

select explode(map(‘A’,10,‘B’,20,‘C’,30)) as (key,value);

select tf.* from (select 0) t lateral view explode(map(‘A’,10,‘B’,20,‘C’,30)) tf;

select tf.* from (select 0) t lateral view explode(map(‘A’,10,‘B’,20,‘C’,30)) tf as key,value;

key

value

A 10
B 20
C 30

posexplode（array）

select posexplode(array(‘A’,‘B’,‘C’));

select posexplode(array(‘A’,‘B’,‘C’)) as (pos,val);

select tf.* from (select 0) t lateral view posexplode(array(‘A’,‘B’,‘C’)) tf;

select tf.* from (select 0) t lateral view posexplode(array(‘A’,‘B’,‘C’)) tf as pos,val;

pos

val

0 A
1 B
2 C

inline (array of structs)

select inline(array(struct(‘A’,10,date ‘2015-01-01’),struct(‘B’,20,date ‘2016-02-02’)));

select inline(array(struct(‘A’,10,date ‘2015-01-01’),struct(‘B’,20,date ‘2016-02-02’))) as (col1,col2,col3);

select tf.* from (select 0) t lateral view inline(array(struct(‘A’,10,date ‘2015-01-01’),struct(‘B’,20,date ‘2016-02-02’))) tf;

select tf.* from (select 0) t lateral view inline(array(struct(‘A’,10,date ‘2015-01-01’),struct(‘B’,20,date ‘2016-02-02’))) tf as col1,col2,col3;

col1

col2

col3

A 10 2015-01-01
B 20 2016-02-02

stack (values)

select stack(2,‘A’,10,date ‘2015-01-01’,‘B’,20,date ‘2016-01-01’);

select stack(2,‘A’,10,date ‘2015-01-01’,‘B’,20,date ‘2016-01-01’) as (col0,col1,col2);

select tf.* from (select 0) t lateral view stack(2,‘A’,10,date ‘2015-01-01’,‘B’,20,date ‘2016-01-01’) tf;

select tf.* from (select 0) t lateral view stack(2,‘A’,10,date ‘2015-01-01’,‘B’,20,date ‘2016-01-01’) tf as col0,col1,col2;

col0

col1

col2

A 10 2015-01-01
B 20 2016-01-01

使用语法 “SELECT udtf(col) AS colAlias…” 有一些限制：

SELECT中不允许其他表达式
不支持 SELECT pageid, explode(adid_list) AS myCol…
UDTF不能嵌套
不支持 SELECT explode(explode(adid_list)) AS myCol…
不支持GROUP BY / CLUSTER BY / DISTRIBUTE BY / SORT BY
不支持 SELECT explode(adid_list) AS myCol … GROUP BY myCol
请参阅LanguageManual LateralView，以获取没有这些限制的替代语法。

如果要创建自定义UDTF，也请参见编写 UDTF。

explode
explode()接受数组（or a map）作为输入，并将array (map)的元素作为单独的行输出。UDTF可以在SELECT表达式列表中使用，也可以作为LATERAL VIEW的一部分使用。

作为explode()在SELECT表达式列表中使用的示例，请考虑一个名为myTable的表，该表具有单列（myCol）和两行：

Array myCol

[100,200,300]

[400,500,600]

然后运行查询：

SELECT explode(myCol) AS myNewCol FROM myTable;
将产生：

（int）myNewCol

100

200

300

400

500

600

Maps的用法类似：

SELECT explode(myMap) AS (myMapKey, myMapValue) FROM myMapTable;

posexplode
Version

自Hive 0.13.0起可用。参见HIVE-4943。

posexplode()类似于explode但不只是返回数组的元素，它还返回元素及其在原始数组中的位置。

作为posexplode()在SELECT表达式列表中使用的示例，请考虑一个名为myTable的表，该表具有单列（myCol）和两行：

Array myCol

[100,200,300]

[400,500,600]

然后运行查询：

SELECT posexplode(myCol) AS pos, myNewCol FROM myTable;
将产生：

（int）pos

（int）myNewCol

100

200

300

400

500

600

json_tuple
Hive 0.7中引入了新的json_tuple（）UDTF。它使用一组名称（键）和一个JSON字符串，并使用一个函数返回值的元组。这比调用GET_JSON_OBJECT从单个JSON字符串中检索多个密钥要有效得多。在任何情况下，单个JSON字符串都会被解析多次，如果您解析一次JSON_TUPLE，查询将更加高效。由于JSON_TUPLE是UDTF，因此您需要使用LATERAL VIEW语法才能实现相同的目标。

例如，

select a.timestamp, get_json_object(a.appevents, ‘ $eventid'), get_json_object(a.appenvets, '$ .eventname’) from log a;
应该更改为：

select a.timestamp, b.*
from log a lateral view json_tuple(a.appevent, ‘eventid’, ‘eventname’) b as f1, f2;
parse_url_tuple
parse_url_tuple（）UDTF与parse_url（）相似，但是可以提取给定URL的多个部分，以元组形式返回数据。可以通过将冒号和键附加到partToExtract参数来提取QUERY中特定键的值，例如parse_url_tuple（’‘http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1’, ‘QUERY:k1’, ‘QUERY:k2’）返回值为’v1’，'v2’的元组。这比多次调用parse_url（）更有效。所有输入参数和输出列类型都是字符串。

SELECT b.*
FROM src LATERAL VIEW parse_url_tuple(fullurl, ‘HOST’, ‘PATH’, ‘QUERY’, ‘QUERY:id’) b as host, path, query, query_id LIMIT 1;
GROUPing and SORTing on f(column)
一个典型的OLAP模式是您有一个timestamp列，并且您希望按每日或其他粒度较小的日期窗口（而不是按秒）进行分组。因此，您可能要select concat(year(dt),month(dt)) and then group on that concat()。但是，如果您尝试在应用了函数和别名的列上使用GROUP BY或SORT BY，如下所示：

select f(col) as fc, count(*) from table_name group by fc;
你会得到一个错误：

FAILED: Error in semantic analysis: line 1:69 Invalid Table Alias or Column Reference fc
因为您不能对应用了功能的列别名进行GROUP BY或SORT BY。有两种解决方法。首先，您可以使用子查询来重新构造此查询，这有点复杂：

select sq.fc,col1,col2,…,colN,count(*) from
(select f(col) as fc,col1,col2,…,colN from table_name) sq
group by sq.fc,col1,col2,…,colN;
或者您可以确保不使用更简单的列别名：

select f(col) as fc, count(*) from table_name group by f(col);
如果您想进一步讨论，请与RiotGames dot com的Tim Ellis（tellis）联系。

实用功能
功能名称

返回类型

描述

跑步
version

String

提供Hive版本详细信息（软件包内置版本）

select version();
buildversion String 版本功能的扩展，其中包括校验和 select buildversion();
UDF内部
UDF的评估方法的上下文是一次一行。像这样的UDF的简单调用

SELECT length(string_col) FROM table_name;
将评估作业的地图部分中每个string_col值的长度。在地图端评估UDF的副作用是您无法控制发送到映射器的行的顺序。发送到映射器的文件拆分的序列化顺序与此相同。任何reduce边操作（例如SORT BY，ORDER BY，常规JOIN等）都将应用于UDF输出，就好像它只是表的另一列一样。这很好，因为UDF的评估方法的上下文一次只能排成一行。

如果您想控制将哪些行发送到相同的UDF（并可能以什么顺序），您将敦促在简化阶段对UDF进行评估。这可以通过使用DISTRIBUTE BY，DISTRIBUTE BY + SORT BY，CLUSTER BY来实现。查询示例为：

SELECT reducer_udf(my_col, distribute_col, sort_col) FROM
(SELECT my_col, distribute_col, sort_col FROM table_name DISTRIBUTE BY distribute_col SORT BY distribute_col, sort_col) t
但是，可能有人争辩说，控制发送到同一UDF的行集的前提是在该UDF中进行聚合。在这种情况下，使用用户定义的聚合函数（UDAF）是更好的选择。您可以在此处阅读有关编写UDAF的更多信息。另外，您可以使用Hive的Transform功能，使用自定义的reduce脚本来完成相同的任务。这两个选项都将在归约方面进行汇总。

创建自定义UDF
有关如何创建自定义UDF的信息，请参见Hive插件和创建功能。

select explode(array(‘A’,‘B’,‘C’));select explode(array(‘A’,‘B’,‘C’)) as col;select tf.* from (select 0) t lateral view explode(array(‘A’,‘B’,‘C’)) tf;select tf.* from (select 0) t lateral view explode(array(‘A’,‘B’,‘C’)) tf as col;

你可能感兴趣的:(hive,hadoop,数据仓库)

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
数据仓库的复用性：流程层面 PersistDZ 大数据与AI 数据仓库
在数据仓库建设中，流程层面的复用性是提高开发效率和数据质量的关键。通过标准化ETL流程、模块化设计，以及实时与离线共用的架构，可以最大化数据处理流程的复用性，降低复杂度。以下是详细的介绍和落地方案。1.标准化ETL流程1.1标准化ETL的意义提高流程一致性，减少人为失误。降低维护成本，方便团队协作。支持多项目间共享和复用。1.2标准化ETL设计方法1.2.1标准化流程定义将ETL过程拆分为抽取（E
数据仓库复用性：业务需求复用性设计 PersistDZ 大数据与AI 数据仓库
数据仓库的业务需求复用性设计是提升数据架构灵活性和扩展性的关键部分。以下是几个关键点，可以帮助实现业务需求复用性的设计：1.通用报表的复用标准化数据模型：设计通用的数据模型，例如通用的事实表和维度表，使得报表可以通过这些模型灵活生成，而不需要为每个报表单独设计数据结构。通过定义通用的维度，如时间维度、客户维度等，可以在不同业务场景下复用。报表模板化：将常见的报表需求抽象为模板，例如销售报表、财务报
架构师反向代理Haproxy+压力测试 - 学习笔记无影V随风学习笔记 linux相关
一.Apache的反向代理(生产不建议使用)1.Apache的编译安装:yuminstallapr-develapr-util-develpcre-developenssl-develcd/usr/local/src/wgethttp://archive.apache.org/dist/httpd/httpd-2.4.18.tar.gztar-zxvfhttpd-2.4.18.tar.gzcdht
pyspark 中删除hdfs的文件夹 TDengine （老段）大数据 spark hadoop hdfs mapreduce
在pyspark中保存rdd的内存到文件的时候，会遇到文件夹已经存在而失败，所以如果文件夹已经存在，需要先删除。搜索了下资料，发现pyspark并没有提供直接管理hdfs文件系统的功能。寻找到一个删除的方法，是通过调用shell命令hadoopfs-rm-f来删除，这个方法感觉不怎么好，所以继续找。后来通过查找hadoophdfs的源代码发现hdfs是通过java的包org.appache.had
Python 爬虫：获取网页数据的 5 种方法王子良. 经验分享 python python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
QT ListView 记录 weixin_30872157 数据库
http://www.cnblogs.com/chenxuelian/archive/2009/12/22/1629601.html转载于:https://www.cnblogs.com/whisht/archive/2012/06/12/3085088.html
linux安装卸载软件 int8 linux linux 运维服务器
一、首先要清楚几个概念（一）归档：归档是把多个文件合并成一个文件的过程。生成的文件称为归档包。归档包带后缀名。不同的归档程序，生成的归档包的后缀名不同。（二）压缩：压缩是把一个大文件变成一个小文件的过程。生成的文件称为压缩包。压缩包名带后缀名。不同的压缩程序，生成的压缩包的后缀名不同。（三）归档压缩程序仅归档ar：archiver。后缀名为.a,.arTar：TapeArchive。通过Tar归档
一步到位：购买适合 SEO 的域名全攻略后端
选择一个对SEO友好的域名不仅可以提高搜索引擎排名，还能增强品牌影响力。以下是简化优化后的购买流程：1.检查域名历史，确保无负面记录在购买域名前，务必确认它没有被封锁或拉黑，并且历史记录与您的行业相关：检查域名安全性和历史VirusTotal：查看域名是否被列为不安全。WebArchive：查看域名以前的用途，判断是否有不良记录或与您的行业冲突。GoogleTransparencyReport：检
传统数据湖和数据仓库的“中心化瓶颈” PersistDZ 数据架构数据仓库数据湖中心化
传统数据湖和数据仓库的**“中心化瓶颈”**，主要是由于其架构设计和治理模式的局限性，无法有效应对现代企业中数据规模的快速增长和组织复杂性。以下是具体表现：1.单点瓶颈（SinglePointBottleneck）传统数据湖/仓库通常由中心化的数据平台团队负责，所有的数据集成、清洗、建模和治理工作都集中在这一个团队中，导致：工作负载过重：数据平台团队需要处理所有领域的数据需求，响应速度慢。扩展性差
什么是数据仓库？狮歌~资深攻城狮数据仓库
什么是数据仓库？数据仓库（DataWarehouse，简称DW）是一种面向分析和决策的数据存储系统，它将企业中分散的、异构的数据按照一定的主题和模型进行集成和存储，为数据分析、报表生成以及商业智能（BI）提供支持。数据仓库是大数据体系的重要组成部分，主要用于对大量历史数据的存储、处理和分析。简单来说，数据仓库是一个为数据分析和业务决策服务的系统，通过整合来自不同来源的数据，形成面向主题的、可查询的
2024年最新Python：Page Object设计模式_python page object，BTAJ大厂最新面试题汇集 m0_60707708 程序员 python 设计模式开发语言
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
案例分享｜快速了解实时湖仓集一体技术如何助力企业降本增效 mysql
1.替代TD仓、Hadoop湖，助力农商行构建一体化数据平台某农商行最初构建了Teradata数据仓库、Oracle小数据平台以及Hadoop数据湖。多平台混合架构开发运维高，存在冗余存储、数据搬迁一致性、跨平台流转数据实时性低等问题。该农商行基于星环科技实时湖仓集一体平台，替代了Teradata数仓、Oracle数据平台和Hadoop数据湖三个平台，一体化架构同时满足数据湖海量汇集、复杂数仓模型
采用海豚调度器+Doris开发数仓保姆级教程（满满是踩坑干货细节，持续更新）大模型大数据攻城狮海豚调度器从入门到精通 doris 海豚调度器离线数仓实时数仓国产代替信创大数据 flink数仓
目录一、采用海豚调度器+Doris开发平替CDHHdfs+Yarn+Hive+Oozie的理由。1.架构复杂性2.数据处理性能3.数据同步与更新4.资源利用率与成本6.生态系统与兼容性7.符合信创或国产化要求二、ODS层接入数据接入kafka实时数据踩坑的问题细节三、海豚调度器调度Doris进行报表开发创建带分区的表在doris进行开发调试开发海豚调度器脚本解决shell脚本使用MySQL命令行给
数仓数据分层(ODS DWD DWS ADS)换个角度看闻香识代码大数据数仓数据仓库大数据 ods dw
数仓数据分层简介1.背景数仓是什么,其实就是存储数据,体现历史变化的一个数据仓库.因为互联网时代到来,基于数据量的大小,分为了传统数仓和现代数仓.传统数仓,使用传统的关系型数据库进行数据存储,因为关系型数据库本身可以使用SQL以及函数等做数据分析.所以把数据存储和数据分析功能集合为一体,加上一个可视化界面,就能从数据存储,数据分析,数据展示完整方案.到了互联网时代,由于上网用户剧增,特别是移动互联
万字详解数仓分层设计架构 ODS-DWD-DWS-ADS _Jordan 自己写的数据仓库
参考：万字详解数仓分层设计架构ODS-DWD-DWS-ADS数据分层的意义1、清晰数据结构2、数据血缘追踪3、数据复用，减少重复开发4、把复杂问题简单化5、屏蔽原始数据的(影响)，屏蔽业务的影响ETL操作1、数据抽取2、数据清洗3、数据转换4、数据加载数据中台包含的内容很多，对应到具体工作中的话，它可以包含下面的这些内容：系统架构：以Hadoop、Spark等组件为中心的架构体系数据架构：顶层设计
大数据分层存储架构：ODS、DWD、DWM与DWS详解从零开始学习人工智能大数据 spark 分布式
在大数据领域中，ODS、DWD、DWM和DWS代表了数据仓库的不同层次，它们共同构成了大数据的分层存储结构。这种结构的设计有助于提高数据查询效率，降低成本，并满足不同的业务需求。ODS（OperationalDataStore）：操作数据存储层，主要存放原始的业务数据，是数据仓库的源头。它负责收集、存储和管理从各种业务系统中抽取的原始数据，为后续的数据处理和分析提供基础。DWD（DataWareh
数仓分层ODS、DWD、DWM、DWS、DIM、DM、ADS 青秋. 数据仓库大数据数据仓库
往期推荐数仓入门：数据分析模型、数仓建模、离线实时数仓、Lambda、Kappa、湖仓一体-CSDN博客数仓常见名词解析和名词之间的关系-CSDN博客数据仓库及数仓架构概述-CSDN博客大数据HBase图文简介-CSDN博客目录1.数仓分层1.1数据源层：ODS（OperationalDataStore）1.2数据仓库层：DW（DataWarehouse）1.2.1数据明细层：DWD（DataWa
深入HDFS——DataNode启动源码黄雪超大数据基础 #深入HDFS hdfs hadoop 大数据
引入上一篇我们看完了NameNode的启动源码，对于NameNode我们已经很熟悉了，今天我们接着来看看它的“得力干将”——DataNode。首先，自然还是从元数据管理篇提到的DataNode类（org.apache.hadoop.hdfs.server.datanode.DataNode）开始。不过在深入启动源码前，我们先看看它的源码注释：DataNodeisaclass(andprogram)
深入HDFS——NameNode启动源码黄雪超大数据基础 #深入HDFS hdfs hadoop 大数据
引入前面我们已经对HDFS有了很多了解，但是光说不练假把式，今天开启深入源码的纯享模式，先来看看NameNode启动流程，在代码层面，到底是如何实现的。首先还是得从我们的前一篇提到过的NameNode类（org.apache.hadoop.hdfs.server.namenode.NameNode）开始，既然是看启动流程，那自然是先找类里面的main方法啦。当我们启动NameNode的时候，它就会
【YashanDB知识库】原生mysql驱动配置连接崖山数据库数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919231.html?templateId=171...【问题分类】功能兼容【关键字】YAS-07202、YAS\_MYERROR，不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，将mysql相关的创建表语句进行初始化同步使用崖山23.3版本
Spring Boot 和微服务：快速入门指南王子良. Java 经验分享 spring boot 微服务后端
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
数据仓库的复用性：模型层面通用指标体系、参数化模型、版本化管理 PersistDZ 大数据与AI 数据仓库 spark 大数据
在数据仓库设计中，复用性是一个关键原则，它不仅能提升数据资产的使用效率，还能降低开发成本、优化系统运维。下面将从模型层面的复用性、通用指标体系、参数化模型、版本化管理四个方面进行详细介绍，并提供可落地的设计方案。1.模型层面的复用性1.1复用性设计目标减少重复建模：通过统一的模型设计满足多个业务场景。灵活扩展性：模型设计具有适应不同业务需求的能力。标准化：统一命名、标准化维度和指标字段。1.2模型
数据仓库的复用性：深入的主题域设计方案 PersistDZ 数据仓库大数据
以下是深入的主题域设计方案，涵盖从基础理论、业务分析到技术实现的各个层面，力求全面、实用，适用于复杂业务场景（例如：企业级多租户SaaS系统或跨领域的大型数据仓库建设）。深入的主题域设计方案1.核心理念与原则1.1核心理念主题域设计是数据仓库的逻辑分层方法之一，其核心理念是：业务驱动：主题域应源于业务需求，并映射业务逻辑。高内聚、低耦合：一个主题域只关注一个业务主题，减少跨域依赖。面向复用：通过合
oracle同步数据adg_oracle11g ADG主备切换 weixin_39536630 Oracle数据库主备切换日志实时应用备库切换状态
1、主库操作将主库切换成备库点击(此处)折叠或打开selectopen_mode,database_role,protection_mode,protection_level,switchover_statusfromv$database;altersystemswitchlogfile;altersystemarchivelogcurrent;alterdatabasecommittoswitc
CDP中的Hive3之Hive Metastore（HMS）对许 #Hive #Spark hive cdp
CDP中的Hive3之HiveMetastore（HMS）1、CDP中的HMS2、HMS表的存储（转换）3、HWC授权1、CDP中的HMSCDP中的HiveMetastore（HMS）是一种服务，用于在后端RDBMS（例如MySQL或PostgreSQL）中存储与ApacheHive和其他服务相关的元数据。Impala、Spark、Hive和其他服务共享元存储。与HMS的连接包括HiveServe
Hive 窗口函数与分析函数深度解析：开启大数据分析的新维度自节码大数据 hive 数据分析 hadoop
Hive窗口函数与分析函数深度解析：开启大数据分析的新维度在当今大数据蓬勃发展的时代，Hive作为一款强大的数据仓库工具，其窗口函数和分析函数犹如一把把精巧的手术刀，助力数据分析师们精准地剖析海量数据，挖掘出深藏其中的价值宝藏。本文将带领大家深入探索HiveQL中这些神奇函数的奥秘，从版本演进、功能特性到丰富多样的实际应用示例，全方位地呈现它们在大数据处理领域的卓越魅力。一、版本回溯与知识宝库指引
大数据新视界 -- 大数据大厂之 Hive 数据压缩算法对比与选择（下）（20 / 30）青云交大数据新视界 #Hive 之道大数据 Hive 数据压缩压缩算法对比选择因素案例分析实时数据处理数据存储优化 sql
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
大数据新视界 -- 大数据大厂之 Hive 数据安全：权限管理体系的深度解读（上）（15/ 30）青云交大数据新视界 #Hive 之道大数据 Hive 集成大数据工具集成模式优化策略未来趋势数据一致性
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
【YashanDB知识库】Hive 命令工具insert崖山数据库报错数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7919217.html?templateId=171...【问题分类】功能兼容【关键字】spark30041、不兼容【问题描述】本项目的架构是hadoop+hive+yashandb使用崖山数据库，初始化所有的原数据表和数据新建表之后，插入数据时候报错，hadoopcode30041
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$