angeliacmm

第五章 Spark-SQL进阶（三）之SQL函数

第五章 Spark-SQL进阶（三）

- 3.SQL函数
- - 3.1内置函数
  - - 3.1.1数学函数
    - 3.1.2集合函数
    - 3.1.3类型转换函数
    - 3.1.4日期函数
    - 3.1.5条件函数
    - 3.1.6字符函数
    - 3.1.7聚合函数
    - 3.1.8表生成函数
    - 3.1.9窗口函数
    - - 1.函数分类
      - 2.通用格式
      - 3.编程格式
  - 3.2UDF
  - 3.3UDAF
- 4.Catalog对象

3.SQL函数

3.1内置函数

3.1.1数学函数

*返回类型*	*姓名（签名）*	*描述*
DOUBLE	round(DOUBLE a)	返回的舍入`BIGINT`值`a`。
DOUBLE	round(DOUBLE a, INT d)	返回`a`四舍五入到`d`小数位。
DOUBLE	bround(DOUBLE a)	返回`a`使用HALF_EVEN舍入模式的舍入后的BIGINT值（从Hive 1.3.0，2.0.0开始）。也称为高斯舍入或银行家舍入。例如：bround（2.5）= 2，bround（3.5）= 4。
DOUBLE	bround(DOUBLE a, INT d)	使用HALF_EVEN舍入模式返回`a`舍入到`d`小数位（从Hive 1.3.0，2.0.0开始）。例如：bround（8.25，1）= 8.2，bround（8.35，1）= 8.4。
BIGINT	floor(DOUBLE a)	返回`BIGINT`等于或小于的最大值`a`。
BIGINT	ceil(DOUBLE a), ceiling(DOUBLE a)	返回等于或大于的最小BIGINT值`a`。
DOUBLE	rand(), rand(INT seed)	返回从0到1均匀分布的随机数（逐行变化）。指定种子将确保所生成的随机数序列具有确定性。
DOUBLE	exp(DOUBLE a), exp(DECIMAL a)	返回这里是自然对数的底数。Hive 0.13.0中添加了十进制版本。ea``e
DOUBLE	ln(DOUBLE a), ln(DECIMAL a)	返回参数的自然对数`a`。Hive 0.13.0中添加了十进制版本。
DOUBLE	log10(DOUBLE a), log10(DECIMAL a)	返回参数的以10为底的对数`a`。Hive 0.13.0中添加了十进制版本。
DOUBLE	log2(DOUBLE a), log2(DECIMAL a)	返回参数的以2为底的对数`a`。Hive 0.13.0中添加了十进制版本。
DOUBLE	log(DOUBLE base, DOUBLE a)log(DECIMAL base, DECIMAL a)	返回`base`参数的底数对数`a`。Hive 0.13.0中添加了十进制版本。
DOUBLE	pow(DOUBLE a, DOUBLE p), power(DOUBLE a, DOUBLE p)	返回 `ap`
DOUBLE	sqrt(DOUBLE a), sqrt(DECIMAL a)	返回的平方根`a`。Hive 0.13.0中添加了十进制版本。
STRING	bin(BIGINT a)	以二进制格式返回数字（请参见http://dev.mysql.com/doc/refman/5.0/en/string-functions.html#function_bin）。
STRING	hex(BIGINT a) hex(STRING a) hex(BINARY a)	如果参数是`INT`or `binary`，`hex`则以`STRING`十六进制格式返回数字。否则，如果数字为a `STRING`，它将每个字符转换为十六进制表示形式并返回结果`STRING`。（见http://dev.mysql.com/doc/refman/5.0/en/string-functions.html#function_hex，`BINARY`版本蜂巢0.12.0）。
BINARY	unhex(STRING a)	十六进制的倒数。将每对字符解释为十六进制数字，并转换为数字的字节表示形式。（`BINARY`Hive 0.12.0以后的版本，用于返回字符串。）
DOUBLE	pi()	返回的值`pi`。
DOUBLE	abs(DOUBLE a)	返回绝对值。
INT or DOUBLE	pmod(INT a, INT b), pmod(DOUBLE a, DOUBLE b)	返回的正值`a mod b`。
DOUBLE	sin(DOUBLE a), sin(DECIMAL a)	返回`a`（`a`以弧度为单位）的正弦值。Hive 0.13.0中添加了十进制版本。
DOUBLE	asin(DOUBLE a), asin(DECIMAL a)	返回`a`-1 <= a <= 1的反正弦值，否则返回NULL 。Hive 0.13.0中添加了十进制版本。
DOUBLE	cos(DOUBLE a), cos(DECIMAL a)	返回`a`（`a`以弧度为单位）的余弦值。Hive 0.13.0中添加了十进制版本。
DOUBLE	acos(DOUBLE a), acos(DECIMAL a)	返回`a`-1 <= a <= 1 的反余弦值，否则返回NULL 。Hive 0.13.0中添加了十进制版本。
DOUBLE	tan(DOUBLE a), tan(DECIMAL a)	返回`a`（`a`以弧度为单位）的切线。Hive 0.13.0中添加了十进制版本。
DOUBLE	atan(DOUBLE a), atan(DECIMAL a)	返回的反正切值`a`。Hive 0.13.0中添加了十进制版本。
DOUBLE	degrees(DOUBLE a), degrees(DECIMAL a)	将的值`a`从弧度转换为度。Hive 0.13.0中添加了十进制版本。
DOUBLE	radians(DOUBLE a), radians(DOUBLE a)	将值`a`从度转换为弧度。Hive 0.13.0中添加了十进制版本。
INT or DOUBLE	positive(INT a), positive(DOUBLE a)	返回`a`。
INT or DOUBLE	negative(INT a), negative(DOUBLE a)	返回`-a`。
DOUBLE or INT	sign(DOUBLE a), sign(DECIMAL a)	返回符号`a`“ 1.0”（如果`a`为正）或“ -1.0”（如果`a`为负），否则返回“ 0.0”。十进制版本返回INT而不是DOUBLE。Hive 0.13.0中添加了十进制版本。
DOUBLE	e()	返回的值`e`。

3.1.2集合函数

*返回类型*	*姓名（签名）*	*描述*
int	size(Map)	返回Map类型中的元素数。
int	size(Array)	返回数组类型中的元素数。
array	map_keys(Map)	返回包含输入映射键的无序数组。
array	map_values(Map)	返回包含输入映射值的无序数组。
boolean	array_contains(Array, value)	如果数组包含值，则返回TRUE。
array	sort_array(Array)	根据数组元素的自然顺序对输入数组进行升序排序并返回（从0.9.0版本开始）。

3.1.3类型转换函数

返回类型	姓名（签名）	描述
binary	binary(string\|binary)	将参数转换为二进制。
Expected “=” to follow “type”	cast(expr as )	将表达式expr的结果转换为。例如，cast（'1’as BIGINT）会将字符串’1’转换为其整数表示。如果转换不成功，则返回null。如果cast（expr为boolean），则Hive对于非空字符串返回true。

3.1.4日期函数

*返回类型*	*姓名（签名）*	*描述*
string	from_unixtime(bigint unixtime[, string format])	将unix纪元（1970-01-01 00:00:00 UTC）的秒数转换为一个字符串，该字符串表示当前系统时区中该时刻的时间戳，格式为“ 1970-01-01 00:00： 00”。
bigint	unix_timestamp()	以秒为单位获取当前的Unix时间戳。此函数不是确定性的，其值在查询执行范围内也不是固定的，因此会阻止对查询的适当优化-自2.0版以来已弃用此函数，而推荐使用CURRENT_TIMESTAMP常量。
bigint	unix_timestamp(string date)	`yyyy-MM-dd HH:mm:ss`使用默认时区和默认语言环境将时间字符串格式转换为Unix时间戳（以秒为单位），如果失败，则返回0：unix_timestamp（‘2009-03-20 11:30:01’）= 1237573801
bigint	unix_timestamp(string date, string pattern)	将具有给定模式的时间字符串（请参阅[ http://docs.oracle.com/javase/tutorial/i18n/format/simpleDateFormat.html]）转换为Unix时间戳（以秒为单位），如果失败，则返回0：unix_timestamp（‘2009 -03-20’，‘yyyy-MM-dd’）= 1237532400。
pre 2.1.0: string2.1.0 on: date	to_date(string timestamp)	返回时间戳字符串（Hive 2.1.0之前）的日期部分：to_date（“ 1970-01-01 00:00:00”）=“ 1970-01-01”。从Hive 2.1.0开始，返回日期对象。在Hive 2.1.0（HIVE-13248）之前，返回类型为String，因为创建方法时不存在Date类型。
int	year(string date)	返回日期或时间戳字符串的年份部分：year（“ 1970-01-01 00:00:00”）= 1970，year（“ 1970-01-01”）= 1970。
int	quarter(date/timestamp/string)	返回日期，时间戳或范围在1到4之间的字符串的一年的四分之一（从Hive 1.3.0开始）。示例：quarter（‘2015-04-08’）= 2。
int	month(string date)	返回日期或时间戳字符串的月份部分：month（“ 1970-11-01 00:00:00”）= 11，month（“ 1970-11-01”）= 11。
int	day(string date) dayofmonth(date)	返回日期或时间戳字符串的日期部分：day（“ 1970-11-01 00:00:00”）= 1，day（“ 1970-11-01”）= 1。
int	hour(string date)	返回时间戳的小时：hour（‘2009-07-30 12:58:59’）= 12，hour（‘12：58：59’）= 12。
int	minute(string date)	返回时间戳的分钟。
int	second(string date)	返回时间戳的秒数。
int	weekofyear(string date)	返回时间戳字符串的星期数：weekofyear（“ 1970-11-01 00:00:00”）= 44，weekofyear（“ 1970-11-01”）= 44。
int	extract(field FROM source)	从源中检索字段，例如天或小时（从Hive 2.2.0开始）。源必须是日期，时间戳，时间间隔或可以转换为日期或时间戳的字符串。支持的字段包括：日，星期几，小时，分钟，月，季度，秒，周和年。例子：选择摘录（“ 2016-10-20”中的月份）得出10。选择提取（从“ 2016-10-20 05:06:07”开始的小时数），结果为5。选择摘录（dayofweek，来自“ 2016-10-20 05:06:07”），结果为5。选择摘录（从“ 1-3”年到月的月份中的月份）结果为3。选择摘录（从间隔“ 3 12:20:30”天到第二分钟）到20。
int	datediff(string enddate, string startdate)	返回从开始日期到结束日期的天数：datediff（‘2009-03-01’，‘2009-02-27’）= 2。
pre 2.1.0: string2.1.0 on: date	date_add(date/timestamp/string startdate, tinyint/smallint/int days)	添加开始日期的天数：date_add（‘2008-12-31’，1）=‘2009-01-01’。在Hive 2.1.0（HIVE-13248）之前，返回类型为String，因为创建方法时不存在Date类型。
pre 2.1.0: string2.1.0 on: date	date_sub(date/timestamp/string startdate, tinyint/smallint/int days)	减去开始日期的天数：date_sub（‘2008-12-31’，1）=‘2008-12-30’。在Hive 2.1.0（HIVE-13248）之前，返回类型为String，因为创建方法时不存在Date类型。
timestamp	from_utc_timestamp({any primitive type} ts, string timezone)	将UTC中的timestamp 转换为给定的时区（从Hive 0.8.0开始）。时间戳是一种原始类型，包括时间戳/日期，tinyint / smallint / int / bigint，float / double和十进制。小数部分被视为秒。整数值以毫秒为单位。例如，from_utc_timestamp （2592000.0，‘PST’），from_utc_timestamp （2592000000，‘PST’）和from_utc_timestamp （timestamp’1970-01-30 16:00:00’，‘PST’）都返回时间戳1970-01-30 08:00:00。
timestamp	to_utc_timestamp({any primitive type} ts, string timezone)	将给定时区中的时间戳转换为UTC（从Hive 0.8.0开始）。时间戳是一种原始类型，包括时间戳/日期，tinyint / smallint / int / bigint，float / double和十进制。小数部分被视为秒。整数值以毫秒为单位。例如，to_utc_timestamp（2592000.0，‘PST’），to_utc_timestamp（2592000000，‘PST’）和to_utc_timestamp（timestamp’1970-01-30 16:00:00’，‘PST’）都返回时间戳1970-01-31 00:00:00。
date	current_date	返回查询评估开始时的当前日期（从Hive 1.2.0开始）。同一查询中对current_date的所有调用均返回相同的值。
timestamp	current_timestamp	返回查询评估开始时的当前时间戳（从Hive 1.2.0开始）。同一查询中对current_timestamp的所有调用均返回相同的值。
string	add_months(string start_date, int num_months, output_date_format)	返回起始日期之后num_months的日期（从Hive 1.1.0开始）。start_date是字符串，日期或时间戳。num_months是一个整数。如果start_date是该月的最后一天，或者如果结果月份的天数少于start_date的天部分，则结果是结果月份的最后一天。否则，结果与start_date具有相同的日组成部分。默认输出格式为“ yyyy-MM-dd”。在Hive 4.0.0之前，日期的时间部分将被忽略。从Hive 4.0.0开始，add_months支持可选参数output_date_format，该参数接受一个String，该String表示输出的有效日期格式。这样可以在输出中保留时间格式。例如：add_months（‘2009-08-31’，1）返回’2009-09-30’。 add_months（‘2017-12-31 14:15:16’，2，‘YYYY-MM-dd HH：mm：ss’）返回’2018-02-28 14:15:16’。
string	last_day(string date)	返回日期所属月份的最后一天（从Hive 1.1.0开始）。date是格式为“ yyyy-MM-dd HH：mm：ss”或“ yyyy-MM-dd”的字符串。日期的时间部分将被忽略。
string	next_day(string start_date, string day_of_week)	返回第一个日期，该日期晚于start_date，并命名为day_of_week （从Hive 1.2.0开始）。start_date是字符串/日期/时间戳。day_of_week是2个字母，3个字母或一周中某天的全名（例如Mo，tue，FRIDAY）。start_date的时间部分将被忽略。例如：next_day（‘2015-01-14’，‘TU’）= 2015-01-20。
string	trunc(string date, string format)	返回截断为格式指定单位的日期（从Hive 1.2.0开始）。支持的格式：MONTH / MON / MM，YEAR / YYYY / YY。示例：trunc（‘2015-03-17’，‘MM’）= 2015-03-01。
double	months_between(date1, date2)	返回日期date1和date2之间的月份数（从Hive 1.2.0开始）。如果date1晚于date2，则结果为正。如果date1早于date2，则结果为负。如果date1和date2是月份的同一天或月份的最后几天，则结果始终是整数。否则，UDF将基于31天的月份来计算结果的分数部分，并考虑时间分量date1和date2的差异。date1和date2类型可以是日期，时间戳或字符串，格式为“ yyyy-MM-dd”或“ yyyy-MM-dd HH：mm：ss”。结果四舍五入到小数点后8位。例如：months_between（‘1997-02-28 10:30:00’，‘1996-10-30’）= 3.94959677
string	date_format(date/timestamp/string ts, string fmt)	将日期/时间戳记/字符串转换为日期格式fmt指定的格式的字符串值（从Hive 1.2.0开始）。支持的格式是Java SimpleDateFormat格式– https://docs.oracle.com/javase/7/docs/api/java/text/SimpleDateFormat.html 。第二个参数fmt应该是常量。示例：date_format（‘2015-04-08’，‘y’）=‘2015’。 date_format可用于实现其他UDF，例如：dayname（date）是date_format（date，‘EEEE’）dayofyear（date）是date_format（date，‘D’）

3.1.5条件函数

*返回类型*	*姓名（签名）*	*描述*
T	if(boolean testCondition, T valueTrue, T valueFalseOrNull)	当testCondition为true时返回valueTrue，否则返回valueFalseOrNull。
boolean	isnull( a )	如果a为NULL，则返回true，否则返回false。
boolean	isnotnull ( a )	如果a不为NULL，则返回true，否则返回false。
T	nvl(T value, T default_value)	如果value为null，则返回默认值，否则返回值（从HIve 0.11开始）。
T	COALESCE(T v1, T v2, …)	返回第一个不为NULL的v，如果所有v均为NULL，则返回NULL。
T	CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END	当a = b时，返回c; 当a = d时，返回e; 否则返回f。
T	CASE WHEN a THEN b [WHEN c THEN d]* [ELSE e] END	当a = true时，返回b; 当c = true时，返回d; 否则返回e。
T	nullif( a, b )	如果a = b，则返回NULL。否则返回a （从Hive 2.3.0开始）。简写：CASE，当a = b时为NULL，否则为a
void	assert_true(boolean condition)	如果’condition’不为true，则引发异常，否则返回null（从Hive 0.8.0开始）。例如，选择assert_true（2 <1）。

3.1.6字符函数

*返回类型*	*姓名（签名）*	*描述*
int	ascii(string str)	返回str的第一个字符的数值。
string	base64(binary bin)	将参数从二进制转换为基本64字符串（从Hive 0.12.0开始）。
int	character_length(string str)	返回str中包含的UTF-8字符数（从Hive 2.2.0开始）。函数char_length是该函数的简写。
string	chr(bigint\|double A)	返回具有与A等效的二进制值的ASCII字符（从Hive 1.3.0和2.1.0开始）。如果A大于256，则结果等于chr（A％256）。示例：选择chr（88）; 返回“ X”。
string	concat(string\|binary A, string\|binary B…)	返回按顺序串联作为参数传入的字符串或字节所得到的字符串或字节。例如，concat（‘foo’，‘bar’）的结果为’foobar’。请注意，此函数可以接受任意数量的输入字符串。
string	decode(binary bin, string charset)	使用提供的字符集（“ US-ASCII”，“ ISO-8859-1”，“ UTF-8”，“ UTF-16BE”，“ UTF-16LE”，“ UTF- 16’）。如果任一参数为null，则结果也将为null。（从Hive 0.12.0开始。）
binary	encode(string src, string charset)	使用提供的字符集（“ US-ASCII”，“ ISO-8859-1”，“ UTF-8”，“ UTF-16BE”，“ UTF-16LE”，“ UTF- 16’）。如果任一参数为null，则结果也将为null。（从Hive 0.12.0开始。）
int	find_in_set(string str, string strList)	返回str在strList中的第一次出现，其中strList是一个逗号分隔的字符串。如果任一参数为null，则返回null。如果第一个参数包含逗号，则返回0。例如，find_in_set（‘ab’，‘abc，b，ab，c，def’）返回3。
string	format_number(number x, int d)	将数字X格式化为’＃，###，###。##'之类的格式，四舍五入到D小数位，然后将结果作为字符串返回。如果D为0，则结果没有小数点或小数部分。（由于蜂房的0.10.0 ;臭虫以固定在浮子类型蜂房0.14.0，在加入十进制型支撑蜂巢0.14.0）
string	get_json_object(string json_string, string path)	根据指定的json路径从json字符串中提取json对象，并返回提取的json对象的json字符串。如果输入的json字符串无效，它将返回null。*注意：json路径只能包含字符[0-9a-z_]，即不能包含大写或特殊字符。另外，键不能以数字开头。***这是由于对Hive列名的限制。
boolean	in_file(string str, string filename)	如果字符串str在文件名中显示为整行，则返回true。
int	instr(string str, string substr)	返回`substr`in 中第一次出现的位置`str`。返回`null`的如果任一参数是`null`返回`0`，如果`substr`不能在找到`str`。请注意，这不是基于零的。中的第一个字符的`str`索引为1。
int	length(string A)	返回字符串的长度。
int	locate(string substr, string str[, int pos])	返回在位置pos之后的str中第一次出现substr的位置。
string	lower(string A) lcase(string A)	返回将B的所有字符都转换为小写形式的字符串。例如，lower（‘fOoBaR’）会导致’foobar’。
string	lpad(string str, int len, string pad)	返回str，在其左边填充pad，长度为len。如果str大于len，则返回值缩短为len个字符。如果填充字符串为空，则返回值为null。
string	ltrim(string A)	返回从A的开头（左侧）起修剪空格所得的字符串。例如，ltrim（‘foobar’）的结果为’foobar’。
string	printf(String format, Obj… args)	返回根据do printf样式格式字符串格式化的输入（从Hive 0.9.0开始）。
string	quote(String text)	返回带引号的字符串（包括任何单引号HIVE-4.0.0的转义字符）输入项输出量空值空值谁的’谁的’别’别’
string	repeat(string str, int n)	重复str n次。
string	replace(string A, string OLD, string NEW)	返回字符串A，其中所有不重叠的OLD都替换为NEW（从Hive 1.3.0和2.1.0开始）。示例：选择replace（“ ababab”，“ abab”，“ Z”）; 返回“ Zab”。
string	reverse(string A)	返回反转的字符串。
string	rpad(string str, int len, string pad)	返回str，右用pad填充到len的长度。如果str大于len，则返回值缩短为len个字符。如果填充字符串为空，则返回值为null。
string	rtrim(string A)	返回从A的结尾（右侧）修剪空格所得到的字符串。例如，rtrim（‘foobar’）结果为’foobar’。
string	space(int n)	返回n个空格的字符串。
array	split(string str, string pat)	在pat周围拆分str（pat是一个正则表达式）。
map	str_to_map(text[, delimiter1, delimiter2])	使用两个定界符将文本拆分为键/值对。Delimiter1将文本分成KV对，Delimiter2将每个KV对分开。默认的定界符是’，‘代表定界符1，’：'代表定界符2。
string	substr(string\|binary A, int start) substring(string\|binary A, int start)	返回A的字节数组的子字符串或切片，从字符串的起始位置开始到字符串A的结尾。例如，substr（‘foobar’，4）的结果为’bar’（请参见[ http://dev.mysql.com /doc/refman/5.0/zh-CN/string-functions.html#function_substr ]）。
string	substr(string\|binary A, int start, int len) substring(string\|binary A, int start, int len)	从长度为len的起始位置返回A的字节数组的子字符串或切片。例如，substr（‘foobar’，4，1）的结果为’b’（请参阅[ http://dev.mysql.com/doc/refman/5.0/en/string-functions.html#function_substr ]）。
string	trim(string A)	返回由A两端的空格修剪产生的字符串。例如，trim（‘foobar’）结果为’foobar’
binary	unbase64(string str)	将参数从基数为64的字符串转换为BINARY。（从Hive 0.12.0开始。）
string	upper(string A) ucase(string A)	返回将A的所有字符都转换为大写形式的字符串。例如，upper（‘fOoBaR’）的结果为’FOOBAR’。
string	initcap(string A)	返回字符串，每个单词的首字母大写，所有其他字母小写。单词由空格分隔。（从Hive 1.1.0开始。）

3.1.7聚合函数

*返回类型*	*姓名（签名）*	*描述*
BIGINT	count(*), count(expr), count(DISTINCT expr[, expr…])	count（*）-返回检索到的行总数，包括包含NULL值的行。count（expr）-返回为其提供的表达式为非NULL的行数。count（DISTINCT expr [，expr]）-返回为其提供的表达式唯一且非NULL的行数。可以使用hive.optimize.distinct.rewrite优化执行。
DOUBLE	sum(col), sum(DISTINCT col)	返回组中元素的总和或组中列的不同值的总和。
DOUBLE	avg(col), avg(DISTINCT col)	返回组中元素的平均值或组中列的不同值的平均值。
DOUBLE	min(col)	返回组中列的最小值。
DOUBLE	max(col)	返回组中列的最大值。
DOUBLE	variance(col), var_pop(col)	返回组中数字列的方差。
DOUBLE	var_samp(col)	返回组中数字列的无偏样本方差。
DOUBLE	stddev_pop(col)	返回组中数字列的标准偏差。
DOUBLE	stddev_samp(col)	返回组中数字列的无偏样本标准差。
DOUBLE	covar_pop(col1, col2)	返回组中一对数字列的总体协方差。
DOUBLE	covar_samp(col1, col2)	返回组中一对数字列的样本协方差。
DOUBLE	corr(col1, col2)	返回组中一对数字列的皮尔逊相关系数。
array	collect_set(col)	返回消除了重复元素的一组对象。
array	collect_list(col)	返回具有重复项的对象列表。（从Hive 0.13.0开始。）
INTEGER	ntile(INTEGER x)	将有序分区划分为`x`多个桶，并为分区中的每一行分配一个桶号。这样可以轻松计算三分位数，四分位数，十分位数，百分位数和其他常见的汇总统计信息。（从Hive 0.11.0开始。）

3.1.8表生成函数

普通的用户定义函数（例如concat（））接受单个输入行并输出单个输出行。相反，表生成函数将单个输入行转换为多个输出行。

*行集列类型*	*姓名（签名）*	*描述*
T	explode(ARRAY a)	将数组分解为多行。返回带有单列（col）的行集，该数组代表数组中每个元素的一行。
Tkey,Tvalue	explode(MAP m)	将地图分解为多行。返回一个行集合与两列（键，值），一个行从输入图中的每个键-值对。（从Hive 0.8.0开始。）。
int,T	posexplode(ARRAY a)	使用附加的int类型位置列将数组分解为多行（原始数组中项的位置，从0开始）。返回具有两列（pos，val）的行集，该数组中的每个元素一行。
T1,…,Tn	inline(ARRAY a)	将结构数组分解为多行。返回具有N列的行集（N =结构中顶级元素的数量），数组中每个结构一行一行。（从Hive0.10开始。）
T1,…,Tn/r	stack(int r,T1 V1,…,Tn/r Vn)	将n个值V 1，…，V n分解为r行。每行将有n / r列。r必须是常数。

string1,…,stringn	json_tuple(string jsonStr,string k1,…,string kn)	接收JSON字符串和一组n个键，并返回n个值的元组。这是`get_json_object`UDF的一种更有效的版本，因为它只需一次调用就可以获取多个密钥。
string 1,…,stringn	parse_url_tuple(string urlStr,string p1,…,string pn)	接受URL字符串和一组n个URL部分，并返回n个值的元组。这类似于`parse_url()`UDF，但可以一次从URL中提取多个部分。有效的部件名称是：主机，路径，查询，参考，协议，授权，文件，用户信息，查询：<密钥>。

#取随机数rand()
select rand() from t_student;
#求a的阶乘
factorial(INT a)
select factorial(10) from t_student;
#求最大值   max()
greatest(T v1, T v2, ...)
select greatest(10,123,53,34,1,23,502,120) from t_student;
#求最小值
least(T v1, T v2, ...)
select least(10,123,53,34,1,23,502,120) from t_student;
#数学常量e
select e() from t_student;
#数学常量pi
select pi() from t_student;

#返回当前时间
select current_date from t_student;

#如果列中有null值，则返回默认值
NULL
nvl(T value, T default_value)
select id,nvl(name, '无名氏') from t_student;

#对于值的不同判断，取不同的值
CASE a WHEN b THEN c [WHEN d THEN e]* [ELSE f] END
如果a=b就返回c,a=d就返回e，否则返回f  
如CASE 4 WHEN 5  THEN 5 WHEN 4 THEN 4 ELSE 3 END 将返回4
select id,name,CASE id WHEN 3 THEN '老板' ELSE '员工' END,name from t_student;

#判断某个文件中是否包含某个字符串
in_file(string str, string filename)
select in_file('2,vivo,4000.0','/home/hdfs/phone_data') from t_student;

#通过某个符号切割字符串
split(string str, string pat)
select split('hello,world,briup', ',') from t_student;

#截取字符串
substr(string|binary A, int start, int len)
select substr('ceo-larry', 0, 3) from t_student;

#在某字符串中查找某个子串第一次出现的位置,位置从1开始  indexof
instr(string str, string substr)
select instr('ceo-larry', 'la') from t_student;

#将第一个字符串中的,符合第二个字符串的部分,替换成第三个字符串
translate(string|char|varchar input, string|char|varchar from, string|char|varchar to)
select translate('hello briup', 'briup', 'imut') from t_student;

#比较两个字符串，不同的字符个数
levenshtein(string A, string B)
select levenshtein('testptest', 'briup') from t_student;

#把array中的字符用某个符号拼接起来
stream.collect(Collector.join)
concat_ws(string SEP, array<string>)
select concat_ws('#', split('hello,world,briup', ',')) from t_student;

#先按照班级Id排列，每个班级再按照成绩排序，并给出排名
create table students(id int,name string,score double,classId id)
row format delimited
fields terminated by ','
stored as textfile;

load data local inpath '/Users/angelia/hive/students.txt' into table students;

#窗口函数 row_number() over (partition by 列 order by 列 desc/asc)
select
  classId,
  name,
  score,
  row_number() over (partition by classId order by score desc) as rn
from students;

3.1.9窗口函数

SQL窗口函数的作用：为每条数据显示排名/分析/聚合信息。

1.函数分类

1.ranking 排名类

2.analytic 分析类

3.aggregate 聚合类

思考：计算每个班级最高成绩的学生信息

原始做法：

1.按照班级分组后求出每个班最高分数

2.使用子查询根据每个班的最高分查询对应的学生信息

思考，分两步的原因？

查询的列必须出现在group by语句之后或者组函数内。

注意，使用窗口函数也可以完成以上要求。

借助聚合函数认识窗口函数：

在使用聚合函数后，会将多行变成一行，而窗口函数是将一行变成多行；
在使用聚合函数后，如果要显示其他的列必须将列加入到group by中，而使用窗口函数后，可以不使用group by，直接将所有信息显示出来。
窗口函数适用于在每一行的最后一列添加排名/分析/聚合函数的结果。
窗口函数不可以与group by 语句同时出现。

2.通用格式

排名函数([args]) over(partition by … order by …)

rank–为相同组的数据计算排名，如果相同组中排序字段相同，当前行的排名值和前一行相同；如果相同组中排序字段不同，则当前行的排名值为该行在当前组中的行号；因此排名序列会出现间隙。

dense_rank–为相同组内数据计算排名，如果相同组中排序字段相同，当前行的排名值和前一行相同；如果相同组中排序字段不同，则当前行的排名值为前一行排名值加1；排名序列不会出现间隙。

percent_rank–该值的计算公式(组内排名-1)/(组内行数-1)，如果组内只有1行，则结果为0。

ntile–将组内数据排序然后按照指定的n切分成n个桶，该值为当前行的桶号(桶号从1开始)。

row_number–将组内数据排序后，该值为当前行在当前组内的从1开始的递增的唯一序号值。

通用格式：

分析函数([args]) over(partition by … order by …)

cume_dist–该值的计算公式为：组内小于等于当前行值的行数/组内总行数

first_value–求分组内的第一个值。

last_value–求分组内的最后一个值。

lag(input, [offset, [default]])–计算组内当前行按照排序字段排序的之前offset行的input列的值，如果offset大于当前窗口(组内当前行之前行数)则返回default值，default值默认为null。

lead(input, [offset, [default]])–计算组内当前行按照排序字段排序的之后offset行的input列的值，如果offset大于当前窗口(组内当前行之后行数)则返回default值，default值默认为null。

通用格式：

聚合函数([args]) over(partition by … order by …[rows/range between N preceding and M following])

1.聚合函数可以单独使用，可以不用和over函数连用

2.rows between N preceding and M following 规定了满足条件的行范围为：(当前行-N行,当前行+M行)

3.range between N preceding and M following 规定了满足条件的所有值范围为：(当前行的值-N,当前行的值+M)

测试以下列，理解分别代表什么含义

avg(score) over(partition by clazz  )
avg(score) over(partition by clazz order by score desc)
avg(score) over(partition by clazz order by score desc rows between 1 preceding and 2 following )
avg(score) over(partition by clazz order by score desc range between 1 preceding and 2 following )

3.编程格式

使用编程API的形式调用窗口函数

//1.借助于Column提供的over函数,传入窗口操作
import org.apache.spark.sql.expressions._
import org.apache.spark.sql.functions._
//2.构建窗口函数
val first_2_now_window = Window.partitionBy("clazz").orderBy($"score".desc)
score.select(
	$"clazz",
	$"score",
	avg($"score").over(first_2_now_window).as("avg_score")
).show

3.2UDF

UDF实现流程：

根据需求定义一个函数；
将该函数注册到Spark中；
在SQL语句或者是代码中使用已经注册了函数。

案例如下：计算员工表中每位员工的年工资。

规则为：12薪+年终奖(年终奖为月工资的20%)

核心代码实现如下：

val yearSalary=(salary:Double) => { salary*12 + (salary*12)*0.2}
val myFun1=org.apache.spark.sql.functions.udf(fun1)
spark.udf.register("yearSalary",myFun1)
emp.select(expr("yearSalary(salary)")).show()

3.3UDAF

用户自定义类型不安全的聚合函数：扩展抽象类UserDefinedAggregateFunction

定义一个计算用户平均值的UDAF，代码实现如下：

import org.apache.spark.sql.expressions.UserDefinedAggregateFunction

object MyUDF1 extends UserDefinedAggregateFunction{
  //实现抽象方法
}

使用类型不安全UDAF流程：

注册
- spark.udf.register(“MyUDF1的别名”,MyUDF1 )
使用
- spark.sql(“select name,MyUDF1的别名 from table”)

用户自定义类型安全的聚合函数(只支持Scala和Java) ：扩展抽象类Aggregator

定义一个计算用户平均值且类型安全的UDAF，代码实现如下：

import org.apache.spark.sql.expressions.Aggregator
object MyUDF2 extends Aggregator[-IN,BUF,OUT]{
  //实现抽象方法
}

使用类型安全UDAF流程：

注册
- val tc=MyUDF2 .toColumn.name("MyUDF2别名”);
使用
- ds.select(tc)

4.Catalog对象

Spark SQL2.0版本之后，使用Catalog对象管理元数据。

元数据：比如临时表、用户注册的UDF、持久化的元数据等。

Catalog对象既可以操作Spark SQL元数据，也可以操作Hive元数据。

获取Catalog对象方式：

val catalog=spark.catalog

Catalog常用方法：

与数据库相关

1	currentDatabase	获取当前数据库信息
2	setCurrentDatabase(dbName: String)	设置当前数据库
3	listDatabases	查看所有的数据库信息
4	getDatabase(dbName: String)	获取某数据库的信息
5	databaseExists(dbName: String)	判断某数据库是否存在

与数据表相关

1	listTables	查看当前数据库中所有的表信息
2	listTables(dbName: String)	查看指定数据库中所有的表信息
3	getTable(tableName: String)	获取当前数据库中某表的信息
4	getTable(dbName: String, tableName: String)	获取指定数据库中某表的信息
5	tableExists(tableName: String)	判断当前数据库中某表是否存在
6	tableExists(dbName: String, tableName: String)	判断指定数据库中某表是否存在
7	createTable(tableName: String, path: String)	创建外部表
8	createTable(tableName: String, path: String, source: String)	创建外部表并指定数据存储格式
9	refreshTable(tableName: String)	更新表
10	refreshByPath(path: String)	更新外部表
11	recoverPartitions(tableName: String)	重分区(只适用与分区表，视图不适用)

与列相关

1	listColumns(tableName: String)	查看当前数据库中某表的列信息
2	listColumns(dbName: String, tableName: String)	查看指定数据库中某表的列信息

与函数相关

1	listFunctions()	查看当前数据库中所有的函数
2	listFunctions(dbName: String)	查看指定数据库中所有的函数
3	getFunction(functionName: String)	获取当前数据库中的某函数对象
4	getFunction(dbName: String, functionName: String)	获取指定数据库中到的某函数对象
5	functionExists(functionName: String)	判断当前数据库中某函数是否存在
6	functionExists(dbName: String, functionName: String)	判断指定数据库中某函数是否存在v

与缓存相关

1	cacheTable(tableName[,storageLevel=MEMORY_ONLY])	缓存表，并指定缓存级别
2	uncacheTable(tableName: String)	从内存中移除表数据
3	clearCache()	清除内存中所有的缓存
4	isCached(tableName: String)	查看某一张表是否缓存在内存中

注意，缓存的生命周期：与驱动器程序的生命周期一致；

与视图相关

1	dropTempView(viewName: String)	删除临时视图
2	dropGloablTempView(viewName: String)	删除全局临时视图

你可能感兴趣的:(Spark,Scala,大数据,spark)

智慧水库信息化系统建设产品需求文档V2.0 小赖同学啊 test Technology Precious 物联网
智慧水库信息化系统建设产品需求文档1.引言1.1文档目的本文档旨在明确智慧水库信息化系统的建设需求，为系统设计、开发和实施提供全面依据，确保系统功能满足水库管理业务需求，提升水库管理的智能化水平和决策效率。1.2背景介绍传统水库管理面临数据采集不及时、分析手段有限、决策依赖经验等问题，难以应对复杂多变的水文情势和日益增长的管理需求。随着物联网、大数据、人工智能等技术的发展，智慧水库建设成为必然趋势
9.20其二道左无人
做一家服务公司，为下面的公司提供一些事务性的管理、财务管理、风险管理的服务，粘住一个大圈子的HR，通过下面的公司做掉项目，为HR提供一个稳定的资源变现的渠道；做一家科技公司，提供线上的平台运营，大数据采集，以及基于这个基础上的卖货、信贷等服务做一家连锁企业，每一家门店都是独立的企业，提供招聘、引流以及终端服务所以外部通过众筹绑定大批量的HR，就会有稳定的订单，通过服务公司提供服务，通过终端门店保证
只靠可视化大屏，做不了数字化，数据总监总结3点，你做到了几个大数据的那些事
企业数字化是很多企业热衷的话题。本文的数字化指各行业头的头部企业的端到端数字化解决方案，常见部署于华为专有云、阿里私有云、亚马逊云，项目金额一般百万起步，上不封顶。很多企业投人、投钱数字化，都希望有个酷炫的数据大脑，政府、合作伙伴来参观时，用酷炫的数据大脑让来宾们啧啧称赞。热闹散去后，企业内部的各部门，天天围着数据挖宝，大数据快告诉我，下个月能卖多少，哪几个渠道卖得不好，哪条生产线有问题，哪些货压
你多久没有认真读一本书了我是巴卡
我九岁博览群书，二十岁达到顶峰。我现在都是看社会人文类的书，例如《知音》《故事会》……往前推三百年，往后推三百年，总共六百年没有人超过我。——凤姐引用凤姐的话，没有嘲讽的意思。现在的人，包括我自己，除了刷手机，恐怕连杂志都很少读了，更别说认真读一本书了。1、大数据下，人越读越窄，越读越傻前段时间，埃航波音737MAX8出事，就在网上跟着读了几篇报道。随后的一段时间，基本打开APP都是关于波音和73
注意力才是我们最值钱的东西心守平凡_王慧超
4月10日晚，罗永浩携手国民神车哈弗品牌完成了第二场带货直播。此次直播共售出11357张2777元的优惠券，预估销售额15.65亿元，创造了汽车直播带货的新纪录。流量时代真的已经来临了，随着互联网的高速发展，越来越多的网络用户增加，我们不得不承认，我们已经进入了一个网络时代，进入了一个流量大数据时代。我们所有想获得的东西都可以通过网络获取，资料、信息、购物，网络正在改变人们的生活方式，正在成为人们
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction zzfive 生成模型论文阅读 kotlin 开发语言 android
论文链接：VisualAutoregressiveModeling:ScalableImageGenerationviaNext-ScalePrediction文章目录简介预测下一个token自回归模型范式分析VAR详解分词实现细节幂律缩放定律零样本泛化能力结论简介本文提出的视觉自回归建模/VAR这种新范式，其将图像的自回归学习重新定义为从粗到细的“下一个尺度预测”或“下一个分辨率预测”，与常规的
养老院管理系统基于SpringBoot的养老院管理系统系统设计与实现（源码+论文+部署讲解等）
博主介绍：✌全网粉丝60W+,csdn特邀作者、Java领域优质创作者、csdn/掘金/哔哩哔哩/知乎/道客/小红书等平台优质作者，计算机毕设实战导师，目前专注于大学生项目实战开发,讲解,毕业答疑辅导，欢迎高校老师/同行前辈交流合作✌技术栈范围：SpringBoot、Vue、SSM、Jsp、HLMT、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习、单片机
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
Saprk中RDD詳解文子轩
一.常用的transfromRDD算子通過並行化scala創建RDDvalrdd1=sc.parallelize(Array(1,2,3,4,5,6,7,8))查看該RDD的分區數量rdd1.partitions.lengthres23:Int=4使用filter算子valrdd2=sc.parallelize(List(5,6,4,7,3,8,2,9,1,10)).map(*2).sortBy(
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
InfluxDB 数据模型：桶、测量、标签与字段详解（一）计算机毕设定制辅导-无忧 #InfluxDB db
一、引言**在大数据和物联网蓬勃发展的当下，时间序列数据的处理需求呈爆发式增长。InfluxDB作为一款高性能的开源时序数据库，凭借其卓越的特性，在时序数据库领域占据了重要地位，被广泛应用于各种场景。InfluxDB专为时间序列数据设计，拥有高效的存储和查询性能。它采用独特的存储引擎，能够快速写入大量带有时间戳的数据，并支持灵活的查询操作。其核心设计针对时间序列数据的特点进行了优化，包括时间索引、
Kafka 集群架构与高可用方案设计（一）计算机毕设定制辅导-无忧 #Kafka kafka 架构分布式
Kafka集群架构与高可用方案设计的重要性在大数据和分布式系统的广阔领域中，Kafka已然成为了一个中流砥柱般的存在。它最初由LinkedIn开发，后捐赠给Apache软件基金会并成为顶级项目，凭借其卓越的高吞吐量、可扩展性以及持久性，被广泛应用于日志收集、实时数据处理、流计算、数据集成等诸多关键领域。在日志收集场景下，以大型互联网公司为例，每天都会产生海量的日志数据，如用户的访问记录、系统操作日
大数据集成方案对比：Kafka vs Flume vs Sqoop AI天才研究院计算 AI大模型应用入门实战与进阶 Agentic AI 实战大数据 kafka flume ai
大数据集成方案对比：KafkavsFlumevsSqoop关键词：大数据集成、Kafka、Flume、Sqoop、流处理、批量迁移、日志收集摘要：在大数据生态中，数据集成是连接数据源与数据处理平台的关键环节。本文深度对比Kafka、Flume、Sqoop三大主流集成工具，从核心架构、技术原理、适用场景到实战案例展开系统性分析。通过数学模型量化性能差异，结合实际项目经验总结选型策略，帮助开发者根据业
飞算科技：以创新科技引领数字化变革，旗下飞算 JavaAI 成开发利器飞算JavaAI开发助手科技
作为国家级高新技术企业，飞算科技专注于自主创新，在数字科技领域持续深耕，用前沿技术为各行业客户赋能，助力其实现数字化转型升级的飞跃。飞算科技凭借深厚的技术积累，将互联网科技、大数据、人工智能等技术与实际应用紧密融合。公司组建了一支由行业资深专家和技术精英构成的团队，他们在相关领域积累了多年实践经验，深刻理解不同行业客户在数字化进程中面临的痛点与挑战。基于这些洞察，飞算科技推出了一系列具有创新性和实
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
Java 大视界 -- Java 大数据在影视内容推荐与用户兴趣挖掘中的深度实践（183）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据影视内容推荐用户兴趣挖掘协同过滤基于内容推荐数据可视化个性化推荐系统
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：2025CS
Java 大视界 -- 基于 Java 的大数据分布式文件系统在科研数据存储与共享中的应用优化（187）青云交大数据新视界 Java 大视界 Java+Python 双剑合璧：AI 大数据实战通关秘籍大数据大数据分布式文件系统科研数据存储科研数据共享应用优化 HDFS 数据分区
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！全网（微信公众号/CSDN/抖音/华为/支付宝/微博）：青云交一、欢迎加入【福利社群】点击快速加入1：青云交技术圈福利社群（NEW)点击快速加入2：CSDN博客
Python医疗大数据实战：基于Scrapy-Redis的医院评价数据分布式爬虫设计与实现 Python爬虫项目 python 开发语言爬虫 selenium scrapy
摘要本文将详细介绍如何使用Python构建一个高效的医院评价数据爬虫系统。我们将从爬虫基础讲起，逐步深入到分布式爬虫架构设计，使用Scrapy框架结合Redis实现分布式爬取，并采用最新的反反爬技术确保数据采集的稳定性。文章包含完整的代码实现、性能优化方案以及数据处理方法，帮助读者掌握医疗大数据采集的核心技术。关键词：Python爬虫、Scrapy-Redis、分布式爬虫、医疗大数据、反反爬技术1
flink-sql读写hive-1.13 第一片心意 flink flink sql hive
1.版本说明本文档内容基于flink-1.13.x，其他版本的整理，请查看本人博客的flink专栏其他文章。1.1.概述ApacheHive已经成为了数据仓库生态系统中的核心。它不仅仅是一个用于大数据分析和ETL场景的SQL引擎，同样也是一个数据管理平台，可用于发现，定义，和演化数据。Flink与Hive的集成包含两个层面。一是利用了Hive的MetaStore作为持久化的Catalog，用户可通
AI日报-20250620：华为云重磅发布盘古大模型5.5！宇树科技C轮融资引爆资本圈！Genspark AI Pod震撼发布！未来世界2099 AI日报人工智能华为云科技业界资讯
1、昆仑万维开源Skywork-SWE-32B：32B模型刷新代码修复SOTA，性能直逼闭源巨头2、腾讯AILab开源音乐生成大模型SongGeneration，人人皆可创作音乐！3、重磅！ManusAIWindows版免码开放，职场效率革命来袭！4、B站618商单效率飙升5倍！通义千问3助力AI选人功能大爆发5、HailuoVideoAgent震撼发布：零门槛生成专业级视频，创意秒变现实！6、中
觉察与正念佳佳的宝瓶子
今天因为交电费的事与妈妈沟通。在沟通的过程中，年届八十的母亲一直给我强调着过去怎么怎么。父母家的电费一直是银行代扣的，这样的模式自从可以通过银行代扣便开始了。可见那时候的父母还是蛮新潮的，能接受新事物的。至从有了智能手机，人类便进入了大数据时代。通过微信或支付宝来交电费方便得多。可惜父亲不在了，老母亲是连手机都坚决不用的人。（因为想要掩饰自己的不能、不敢，所以干脆拒绝！不愿意做任何的改变）。今年，
Java大视界：Java大数据在智能医疗电子健康档案数据挖掘与健康服务创新＞ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>本文通过完整代码示例，揭秘如何用Java大数据技术挖掘电子健康档案价值，实现疾病预测、个性化健康管理等创新服务。###一、智能医疗时代的数据金矿电子健康档案（EHR）作为医疗数字化的核心载体，包含海量患者全生命周期健康数据。据统计，全球医疗数据量正以每年**48%的速度增长**，单个三甲医院年数据量可达**PB级**。这些数据蕴藏着疾病规律、治疗效能的宝贵知识，但传统技术难以有效挖掘。**Jav
无人值守人工智能智慧系统数据分析：深度洞察与未来展望呆码科技人工智能数据分析数据挖掘
无人值守人工智能智慧系统数据分析：深度洞察与未来展望随着科技的飞速发展，人工智能（AI）技术已逐渐渗透到社会经济的各个领域，其中无人值守人工智能智慧系统作为AI技术应用的前沿阵地，正引领着一场深刻的行业变革。这类系统通过集成高级算法、大数据分析、物联网（IoT）及云计算等先进技术，实现了对复杂环境的自主监控、智能决策与高效管理，极大地提升了运营效率，降低了人力成本，并开启了数据驱动决策的新纪元。本
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
SPARKLE：深度剖析强化学习如何提升语言模型推理能力
摘要：强化学习（ReinforcementLearning，RL）已经成为赋予语言模型高级推理能力的主导范式。尽管基于RL的训练方法（例如GRPO）已经展示了显著的经验性收益，但对其优势的细致理解仍然不足。为了填补这一空白，我们引入了一个细粒度的分析框架，以剖析RL对推理的影响。我们的框架特别研究了被认为可以从RL训练中受益的关键要素：（1）计划遵循和执行，（2）问题分解，以及（3）改进的推理和知
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
sgg大数据全套技术链接[plus] 原来是大华啊~ 资源大数据
写在开头：感谢尚硅谷，尚硅谷万岁，我爱尚硅谷111个技术栈+43个项目，兄弟们，冲！最近小米又又又火了一把，致敬所有造福人民的企业和伟大的企业家，致敬雷军，小米，致敬马云，致敬尚硅谷，致敬所有为人民谋福的英雄人物和企业，再次献上我诚挚的敬意，致敬！尚硅谷大数据全套111个技术1.Java从入门到精通JDK版链接：https://pan.baidu.com/s/1GAc610SYSMmZBuOX4D
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin