Byyyi耀

Hive函数全解——思维导图 + 七种函数类型

思维导图：

Hive函数全解

1. 窗口函数

作用：扩展列，而行不会变少

语法总览：

func(F|func|expr) over(
	[partition by F1[,F2,...]						确定分区的边界(范围)
	[order by Fa [asc|desc][,Fb [asc|desc]]]		确定分区内行的排列顺序(只有指定了ORDER BY才可以使用Window_Clause)
	rows|range between ... and ...					rows：物理行号(无重复) range：排序号(可能重复，会将重复行的数据视为一个整体)
		unbounded preceding
		N preceding
		current row
		N following
		unbounded following
)[as] ALIA(别名)

** 注意：
对窗口函数的结果筛选必须在外层。

排序：

ROW_NUMBER() 	行号				
RANK()		 	排名(并列跳号)
DENSE_RANK() 	排名(并列不跳号)✔	
NTILE(N)		桶号(将数据[在每个分组内]按ORDER BY排序后的顺序分成N个连续区间)
	作用：抽样 | 倾斜处理
PERCENT_RANK()	百分比排名 (当前排名-1)/(窗口总行数-1)
				(排名越高越接近0，排名越低越接近1)

** 数据倾斜现象
group_id data
1 …
1 …
2 …
2 …
2 …
2 …
2 …
3 …
3 …
4 …
4 …

定义
键值对(通常是键)分布不均匀
影响
计算资源分配不均影响整体性能

如何处理数据倾斜现象？
1.识别数据倾斜

1 3 4 数据量为2
2 数据量为5
5 >> 2

2.计算分割因子
split_factor = floor(skewed_data_count/AVG(non-skewed_data_count))

3.应用分割逻辑

对于倾斜的数据，对每行数据添加一个额外的字段f1，f1的值从0到split_factor-1
对于非倾斜的数据，f1可以保持为一个固定值，如0

调整分组键
f与f1结合，形成新的分组键。根据新的分组键进行数据处理。
在处理完毕后，将f+f1还原为原始的分组键f

NTILE 如何自动化该数据倾斜处理过程？

获取数据倾斜的group_id(假设为2)

SELECT group_id,COUNT(*) AS cnt
FROM example_table
GROUP BY group_id
ORDER BY cnt DESC;

计算分割因子

SELECT FLOOR(COUNT(*)/t1.avg_cnt) AS split_factor
FROM example_table
CROSS JOIN(
	SELECT AVG(cnt) AS avg_cnt
	FROM(
		SELECT COUNT(*) AS cnt
		FROM example_table
		WHERE group_id <> 2
		GROUP BY group_id
	)t
)t1
WHERE group_id = 2;

形成新分组键

SELECT CONCAT_WS('_', group_id, bucket_id) as new_group_key, data
FROM (
    SELECT group_id, data, 
           CASE 
               WHEN group_id = 2 THEN NTILE(split_factor) OVER (PARTITION BY group_id ORDER BY data) 
               ELSE 0 
           END as bucket_id
    FROM example_table, 
         (SELECT FLOOR(COUNT(*) / AVG_COUNT) as split_factor
          FROM example_table
          CROSS JOIN (
              SELECT AVG(cnt) as AVG_COUNT
              FROM (
                  SELECT COUNT(*) as cnt
                  FROM example_table
                  WHERE group_id != 2
                  GROUP BY group_id
              ) t
          ) t2
          WHERE group_id = 2) t3
) result;

分析：不支持ROWS|RANGE BETWEEN，需要考虑F是否为NULL(IF(F IS NULL,NULL,…) AS …)

LAG(F,N)											当前窗口内当前行的上N行的字段F值
LEAD(F,N)											当前窗口内当前行的下N行的字段F值
FIRST_VALUE(F)										当前窗口内第一行的字段F值
LAST_VALUE(F)										当前窗口内最后一行的字段F值													
CUME_DIST()											`<=`当前行值的所有行占窗口总行数的比例
PERCENTILE(F,V)										
F：BIGINT V：DECIMAL|ARRAY					
	PERCENTILE(F,0.5)								获取中位数
	PERCENTILE(F,array(0.25,0.56,0.9))				获取四分位数
CORR(F1,F2)											获取皮尔逊相关系数(-1~+1，两变量相关的强度和方向)										
COVAR_POP(F1,F2)									获取总体协方差(+|-，两变量是否同方向变化)
VAR_POP(F)											获取方差(衡量数据稳定性)
STDDEV_POP(F)										标准差

2. 数学函数

-----------------------正负-------------------------
abs(N) 绝对值
positive(N) 正数
negative(N) 负数
sign(N) 符号，正数返回+1，负数返回-1
-----------------------度数-------------------------
degrees(pi()/2) 弧转角
radians(90) 角转弧
sin(pi()/2) 求sin值
cos(pi()/2) 求cos值
tan(pi()/4) 求tan值
asin(N) 求arcsin值
acos(N) 求arccos值
atan(N) 求arctan值
-----------------------精度-------------------------
round(N,M) 四舍五入
bround(N,M) 四舍六入五凑偶(偶舍奇入)
ceil(N) 向上取整
floor(N) 向下取整
trunc(N,M) 截断操作
trunc(12345.678,2) => 12345.670000…
trunc(12345.678,-2) => 12300.000000…
format_number(N,FORMAT)
FORMAT = N => 等同于round
FORMAT = ‘###,###.#’ =>
如果#的数量>或<数字的数量，都显示原数字，再根据.和,分隔数字。
-----------------------计算-------------------------
pow(N,M) 求幂
log(N,M) 求对数
factorial(N) 求N的阶乘
mod(N,M) N%M
shiftleft(N,M) 十进制数N对应的二进制数左移M位
shiftleft(cast(conv(1001,2,10) as int),1)
shiftright(N,M) 十进制数N对应的二进制数右移M位
shiftrightunsigned(N,M) 无符号右移
greatest(N1,N2,…) 求多列的最大值
least(N1,N2,…) 求多列的最小值
width_bucket(77,0,100,5) 区间(P2、P3)分桶(P4)定值(P1)的桶号
percentile_approx(expr,pc,[nb]) [超大]数据近似百分位数(n bins from histogram)
expr 将计算百分位数的列或表达式
pc 要计算的百分位数(0~1 0.5表示中位数，也可以用数组的形式表示)
nb 近似算法的桶的数量，通常在超大数据的时候进行使用
percentile_approx(salary,0.5,100) 计算salary列的近似中位数，并且在计算过程中使用了100个桶进行近似计算。
percentile_approx(salary,array(0.25,0.5,0.75),100)
histogram_numeric(F,N) 获取数据区间分布，将其分布为N个区。
[{“x”:277797.38999999996,“y”:3.0},{“x”:313823.77111111116,“y”:9.0},{“x”:334791.79142857145,“y”:7.0},{“x”:352004.46400000004,“y”:5.0},{“x”:364576.2504545455,“y”:22.0},{“x”:383282.47500000003,“y”:6.0},{“x”:397107.64571428567,“y”:7.0},{“x”:417563.0433333332,“y”:15.0},{“x”:438436.93000000005,“y”:3.0},{“x”:457320.16000000003,“y”:3.0},{“x”:475004.04,“y”:3.0},{“x”:501651.47,“y”:1.0}]
x表示数值边界，y表示前一个边界到当前边界出现的数据频次
----------------------进制转换----------------------
conv(N,FROM_BINARY,TO_BINARY) 返回字符串类型
------------------------常量------------------------
pi() 获取pi
e() 获取E
hash(N) 获取哈希值(数组字符串 ✔ )
rand() 无参数为0~1，有参数为伪随机(固定参数的rand值相同)
日期函数

SELECT year(`current_date`());							-- 年
SELECT quarter(`current_date`());						-- 季
SELECT month(`current_date`());							-- 月
SELECT day(`current_date`());							-- 日
SELECT hour(`current_timestamp`());						-- 时
SELECT minute(`current_timestamp`());					-- 分
SELECT second(`current_timestamp`());					-- 秒
SELECT dayofweek(`2023-11-11`)							-- 周日~周六 1~7
SELECT weekofyear(`current_date`());					-- 年周
SELECT date_format(`current_date`(),'yyyy');			-- 日期格式化 ✔(yyyy-MM-dd HH:mm:ss.SSS 部分或全部)

2021-05-13 11:22:33.545
SELECT floor_second(`current_timestamp`());				-- 向下取整到零毫秒
SELECT floor_minute(`current_timestamp`());				-- 向下取整到零秒
SELECT floor_hour(`current_timestamp`());				-- 向下取整到零分
SELECT floor_day(`current_timestamp`());				-- 向下取整到零时：年月日 <=> current_date()
SELECT floor_week(`current_timestamp`());				-- 向下取整到当周第一天
SELECT floor_month(`current_timestamp`());				-- 向下取整到当月第一天 <=> trunc(`current_timestamp`(),'MM')
SELECT floor_quarter(`current_timestamp`());			-- 向下取整到当季第一天 <=> trunc(`current_timestamp`(),'Q')
SELECT floor_year(`current_timestamp`());				-- 向下取整到当年第一天 <=> trunc(`current_timestamp`(),'YYYY')
SELECT last_day(`current_date`());						-- 向下取整到当月最后一天

取整日期函数的应用场景：
将其作为分组字段，统计不同粒度下的结果。

SELECT date_add(`current_date`(),-2);					-- 日期计算：天±
SELECT add_months(`current_date`(),-2);					-- 日期计算：月±
SELECT datediff(`current_date`(),'2021-10-18');			-- 日期计算：两个日期天数差(前-后)
SELECT months_between(date1,date2);						-- 日期计算：两个日期月数差(浮点数：表示日期之间的完整月数加上剩余天数的小数部分)
														-- date1在date2之后，为正数；反之则为负数。
SELECT next_day(`current_date`(),'MON');				-- 下一个星期几（未至返回本周，已过返回下周）

SELECT `current_date`();								-- 获取当前日期：年月日
SELECT `current_timestamp`();							-- 获取当前时间：年月日时分秒
SELECT unix_timestamp();								-- 获取当前日期时间戳
SELECT unix_timestamp('2021-10-18 11:12:13','yyyy-MM');	-- 获取指定日期指定格式的时间戳 <=> to_unix_timestamp，格式参数可选
SELECT from_unixtime(1634515200);						-- 将时间戳转化为日期
SELECT to_utc_timestamp('2021-10-18 11:12:13','GMT+8');	-- 按指定时区转化日期格式：UTC
	`GMT+8`表示当地时间比格林威治时间早了8个小时，结果为'2021-02-18 11:12:13'
	将每条交易记录的时间戳从当地失去转换为UTC时区，并进行统一的数据分析。
SELECT to_date(`current_timestamp`());					-- 将日期时间值转化为日期(年月日)		
	SELECT to_date('2021-01-15 15:32:08'); => 2021-01-15

3. 字符函数

SELECT encode('hello你好','UTF-8');						-- 编码
SELECT decode(encode('hello你好','GBK'),'GBK');			-- 解码
SELECT base64(binary('abc'));							-- 简单对称加密(二进制编码：将二进制数据转换为ASCII字符集)
	base64进行对称加密前，需要将数据转化为二进制形式
	SELECT base64(USER_NAME) FROM TABLE_NAME;	对识别信息(例如名字)进行匿名化处理
SELECT unbase64('YWJj');								-- 简单对称解密
SELECT base64(aes_encrypt('henry','1234567812345678'))	-- AES对称加密：16 24 32
	AES加密之后的结果是二进制数据，AES加密需要一个密钥，该密钥的长度通常为16，24，32字符长度。
	base64(aes_encrypt(data,'AES_KEY'))					-- 在不安全的网络中传输敏感数据
SELECT md5('abcdef');									-- 非对称加密：返回长度位32位的16进制值
	SELECT md5(USER_PASSWORD) FROM TABLE_NAME;	对敏感数据(例如用户密码)进行非对称加密
SELECT sha('abc');										-- 非对称加密 <=> sha1
SELECT sha2('abc',224);									-- 非对称加密：224，256，384，512
	SHA系列函数是一种加密哈希函数，用于生成固定位数的哈希值。

安全性：非对称>对称
性能：对称>非对称

SELECT reflect("class","method",arg1[,arg2,...,argn])	使用反射函数在Hive中调用Java类方法
	如何实现对网页加密部分进行解码？
	可以使用`reflect`函数调用Java的`URLDecoder`类来解决这个问题
	SELECT reflect("java.net.URLDecoder", "decode", parse_url('https://search.jd.com/Search?keyword=%E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BAmate60&enc=utf-8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_AM_L5366,SAK7_M_GUD_R,SAK7_S_AM_R,SAK7_D_HSP_L30657,SAK7_SC_PD_R,SAK7_SM_PB_R,SAK7_SM_PRK_R,SAK7_SM_PRC_R,SAK7_SM_PRR_LC,SAK7_SS_PM_R|&wq=%E5%8D%8E%E4%B8%BA&pvid=65c357d9dfb44555a9eb8708ca539b8b','QUERY','keyword'), 'UTF-8') AS decoded_keyword;

SELECT mask('x2你z');									-- 字母显示为x，数字显示为n，汉字保留。
SELECT mask_hash('123abc我');							-- 返回长度为64位的16进制数
SELECT mask_first_n('123abc我',3);						-- mask前n个字符
SELECT mask_last_n('123abc我',3);						-- mask后n个字符
SELECT mask_show_first_n('123abcdef',3);				-- 保留原始字符串的前n个字符，其余字符被掩码替换。
	=> 123xxxxxx
SELECT mask_show_last_n('123abcdef',3);					-- 保留原始字符串的后n个字符，其余字符被掩码替换。
	=> nnnxxxdef
	
mask 通常用于数据脱敏，如果需要自定义脱敏字符：replace(mask(...),'n','x');
	 如果要对汉字进行脱敏：
-- 张**
select substr('张三丰',0,1)；--str,fromIndex,Length
select concat(substr('张三丰'，0,1)，repeat("*",Length('张三丰')-1))；

SELECT repeat('abc',2);									-- 将字符串重复指定的次数
SELECT replace('abc123abc','abc','XYZ')					-- 替换全部相应的字符
SELECT regexp_replace('abc123def456xyz','\\d+','***')	-- 替换全部符合正则的字符
SELECT translate('abc123ae12f','a1','xx');				-- 按照字符进行替换
	SELECT translate('hello','el','12') => h122o
	SELECT translate('hello','e','12') => h1llo
	SELECT translate('hello','elo','12') => h122		-- 在原字符串中删除多出来的字符
SELECT reverse('abc');									-- 反转字符串

SELECT initcap('henry');								-- 首字母大写
SELECT lcase('HenRy');									-- 全部小写 <=> lower(str)
SELECT ucase('henRy');									-- 全部大写 <=> upper(str)

SELECT lpad('aa',5,0);	 => 000aa						-- 左填充
SELECT rpad('aa',5,0);	 => aa000						-- 右填充
SELECT space(5);										-- 生成N个空格

SELECT trim(' abc   ');									-- 两边裁剪
SELECT ltrim(' abc   ');								-- 左边裁剪
SELECT rtrim(' abc   ');								-- 右边裁剪

SELECT length('abc我');	  => 4							-- 返回字符串长度
SELECT octet_length('abc我');  => 6						-- 返回字符串字节长度(汉字3字节)
														-- 了解字节长度有利于评估存储需求和网络带宽使用
														
SELECT index(`array`(22,11,33),2);						-- 返回数组中指定下标位置的元素值 <=> array(22,11,33)[2];
SELECT elt(2,"aa","bb","cc");							-- 提取字符串列表中的第N个值
SELECT field('aa','bb','cc','aa');						-- 返回参数一在后面字符串列表中的位置，从1开始
	=> 3
SELECT find_in_set('aa','bb,cc,aa');					-- 返回参数一在后面字符串中的位置，找不到返回负数。
SELECT locate('aa','bbaacc',1);							-- 获取参数一在参数二中的从参数三(从1开始)开始向后第一次出现的位置，找不到返回负数。
SELECT instr('bbccaa','aa');							-- 获取参数二在参数一中第一次出现的位置，从1开始

SELECT printf('%s,%d,%b,%.2f','aa',12,false,12.345);	-- 格式化输出(占位符同Java)
SELECT concat('abc','-','def');							-- 拼接字符串
SELECT concat_ws('-','1','2','3'); => 1-2-3				-- 指定分隔符拼接字符串，支持【字符串数组拼接】
	SELECT concat_ws('-',`array`('apple','banana','city'));
	
SELECT uuid();											-- 随机36位的16进制字符串
SELECT split('1,2,3',',');	 =>["1","2","3"]			-- 按指定分隔符将字符串分割为字符串数组
SELECT sentences('hello how are you? I am fine. Thank you!');	 -- 英文句子按标点拆分成二维数组，处理大型文本
	=>[["hello","how","are","you"],["I","am","fine"],["Thank","you"]]
SELECT substring('[email protected]',2);						-- 截取字符串：提取由指定位置开始的指定长度的字符串
SELECT substr('[email protected]',2,3);						
SELECT substring_index('[email protected]',',',-2);			-- 提取参数二指定分隔符分隔的前N个元素，若为负值则代表后N个元素。
	SELECT substring_index('apple,can,you',',',2);  => apple can
	SELECT substring_index('apple,can,you',',',-2);	=> can you
	SELECT substring_index(substring_index('henry,qq,com',',',2),',',-1); => qq <=> 提取第2个

SELECT 'abc' LIKE 'ab_';								-- 模糊匹配(可以作为匹配模式的字符有：%<任意个字符>,_(单个字符))
SELECT '123' rlike '\\d{3}';							-- 正则匹配
SELECT levenshtein('xyz','abcd');						-- 相似性，0为相同，值越大相似性越差
SELECT soundex('Abcef');  => A120						-- 旨在识别拼写不同但发音相似的单次
	人名搜索，例如在搜索形式"Smith"，可能希望同时找到"Smyth"或"Smithe",，避免因为拼写不当造成检索遗漏
	SELECT * FROM people WHERE soundex(name) = soundex('Smith');

– 【词频统计】ngrams()和context_ngrams()都要与sentences()函数一起使用
SELECT ngrams(sentences(‘hello how are you? fine , thank you and you?’),2,3);
– 第一个参数：单词二维数组
– 第二个参数：连续N个单词
– 第三个参数：top-k
SELECT context_ngrams(sentences(‘hello how are you? fine , thank you and you?’),array(‘how’,null),3);
– 第一个参数：单词二维数组
– 第二个参数：和how右搭配的单词词频统计
– 第三个参数：top-k
统计分词结果中与数组指定单词一起出现的频率最高的TOP-K结果。
** 其他搭配方式：
左侧搭配：array(null,‘how’);
特定位置的搭配：array(‘how’,null,null); 寻找和’how’隔了一个单词搭配的单词
精确序列：array(‘how’, ‘are’, ‘you’)

– 【json】解析：解析后的内容都是字符串({“province”:“江苏”,“city”:“南京”})
SELECT get_json_object(json_string,json_path) 解析json的字符串json_string，返回path指定的内容;如果输入的json字符串无效，那么返回NULL。
假设json_string为：

{ "store": {
	"book": [
	  { "category": "reference",
		"author": "Nigel Rees",
		"title": "Sayings of the Century",
		"price": 8.95
	  },
	  { "category": "fiction",
		"author": "Evelyn Waugh",
		"title": "Sword of Honour",
		"price": 12.99
	  }
	]
  }
}

提取第一本书的作者：

	SELECT get_json_object(json_string,'$.store.book[0].author')
	FROM TABLE_NAME;
SELECT json_tuple(json_string,'FIELD1','FIELD2') AS (col1,col2)	  提取json字符串中的特定字段并作为独立的列返回
	
with tmp as (
    SELECT json_tuple('{"name":"张三","hobbies":["beauty","money","power"],"address":{"province":"江苏","city":"南京"}}',
                      'name', 'hobbies', 'address') as (name, hobbies, address)

如果提取的字段不可以直接作为独立的列，则可先作为临时表。

SELECT name,
       get_json_object(address,'`$`.province') as province,
       get_json_object(address,'`$`.city') as city,
       hobby
from tmp
lateral view explode(split(regexp_replace(hobbies,'\\[|]|"',''),','))V as hobby;

使用 lateral view explode(split(…)) 处理 hobbies 字段：
hobbies字段是一个JSON数组，首先通过regexp_replace函数去除方括号和引号，将其转换为普通的以逗号分隔的字符串。
再通过split按逗号分割这个字符串，得到一个包含各个爱好的数组。
lateral view + explode : 将数组的每个元素转成一个独立的行之后，与其他查询结果合并在最后的表中。

name province city hobbies
张三江苏南京 beauty
张三江苏南京 money
张三江苏南京 power

with tmp as (
    SELECT json_tuple('{"name":"张三","hobbies":["beauty","money","power"],"address":{"province":"江苏","city":"南京"}}',
                      'name', 'hobbies', 'address') as (name, hobbies, address)
), tmp2 as (
	SELECT name,
		-- get_json_object(address,'`$`.province') as province,
		-- get_json_object(address,'`$`.city') as city,
		regexp_extract(address,'\\{"province":"(.*?)","city":"(.*?)"}',1) as province,
		regexp_extract(address,'\\{"province":"(.*?)","city":"(.*?)"}',2) as city
		regexp_replace(hobbies,'\\[|]|"','') as hobbies
	FROM tmp
)

name province city hobbies
张三江苏南京 beauty,money,power

如果没有将hobbies由一行转多列，如何实现类似"查询所有爱好为beauty的用户"的查询？

SELECT * FROM tmp2
-- WHERE find_in_set('beauty',hobbies)>0;
-- WHERE locate('beauty',hobbies)>0;
-- WHERE hobbies RLIKE '.*beauty.*';

– 【url】解析：PROTOCOL 协议 HOST 域名 PATH 检索 QUERY 查询

SELECT parse_url('https://search.jd.com/Search?keyword=%E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BAmate60&enc=utf-8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_AM_L5366,SAK7_M_GUD_R,SAK7_S_AM_R,SAK7_D_HSP_L30657,SAK7_SC_PD_R,SAK7_SM_PB_R,SAK7_SM_PRK_R,SAK7_SM_PRC_R,SAK7_SM_PRR_LC,SAK7_SS_PM_R|&wq=%E5%8D%8E%E4%B8%BA&pvid=65c357d9dfb44555a9eb8708ca539b8b', 'PROTOCOL');

协议
– https

SELECT parse_url('https://search.jd.com/Search?keyword=%E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BAmate60&enc=utf-8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_AM_L5366,SAK7_M_GUD_R,SAK7_S_AM_R,SAK7_D_HSP_L30657,SAK7_SC_PD_R,SAK7_SM_PB_R,SAK7_SM_PRK_R,SAK7_SM_PRC_R,SAK7_SM_PRR_LC,SAK7_SS_PM_R|&wq=%E5%8D%8E%E4%B8%BA&pvid=65c357d9dfb44555a9eb8708ca539b8b', 'HOST');

域名
– search.jd.com

SELECT parse_url('https://search.jd.com/Search?keyword=%E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BAmate60&enc=utf-8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_AM_L5366,SAK7_M_GUD_R,SAK7_S_AM_R,SAK7_D_HSP_L30657,SAK7_SC_PD_R,SAK7_SM_PB_R,SAK7_SM_PRK_R,SAK7_SM_PRC_R,SAK7_SM_PRR_LC,SAK7_SS_PM_R|&wq=%E5%8D%8E%E4%B8%BA&pvid=65c357d9dfb44555a9eb8708ca539b8b', 'PATH');

路径
– /Search

SELECT parse_url('https://search.jd.com/Search?keyword=%E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BAmate60&enc=utf-8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_AM_L5366,SAK7_M_GUD_R,SAK7_S_AM_R,SAK7_D_HSP_L30657,SAK7_SC_PD_R,SAK7_SM_PB_R,SAK7_SM_PRK_R,SAK7_SM_PRC_R,SAK7_SM_PRR_LC,SAK7_SS_PM_R|&wq=%E5%8D%8E%E4%B8%BA&pvid=65c357d9dfb44555a9eb8708ca539b8b', 'QUERY', 'KEY_NAME');

检索(?后的所有内容)，检索时可以加上KEY_NAME便于查看键对应的值
– %E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BAmate60

动态解析网页加密信息：

WITH tmp AS (
	SELECT parse_url_tuple('https://search.jd.com/Search?keyword=%E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BAmate60&enc=utf-8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_AM_L5366,SAK7_M_GUD_R,SAK7_S_AM_R,SAK7_D_HSP_L30657,SAK7_SC_PD_R,SAK7_SM_PB_R,SAK7_SM_PRK_R,SAK7_SM_PRC_R,SAK7_SM_PRR_LC,SAK7_SS_PM_R|&wq=%E5%8D%8E%E4%B8%BA&pvid=65c357d9dfb44555a9eb8708ca539b8b','QUERY','keyword') AS keyword,
		parse_url_tuple('https://search.jd.com/Search?keyword=%E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BAmate60&enc=utf-8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_AM_L5366,SAK7_M_GUD_R,SAK7_S_AM_R,SAK7_D_HSP_L30657,SAK7_SC_PD_R,SAK7_SM_PB_R,SAK7_SM_PRK_R,SAK7_SM_PRC_R,SAK7_SM_PRR_LC,SAK7_SS_PM_R|&wq=%E5%8D%8E%E4%B8%BA&pvid=65c357d9dfb44555a9eb8708ca539b8b','QUERY','keyword') AS enc
)
SELECT reflect('java.net.URLDecoder','decode',keyword, if(enc is null,'UTF-8',enc)) AS keyword FROM tmp;

SELECT parse_url_tuple('https://search.jd.com/Search?keyword=%E5%8D%8E%E4%B8%BA%E6%89%8B%E6%9C%BAmate60&enc=utf-8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_AM_L5366,SAK7_M_GUD_R,SAK7_S_AM_R,SAK7_D_HSP_L30657,SAK7_SC_PD_R,SAK7_SM_PB_R,SAK7_SM_PRK_R,SAK7_SM_PRC_R,SAK7_SM_PRR_LC,SAK7_SS_PM_R|&wq=%E5%8D%8E%E4%B8%BA&pvid=65c357d9dfb44555a9eb8708ca539b8b','PROTOCOL','QUERY')

从URL中提取多个值
注意：parse_url_tuple()如果需要同时进行多种解析，此时若有QUERY解析，该解析后不可以加键名称。

parse_url的具体应用场景：
获取引流的来源或兴趣点，便于构建用户画像。(例如通过解析HOST获取引流来源，解析KEYWORD获取热点关键词。)
不同平台的URL的格式不同，首先要对不同平台的URL格式作一定的了解和分析。

** URL的基础规则
/ 分隔域名与路径
? 表示查询字符串的开始
?query=keyword 表示查询参数(Google使用q,百度使用wd…)，后面是搜索关键词
& 分隔多个参数
?query=keyword&page=2
= 分隔键和值

– 【正则】分组提取，0表示整个字符串，1~N表示分组编号
SELECT regexp_extract(‘https://www.baidu.com/s?wd=hive%20noop&rsv_spt=1&rsv_iqid=0xb9477d43000000e563&issp=1&f=8&rsv_bp=1’,
‘(.?)://(.?)/(.?)?(\w+)=(.?)&(\w+)=(.?)&.’,7)

– 【xml】路径提取
– xpath 字符串返回数组
text() 用于选取XML元素的文本内容
@PROPERTY_NAME 用于选取XML元素的属性值
/ 从根节点开始查找
// 查找任意位置的元素

SELECT xpath('henry22male','student/*/text()');	返回所有二级节点的值
SELECT xpath('henry22male','student/@stuId');		返回字符串中所有名为stuId的属性值
-- 返回第一个匹配结点的指定类型内容	xpath_boolean|double|int|float|long|number|short|string
SELECT xpath_string('b1b2','//@id') // 返回xml字符中第一个名为id的属性值
=> "foo"

4. 集合函数

SELECT collect_list(),collect_set(),array(),split('','')					-- 一维数组的构建
SELECT array(array('henry','jack'),array('pola','rose'))					-- 二维数组的创建
SELECT size(array(1,2,3));													-- array或map的大小
SELECT sort_array(array(22,11,33,3));										-- 数组排序(升序)
	-- 如何实现降序？
	SELECT reverse(sort_array(array(22,11,33,3)));

SELECT struct("henry",22,true);
{"col1":"henry","col2":22,"col3":true}										-- 匿名结构体
SELECT named_struct('name','henry','age',22,'is_Member',true);
{"name":"henry","age":22,"is_member":true}									-- 命名结构体
注意：is_Member => is_member 的原因是在结构化数据的过程中遵循JSON`首字母小写`的规约。

-- sort_array_by(array(structObj1,...),[f1,[f2...]],'ASC'|'DESC')
SELECT sort_array_by(array(													-- 对结构体数组按照一定排序列进行排序
	named_struct('name','henry','age',22,'is_member',true),				
	named_struct('name','pola','age',20,'is_member',true),
	named_struct('name','ariel','age',16,'is_member',true)
),'name','ASC');

SELECT array_contains(array('henry','pola','ariel'),'pola')					-- 判定数组中是否包含指定元素
SELECT split('henry','pola','ariel',',')[0];								-- 获取数组元素
SELECT str_to_map('java:88,hadoop:96,hive:56',',',':');						-- 
																			-- str_to_map()的输入字符串必须符合映射的格式。

SELECT `map`("java",88,"hadoop",96,"hive",56);
SELECT explode(`map`("java",88,"hadoop",96,"hive",56)) AS (subject,score);	-- 列转行
SELECT map_keys(`map`("java",88,"hadoop",96,"hive",56)) AS key_set;		 	-- 键set
SELECT map_values(`map`("java",88,"hadoop",96,"hive",56)) AS value_set;	 	-- 值set

SELECT stack(N,f1,...,fn);											 		-- 将n个数据分为N等份，每份占一行。若n%N!=0，报错。

5. 条件函数

SELECT if(true,1,0);
SELECT in_file('ariel','/root/hive/data/course/hive_func_in_file.data');	-- 判断 某个表中某个字段的值|指定内容 是否出现在指定文件中

SELECT isfalse();
	SELECT isfalse(0); => true
SELECT istrue();
SELECT isnull();
SELECT not();																-- 取相反的情况

SELECT nullif(2,3);															-- 如果两个参数相等，返回NULL;如果不相等，返回第一个参数。
	避免除零错误：
		SELECT col1, col2, col1/NULLIF(col2, 0) AS result(任何涉及NULL的结果都是NULL)
		FROM TABLE_NAME;
SELECT nvl(null,3);															-- 返回第一个非NULL参数的值(只能有两个参数)
	替换NULL值为默认值：
		SELECT NVL(col,'默认值') AS new_col
		FROM TABLE_NAME;
	聚合函数中处理NULL值：
		SELECT SUM(NVL(col,0)) AS total
		FROM TABLE_NAME;
SELECT coalesce(null,null,...,5);											-- 返回第一个非NULL参数的值(可以有多个参数)
SELECT case f1 when V1 then ... when v2 then ... else vn end;
SELECT case when f1>=v1 then ... when f1>=v2 then ... else ... end;  

WITH tmp AS(
	SELECT named_struct('name','me','age',18,'is_member',true) as self,
		   array(
				named_struct('name','henry','age',22,'is_member',true),
				named_struct('name','pola','age',20,'is_member',true),
				named_struct('name','ariel','age',16,'is_member',false)
		   ) AS array_struct 
)
SELECT self.name,self.age,self.is_member,name,age,is_member
FROM tmp
LATERAL VIEW inline(array_struct)V AS name,age,is_member;

self.name self.age self.is_member name age is_member
me 18 true henry 22 true
me 18 true pola 20 true
me 18 true ariel 16 false

LATERAL VIEW + inline() 用于将结构体数组的每个数组元素转化为一行，并且合并到最终结果中。

** explode和inline的区别:
explode适用于单个字段的简单数组
inline适用于复杂的结构体数组

6. 其他函数

SELECT version(); – 检查Hive的版本

你可能感兴趣的:(hive,hadoop,数据仓库)

数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Presto【基础 01】简介+架构+数据源+数据模型 2401_84254343 程序员架构
一个Catalog包含Schema和Connector。例如，配置JMX的Catalog，通过JXMConnector访问JXM信息。当执行一条SQL语句时，可以同时运行在多个Catalog。Presto处理table时，是通过表的完全限定（fully-qualified）名来找到Catalog。例如，一个表的权限定名是hive.test_data.test，则test是表名，test_data是
数据仓库介绍阿龙的代码在报错数据分析数据仓库数据库
数据仓库数据仓库的概念数据仓库的主要特征数据仓库的主流开发语言-sql结构化数据sql语句数据仓库的概念数据仓库（英语：DataWarehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（DecisionSupport）。就是数据仓库只分析数据并不产生数据数据仓库的主要特征1、面向主题主题是一个抽象的概念，是
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
hive血缘关系之输入表与目标表的解析 zxfBdd hive 大数据治理大数据
接了一个新需求：需要做数据仓库的血缘关系。正所谓兵来将挡水来土掩，那咱就动手吧。血缘关系是数据治理的一块，其实有专门的第三方数据治理框架，但考虑到目前的线上环境已经趋于稳定，引入新的框架无疑是劳民伤财，伤筋动骨，所以就想以最小的代价把这个事情给做了。目前我们考虑做的血缘关系呢只是做输入表和输出表，最后会形成一张表与表之间的链路图。这个东西的好处就是有助于仓库人员梳理业务，后面可能还会做字段之间的血
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
初级练习[3]:Hive SQL子查询应用大数据深度洞察 Hive hive sql hadoop 数据仓库大数据数据库
目录环境准备看如下链接子查询查询所有课程成绩均小于60分的学生的学号、姓名查询没有学全所有课的学生的学号、姓名解释：没有学全所有课，也就是该学生选修的课程数<总的课程数。查询出只选修了三门课程的全部学生的学号和姓名环境准备看如下链接环境准备https://blog.csdn.net/qq_45115959/article/details/142057624?spm=1001.2014.3001.5
Linux下载压缩包：tar.gz、zip、tar.bz2格式全攻略 promise524 Linux linux 运维服务器后端 bash shell
在Linux中，下载各种格式的压缩包（如.tar.gz、.zip、.tar.bz2等）通常使用命令行工具如wget和curl。1.使用wget下载压缩包wget是Linux中最常用的文件下载工具，支持HTTP、HTTPS、FTP等协议，可以直接从命令行下载文件。基本命令：wget[URL]下载.tar.gz文件wgethttps://test.com/archive.tar.gz此命令将从指定的U
Anaconda版本和Python版本对应关系纬领网络 python anaconda3
官网下载地址：https://repo.anaconda.com/archive/下载地址：https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/anaconda3版本基础python版本Anaconda3-2024.06-1Python3.12.4Anaconda3-2024.02-1Python3.11.7Anaconda3-2023.09
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
影响数据分析导致数据建模错误！你可能都没发觉的几个小细节丨程序之道丨
如果你有一个目标，想获得所有这些数据的可操作的见解，并一直在收集。那么，你如何确定模型的数据，以便实际上可以获得这些见解，并回答你的业务问题?你的计划。当规划阶段不充分或不完全，其结果是可怕的。那么分析和性能、数据完整性和安全性的问题接踵而至，将会使日常的维护和发展的成本达到了不必要的水平。避免常见的建模错误1.开始实施时没有明确的行动计划当涉及到的分析，如数据仓库或Elasticube建模数据资
从零到一建设数据中台 - 架构概览我码玄黄从零到一建设数据中台架构数据中台中台架构
数据中台功能架构概览数据中台相关名词解释1.数据仓库：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。因此，其重点在于数据的集合。数据仓库可使用维度建模方法论从业务过程中抽象出通用维度与度量，组成数据模型，为决策分析提供通用的数据分析能力。数据仓库重在建数据，而数据中台则将建、治、管、服放到同样的高度，数据仓库只是数据中台的一个子集。用一个蔬菜储存的例子来简
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
中级练习[3]：Hive SQL用户行为与商品销售数据分析大数据深度洞察 Hive hive 数据仓库大数据 sql
目录1.用户累计消费金额及VIP等级查询1.1题目需求1.2代码实现2.首次下单后第二天连续下单的用户比率查询2.1题目需求2.2代码实现3.每个商品销售首年的年份、销售数量和销售金额统计3.1题目需求3.2代码实现1.用户累计消费金额及VIP等级查询1.1题目需求从订单信息表(order_info)中统计每个用户截止其每个下单日期的累积消费金额，以及每个用户在其每个下单日期的VIP等级。VIP等
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc