意念回复

sql

1 条件函数

1.1 if

1.2 COALESCE（coalesce）

1.3 CASE

2 IFNULL 表达式

3 SQL 函数 instr的用法（Oracle）

4 join

4.1 LEFT JOIN 关键字

4.2 RIGHT JOIN 关键字

4.3 INNER JOIN 关键字

5 DATE_SUB() 函数

6 UCASE() 函数

7 LCASE() 函数

8 LEAD、LAG函数

9、结果保存为另一个表

10、增加从1 开始递增的一列

11、case when

12 Sql中的并(UNION)、交(INTERSECT)、差(minus)、除去(EXCEPT)详解

12.1 UNION

12.2 INTERSECT

12.3 minus

12.4 EXCEPT

13 replace与regexp_replace函数

13.1 REPLACE

13.2 REGEXP_REPLACE

14 CONVERT() 函数

15 DATENAME()的使用

16 sql获取当前时间

17 to_date()、to_char()和TO_NUMBER （Oracle ）

17.1 to_date()

17.2 TO_CHAR

17.3 TO_NUMBER

19 数值计算函数（hive）

20 字符函数

21 正则

21.1 regexp_replace ，正则表达式替换（详见13）

21.2 regexp_extract 正则表达式解析:

22 URL解析

22.1 parse_url

22.2 parse_url_tuple

23 json解析

23.1 get_json_object

23.2 json_tuple

24 split

25 str_to_map，string转map

26 集合统计函数（hive）

27 复杂类型访问操作及统计函数

27.1 访问数组 Map 结构体

27.2 Map类型长度 Array类型长度

27.3 类型转换: cast

27.4 explode

27.5 LATERAL VIEW （lateral view）行转列

27.6 列转行（collect_list、collect_set ）

28 窗口函数、分析函数、增强group

28.1 COUNT、SUM、MIN、MAX、AVG

28.2 RANK、ROW_NUMBER、DENSE_RANK

28.3 first_value与last_value

28.4 LEAD、LAG函数

28.5 Ntile

28.6 CUME_DIST、PERCENT_RANK

28.6.1 CUME_DIST

28.6.2 PERCENT_RANK

28.7 增强的聚合 Cube和Grouping 和Rollup

28.7.1 GROUPING SETS

28.7.2 CUBE

28.7.3 ROLLUP

28.8 nulls first、nulls last

http://www.w3school.com.cn/sql/func_date_sub.asp

https://blog.csdn.net/scgaliguodong123_/article/details/60881166

1 条件函数

1.1 if

IF( expr1 , expr2 , expr3 )

expr1 的值为 TRUE，则返回值为 expr2

expr2 的值为FALSE，则返回值为 expr3

SELECT IF(TRUE,1+1,1+2);

-> 2

SELECT IF(FALSE,1+1,1+2);

-> 3

SELECT IF(STRCMP("111","222"),"不相等","相等");

-> 不相等

IF (b_id IS NULL,'其他',b_id) AS id,

from table

1.2 COALESCE（coalesce）

COALESCE返回参数中的第一个非空值；如果所有值都为 NULL，那么返回 NULL

select COALESCE(null,user_id,device_id,user_type), COALESCE(null,null,device_id,user_type)

from order_detail

1.3 CASE

select

case user_type when 'new' then 'new_user' when 'old' then 'old_user' else 'others' end as name1,

case when user_type='new' and sales>=5 then 'gold_user' when user_type='old' and sales<3 then 'bronze_user' else 'silver_user' end as name2

2 IFNULL 表达式

IFNULL( expr1 , expr2 )

在 expr1 的值不为 NULL的情况下都返回 expr1，否则返回 expr2，如下：

SELECT IFNULL(NULL,"11");

-> 11

SELECT IFNULL("00","11");

-> 00

3 SQL 函数 instr的用法（Oracle）

INSTR(C1,C2,I,J) 在一个字符串中搜索指定的字符，返回发现指定的字符的位置;
C1    被搜索的字符串
C2    希望搜索的字符串
I     搜索的开始位置,默认为1
J     出现的位置,默认为1
SQL> select instr("abcde",'b');

结果是2，即在字符串“abcde”里面，字符串“b”出现在第2个位置。如果没有找到，则返回0；不可能返回负数

简单一句就是：instr函数返回字符串str中子字符串substr第一次出现的位置，在sql中第一字符的位置是1,如果 str不含substr返回0。

4 join

4.1 LEFT JOIN 关键字

LEFT JOIN 关键字会从左表 (table_name1) 那里返回所有的行，即使在右表 (table_name2) 中没有匹配的行。

LEFT JOIN 关键字语法

SELECT column_name(s)
FROM table_name1
LEFT JOIN table_name2 
ON table_name1.column_name=table_name2.column_name

注释：在某些数据库中， LEFT JOIN 称为 LEFT OUTER JOIN。

4.2 RIGHT JOIN 关键字

RIGHT JOIN 关键字会右表 (table_name2) 那里返回所有的行，即使在左表 (table_name1) 中没有匹配的行。

RIGHT JOIN 关键字语法

SELECT column_name(s)
FROM table_name1
RIGHT JOIN table_name2 
ON table_name1.column_name=table_name2.column_name

注释：在某些数据库中， RIGHT JOIN 称为 RIGHT OUTER JOIN。

4.3 INNER JOIN 关键字

在表中存在至少一个匹配时，INNER JOIN 关键字返回行。

INNER JOIN 关键字语法

SELECT column_name(s)
FROM table_name1
INNER JOIN table_name2 
ON table_name1.column_name=table_name2.column_name

注释：INNER JOIN 与 JOIN 是相同的。

INNER JOIN 关键字在表中存在至少一个匹配时返回行。

5 DATE_SUB() 函数

定义和用法

DATE_SUB() 函数从日期减去指定的时间间隔。

语法

DATE_SUB(date,INTERVAL expr type)

date 参数是合法的日期表达式。expr 参数是您希望添加的时间间隔。

type 参数可以是下列值：

Type 值
MICROSECOND
SECOND
MINUTE
HOUR
DAY
WEEK
MONTH
QUARTER
YEAR
SECOND_MICROSECOND
MINUTE_MICROSECOND
MINUTE_SECOND
HOUR_MICROSECOND
HOUR_SECOND
HOUR_MINUTE
DAY_MICROSECOND
DAY_SECOND
DAY_MINUTE
DAY_HOUR
YEAR_MONTH

实例:

假设我们有如下的表：

OrderId	ProductName	OrderDate
1	'Computer'	2008-12-29 16:25:46.635

现在，我们希望从 "OrderDate" 减去 2 天。

我们使用下面的 SELECT 语句：

SELECT OrderId,DATE_SUB(OrderDate,INTERVAL 2 DAY) AS OrderPayDateFROM Orders

结果：

OrderId	OrderPayDate
1	2008-12-27 16:25:46.635

6 UCASE() 函数

UCASE() 函数

UCASE 函数把字段的值转换为大写。

SELECT UCASE(column_name) FROM table_name

7 LCASE() 函数

LCASE 函数把字段的值转换为小写。

SQL LCASE() 语法

SELECT LCASE(column_name) FROM table_name

8 LEAD、LAG函数

可以获取结果集中，按一定排序所排列的当前行的上下相邻若干offset 的某个行的某个列(不用结果集的自关联）；

lag ，lead 分别是向前，向后；

lag 和lead 有三个参数，第一个参数是列名，第二个参数是偏移的offset，第三个参数是超出记录窗口时的默认值）

lag(expression<,offset><,default>)函数可以访问组内当前行之前的行，

而lead(expression<,offset><,default>)函数则正相反，可以访问组内当前行之后的行．

其中，offset是正整数，默认为1。因组内第一个条记录没有之前的行，最后一行没有之后的行，default就是用于处理这样的信息，默认为空。

注意：这2个函数必须指定 order By 字句．

LAG函数：

作用：访问相同结果集中先前行的数据，而用不使用 SQL Server 2016 中的自联接。 LAG 以当前行之前的给定物理偏移量来提供对行的访问。在 SELECT 语句中使用此分析函数可将当前行中的值与先前行中的值进行比较。

语法：

LAG (scalar_expression [,offset] [,default])  
    OVER ( [ partition_by_clause ] order_by_clause )

参数：

scalar_expression
要根据指定偏移量返回的值。这是一个返回单个（标量）值的任何类型的表达式。 scalar_expression不能为分析的函数。

偏移量
当前行（从中获得取值）后的行数。如果未指定，则默认值为 1。偏移量可以是列、子查询或计算结果为正整数其他表达式或可以隐式转换为bigint。偏移量不能为负值或分析函数。

默认值
要返回时的值scalar_expression在偏移量为 NULL。如果未指定默认值，则返回 NULL。默认可以是列、子查询或其他表达式，但不是能为分析的函数。默认必须是类型兼容与scalar_expression。

通过( [ partition_by_clause ] order_by_clause)
partition_by_clause将划分为分区函数应用到的 FROM 子句生成的结果集。如果未指定，则此函数将查询结果集的所有行视为单个组。 order_by_clause应用函数之前确定数据的顺序。如果partition_by_clause指定，它确定分区中的数据的顺序。 Order_by_clause是必需的。

例如：

select user_id,device_id,

lead(device_id) over (order by sales) as default_after_one_line,

lag(device_id) over (order by sales) as default_before_one_line,

lead(device_id,2) over (order by sales) as after_two_line,

lag(device_id,2,'abc') over (order by sales) as before_two_line from order_detail;

结果：

9、结果保存为另一个表

select *
into tab_new
from
(
select distinct movie_ID
from data_more_5_paixv$) b

10、增加从1 开始递增的一列

alter table user_data_10 add user_ID int IDENTITY(1,1) NOT NULL

11、case when

SQL> select
  2    count(case when u.sex=1 then 1 end)男性,
  3    count(case when u.sex=2 then 1 end)女,
  4    count(case when u.sex <>1 and u.sex<>2 then 1 end)性别为空
  5  from users u;

12 Sql中的并(UNION)、交(INTERSECT)、差(minus)、除去(EXCEPT)详解

12.1 UNION、union all

查询选修了180101号或180102号课程或二者都选修了的学生学号、课程号和成绩。

(SELECT 学号, 课程号, 成绩

FROM 学习

WHERE 课程号='180101')

UNION

(SELECT 学号, 课程号, 成绩

FROM 学习

WHERE 课程号='180102')

与SELECT子句不同，UNION运算自动去除重复。因此，在本例中，若只输出学生的学号，则相同的学号只出现一次。如果想保留所有的重复，则必须用UNION ALL代替UNION，且查询结果中出现的重复元组数等于两个集合中出现的重复元组数的和。

12.2 INTERSECT

查询同时选修了180101和180102号课程的学生学号、课程号和成绩。

(SELECT 学号, 课程号, 成绩

FROM 学习

WHERE 课程号='180101')

INTERSECT

(SELECT 学号, 课程号, 成绩

FROM 学习

WHERE 课程号='180102')

INTERSECT运算自动去除重复，如果想保留所有的重复，必须用INTERSECT ALL代替INTERSECT，结果中出现的重复元组数等于两集合出现的重复元组数里较少的那个。

intersect运算返回查询结果中相同的部分既他们的交集

12.3 minus

minus-(oracle)

返回在第一个查询结果中与第二个查询结果不相同的那部分行记录,
即两个结果的差集
select * from abc2
minus
select * from abc ;

MINUS 指令是运用在两个 SQL 语句上。它先找出第一个 SQL 语句所产生的结果，然后看这些结果有没有在第二个 SQL 语句的结果中。如果有的话，那这一笔资料就被去除，而不会在最后的结果中出现。如果第二个 SQL 语句所产生的结果并没有存在于第一个 SQL 语句所产生的结果内，那这笔资料就被抛弃。

12.4 EXCEPT

查询选修了180101号课程的学生中没有选修180102号课程的学生学号、课程号和成绩。
(SELECT 学号, 课程号, 成绩
FROM 学习
WHERE 课程号='180101')
EXCEPT
(SELECT 学号, 课程号, 成绩
FROM 学习
WHERE 课程号='180102')
EXCEPT运算自动去除重复，如果想保留所有的重复，必须用EXCEPT ALL代替EXCEPT，结果中出现的重复元组数等于两集合出现的重复元组数之差（前提是差是正值）。

13 replace与regexp_replace函数

https://blog.csdn.net/gxftry1st/article/details/22489275

https://blog.csdn.net/itmyhome1990/article/details/50380718

13.1 REPLACE

传统的 REPLACE SQL 函数，它把一个字符串用另一个字符串来替换。假设您的数据在正文中有不必要的空格，您希望用单个空格来替换它们。利用 REPLACE 函数，您需要准确地列出您要替换多少个空格。

13.2 REGEXP_REPLACE

REGEXP_REPLACE 函数把替换功能向前推进了一步，其语法在下表中列出。以下查询用单个空格替换了任意两个或更多的空格。( ) 子表达式包含了单个空格，它可以按 {2,} 的指示重复两次或更多次。

语法	说明
REGEXP_REPLACE(source_string, pattern [, replace_string [, position [,occurrence, [match_parameter]]]])	该函数用一个指定的 replace_string 来替换匹配的模式，从而允许复杂的"搜索并替换"操作。

即

regexp_replace(1,2,3,4,5,6)

语法说明：1：字段 2：替换的字段 3：替换成什么 4：起始位置（默认从1开始） 5：替换的次数（0是无限次） 6：不区分大小写

REGEXP_REPLACE(source_char, pattern [, replace_string [, position [, occurrence [, match_parameter ] ] ] ] )

参数：

source_char

搜索值的字符表达式。这通常是一个字符列，可以是任何数据类型CHAR，VARCHAR2，NCHAR，NVARCHAR2，CLOB或NCLOB。

pattern

正则表达式

replace_string

可选。匹配的模式将被替换replace_string字符串。如果省略replace_string参数，将删除所有匹配的模式，并返回结果字符串。

position

可选。在字符串中的开始位置搜索。如果省略，则默认为1。

occurrence

可选。是一个非负整数默认为1，指示替换操作的发生：

match_parameter

可选。它允许你修改REGEXP_REPLACE功能匹配的行为。它可以是以下的组合：

Value	Description
‘c’	区分大小写的匹配.
‘i’	不区分大小写的匹配.
‘n’	Allows the period character (.) to match the newline character. By default, the period is a wildcard.
‘m’	expression is assumed to have multiple lines, where ^ is the start of a line and $ is the end of a line, regardless of the position of those characters in expression. By default, expression is assumed to be a single line.
‘x’	Whitespace characters are ignored. By default, whitespace characters are matched like any other character.

如果指定0，那么所有出现将被替换字符串。如果指定了正整数n，那么将替换第n次出现。

14 CONVERT() 函数

GETDATE() （getdate()）函数来获得当前的日期/时间

定义和用法：

CONVERT() 函数是把日期转换为新数据类型的通用函数。

CONVERT() 函数可以用不同的格式显示日期/时间数据。

语法：

CONVERT(data_type(length),data_to_be_converted,style)

data_type(length) 规定目标数据类型（带有可选的长度）。data_to_be_converted 含有需要转换的值。style 规定日期/时间的输出格式。

可以使用的 style 值：

Style ID	Style 格式
100 或者 0	mon dd yyyy hh:miAM （或者 PM）
101	mm/dd/yy
102	yy.mm.dd
103	dd/mm/yy
104	dd.mm.yy
105	dd-mm-yy
106	dd mon yy
107	Mon dd, yy
108	hh:mm:ss
109 或者 9	mon dd yyyy hh:mi:ss:mmmAM（或者 PM）
110	mm-dd-yy
111	yy/mm/dd
112	yymmdd
113 或者 13	dd mon yyyy hh:mm:ss:mmm(24h)
114	hh:mi:ss:mmm(24h)
120 或者 20	yyyy-mm-dd hh:mi:ss(24h)
121 或者 21	yyyy-mm-dd hh:mi:ss.mmm(24h)
126	yyyy-mm-ddThh:mm:ss.mmm（没有空格）
130	dd mon yyyy hh:mi:ss:mmmAM
131	dd/mm/yy hh:mi:ss:mmmAM

实例：

下面的脚本使用 CONVERT() 函数来显示不同的格式。我们将使用 GETDATE() 函数来获得当前的日期/时间：

select CONVERT(VARCHAR(19),GETDATE())
select CONVERT(VARCHAR(10),GETDATE(),110) 
select CONVERT(VARCHAR(11),GETDATE(),106)
select CONVERT(VARCHAR(24),GETDATE(),113)

结果：

09  8 2018 12:03PM
09-08-2018
08 09 2018
08 09 2018 12:03:32:233

15 DATENAME()的使用

1.获取星期（显示中文如：星期一）

Select DateName(dw,getdate())

2.获取季度

Select DateName(qq,getdate())

3.本年已过天数

Select Datename(dy,getdate())

4.本年第几个星期

Select Datename(wk,getdate())

第二个参数为指定日期数据，第一个参数说明如下：

日期部分	缩写
year	yy, yyyy
quarter	qq, q
month	mm, m
dayofyear	dy, y
day	dd, d
week	wk, ww
weekday	dw
hour	hh
minute	mi, n
second	ss, s
millisecond	ms

16 sql获取当前时间

sql读取系统日期和时间的方法如下：

（1）--获取当前日期(如：yyyymmdd hh:MM:ss)

select GETDATE()

结果：2018-09-08 12:15:22.063

（2）--获取当前日期(如：yyyymmdd)

select CONVERT (nvarchar(12),GETDATE(),112)

结果：20180908

（3）--获取当前日期(如：yyyy-mm-dd)

Select Datename(year,GetDate())+'-'+Datename(month,GetDate())+'-'+Datename(day,GetDate())

结果：2018-09-8

（4）--获取当前日期(如：yyyy/mm/dd)

select DATENAME(YEAR,GETDATE())+'/'+DATENAME(MONTH,GETDATE())+'/'+DATENAME(DAY,GETDATE())

结果：2018/09/8

（5）其余方式

--获取几种日期
select DATENAME(YEAR,GETDATE()) --年份(YYYY)
select DATENAME(YY,GETDATE())
select DATENAME(MM,GETDATE()) --月份
select DATENAME(DD,GETDATE()) --日期
select dateName(hh,getdate()) --获取小时
select DATENAME(MI,GETDATE()) --获取分钟
select DATENAME(SECOND,GETDATE()) --获取秒
select DATENAME(WEEK,GETDATE()) --获取当前星期(周)是这一年中的第几个星期(周)
select DATENAME(WEEKDAY,GETDATE()) --星期几

select convert(char(8),getdate(),108) as yourtime--获取当前时间
SELECT convert(char(10),getdate(),120) as yourdate--获取当前日期
SELECT left(convert(char(10),getdate(),120),4) as youryear--获取当前年份

注：SYSDATE 是Oracle的函数。

17 to_date()、to_char()和TO_NUMBER （Oracle ）

https://blog.csdn.net/zoucui/article/details/79347286

与date操作关系最大的就是两个转换函数：to_date()，to_char()

17.1 to_date()

to_date() 作用将字符类型按一定格式转化为日期类型，

TO_DATE(char[, '格式'])

具体用法：

to_date('2004-11-27','yyyy-mm-dd'),前者为字符串，后者为转换日期格式，注意，前后两者要以一对应。
如;to_date('2004-11-27 13:34:43', 'yyyy-mm-dd hh24:mi:ss') 将得到具体的时间

日期格式
格式控制描述
YYYY、YYY、YY 分别代表4位、3位、2位的数字年
YEAR 年的拼写
MM 数字月
MONTH 月的全拼
MON 月的缩写
DD 数字日
DAY 星期的全拼
DY 星期的缩写
AM 表示上午或者下午
HH24、HH12 12小时制或24小时制
MI 分钟
SS 秒钟
SP 数字的拼写
TH 数字的序数词

17.2 `TO_CHAR`

是把日期或数字转换为字符串；

使用TO_CHAR函数处理数字：TO_CHAR(number, '格式')

TO_CHAR(salary,’$99,999.99’);

使用TO_CHAR函数处理日期：TO_CHAR(date,’格式’);

日期和字符转换函数用法：

select to_char(sysdate,'yyyy-mm-dd hh24:mi:ss') as nowTime from dual; //日期转化为字符串

select to_char(sysdate,'yyyy') as nowYear from dual; //获取时间的年

select to_char(sysdate,'mm') as nowMonth from dual; //获取时间的月

select to_char(sysdate,'dd') as nowDay from dual; //获取时间的日

select to_char(sysdate,'hh24') as nowHour from dual; //获取时间的时

select to_char(sysdate,'mi') as nowMinute from dual; //获取时间的分

select to_char(sysdate,'ss') as nowSecond from dual; //获取时间的秒

17.3 TO_NUMBER

使用TO_NUMBER函数将字符转换为数字：TO_NUMBER(char[, '格式'])

18

https://blog.csdn.net/scgaliguodong123_/article/details/60881166

https://blog.csdn.net/scgaliguodong123_/article/details/60135385

19 数值计算函数（hive）

（1）round：四舍五入

取整：round(double a)；

指定精度取整， round 语法: round(double a, int d)

select round(数值,小数点位数);

（2）ceil（ceiling）：向上取整，返回等于或者大于该 double 变量的最小的整数

select ceil(45.6); --46

（3）floor：向下取整，返回等于或者小于该 double 变量的最大的整数

select floor(45.6); --45

hive中最高精度的数据类型是 double,只精确到小数点后16位，在做除法运算的时候要特别注意。

（4）自然指数: exp ，eg:exp(sales)

（5）自然对数: ln，eg：ln(price)

（6）取随机数: rand

说明: rand(),rand(int seed)。返回一个 0 到 1 范围内的随机数。如果指定种子 seed(整数)，则会得到一个稳定的随机数序列。

（7）对数

以10为底对数: log10

以2为底对数: log2

log 语法: log(double base, double a) 说明: 返回以 base 为底的 a 的对数

（8）幂运算: pow power，eg：pow(2,4), power(2,4)

（9）开平方: sqrt，eg：sqrt(16)

（10）进制

二进制: bin

十六进制: hex

反转十六进制: unhex

进制转换: conv

语法: conv(BIGINT num, int from_base, int to_base)

说明: 将数值 num 从 from_base 进制转化到 to_base 进制

select bin(7),hex('19'),hex('abc'),unhex('616263'),unhex('41'),conv(17,10,16),conv(17,10,2) from order_detail limit 1;

（11）绝对值、三角函数、相反数

绝对值:abs

正取余:pmod （sql server 中为%）

正弦:sin

反正弦:asin

余弦:cos

反余弦:acos

返回A的值:positive

返回A的相反数:negative

select abs(-13),abs(10.10),pmod(9,4),pmod(-9,4), sin(0.8),

asin(0.7173560908995228),cos(0.9), acos(0.6216099682706644), positive(-10),negative(-10)

20 字符函数

（1）lower：转成小写

select lower('Hive'); --hive

（2）upper：转成大写

select upper('Hive'); --HIVE

方法	MySql	Oracle
转换大写	upper()、ucase()	upper()
转换小写	lower()、lcase()	lower()

（3）initcap（）（Oracle）：所有单词首字母与转换为大写。

（4）length：长度

select length('Hive'); --4

（5）concat：拼接字符串

select concat('hello','Hive'); --helloHive

（6）concat_ws：带分隔符字符串连接，eg：concat_ws('_',user_id,device_id,user_type)

（7）substr、substring：求子串

①语法: substr(string A, int start),substring(string A, int start)

说明：返回字符串 A 从 start 位置到结尾的字符串

②语法: substr(string A, int start, int len),substring(string A, int start, int len)

说明：返回字符串A从start位置开始，长度为len的字符串

select substr('hive',2); --ive

select substr('hive',2,1); --i

（8）trim：去掉前后的空格

select trim(' hive '); -hive

（9）ltrim：左边去空格

（10）rtrim:右边去空格

eg:select trim(' abc '),ltrim(' abc'),rtrim('abc ')

（11）lpad：左填充

语法: lpad(string str, int len, string pad)

说明：lpad将 str 进行用 pad 进行左补足到 len 位,

对hive填充到10位，补位用#

select lpad('hive',10,'#'); --######hive

（12）rpad：右填充

select rpad('hive',10,'#'); --hive######

rpad将 str 进行用 pad 进行右补足到 len 位

注意：与 GP,ORACLE 不同; pad不能默认

（13）reverse：字符串反转

eg：select reverse('fsfdghjhgfjg')

结果：gjfghjhgdfsf

（14）空格字符串:space

重复字符串:repeat

首字符ascii:ascii

select space(10), length(space(10)), repeat('abc',5), ascii('abcde')

21 正则

21.1 regexp_replace ，正则表达式替换（详见13）

说明：将字符串 A 中的符合 java 正则表达式 B 的部分替换为 C。

注意，在有些情况下要使用转义字符, 类似 oracle 中的 regexp_replace 函数。

21.2 regexp_extract 正则表达式解析:

（1）简介

regexp_extract(str, regexp[, idx]) - extracts a group that matches regexp

字符串正则表达式解析函数。

参数解释:

str是被解析的字符串或字段名

regexp 是正则表达式

idx 是返回结果取表达式的哪一部分默认值为1。0表示把整个正则表达式对应的结果全部返回；1表示返回正则表达式中第一个() 对应的结果，以此类推。

注意点：

要注意的是idx的数字不能大于表达式中()的个数。

实例：

1） select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',0) ;

得到的结果为: itde

2） select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',1) ;

得到的结果为: i

3） select regexp_extract('hitdecisiondlist','(i)(.*?)(e)',2) ;

得到的结果为: td

4） select regexp_extract('x=a3&x=18abc&x=2&y=3&x=4','x=([0-9]+)([a-z]+)',2) from default.dual;

得到的结果为: abc

此外，当前的语句只有2个()表达式所以当idx>=3的时候就会报错

（2）正则表达式的符号及意义

正则表达式由标准的元字符（metacharacters）所构成：

/	做为转意，即通常在"/"后面的字符不按原来意义解释，如/b/匹配字符"b"，当b前面加了反斜杆后//b/，转意为匹配一个单词的边界。 -或- 对正则表达式功能字符的还原，如""匹配它前面元字符0次或多次，/a/将匹配a,aa,aaa，加了"/"后，/a//将只匹配"a"。
^	匹配一个输入或一行的开头，/^a/匹配"an A"，而不匹配"An a"
$	匹配一个输入或一行的结尾，/a$/匹配"An a"，而不匹配"an A"
*	匹配前面元字符0次或多次，/ba*/将匹配b,ba,baa,baaa
+	匹配前面元字符1次或多次，/ba*/将匹配ba,baa,baaa
?	匹配前面元字符0次或1次，/ba*/将匹配b,ba
(x)	匹配x保存x在名为$1...$9的变量中
x\|y	匹配x或y
{n}	精确匹配n次
{n,}	匹配n次以上
{n,m}	匹配n-m次
[xyz]	字符集(character set)，匹配这个集合中的任一一个字符(或元字符)
[^xyz]	不匹配这个集合中的任何一个字符
[/b]	匹配一个退格符
/b	匹配一个单词的边界
/B	匹配一个单词的非边界
/cX	这儿，X是一个控制符，//cM/匹配Ctrl-M
/d	匹配一个字数字符，//d/ = /[0-9]/
/D	匹配一个非字数字符，//D/ = /[^0-9]/
/n	匹配一个换行符
/r	匹配一个回车符
/s	匹配一个空白字符，包括/n,/r,/f,/t,/v等
/S	匹配一个非空白字符，等于/[^/n/f/r/t/v]/
/t	匹配一个制表符
/v	匹配一个重直制表符
/w	匹配一个可以组成单词的字符(alphanumeric，这是我的意译，含数字)，包括下划线，如[/w]匹配"$5.98"中的5，等于[a-zA-Z0-9]
/W	匹配一个不可以组成单词的字符，如[/W]匹配"$5.98"中的$，等于[^a-zA-Z0-9]。

'( )' 标记一个子表达式的开始和结束位置。
'[]' 标记一个中括号表达式。
/num 匹配 num，其中 num 是一个正整数。对所获取的匹配的引用。
字符簇：
[[:alpha:]] 任何字母。
[[:digit:]] 任何数字。
[[:alnum:]] 任何字母和数字。
[[:space:]] 任何白字符。
[[:upper:]] 任何大写字母。
[[:lower:]] 任何小写字母。
[[:punct:]] 任何标点符号。
[[:xdigit:]] 任何16进制的数字，相当于[0-9a-fA-F]

[[:<:]],[[:>:]] 标记表示word边界。它们分别与word的开始和结束匹配。word是一系列字字符，其前面和后面均没有字字符。字字符是alnum类中的字母数字字符或下划线(_)

各种操作符的运算优先级：
/ 转义符
(), (?:), (?=), [] 圆括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, anymetacharacter 位置和顺序

22 URL解析

22.1 parse_url

语法: parse_url(string urlString, string partToExtract [, string keyToExtract])

说明：返回 URL 中指定的部分。

partToExtract 的有效值为： HOST, PATH, QUERY, REF,PROTOCOL, AUTHORITY, FILE, and USERINFO.

select

parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST'),

parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'PATH'),

parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'QUERY'),

parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'QUERY','k2'),

parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'REF'),

parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'PROTOCOL'),

parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'AUTHORITY'),

parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'FILE')

结果：facebook.com、/path1/p.php、 k1=v1&k2=v2 、 v2 、

Ref1 、http、 facebook.com 、 /path1/p.php?k1=v1&k2=v2

22.2 parse_url_tuple

SELECT b.*

from ( select 'http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1' as urlstr from order_detail limit 1 )a

LATERAL VIEW

parse_url_tuple(a.urlstr, 'HOST', 'PATH', 'QUERY', 'QUERY:k1') b as host, path, query, query_k1 LIMIT 1;

23 json解析

23.1 get_json_object

语法: get_json_object(string json_string, string path)

说明：解析 json 的字符串 json_string,返回 path 指定的内容。如果输入的 json 字符串无效，那么返回 NULL。

select

get_json_object( '{"store": {"fruit":\[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}], "bicycle":{"price":19.95,"color":"red"} }, "email":"amy@only_for_json_udf_test.net", "owner":"amy" }', '$.owner'),

结果：amy、apple

23.2 json_tuple

语法: json_tuple(string jsonStr,string k1,string k2, ...)

参数为一组键k1，k2……和JSON字符串，返回值的元组。

该方法比 get_json_object 高效，因为可以在一次调用中输入多个键.

select a.user_id, b.*

from order_detail a

lateral view

json_tuple('{"store": {"fruit":\[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}], "bicycle":{"price":19.95,"color":"red"} }, "email":"amy@only_for_json_udf_test.net", "owner":"amy" }', 'email', 'owner') b as email, owner limit 1;

结果：

24 split

split(str, regex)，返回值为一个数组

a.基本用法：

例1：split('a,b,c,d',',')

得到的结果：

["a","b","c","d"]

b.截取字符串中的某个值：

当然，我们也可以指定取结果数组中的某一项

例2：split('a,b,c,d',',')[0]

得到的结果：

c.特殊字符的处理：

特殊分割符号

regex 为字符串匹配的参数，所以遇到特殊字符的时候需要做特殊的处理

例3: "." 点

split('192.168.0.1','.')

得到的结果：[]

正确的写法：

split('192.168.0.1','\\.')

得到的结果：

["192","168","0","1"]

需要注意的是：

当然当split包含在 "" 之中时需要加4个\

如 hive -e ".... split('192.168.0.1','\\\\.') ... " 不然得到的值是null

同样的 | 等特殊符号也需要做类似处理。

25 str_to_map，string转map

语法：str_to_map(text[, delimiter1, delimiter2])

说明：使用两个分隔符将文本拆分为键值对。 Delimiter1将文本分成K-V对，Delimiter2分割每个K-V对。对

于delimiter1默认分隔符是'，'，对于delimiter2默认分隔符是':'。

例1：select str_to_map('aaa:11&bbb:22', '&', ':')

from order_detail

limit 1;

结果：{"bbb":"22","aaa":"11"}

例2：select str_to_map('aaa:11&bbb:22', '&', ':')['aaa']

from order_detail

limit 1;

结果：11

例2：select str_to_map('aaa:11,bbb:22')

from person

limit 1;

结果：{"bbb":"22","aaa":"11"}

26 集合统计函数（hive）

（1）个数统计:count

（2）总和统计:sum

（3）平均值统计:avg

（4）最小值统计:min

（5）最大值统计:max

（6）标准差：stddev_samp, stddev, stddev_pop

（7）方差：var_samp, var_pop

当我们需要真实的标准差/方差的时候最好是使用： stddev 、stddev_pop、 var_pop

而只是需要得到少量数据的标准差/方差的近似值可以选用： stddev_samp、 var_samp

（8）百分位数: percentile

percentile(col, p)，返回col列p分位上的值，要求输入的字段必须是int类型的

（9）近似百分位数: percentile_approx

语法: percentile_approx(DOUBLE col, p [, B])

返回值: double

说明: 求近似的第 p个百分位数， p 必须介于 0 和 1 之间，返回类型为 double，但是col 字段支持浮点类型。参数 B 控制内存消耗的近似精度， B越大，结果的准确度越高。默认为 10,000。当 col 字段中的 distinct 值的个数小于 B 时，结果为准确的百分位数。

后面可以输入多个百分位数，返回类型也为 array，其中为对应的百分位数。

select percentile(sales,array(0.2,0.4,0.6)), percentile_approx(sales,array(0.2,0.4,0.6),10000) from order_detail;

结果：

（10）直方图: histogram_numeric

语法: histogram_numeric(col, b)

返回值: array

说明: 以b为基准计算col的直方图信息。

27 复杂类型访问操作及统计函数

数据表employees：

27.1 访问数组 Map 结构体

select name,salary, subordinates[1],deductions['k2'],deductions['k3'],address.city

from employees;

结果：

27.2 Map类型长度 Array类型长度

select size(deductions),size(subordinates)

from employees

limit 1;

27.3 类型转换: cast

select cast(salary as int),cast(deductions['k2'] as bigint)

from employees;

结果：

27.4 explode

explode(ARRAY) 列表中的每个元素生成一行

explode(MAP) map中每个key-value对，生成一行，key为一列，value为一列

总结起来一句话：explode就是将hive一行中复杂的array或者map结构拆分成多行。

27.5 LATERAL VIEW （lateral view）行转列

例1：SELECT name, ad_subordinate

FROM employees

LATERAL VIEW explode(subordinates) addTable AS ad_subordinate;

结果：

注：addTable ，添加到表

例2：SELECT name, count(1)

FROM employees

LATERAL VIEW explode(subordinates) addTable AS ad_subordinate

group by name;

结果：

例3：SELECT ad_subordinate, ad_num

FROM employees

LATERAL VIEW explode(subordinates) addTable AS ad_subordinate

LATERAL VIEW explode(happy_num) addTable2 AS ad_num;

结果：

例4：多个LATERAL VIEW

SELECT name, count(1)

FROM employees

LATERAL VIEW explode(subordinates) addTable AS ad_subordinate

LATERAL VIEW explode(happy_num) addTable2 AS ad_num

group by name;

结果：

例5：不满足条件产生空行

SELECT AA.name, BB.*

FROM employees AA

LATERAL VIEW explode(array()) BB AS a

limit 10;

结果：

例6：OUTER 避免永远不产生结果，无满足条件的行，在该列会产生NULL值。

SELECT AA.name, BB.*

FROM employees AA

LATERAL VIEW OUTER explode(array()) BB AS a

limit 10;

结果：

例7：字符串切分成多列

SELECT name, word

FROM employees

LATERAL VIEW explode(split(happy_word,',')) addTable AS word;

结果：

27.6 列转行（collect_list、collect_set ）

测试数据t_column_to_row：

使用函数：concat_ws(',',collect_set(column))

说明：collect_list 不去重，collect_set 去重（Python的集合中的元素不允许有重复值）。 column 的数据类型要求是 string

例1（collect_set 去重）：

select id,

concat_ws(',',collect_set(tag_new)) as tag_col

from t_column_to_row

group by id;

结果：

例2（collect_list 不去重）：

select id,

concat_ws(',',collect_list(tag_new)) as tag_col

from t_column_to_row

group by id;

结果：

28 窗口函数、分析函数、增强group

窗口函数与分析函数

应用场景：
（1）用于分区排序
（2）动态Group By
（3）Top N
（4）累计计算
（5）层次查询

窗口函数：

FIRST_VALUE：取分组内排序后，截止到当前行，第一个值
LAST_VALUE：取分组内排序后，截止到当前行，最后一个值
LEAD(col,n,DEFAULT) ：用于统计窗口内往下第n行值。第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）
LAG(col,n,DEFAULT) ：与lead相反，用于统计窗口内往上第n行值。第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）

OVER从句：

1、使用标准的聚合函数COUNT、SUM、MIN、MAX、AVG
2、使用PARTITION BY语句，使用一个或者多个原始数据类型的列
3、使用PARTITION BY与ORDER BY语句，使用一个或者多个数据类型的分区或者排序列
4、使用窗口规范，窗口规范支持以下格式：

(ROWS | RANGE) BETWEEN (UNBOUNDED | [num]) PRECEDING AND ([num] PRECEDING | CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)

(ROWS | RANGE) BETWEEN CURRENT ROW AND (CURRENT ROW | (UNBOUNDED | [num]) FOLLOWING)

(ROWS | RANGE) BETWEEN [num] PRECEDING AND (UNBOUNDED | [num]) FOLLOWING

当ORDER BY后面缺少窗口从句条件，窗口规范默认是 RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW.

当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING.

OVER从句支持以下函数，但是并不支持和窗口一起使用它们。
Ranking函数: Rank, NTile, DenseRank, CumeDist, PercentRank.

分析函数：

①ROW_NUMBER() 从1开始，按照顺序，生成分组内记录的序列,比如，按照pv降序排列，生成分组内每天的pv名次,ROW_NUMBER()的应用场景非常多，再比如，获取分组内排序第一的记录;获取一个session中的第一条refer等。
②RANK() 生成数据项在分组中的排名，排名相等会在名次中留下空位
③DENSE_RANK() 生成数据项在分组中的排名，排名相等会在名次中不会留下空位
④CUME_DIST 小于等于当前值的行数/分组内总行数。比如，统计小于等于当前薪水的人数，所占总人数的比例
⑤PERCENT_RANK 分组内当前行的RANK值-1/分组内总行数-1
⑥NTILE(n) 用于将分组数据按照顺序切分成n片，返回当前切片值，如果切片不均匀，默认增加第一个切片的分布。NTILE不支持ROWS BETWEEN，比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW)。

28.1 COUNT、SUM、MIN、MAX、AVG

用于实现分组内所有和连续累积的统计。

数据：

以SUM为例：

SELECT cookieid, createtime, pv,

SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime) AS pv1, -- 默认为从起点到当前行

SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS pv2, --从起点到当前行，结果同pv1

SUM(pv) OVER(PARTITION BY cookieid) AS pv3, --分组内所有行

SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CURRENT ROW) AS pv4, --当前行+往前3行

SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND 1 FOLLOWING) AS pv5, --当前行+往前3行+往后1行

SUM(pv) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN CURRENT ROW AND UNBOUNDED FOLLOWING) AS pv6 ---当前行+往后所有行

FROM lxw1234;

结果：

pv1: 分组内从起点到当前行的pv累积，如，11号的pv1=10号的pv+11号的pv, 12号=10号+11号+12号
pv2: 同pv1
pv3: 分组内(cookie1)所有的pv累加
pv4: 分组内当前行+往前3行，如，11号=10号+11号， 12号=10号+11号+12号， 13号=10号+11号+12号+13号， 14号=11号+12号+13号+14号
pv5: 分组内当前行+往前3行+往后1行，如，14号=11号+12号+13号+14号+15号=5+7+3+2+4=21
pv6: 分组内当前行+往后所有行，如，13号=13号+14号+15号+16号=3+2+4+4=13，14号=14号+15号+16号=2+4+4=10

注意: ①结果和ORDER BY相关,默认为升序

②如果不指定ROWS BETWEEN,默认为从起点到当前行;

③如果不指定ORDER BY，则将分组内所有值累加;

ROWS BETWEEN含义,也叫做WINDOW子句：

① PRECEDING：往前（preceding）

② FOLLOWING：往后（following）

③ CURRENT ROW：当前行（current row）

④ UNBOUNDED：无界限（起点或终点）（unbounded）

⑤ UNBOUNDED PRECEDING：表示从前面的起点（unbounded preceding）

⑥ UNBOUNDED FOLLOWING：表示到后面的终点（unbouneed following）

其他COUNT、AVG，MIN，MAX，和SUM用法一样。

28.2 RANK、ROW_NUMBER、DENSE_RANK

ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)

上述代码含义是首先根据COLUMN1进行结果集分组，结果集内部按照COLUMN2分组，输出结果是类似于双重分组的结果。

这里根据column分区，并未每个分区返回一个数字，递增的1.2.3.4.5.6......。

ROW_NUMBER() OVER (ORDER BY column DESC)

是先把column列降序，再为降序以后的每条xlh记录返回一个数组1.2.3.....。

select user_id, user_type, sales,

RANK() over (partition by user_type order by sales desc) as r,

ROW_NUMBER() over (partition by user_type order by sales desc) as rn,

DENSE_RANK() over (partition by user_type order by sales desc) as dr

from order_detail;

区别：

rank() 排序相同时会重复，总数不会变

row_number() 会根据顺序计算

dense_rank()排序相同时会重复，总数会减少

28.3 first_value与last_value

FIRST_VALUE：取分组内排序后，截止到当前行，第一个值

例如：

    SELECT cookieid,
    createtime,
    url,
    ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
    FIRST_VALUE(url) OVER(PARTITION BY cookieid ORDER BY createtime) AS first1
    FROM lxw1234;
 
    cookieid  createtime            url     rn      first1
    ---------------------------------------------------------
    cookie1 2015-04-10 10:00:00     url1    1       url1
    cookie1 2015-04-10 10:00:02     url2    2       url1
    cookie1 2015-04-10 10:03:04     1url3   3       url1
    cookie1 2015-04-10 10:10:00     url4    4       url1
    cookie1 2015-04-10 10:50:01     url5    5       url1
    cookie1 2015-04-10 10:50:05     url6    6       url1
    cookie1 2015-04-10 11:00:00     url7    7       url1
    cookie2 2015-04-10 10:00:00     url11   1       url11
    cookie2 2015-04-10 10:00:02     url22   2       url11
    cookie2 2015-04-10 10:03:04     1url33  3       url11
    cookie2 2015-04-10 10:10:00     url44   4       url11
    cookie2 2015-04-10 10:50:01     url55   5       url11
    cookie2 2015-04-10 10:50:05     url66   6       url11
    cookie2 2015-04-10 11:00:00     url77   7       url11

LAST_VALUE：取分组内排序后，截止到当前行，最后一个值

    SELECT cookieid,
    createtime,
    url,
    ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
    LAST_VALUE(url) OVER(PARTITION BY cookieid ORDER BY createtime) AS last1
    FROM lxw1234;
 
 
    cookieid  createtime            url    rn       last1  
    -----------------------------------------------------------------
    cookie1 2015-04-10 10:00:00     url1    1       url1
    cookie1 2015-04-10 10:00:02     url2    2       url2
    cookie1 2015-04-10 10:03:04     1url3   3       1url3
    cookie1 2015-04-10 10:10:00     url4    4       url4
    cookie1 2015-04-10 10:50:01     url5    5       url5
    cookie1 2015-04-10 10:50:05     url6    6       url6
    cookie1 2015-04-10 11:00:00     url7    7       url7
    cookie2 2015-04-10 10:00:00     url11   1       url11
    cookie2 2015-04-10 10:00:02     url22   2       url22
    cookie2 2015-04-10 10:03:04     1url33  3       1url33
    cookie2 2015-04-10 10:10:00     url44   4       url44
    cookie2 2015-04-10 10:50:01     url55   5       url55
    cookie2 2015-04-10 10:50:05     url66   6       url66
    cookie2 2015-04-10 11:00:00     url77   7       url77

如果不指定ORDER BY，则默认按照记录在文件中的偏移量进行排序，会出现错误的结果。

如果想要取分组内排序后最后一个值，则需要变通一下：（使用FIRST_VALUE与DESC）

    SELECT cookieid,
    createtime,
    url,
    ROW_NUMBER() OVER(PARTITION BY cookieid ORDER BY createtime) AS rn,
    LAST_VALUE(url) OVER(PARTITION BY cookieid ORDER BY createtime) AS last1,
    FIRST_VALUE(url) OVER(PARTITION BY cookieid ORDER BY createtime DESC) AS last2
    FROM lxw1234
    ORDER BY cookieid,createtime;
 
    cookieid  createtime            url     rn     last1    last2
    -------------------------------------------------------------
    cookie1 2015-04-10 10:00:00     url1    1       url1    url7
    cookie1 2015-04-10 10:00:02     url2    2       url2    url7
    cookie1 2015-04-10 10:03:04     1url3   3       1url3   url7
    cookie1 2015-04-10 10:10:00     url4    4       url4    url7
    cookie1 2015-04-10 10:50:01     url5    5       url5    url7
    cookie1 2015-04-10 10:50:05     url6    6       url6    url7
    cookie1 2015-04-10 11:00:00     url7    7       url7    url7
    cookie2 2015-04-10 10:00:00     url11   1       url11   url77
    cookie2 2015-04-10 10:00:02     url22   2       url22   url77
    cookie2 2015-04-10 10:03:04     1url33  3       1url33  url77
    cookie2 2015-04-10 10:10:00     url44   4       url44   url77
    cookie2 2015-04-10 10:50:01     url55   5       url55   url77
    cookie2 2015-04-10 10:50:05     url66   6       url66   url77
    cookie2 2015-04-10 11:00:00     url77   7       url77   url77

28.4 LEAD、LAG函数

LEAD(col,n,DEFAULT) ：用于统计窗口内往下第n行值。第一个参数为列名，第二个参数为往下第n行（可选，默认为1），第三个参数为默认值（当往下第n行为NULL时候，取默认值，如不指定，则为NULL）
LAG(col,n,DEFAULT) ：与lead相反，用于统计窗口内往上第n行值。第一个参数为列名，第二个参数为往上第n行（可选，默认为1），第三个参数为默认值（当往上第n行为NULL时候，取默认值，如不指定，则为NULL）

详见8。

28.5 Ntile

可以看成是：它把有序的数据集合平均分配到指定的数量（num）个桶中, 将桶号分配给每一行。如果不能平均分配，则优先分配较小编号的桶，并且各个桶中能放的行数最多相差1。
语法是：ntile (num) over ([partition_clause] order_by_clause) as your_bucket_num
然后可以根据桶号，选取前或后 n分之几的数据。
数据会完整展示出来，只是给相应的数据打标签；具体要取几分之几的数据，需要再嵌套一层根据标签取出。

例（1）：

select 
    user_type,sales,
    --分组内将数据分成2片
    NTILE(2) OVER(PARTITION BY user_type ORDER BY sales) AS nt2,
    --分组内将数据分成3片    
    NTILE(3) OVER(PARTITION BY user_type ORDER BY sales) AS nt3,
    --分组内将数据分成4片    
    NTILE(4) OVER(PARTITION BY user_type ORDER BY sales) AS nt4,
    --将所有数据分成4片
    NTILE(4) OVER(ORDER BY sales) AS all_nt4
from 
    order_detail
order by 
    user_type,
    sales

结果：

例（2）：

select
    user_id
from
(
    select 
        user_id,
        NTILE(5) OVER(ORDER BY sales desc) AS nt
    from 
        order_detail
)A
where nt=1;

28.6 CUME_DIST、PERCENT_RANK、ratio_to_report

28.6.1 CUME_DIST

小于等于当前值的行数/分组内总行数。比如，统计小于等于当前薪水的人数，所占总人数的比例

例如：

select 
    user_id,user_type,sales,
    --没有partition,所有数据均为1组
    CUME_DIST() OVER(ORDER BY sales) AS cd1,
    --按照user_type进行分组
    CUME_DIST() OVER(PARTITION BY user_type ORDER BY sales) AS cd2 
from order_detail;

结果：

28.6.2 PERCENT_RANK

分组内当前行的RANK值-1/分组内总行数-1

select 
    user_type,sales
    --分组内总行数      
    SUM(1) OVER(PARTITION BY user_type) AS s, 
    --RANK值  
    RANK() OVER(ORDER BY sales) AS r,    
    PERCENT_RANK() OVER(ORDER BY sales) AS pr,
    --分组内     
    PERCENT_RANK() OVER(PARTITION BY user_type ORDER BY sales) AS prg 
from 
order_detail;

结果：

28.6.3 ratio_to_report，百分比

ratio_to_report() over() 第一个括号中就是分子，over() 括号中就是分母，分母缺省就是整个占比

SELECT
   sales_rep_id, 
   customer_id, 
   order_total,
   ROUND(100*ratio_to_report(order_total) 
      OVER (PARTITION BY customer_id),2) pct_total
FROM
   orders
WHERE
   sales_rep_id = 163
ORDER BY
   sales_rep_id, customer_id, order_id

结果：

28.7 增强的聚合 Cube和Grouping 和Rollup

28.7.1 GROUPING SETS

在一个GROUP BY查询中，根据不同的维度组合进行聚合，等价于将不同维度的GROUP BY结果集进行UNION ALL。

GROUPING SETS作为GROUP BY的子句，允许开发人员在GROUP BY语句后面指定多个统计选项，可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起来。

其中的GROUPING__ID，表示结果属于哪一个分组集合。

例1：

select
    user_type,
    sales,
    count(user_id) as pv,
    GROUPING__ID 
from 
    order_detail
group by 
    user_type,sales
GROUPING SETS(user_type,sales) 
ORDER BY 
    GROUPING__ID;

结果：

例2：

select
    user_type,
    sales,
    count(user_id) as pv,
    GROUPING__ID 
from 
    order_detail
group by 
    user_type,sales
GROUPING SETS(user_type,sales,(user_type,sales)) 
ORDER BY 
    GROUPING__ID;

结果：

例3：

select device_id,os_id,app_id,count(user_id) 
from  test_xinyan_reg 
group by device_id,os_id,app_id 
grouping sets((device_id),(os_id),(device_id,os_id),())

等价于：

SELECT device_id,null,null,count(user_id) 
FROM test_xinyan_reg group by device_id 
UNION ALL 
SELECT null,os_id,null,count(user_id) 
FROM test_xinyan_reg group by os_id 
UNION ALL 
SELECT device_id,os_id,null,count(user_id) 
FROM test_xinyan_reg group by device_id,os_id  
UNION ALL 
SELECT null,null,null,count(user_id) 
FROM test_xinyan_reg

28.7.2 CUBE

根据GROUP BY的维度的所有组合进行聚合。cube简称数据魔方，可以实现hive多个任意维度的查询，cube(a,b,c)则首先会对(a,b,c)进行group by，然后依次是(a,b),(a,c),(a),(b,c),(b),(c),最后在对全表进行group by，他会统计所选列中值的所有组合的聚合

select
    user_type,
    sales,
    count(user_id) as pv,
    GROUPING__ID 
from 
    order_detail
group by 
    user_type,sales
WITH CUBE 
ORDER BY 
    GROUPING__ID;

结果：

28.7.3 ROLLUP

是CUBE的子集，以最左侧的维度为主，从该维度进行层级聚合。实现从右到左递减多级的统计，显示统计某一层次结构的聚合。

例1：

select
    user_type,
    sales,
    count(user_id) as pv,
    GROUPING__ID 
from 
    order_detail
group by 
    user_type,sales
WITH ROLLUP 
ORDER BY 
    GROUPING__ID;

结果：

例2：

select device_id,os_id,app_id,client_version,from_id,count(user_id) 
from test_xinyan_reg 
group by device_id,os_id,app_id,client_version,from_id with rollup;

等价于：

select device_id,os_id,app_id,client_version,from_id,count(user_id) 
from test_xinyan_reg 
group by device_id,os_id,app_id,client_version,from_id 
grouping sets ((device_id,os_id,app_id,client_version,from_id)，
               (device_id,os_id,app_id,client_version),(device_id,os_id,app_id),
               (device_id,os_id),(device_id),());

28.8 nulls first、nulls last

Nulls first和nulls last是Oracle Order by支持的语法

如果Order by 中指定了表达式Nulls first则表示null值的记录将排在最前(不管是asc 还是 desc)

如果Order by 中指定了表达式Nulls last则表示null值的记录将排在最后 (不管是asc 还是 desc)

使用语法如下：

--将nulls始终放在最前

select * from zl_cbqc order by cb_ld nulls first

--将nulls始终放在最后

select * from zl_cbqc order by cb_ld desc nulls last

29 with as 、子查询部分

当我们书写一些结构相对复杂的SQL语句时，可能某个子查询在多个层级多个地方存在重复使用的情况，这个时候我们可以使用 with as 语句将其独立出来。

（1）介绍

with as 也叫做子查询部分，首先定义一个sql片段，该sql片段会被整个sql语句所用到，为了让sql语句的可读性更高些，作为提供数据的部分，也常常用在union等集合操作中。

with as就类似于一个视图或临时表，可以用来存储一部分的sql语句作为别名，不同的是with as 属于一次性的，而且必须要和其他sql一起使用才可以！

其最大的好处就是适当的提高代码可读性，而且如果with子句在后面要多次使用到，这可以大大的简化SQL；更重要的是：一次分析，多次使用，这也是为什么会提供性能的地方，达到了“少读”的目标。

WITH t1 AS (
        SELECT *
        FROM carinfo
    ), 
    t2 AS (
        SELECT *
        FROM car_blacklist
    )
SELECT *
FROM t1, t2

（2）注意

1 with子句必须在引用的select语句之前定义,同级with关键字只能使用一次,多个只能用逗号分割；最后一个with 子句与下面的查询之间不能有逗号，只通过右括号分割,with 子句的查询必须用括号括起来.

2 如果定义了with子句，但其后没有跟select查询，则会报错！

3 前面的with子句定义的查询在后面的with子句中可以使用。但是一个with子句内部不能嵌套with子句！

例如：

with t1 as (select * from carinfo),
     t2 as (select t1.id from t1)
select * from t2

你可能感兴趣的:(数据库)

基于SSM新疆旅游管理系统的设计与实现 | 全套源码+文章lw+毕业设计+课程设计+数据库+ppt 学徒笔记 python 毕业设计课程设计旅游课程设计数据库 java python 算法
基于SSM新疆旅游管理系统的设计与实现|全套源码+文章lw+毕业设计+课程设计+数据库+ppt项目概述本文介绍了一款基于SSM框架和MySQL数据库开发的新疆旅游管理系统。该系统旨在通过信息化手段提升新疆旅游管理的效率和服务质量，同时为游客提供便捷的旅游资讯和在线预订服务。系统功能覆盖景区景点、酒店、特产以及旅游线路的信息发布与管理，并支持游客在线预订门票、酒店和购买特产，同时提供旅游体验分享功能
Redis知识深度总结文档 jay丿 redis 数据库缓存
Redis知识深度总结文档一、Redis简介与基础概念Redis（RemoteDictionaryServer）是一个开源的高性能键值对存储数据库，由SalvatoreSanfilippo（网名antirez）在2009年创建。它以内存中的数据结构存储为基础，提供了多种高级功能，使得Redis不仅是一个简单的键值存储系统，更是一个功能丰富的数据结构服务器。Redis的数据存储在内存中，因此它的读写
QT搭建C/S架构服务器端柠檬算不酸 qt c++分布式
两年前初学时做的C/S架构服务器，现在整理下发出来供大家参考。哈哈哈，发现居然有人看，资源放这了，有需要可以瞅瞅，没积分可留言。首先是入口处，创建tcpServer类进行监听，QT使用TCP模块需要在Pro文件加上QT+=sqlnetwork，sql模块是因为使用了数据库。intmain(intargc,char*argv[]){QCoreApplicationa(argc,argv);MyTcp
用自定义类实现java元组朱晶性能及优化 java 开发语言
什么是元组？元组（tuple）是关系数据库中的基本概念，关系是一张表，表中的每行（即数据库中的每条记录）就是一个元组，每列就是一个属性。如果从日常开发中我们可能经常遇到如下情形：我们写了某个方法，这个发放希望返回最大值和最小值两个值，这个时候怎么做呢？封装一个返回对象？或者返回一个json对象或者list，然后解析？这样就比较麻烦了。这时候可以通过元组来实现。在Java中，Tuple通常是通过泛型
解决com.kingbase8.util.KSQLException: This _connection has been closed. mister-big java java
问题描述一个消息管理系统，系统采用kingbase8数据库，数据库采用单体模式，后台应用也采用springboot单体模式。系统正式上线后，出现几个JDBC响应的异常信息：com.kingbase8.util.KSQLException:AnI/Oerroroccurredwhilesendingtothebackend.java.net.SocketTimeoutException:Readti
数据库中键的分类和区别此方konata 数据库 java sql
分类：主键（PrimaryKey）：主键用于唯一标识表中的每一行记录。主键的值必须是唯一的且不能为空（即NOTNULL）。一个表只能有一个主键，但主键可以由一个或多个字段组成（复合主键）。外键（ForeignKey）：外键用于建立和加强两个表数据之间的链接。外键的值必须引用另一个表中的主键值或唯一键值。外键用于维护引用完整性，确保数据的一致性和准确性。唯一键（UniqueKey）：唯一键用于确保表
MySql必知必会(持续修改) 快下雨了L MySql mysql 数据库
1.MySql是关系型数据库2.数据库三大范式第一范式：属性不可分割(列不可分割)第二范式：满足第一范式，非主属性(主键)必须依赖主属性(主键)第三范式：满足第二范式，且不存在依赖传递3.数据库事务事务：指一个或多个数据库操作组成的逻辑单元或代表单个工作单元的一组SQL语句特性：ACIDA：原子性--事务被视为一个不可分割的操作单元要么成功要么失败回滚C：一致性--事务在执行前后，数据库从一个一致
SpringBoot 接入豆包火山方舟大模型 java15655057970 面试学习路线阿里巴巴 spring boot 后端 java
火山方舟控制台开通模型推理、知识库应用入口；文档中心各类接口说明及SDK获取；向量数据库VikingDB文档下翻找到有java操作案例；实现目标功能效果：通过SDK调用豆包大模型，在代码内实现问答的效果；官方示例通过使用知识库，自己上传文档。让豆包大模型可以回答你文档中的内容数据（即自定义属于你自己（自身业务领域）的大模型）；前置步骤：点击右上角头像处去创建API访问密钥；控制台内模型推理-在线推
DVWA 靶场(含代码审计) AaWeiAa 网络安全 xss sql csrf file inclusion file upload 安全系统安全
DVWA靶场的通关刚建立和使用输入http://dvwa:8898/setup.php//进入用户名密码dvwa你自己设计的想要进入数据库点击creat用户名密码adminpasswordAttacktypeSniper模式在Sniper模式下，Payload字典用于逐个替换请求中标记的位置。例如，如果一个表单需要用户名和密码，Sniper会依次尝试不同的用户名和密码组合，直到找到有效的登录凭证或
MongoDB 查询文档 wjs2024 开发语言
MongoDB查询文档引言MongoDB是一款流行的开源NoSQL数据库，以其灵活的数据模型和强大的查询功能而闻名。本文将深入探讨MongoDB的查询文档，包括其基本概念、常用查询操作以及高级查询技巧。MongoDB查询基础数据模型MongoDB使用文档模型来存储数据。每个文档都是一个键值对集合，类似于JSON对象。文档存储在集合（Collection）中，集合是数据库中的容器。查询操作符Mong
Node.js 安全性：最佳实践与防范措施 JJCTO袁龙 Node.js node.js
Node.js安全性：最佳实践与防范措施在现代Web开发中，Node.js以其高效的性能和流行性得到了广泛应用。然而，安全性问题也随之而来。无论是处理用户数据、操作数据库，还是与其他服务进行通信，开发者都必须时刻保持对潜在安全风险的警惕。在本文中，我们将探讨Node.js应用的安全性，并提供一些最佳实践与防范措施，以帮助你构建更安全的Node.js应用。一、了解Node.js的常见安全隐患在我们深
EntityFrameCore DbFirst 迁移鹿人甲丁 .net c#.net
ORM框架：不用关心sql语句，只需要以类为单位，去操作数据库，以面向对象的思想来完成对数据库的操作。EntityFrameCore-DbFirstNuget引入程序集Microsoft.EntityFrameworkCoreMicrosoft.EntityFrameworkCore.SqlServerMicrosoft.EntityFrameworkCore.SqlServer.DesignMi
Express + MongoDB 实现删除用户功能 yqcoder oracle 数据库
使用`User.findByIdAndDelete(userId)`方法根据用户ID从数据库中删除对应的用户记录。//处理删除用户的路由app.delete("/users/:id",async(req,res)=>{ try{ constuserId=req.params.id; //根据用户ID删除用户 constdeletedUser=awaitUser.findByIdAndDele
MongoDB学习 jiugie mongodb 数据库 python
MongoDB是一种流行的NoSQL数据库，以文档存储为核心，适用于高灵活性、高扩展性的场景。本文将从基础概念到实际应用，带你快速掌握MongoDB的核心操作。1.MongoDB简介什么是MongoDB？MongoDB是一个基于分布式文件存储的数据库，采用BSON（类似JSON）格式存储数据，支持动态schema（无固定表结构）。核心特性文档模型：数据以键值对形式存储在文档中，类似JSON对象。高
mongodb的并发优化 hzulwy 数据库数据库
MongoDB的锁模式MongoDB的锁设计MongoDB的高性能表现离不开它的多粒度锁机制。多粒度主要可以针对不同层级的数据库对象进行枷锁，通过避免全局性的互斥来提升并发能力。从整个数据库层面看，MongoDB的并发锁的分层如下图所示：从上往下是一个逐步细分的关系，分别为Global(全局)、Database(数据库)、Collection(集合)、Document(文档)。需要说明的是，mon
第二十六天：WEB攻防-通用漏洞&SQL注入&Sqlmap&Oracle&Mongodb&DB2等新奇八网络安全 mongodb sql oracle
数据库注入-联合猜解-Oracle&MongodbOracle参考：https://www.cnblogs.com/peterpan0707007/p/8242119.html测回显：and1=2unionselect‘1’,‘2’fromdual爆库：and1=2unionselect‘1’,(selecttable_namefromuser_tableswhererownum=1)fromdu
网络安全之攻防笔记--通用漏洞SQL注入之MySQL&mssql&postgresql Dawndddddd web安全笔记 sql
通用漏洞SQL注入之mysql&h&mssql&postgresqlmysql数据库root高权限读写注入读取文件UNIONSELECT1,load_file('d:/w.txt'),3,4,5,6,7,8,9,10,11,12,13,14,15,16,17写入文件UNIONSELECT1,load_file('d:/w.txt'),3,4,5,6,7,8,9,10,11,12,13,14,15,
网络安全之攻防笔记--通用漏洞&SQL注入&MySQL跨库&access偏移 Dawndddddd web安全笔记安全
通用漏洞SQLSQL注入针对数据库的攻击手法，通过在输入字段中插入恶意的SQL代码，改变或破坏原本预期的SQL注入查询基于注入参数类型数字型注入、字符型注入基于请求提交方式GET注入、POST注入基于获取信息方式有回显的注入联合查询注入、基于报错注入无回显注入基于布尔盲注、基于时间盲注其他类型注入堆叠注入、二次注入、宽字节注入SQL注入漏洞运行原理脚本代码在实现代码与数据库进行数据通讯时（从数据库
Python Django系列—入门实例(二) Doker数码品牌 Python python django 开发语言
数据库配置现在，打开mysite/settings.py。这是个包含了Django项目设置的Python模块。默认情况下，DATABASES配置使用SQLite。如果你是数据库新手，或者只是想尝试Django，这是最简单的选择。SQLite包含在Python中，因此你不需要安装任何其他东西来支持数据库。然而，当你开始第一个真正的项目时，你可能希望使用像PostgreSQL这样更具扩展性的数据库，以
安全见闻 kami_kami 安全
今天学了Windows操作系统和驱动程序的相关知识Windows注册表注册表是windows系统中具有层次结构的核心数据库储存的数据对windows和Windows上运行的应用程序和服务至关重要。注册表时帮助windows控制硬件、软件、用户环境和windows界面的一套数据文件。打开注册表编辑器WIN+R输入—>regedit注册表结构注册表中，所有的数据都是通过一种树状结构以键和子键的方式组织
网络安全之攻防笔记--通用安全漏洞SQL注入&sqlmap&Oracle&mongodb&DB2 Dawndddddd web安全笔记安全 sql
通用安全漏洞SQL注入&sqlmap&Oracle&mongodb&DB2数据库类型ACCESS特性没数据库用户没数据库权限没数据库查询参数没有高权限注入说法暴力猜解，借助字典得到数据注入方式联合注入偏移注入表名列名猜解不到偏移注入MySQL低权限常规注入高权限常规注入文件读取load_file文件写入intooutfile权限原因&判断代码连接用户决定查询函数user（）其他database()
YashanDB加密方法数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...存储加密YashanDB支持表空间级和列级的数据透明加密（TDE，TransparentDataEncryption）。表空间透明加密在数据库写入表空间存储介质时自动加密，从存储读取至数据库buffer内时解密，加解密过程对应
YashanDB身份认证数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...数据库身份认证（Authentication）是确认一个用户（主体）所声称身份的过程，又称“认证”、“鉴权”。YashanDB对认证的技术实现包括数据库认证和操作系统认证。YashanDB将接收到的用户输入的凭证与服务端存储的
YashanDB自动选主数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...#主备自动选主在分布式集群节点组和单机一主多备（大于一个备库）部署形态下，可以开启主备自动选主功能来实现主库选举以及故障自动切换。主备自动选主采用Raft算法，并支持设置Quorum。#心跳Raft使用心跳机制来检测数据库状态
使用PHP接入纯真IP库：实现IP地址地理位置查询 Evaporator Core #php程序设计经验 PHP和MySQL php tcp/ip android
引言在日常开发中，我们经常需要根据用户的IP地址获取其地理位置信息，例如国家、省份、城市等。纯真IP库（QQWry）是一个常用的IP地址数据库，提供了丰富的IP地址与地理位置的映射关系。本文将介绍如何使用PHP接入纯真IP库，并通过一个完整的案例演示如何实现IP地址的地理位置查询。资源下载https://download.csdn.net/download/u010986241/90424128一
智启未来：影刀RPA携手钉钉云文档，重塑企业办公自动化与数字化管理新高度 enter回车键影刀RPA
影刀RPA（RoboticProcessAutomation，机器人流程自动化）与钉钉云文档的配合，能够实现企业办公自动化和数字化管理的提升。以下是影刀RPA与钉钉云文档结合后，可以实现的一些主要功能：自动化数据录入与同步：影刀RPA可以自动从各种数据源（如数据库、Excel文件等）中提取数据，并自动填充到钉钉云文档中，实现数据的快速录入和同步。流程自动化处理：通过影刀RPA，可以自动化处理一些常
数据库时间类型的区别-面试被问过 Nice文棋数据库 sql mysql oracle java
在数据库设计中，TIMESTAMP和DATETIME是两种常见的时间类型。虽然它们的格式相似，但在存储方式、时区处理以及默认值等方面存在显著差异。本文将详细探讨它们的区别，并分析在Oracle、PostgreSQL和MySQL中的具体表现。1.TIMESTAMP和DATETIME的区别1.1TIMESTAMP时区处理：TIMESTAMP通常与时区相关，存储的是UTC时间。在查询时，数据库会根据当前
中间件专栏之redis篇——redis基本原理、概念及其相关命令介绍文弱书生子中间件中间件 redis 数据库
一、redis是什么redis是remotedictionaryservice的简称，中文翻译为远程字典服务；redis是一种数据库，若按照类型来归类，则其可以被归入三个类型数据库，分别为：内存数据库、KV数据库、数据结构数据库；内存数据库表示redis的数据是存储在内存中（相较于存储在磁盘中速度大约快10w倍），KV数据库表示redis存储数据的方式为“key-value”的hash表结构，每个
SQLite基础语法速用大法（Flutter）哇哇 · 刘笔记 sqlite 数据库
前记（可跳过这段来自本up的罗里吧嗦。。。）在做上一个项目的时候，需要用到本地数据库，以前做公司项目用的是轻量级数据库Realm，做自己小项目用的是greenDAO，大学学的是SQLserver，但是在flutter中，相关插件用的数据库是SQLite（sqflite插件），但本人还没接触过SQLite，问了后台同事，他们用的也是SQLite，说大同小异，我就想着仅凭大学记忆，快速过一遍SQLit
mysql 视图 union all_关于用mysql创建视图以及union all 和group by相关介绍 ZackRen mysql 视图 union all
一.关于视图1.视图的含义：视图就是一个存在于数据库中的虚拟表。视图本身没有数据，只是通过执行相应的select语句完成获得相应的数据。2.不可更新的视图：某些视图是可更新的。也就是说，可以在诸如UPDATE、DELETE或INSERT等语句中使用它们，以更新基表的内容。对于可更新的视图，在视图中的行和基表中的行之间必须具有一对一的关系。还有一些特定的其他结构，这类结构会使得视图不可更新。更具体地
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb