常用函数


系统自带函数

coalesce():返回列表中第一个非NULL的值,如果列表中所有的值都是NULL则返回NULL;

eg:

concat():字符串连接函数;

eg:

least():返回输入参数中最小的一个

greatest():返回输入参数中最大的一个(var1,var2可以为bigint,double,datetime或者string。若所有值都为NULL则返回NULL。

返回值:输入参数中的最大值,当不存在隐式转换时返回同输入参数类型。NULL为最小值。当输入参数类型不同时,double,bigint,string之间的比较转为double;string,datetime的比较转为datetime。不允许其它的隐式转换)

decode():实现分支选择的功能

eg:select decode(customer_id,

            1, 'Taobao',

            2, 'Alipay',

            3, 'Aliyun',

            NULL, 'N/A',

            'Others') as result

    from sale_detail;

上面的decode函数实现了下面if-then-else语句中的功能:

    if customer_id = 1 then

        result := 'Taobao';

    elsif customer_id = 2 then

        result := 'Alipay';

    elsif customer_id = 3 then

        result := 'Aliyun';

    ...

    else

        result := 'Others';

    end if;

if函数:if(逻辑条件,coumn1,coumn2)表示满足条件则输出1,否则输出2的值

eg:if(cap_direction not in('0','1'),null, cast(cap_direction as bigint));

substr():返回字符串str从start_position开始长度为length的子串

eg: substr(""abc"", 2) = ""bc"";substr(""abc"", 2, 1) = ""b"";

to_char():将Boolean类型、bigint类型、decimal类型或者double类型转为对应的string类型表示

eg:to_char(123) = '123';to_char(true) = 'TRUE';to_char(1.23) = '1.23';to_char(null) = NULL;

to_char():Datetime类型,要转换的日期值,若输入为string类型会隐式转换为datetime类型后参与运算,其它类型抛异常。

eg:to_char(getdate(),'yyyymmdd')

concat(coumn1,',',coumn2):字符串连接函数

匹配两位精度:

concat(substr(to_char(lng),1,6),',',substr(to_char(lat),1,5)) like '120.08,30.28'; 

regexp_extract(coumn,'',number):字符串拆分函数

如:临东路与火神塘路交叉口

regexp_extract(inter_name,'(.*?)(路)',1) =临东

regexp_extract(inter_name,'与(.*?)(交叉口)',1)=火神塘路

regexp_replace:字符串替换函数

regexp_replace(round_name,'-','',1)表示吧-替换成null

split_part字符串拆分函数

split_part('环北-密渡桥','-',2)=密渡桥

instr:计算一个子串str2在字符串str1中的位置

  instr('Tech on the net', 'e') = 2;instr('Tech on the net', 'e', 1, 1) = 2

cast

coors_convert(lng,lat,1):谷歌转高德coors_convert(120.2334214,30.21829241,1)

WHERE judge_location(split_part(coors_convert(a.lng,a.lat,1),',',1),split_part(coors_convert(a.lng,a.lat,1),',',2))=1

窗口函数

统计量:count,sum,avg,max/min,median,stddev,stddev_samp

排名:row_unmber,rank,dense_rank,percent_rank

其他类:lag,lead,cluster_sample

--------------------

基本用法;把数据按照一定条件分成多组称为开窗,每个组称为一个窗口

partition by部分用来指定开窗的列

分区列的值相同的行被视为在同一个窗口内

order by用来指定数据在一个窗口内如何排序

使用限制:只能出现在select子句中

窗口函数中不要嵌套使用窗口函数和聚合函数

不可以和同级别的聚合函数一起使用

一个odps sql语句中,可以使用至多5个窗口函数

Partition开窗时,同一窗口内最多包含1亿行数据

用rows开窗时,x,y必须大于等于0的整数常量,限定范围0-10000,值为0时表示当前行

必须使用order by才可以用rows方式指定窗口范围

并非所有的窗口函数都可以用rows指定开窗方式,支持这种用法的窗口函数有avg,count,max,min,stddev和sum

----------------------

举个栗子

select *,rank() over(partition by monitor_id order by distance) as mindistance_monitor_id from()

自定义函数


基于阿里云odps制作相应的自定义函数

说明:本例子中由于odps版本过低:所以创建的时候没有采用阿里云example一步一步来maven打包,而是采用自己打包,是由于采用例子的一步一步来出来的jar回有问题(出来的jar没有类资源,只有配置文件资源)。

名词解释:

UDF:用户自定义标量值函数(user defined scalar function),其输入与输出是一对一的关系,读入一行数据(可以有多个参数),写出一条输出值

UDTF:自定义表值函数(user defined table valued function),是用来解决一次函数调用输出多行数据场景的,也是唯一能返回多个字段的自定义函数

UDAF:自定义聚合函数(user defined aggregation function),其输入和输出是多对一的关系,将多条输入记录聚合成一条输出值(可以和group by语句联用)