hive中max函数无法区分字符串类型的数字

问题描述:需要针对版本号app_version如:6.14.2,6.7.1,10.2.1进行取最大值

 

原先方法:max(app_version)

hive中max函数无法区分字符串类型的数字_第1张图片

 

结论:失败

原因:hive中使用max将会默认对两个字符串从左至右挨个进行比较,即进行第三位比较时发现:“1<7”,故6.14.2<6.7.1

 

解决方法:首先针对hive本身的函数max无法直接解决,则可以将数据转化为可以解决的情况。即针对当前版本最大为两位数的情况,将所有不满两位数的进行补0操作。即:

concat(

if(length(split(app_version,'\\.')[0])=1,concat('0',split(app_version,'\\.')[0]),split(app_version,'\\.')[0]),'.',

if(length(split(app_version,'\\.')[1])=1,concat('0',split(app_version,'\\.')[1]),split(app_version,'\\.')[1]),'.',

if(length(split(app_version,'\\.')[2])=1,concat('0',split(app_version,'\\.')[2]),split(app_version,'\\.')[2])

)

先使用split将数据分割开,各位置补0再concat。

 

则经过上述操作可以使用max函数正确区分出版本号;结果如下:

hive中max函数无法区分字符串类型的数字_第2张图片

hive中max函数无法区分字符串类型的数字_第3张图片

 

你可能感兴趣的:(hive)