数据处理之搜索关键词分析

####离线数据处理,hive分析(保留汉子、字母、数字、开头数字去除、过滤垃圾数据)
数据处理之搜索关键词分析_第1张图片

select content,count(1) wordsnumber from (
select regexp_replace(split(eventname,'_')[1],' |,|:|/|-|\r|\n|[[^0-9a-zA-Z\\\u4e00-\\\u9fa5]]','') content from commodlog where eventname like '搜索关键词%' ) as a where content not REGEXP '^[0-9]' and content !='' and content !='null' group by content sort by wordsnumber ASC;

数据处理之搜索关键词分析_第2张图片

你可能感兴趣的:(Big,Data,技术点,Hive)