hive实战分析网页搜索数据

hive安装教程见:https://blog.csdn.net/qq_25948717/article/details/81054411

该文章只讲分析数据:

first of all,到搜狗实验室下载用户查询日志:http://www.sogou.com/labs/resource/q.php

数据格式:第一列:搜索时间,第二列:用户ID,第三列:用户在输入框的搜索内容,

                  第四列:搜索内容出现在搜索页面的第几行,第五列:用户单击的是页面的第几行,第六列:用户单击的超链接

hive实战分析网页搜索数据_第1张图片

在hive安装节点下输入:hive --service metastore & 启动hive服务(该步骤是必须的),再输入:hive进入hive shell。

创建数据库并使用:

hive实战分析网页搜索数据_第2张图片

创建SohouQ1表:

create table SogouQ1(ID string,websession string,word string,s_seq int,c_seq int,website string) row format delimited fields terminated by '\t' lines terminated by '\n';

将本地数据导入表中:

hive实战分析网页搜索数据_第3张图片

上述日志文件只有300kb大小,可以新建表导入更大的日志文件(64MB):

hive实战分析网页搜索数据_第4张图片

打开Hadoop集群可以看到数据已经到hdfs上了:

hive实战分析网页搜索数据_第5张图片

分析搜索数据:

HQL语句会被Hive转换位map/reduce程序,然后通过hive自动打包发布到集群中运行。

统计表中的记录总数:

hive实战分析网页搜索数据_第6张图片

依照关键字搜索:

hive实战分析网页搜索数据_第7张图片

含有baidu的行有3942行。查询时间为42.273秒。

统计搜索baidu且排名和点击率都是第一的记录数:

hive实战分析网页搜索数据_第8张图片

打开hadoop的8088也可以看到提交的任务:

hive实战分析网页搜索数据_第9张图片

 

 

 

你可能感兴趣的:(Hadoop,Spark,HIve)