智联招聘数据Hbase数据分析+可视化

需求:

背景描述
近年来随着IT产业的加速发展,全国各地对IT 类的人才需求也越来越多,
“XHS 集团”为了明确公司在各区域的发展布局,在多个省份进行IT公司岗位
情况调研分析。你所在的小组将承担模拟调研分析的任务,通过在招聘网站进
行招聘信息的爬取,获取到公司名称、工作地点、岗位名称、招聘要求、招聘
人数等信息,并通过数据的清洗和分析,最终分析出各地区热门岗位招聘人数,
各地区平均薪资的差异。
本次为模拟任务,项目组计划使用分布式节点Hadoop模式,环境搭建采用
服务器集群方式,通过在招聘网站上爬取到的相关信息,实现对数据进行爬取、
清洗、整理、计算、表达、分析,力求实现对各城市IT行业拥有更清晰的掌握。
作为该项目组的技术人员,你们是这次技术方案展示的核心成员,请按照
下面步骤完成本次技术展示任务,并提交技术报告,祝你们成功。
任务一: Hadoop 平台及组件的部署管理( 15 分)
1) 将指定路径下的Hbase 安装包解压指定路径下;
2) 把解压后的 apache-Hbase-2.0.1-bin 文件夹更名为 Hbase;进入 Hbase 文件
夹;
3) 设置Hbase 环境变量,并使环境变量只对当前root 用户生效;
4) 修改Hbase 安装目录下hbase-site.xml;
5) 修改Hbase 安装目录下hbase-env.sh;
6) 修改Hbase 安装目录下regionservers;
7) 把 hadoop 的hdfs-site.xml 和core-site.xml 放到hbase/conf 下;
8) 启动Hbase 并保存命令输出结果。
任务二、数据采集( 15 分)
从主流招聘网站中抓取以下关键字:“公司名称”、“工作城市”、“工作要

求”、“招聘人数”、工资情况”(格式:‘底薪-上限’)、“name”(岗位
名称)、“detail”(职位详情),并保存为可用格式。
1) 创建项目名为crawposition;
2) 定义任务指定的爬取字段;
3) 构建相应爬虫请求;
4) 指定文件存储位置;
5) 爬取关键字数据;
6) 将数据存储到HDFS文件系统。
任务三、数据清洗与分析(2 25 5 分)
1) 编写数据清洗程序,将编辑完成的程序打包成jar程序包并保存;
2) 对爬取出的数据进行清洗,将清洗后的数据各字段存储为可用格式;
3) 将清洗后结果保存至Hbase数据库中;
4) 筛选相应字段,将结果写入新建cleantable表中,并查看该表数据;
5) 查询“数据”相关岗位的技能要求,将查询结果写入新建table_bigdata
表中;
6) 创建keycount表并分别统计下列单个核心技能的出现次数。
注:核心技能关键词如下:c++、Scala、FFlume、Flink、ETL、数学、数据仓
库、Hbase、Hadoop、Python、Java、Kafka、Storm、Linux、Hbase、Spark。
任务 四 、数据 可视化 ( 20 分)
为直观呈现数据分析的结果,对分析数据可视化呈现。
1) 展示各区域招聘总量,并按降序排列在前端显示;
2) 展示各地平均工资的差异,并在前端显示;
3) 展示各地平均工资的差异。
任务 五 : 综合 分析( 15 )
请结合数据分析结果编写下列分析报告:

1) 根据分析结果
列举三个招聘岗位数量最多的城市。
2) 根据各区域平
均工资分析结果,找出平均工资最高的城市。
3) 根据各区域平
均工资分析结果,找出杭州市的平均工资排名第几。
4) 请简述,“XHS
集团”要建立研发中心,请你推荐最适合的城市,并说明原因。

 

实现:

链接:https://pan.baidu.com/s/1fWoUPRL9KeVsZVpA9ZgXcA 
提取码:oolu 
复制这段内容后打开百度网盘手机App,操作更方便哦

你可能感兴趣的:(大数据,python,hbase,可视化,智联招聘)