【Python行业分析1】BOSS直聘招聘信息获取之网站分析

BOSS直聘 搜索界面分析

进入boss官网,按照我们的日常查询习惯,键入关键字、职务类别、查询的城市
【Python行业分析1】BOSS直聘招聘信息获取之网站分析_第1张图片

基础查询条件

https://www.zhipin.com/job_detail/?query=python&city=101280600&industry=&position=100109
我们看到boss的路由格式为query=关键字&city=城市编码&industry=公司行业&position=职务类别
【Python行业分析1】BOSS直聘招聘信息获取之网站分析_第2张图片

神器F12

我们再打开F12查看Network,其中有city.json和position.json文件
city.json是记录了所有的城市编码信息
position.json是记录了所有的职务类别编码信息
【Python行业分析1】BOSS直聘招聘信息获取之网站分析_第3张图片

我们需要查看到更多的数据,点击翻页看看翻页的路由格式是什么样的?

https://www.zhipin.com/c101280600-p100109/?query=python&page=2&ka=page-2
路由格式发生了也变化,对city=101280600&position=100109进行了组合c101280600-p100109
我们在生成路由时也需要按该规则生成,但如果你是顺序访问可以在next标签中获取这个地址
分页标识是由page=2,ka=page-2在后面你会发现,它只是当前新增的查询条件信息
【Python行业分析1】BOSS直聘招聘信息获取之网站分析_第4张图片
boss对粗的查询是做了返回数据的限制的,我们只能查看到近10页的数据
但你细分查询条件后发现还是会有很多数据的,所以我们需要来拼接更多的条件来获取多的数据
还是需要F12来解决

工作年限

【Python行业分析1】BOSS直聘招聘信息获取之网站分析_第5张图片
https://www.zhipin.com/c101280600-p100109/e_105/?query=python&ka=sel-exp-105
sel-exp-0

  • sel-exp-0 不限
  • sel-exp-108 在校生
  • sel-exp-102 应届生
  • sel-exp-103 1年以内
  • sel-exp-104 1-3年
  • sel-exp-105 3-5年
  • sel-exp-106 5-10年
  • sel-exp-107 10年以上

学历要求

【Python行业分析1】BOSS直聘招聘信息获取之网站分析_第6张图片
https://www.zhipin.com/c101280600-p100109/d_209-e_105/?query=python&ka=sel-degree-209

  • sel-degree-0 不限
  • sel-degree-209 初中及以下
  • sel-degree-208 中专/中技
  • sel-degree-206 高中
  • sel-degree-202 大专
  • sel-degree-203 本科
  • sel-degree-204 硕士
  • sel-degree-205 博士

薪资要求

【Python行业分析1】BOSS直聘招聘信息获取之网站分析_第7张图片
https://www.zhipin.com/c101280600-p100109/y_2-d_206-e_105/?query=python&ka=sel-salary-2

  • sel-salary-0 不限
  • sel-salary-1 3K以下
  • sel-salary-2 3-5K
  • sel-salary-3 5-10K
  • sel-salary-4 10-15K
  • sel-salary-5 15-20K
  • sel-salary-6 20-30K
  • sel-salary-7 30-50K
  • sel-salary-8 50K以上

最终的路由格式

查询Python行业内,不同城市、工作年限、学历要求、薪资范围的招聘信息
https://www.zhipin.com/c101280600-p100109/y_2-d_206-e_105/?query=python&page=1
这些过滤条件以及可以为我们筛选出很多照片信息了

那具体招聘信息的信息提取呢?

我们需要什么信息呢?

  • 招聘的职位说明
  • 职位所在城市
  • 发布时间
  • 薪资范围
  • 工作年限
  • 学历要求
  • 职务关键字
  • 公司名称
  • 福利信息
  • 职务描述

招聘列表提供的数据

先看看在查询的列表页中有哪些信息

  • 招聘的职位说明
  • 职位所在城市
  • 发布时间
  • 薪资范围
  • 工作年限
  • 学历要求
  • 联系人
  • 职务关键字
  • 公司名称
  • 公司融资阶段
  • 公司规模
  • 福利信息

重点来了,我们肯定需要打开F12,查看下页面源代码,看有没有隐藏信息,好像是并没有
但是我看到了 data-jid 是招聘信息的标识,这个可以为获取数据是去重提供帮助,收下了

那以下信息是我们需要获取的

  • 招聘的职位说明
  • 职位所在城市
  • 发布时间
  • 薪资范围
  • 工作年限
  • 学历要求
  • 职务关键字
  • 公司名称
  • 福利信息

还有个很重要的 岗位要求说明,在后期的招聘分析中是需要的,在列表中并没有,再继续挖掘下,GoGoGo

职务描述

当我们把鼠标停留在招聘信息上时,会弹出职位描述的弹出,真的是意外收获啊
F12走起,可以看到有新的请求发出了

https://www.zhipin.com/wapi/zpgeek/view/job/card.json?jid=201963e14821c43103F73du_FVI~&lid=nlp-2vJ1koSrjDw.search.273
路由所需的参数是jid和lid,正好是我们上面找到的 data-jid 是招聘信息的标识,再回去找下data-lid也是存在的

最终的数据信息

  • 招聘的职位说明
  • 职位所在城市
  • 发布时间
  • 薪资范围
  • 工作年限
  • 学历要求
  • 职务关键字
  • 公司名称
  • 福利信息
  • 职务描述

BOSS招聘信息爬取

到此我们需要的信息就全部找到了,点波关注,后面会继续分享 如何爬取这些数据

8小时Python零基础轻松入门

你可能感兴趣的:(Python,行业分析,爬虫,python,大数据,爬虫,数据挖掘,算法)