4-八爪鱼boss直聘信息采集

目录

  • 4-1-综合实践背景
  • 4-2-综合实践操作
    • 1-打开网页
    • 2-按关键词进行搜索
    • 3-报错“当前IP地址可能存在异常访问”
    • 4-数据采集
  • 4-3-思考
  • 参考文献

4-1-综合实践背景

小张是某高校管理学研究生,在毕业课题中需要采集boss直聘武汉地区的相关数据,而小张同学因为是人文科学背景没有接触过爬虫,在网上搜索很多资料后,现在她找到你希望你帮她采集boss直聘网的相关数据,你应该怎么做呢?

boss直聘武汉地区网站:https://www.zhipin.com/wuhan/

4-2-综合实践操作

1-打开网页

打开八爪鱼到打开boss直聘武汉的相关页面

4-八爪鱼boss直聘信息采集_第1张图片

2-按关键词进行搜索

在职务关键词中输入【数据分析】关键词进行搜索
4-八爪鱼boss直聘信息采集_第2张图片

3-报错“当前IP地址可能存在异常访问”

针对Boss直聘对ip进行验证的情况,可以对打开网页这一步骤中的重试部分进行设置,从而在一定程度上对反爬虫的绕过

4-八爪鱼boss直聘信息采集_第3张图片

4-数据采集

首先是对页面进行自动网页识别

4-八爪鱼boss直聘信息采集_第4张图片

这是自动识别完成后的界面,我们可以看到系统抓取的数据比较全面

4-八爪鱼boss直聘信息采集_第5张图片

如果需要获得更加详细的职位页面数据,相关数据采集完成后可以进入到单独的职位页面进行数据采集

采集完成后将采集的职位的链接导入到八爪鱼后,对后续的职位信息进行相关采集。循环打开采集的网页,对职位的岗位需求进行采集。

4-八爪鱼boss直聘信息采集_第6张图片

4-3-思考

思考部分

1.在数据采集过程中,频繁访问网页会引发反爬虫机制,如何规避这样的问题?

切换IP地址;设置采集间隔时间;

2.对于boss直聘的数据采集中,你觉得哪些信息字段是比较重要的?

企业信息;薪资;工作地点;岗位要求

参考文献

team-learning-program/CollectData at master · datawhalechina/team-learning-program (github.com)

你可能感兴趣的:(#,八爪鱼爬虫,爬虫)