新手爬取51job,智联,boss网站职位信息总结和代码(小杜总结)

爬取要求:
(1) 使用合适的数据保存手段保存爬取数据
(2) 记每条数据的爬取时间
(3) 实现数据的增量爬取
(4) 实现同时基于关键字和页面 URL 的去重元数据说明:

一 统一注意事项或建议
1 写代码时认真一些,不要因为个别的单词空格错误,过多浪费时间
2 写一步做一步,每解析一步,输出来验证一下
(因为代码量小的话,好检查一下,代码量大的话,不是不能解决,只是会太多的浪费时间)
3 网页爬取,空值没有strip(),需要大家注意一下
爬取项目网站有51job,智联招聘,boss直聘(反向思维)
1 网站要求
51job:爬取没有限制
boss直聘:需要设置IP,重点设置动态IP
智联:动态抓取,重点获取数据接口
2 爬取重点要求
翻页,详情页,算法检索,网页去重
3 前提:浏览网页
4 爬取思路(反向思维)
1)爬取内容要求(详情页def detail_parse(self),方法主要用item)
脑图画代码呈现

解析职位名称

item[‘hiring_name’] = response.xpath(此处自己解析).extract_first()

解析职位信息

item[‘position_info’] =" ".join(response.xpath(此处自己解析).extract()).strip()
#解析薪资
item[‘pay’]=response.xpath(此处自己解析).extract_first()
2)设置item,如下
在这里插入图片描述
3)获悉详情页的网址(解析下一页网址—可以同步进行,主要在def parse()中)
新手爬取51job,智联,boss网站职位信息总结和代码(小杜总结)_第1张图片
4)51job和boss直聘是找原始网址,智联是获取数据接口获取的网址
上面做好了以后整体的框架就有了
二 补充注意事项或建议(完善整体框架)
1 51Job(爬取没有限制)
1)tag的传递
2 boss(IP设置)

1)
新手爬取51job,智联,boss网站职位信息总结和代码(小杜总结)_第2张图片
2)此处也是tag的传递(因为这个是用selector解析的)
3 智联
1)获取数据接口
selenium模块里有一个
项目指导中也有一个(建议看第一个,比较详细)
2) json解析
3)翻页逻辑(看网址的不同之处)

代码见
链接:https://pan.baidu.com/s/1WjU0SjZRuZ6fdsx3qIgkdg
提取码:5nx3
复制这段内容后打开百度网盘手机App,操作更方便哦**
boss智联接口如有改变,请自己找好接口

你可能感兴趣的:(爬虫,网站职位,智联,新手)