python爬虫招聘网站数据分析_Python爬虫实例——基于招聘网站发帖数据

克服重重困难,终于完成了拉勾网44个城市发布的几千条招聘信息的爬取,下面是详细步骤和代码,欢迎一起探讨指教。

一、软件下载并安装

webdriver(不同的浏览器下载地址不同,这里是下载的chrome浏览器的,http://chromedriver.storage.googleapis.com/index.html,浏览器的版本与webdriver的版本需要一致)

selenium(在cmd中安装,pip install selenium)

二、开始爬取

1、导入需要的包

2、打开测试浏览器

1)作为全局变量

browser = webdriver.Chrome()

2)打开网站

url = "https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?city=%E5%8C%97%E4%BA%AC&cl=false&fromSearch=true&labelWords=&suginput="

browser.get(url)

3)提取相关信息

运行完上面的代码后,浏览器自动打开了网站,接下来需要打开开发者工具,查看我们需要提取的信息的属性名称

打开开发者工具后,点击下图1“指针”,把鼠标移至需要提取的信息那里如下图2,找到薪资的class name,如下图3 class name 是money

用find_element_by提取

以此类推找到所有要提取信息的属性名称,依次用find_element_by提取

4)把调试好的规则整理成函数

5)控制浏览器进行翻页爬取

找到翻页点击按钮的属性名称

翻页代码

6)编写函数,传入城市,采集对应城市的全部数据

这里要注意的是:休眠时间建议设置5-8秒,否则容易跳出验证

7)编写循环函数,自动完成所有城市信息的爬取,并存储在一张表里

写上所有你要爬取的城市,这里爬取的是24个城市的

循环遍历所有城市,并append在一个DataFrame

8)最后将表格导出

你可能感兴趣的:(python爬虫招聘网站数据分析_Python爬虫实例——基于招聘网站发帖数据)