python爬虫-- 爬取51job网招聘信息

项目概览

  • 在浏览器上访问51job 官方网站,并在搜索框输入关键词“Python”,地点选在“西安”,单击”搜索“按钮进入搜索页
  • 在搜索页中,所有符合条件的职位信息以列表的形式排序设有分页显示。每条职位信息是一个URL 地址,通过URL 地址可以进入该职位的详情页。
  • 职位详情页也是数据爬取的页面,爬取的数据信息有:职位名称、企业名称、待遇、福利以及职位要求等等。

项目框架

  • 项目的开发工具选择 Requests模块和 BeautifulSoup 模块实现了爬虫开发和数据清洗。
  • 数据存储选择 Sqlalchemy 框架
  • 数据库选择Mysql

具体步骤

一:获取城市编号
  • 在这里插入图片描述- 通过观察搜索页的URL地址,我们就可以发现对应的搜索内容一样的时候,不同的城市对应的编号不一样。
  • 如下图所示,我们可以从网页中找到area_array_s.js。从这个网页上有地区和编号之间的关系。
    python爬虫-- 爬取51job网招聘信息_第1张图片
  • 下面的代码是获取城市编号
def get_city_code():
    url = 'https://js.51jobcdn.com/in/js/h5/dd/d_jobarea.js?20191212'
    r = requests.get(url)
    begin = r.text.find('var hotcity')
    if begin == -1:
        print('Not find var hotcity')
    # print(begin)
    end = r.text.find(';',begin)
    if end == -1:
        print('Not find ; ')
    # print(end)
    result_text = r.text[begin : end-1]
    #print(result_text)
    begin = result_text.find('{')
    city_dict_str = result_text[begin:]
    # print(city_dict_str)
    key,value = "",""
    key_list,value_list = [],[]
    count = 1
    i = 0
    while i < len(city_dict_str):
        if city_dict_str[i] == '"' and count == 1:
            count = 2
            i += 1
            while city_dict_str[i] != '"':
                key += city_dict_str[i]
                i += 1
            key_list.append(key)
            key = ""
            i += 1
        if city_dict_str[i] == '"' and count == 2:
            count = 1
            i += 1
            while city_dict_str[i] != '"':
                value += city_dict_str[i]
                i += 1
            value_list.append(value)
            value = ""
            i += 1
        i += 1
    city_dict = {}
    i = 0
    while i < len(key_list):
        city_dict[value_list[i]] = key_list[i]
        i += 1
    # print(city_dict)
    return city_dict
获取招聘职位总页数
  • 当我们搜索Python+西安的时候,会看到以下网页。python爬虫-- 爬取51job网招聘信息_第2张图片
  • 获取城市编号之后,就可以动态的构建搜索页的URL地址,实现不同地点的不同关键词的职位搜索。在爬取职位信息之前,还需要确定当前职位的总页数,因为同一职位可能会有成千上万条招聘信息,而这些招聘信息都会进行分页处理。
  • 那我们总页数的获取方式可以为通过总职位数除以每一页的职位数。通过观察便可以知道每页的职位数上限是50。总职位数可以从”Doc“选项卡里找到相应的位置。
  • 代码如下:
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36',
    'Host' : 'search.51job.com',
    'Upgrade-Insecure-Requests' : '1'
}

# 获取职位总页数
def get_pageNumber(city_code,keyword):
    url = 'https://search.51job.com/list/' + str(city_code) + \
          ',000000,0000,00,9,99,' + str(keyword) + ',2,1.html'
    r = requests.get(url=url,headers=headers)
    soup = BeautifulSoup(r.content.decode('gbk'),'html5lib')
    find_page = soup.find('div',class_='rt').getText()
    temp = re.findall(r"\d+\.?\d*",find_page)
    if temp:
        pageNumber = math.ceil(int(temp[0])/50)
        return pageNumber
    else:
        return 0
爬取每个职位信息
  • 这是两个循环。遍历总页数和遍历每页的职位信息。
  • 遍历总页数:每次遍历需要重新构建搜索页的URL地址,使当前遍历的次数对于搜索页的页数。构建后的URL地址发送HTTP请求并从响应内容提取当前页面的所有职位信息。
  • 遍历每页的职位信息:对当前搜索页的所有职位的URL 地址进行遍历访问,通过发哦送HTTP请求进入每个职位的详情页,在职位详情页里爬取目标数据。
  • 代码比较多,我就不贴了,大家可以去我的githup查看"get_info"函数。
数据存储
  • 数据库选用Mysql 数据库。
  • 主要是一些创建表、更新表的数据或者新增表的数据等等,比较简单,就不贴代码了。

总结

  • 以上只是我简单的分享了一下项目的思路。
  • 代码githup:https://github.com/zhangyi-13572252156/spider-51job

你可能感兴趣的:(项目)