拉勾网职位爬取及可视化

Github地址:https://github.com/JasonJe/memos/tree/master/jobs_data_analysis

爬取

爬取程序为crawl.py

直接运行即可进行爬取,python3 ./crawl.py

  • 说明:爬取的招聘网站为拉勾网,其职位详情页有反爬策略,即单个cookies不可连续获取2次详情页内容,这里使用代理请求首页来更新cookies,保证正常的详情页爬取。

数据可视化

可视化文档为data_analysis.ipynb

数据分析 & 可视化:

  • 职位关键词Top 10
拉勾网职位爬取及可视化_第1张图片
职位关键词Top 10
  • HR活跃时间分布
拉勾网职位爬取及可视化_第2张图片
HR活跃时间分布

通过分析HR的活跃时间,可以知道在大概早上09:00 ~ 11:00 和下午14:00 ~ 18:00这两个时间段进行简历投递会比较好。

  • 工作年限要求比例
拉勾网职位爬取及可视化_第3张图片
工作年限要求比例

大部分企业需要的是工作经验为1 ~ 3年或者3 ~ 5年的求职者,其中需要工作经验3 ~ 5年的需求最大。

    • 平均月薪
拉勾网职位爬取及可视化_第4张图片
平均月薪_工作年限

在工作年限要求的角度下,这里统计得到的平均最低薪酬:15978.65,平均最高薪酬:28998.44

可以看出,薪酬随着工作经验的增加也是水涨船高。

  1. 1 ~ 3年经验的求职者平均最低月薪为12k以上,最低平均最高月薪为20k以上;

  2. 3 ~ 5年经验的求职者平均最低月薪为16k以上,最低平均最高月薪为28k以上。

  • 学历要求比例
拉勾网职位爬取及可视化_第5张图片
学历要求比例
    • 平均月薪
拉勾网职位爬取及可视化_第6张图片
平均月薪_学历要求

在学历要求要求的角度下,这里统计得到的平均最低薪酬:16114.64,平均最高薪酬:29445.84

  • 公司规模比例
拉勾网职位爬取及可视化_第7张图片
公司规模比例
  • 融资情况比例
拉勾网职位爬取及可视化_第8张图片
公司规模比例
    • 融资情况与公司规模
拉勾网职位爬取及可视化_第9张图片
融资情况与公司规模

这张图展现了不同融资阶段的公司规模。

  • 招聘地区分布
拉勾网职位爬取及可视化_第10张图片
招聘地区分布

可以看出,主要的公司位置集中在南山福田宝安这三个区。

  • 技能词云
拉勾网职位爬取及可视化_第11张图片
技能词云
  • 职位详情

这里对爬取到的职位描述进行了分词,提取其中出现的关键词,并做相关的统计。

    • 中文关键字Top 20
拉勾网职位爬取及可视化_第12张图片
中文关键字Top 20

从上面的关键词Top20可以看出,所招聘的职位更加强调的是技能的把握、熟悉程度,以及工作经验、能力等。

    • 英文关键字Top 50
拉勾网职位爬取及可视化_第13张图片
英文关键字Top 50

这张图大致展示了职位需要大概掌握的技能,职位更加强调数据库、缓存、Linux、网络TCPWeb等的掌握程度。

而就Python后端而言,有些职位可能不仅仅要求掌握Python这门语言,还会要求掌握JavaGolangC/C++等多门语言。

你可能感兴趣的:(拉勾网职位爬取及可视化)