Python抓取拉勾网职位利用pandas进行数据可视化分析(下)

  1. 接上篇Python爬虫抓取拉勾网的一点心得思路,将主要的几个城市全部抓取下来,包括北京、上海、广州、杭州、成都、武汉、深圳六大城市全部的爬虫岗位信息。每个城市一个csv文件,保存到本地。

2.现将这些个数据整合一下来简单分析下

  • 首先利用pandas将这么csv文件合并成一个文件
import pandas as pd
import os

def merage_csv():
    files = [file for file in os.listdir('./') if file.endswith('csv')]  # 当前目录包含需要合并的csv文件
    # 读取所有的csv文件
    all_csv = [pd.read_csv(file, encoding='utf_8_sig') for file in files]
    # 合并所有的csv文件到一个新的文件
    combie_csv = pd.concat(all_csv)
    # 写入到新的文件中
    combie_csv.to_csv('合并职位.csv', index=False, encoding='utf_8_sig')

合并之后的数据


image.png
  • 利用pandas读取合并之后的csv文件做个简单分析

1.先来读取下表格


image.png

2.来看下有多少个职位


image.png

全国六大城市加起来384个(2019-12-9日统计) •́へ•́╬,不能愉快的玩耍,据说玩得好的现在都在局子里喝茶?
3.看下薪酬怎么样
image.png

15-25K区间是最多的,20-40K位列前三最多??

3.岗位对于学历的要求;画个图更为直观


image.png

果然还是本科主打

4.看下工作年限要求;画个饼状图看看


image.png

普遍要求3-5年,其次是1-3年

从最近一段时间来看,爬虫岗位因为近下半年各大金融公司出事因为爬虫的原因,小伙伴纷纷表示爬虫写得好,牢饭吃的饱。还是那句话,不管怎么样,技术是中立的,使用技术完成的商业行为才需要受到法律的监督。因为热爱所以坚持

你可能感兴趣的:(Python抓取拉勾网职位利用pandas进行数据可视化分析(下))