「历时6个月招聘数据收集」一份Python招聘分析报告

一、前言

大家好!今天分享一份数据报告,关于Python就业相关的分析,报告分为两部分第一部分从市场角度分析探究社会上的招聘环境和招聘趋势,第二部分主要讨论讨论Python相关的就业环境及发展,如果没有看第一部分的朋友可以 点击这里 阅读第一篇报告。

二、就业地选择

Python岗位分布情况:(因为这张图采用的是复合图详细请看Tableau工作薄展示) 从图中得到的结论:84%的就业岗位分布在一线和新一线城市,其中四个一线城市占43%。杭州、南京、成都、武汉、西安等新一线城市占总数的44%。但从一线城市和新一线城市应届生薪资中位数(相比平均数,中位数薪资能够更好地代表人群中等收入水平)来比较:一线城市2019年应届生中位数薪资位5559元,相对于新一线4894元(薪资中位数)具有较为明显的优势;而新一线城市虽然对青年人吸引力显著增强,在中位数薪资水平上相比于二线城市并未拉开明显差距。
「历时6个月招聘数据收集」一份Python招聘分析报告_第1张图片

三、技术点分析

下图是将Python相关的高频技术点进行词频统计按照收集周期进行排序TOP15。因为物联网及移动端发展迅速C/C++语言登顶榜首,其次为Liunx操作系统和主流数据库。
「历时6个月招聘数据收集」一份Python招聘分析报告_第2张图片


下图为薪资20K以下招聘数据中的加分项top20,值得注意的是14.5%的公司希望你拥有个人博客wiki或者是github活跃分子,其中ABC(AI、Big Data、Cloud)相关技术也全在榜内,如果你兼备测试技术或者前端技术也会受到受欢迎。Distrbuted System 8.7%的企业更希望你具有分布式、缓存、异步的知识储备及相关经验。
「历时6个月招聘数据收集」一份Python招聘分析报告_第3张图片

三、LDA主题模型分析-从概率的角度看招聘信息

  • 提取高频技术点关键字作为词典
  • 使用 flashtext 清洗岗位描述
  • 使用LDA主题模型算法训练模型

num_topics(主题参数):设置为6 对21276条招聘描述分批次进行LDA主题分析,以下为其中一次结果:

0.176*"算法" + 0.108*"Python" + 0.093*"机器学习" + 0.092*"大数据" + 0.068*"数据分析" + 0.059*"深度学习" + 0.057*"数据结构" + 0.049*"C++"
0.223*"算法" + 0.138*"数据结构" + 0.121*"分布式" + 0.109*"Java" + 0.098*"C++" + 0.089*"大数据" + 0.044*"Hadoop" + 0.037*"Spark"
0.261*"Python" + 0.101*"Django" + 0.076*"Flask" + 0.072*"Redis" + 0.063*"Web" + 0.034*"后端" + 0.030*"高并发" + 0.029*"部署"
0.386*"爬虫" + 0.127*"网站" + 0.081*"Python" + 0.054*"HTML" + 0.049*"分布式" + 0.038*"算法" + 0.029*"多线程" + 0.026*"Scrapy"
0.563*"运维" + 0.098*"部署" + 0.064*"Nginx" + 0.041*"git" + 0.038*"Docker" + 0.036*"GoLang" + 0.030*"TCP/IP" + 0.028*"linux"

将几次经过进行筛选,总结为以下6个主题(与Python相关):

Ai Big Data 后端 Spider 运维
算法 数据结构 Django Python Docker
机器学习 分布式 Flask 网站 部署
Pandas Hadoop Redis 多线程 TCP/IP
数据分析 Spark 高并发 分布式 Nginx
深度学习 Java 部署 算法 Python
C++ C++ web Scrapy Linux
  • Ai(人工智能):我们可以看到AI高频关键字中有机器学习和深度学习、算法及C++,值得注意的是C++ 它可以使AI产品真正落地比如百度的apllo(自动驾驶系统)足足有16.5万行C++代码,某种程度上Python只是wrapper,C++才是core。
  • Big Data(大数据):第二个主题是大数据我们看到相关的技术有Hadoop和Spark及分布式,同样也包含 C++。当然,大数据工程师不仅要熟悉相关框架也要精通数据结构与算法"内功"。那么为什么在Python招聘数据里提取出大数据的主题呢?因为Python在数据处理和数据获取上(爬虫)都有着自己绝对的优势。
  • 后端:LDA提取出的高频关键字有Django、Flask都是Python语言中比较常用的Web框架,不多描述。
  • 前端:在前面加分项分析时得出有相关前端知识储备和经验会被优先考虑。
  • 运维:微软的运维总监大卫·克斯比说过一句话,在未来五年运维工作者不能熟练的掌握Python,就会迎来面临失业的境遇。Python是一门非常优秀的脚本语言,运维工程师可以用它写一些自动化的脚本或者做日志分析也会很方便。
  • Spider(爬虫):如果你要做一名爬虫工程师,因为现在多数网站都有反爬虫,所以需要了解一些前端技术,方便于CSS定位或者JS逆向实现反反爬虫,分布式算法可以让爬虫工程师提高效率和清洗数据。

总结:从LDA中得出结果来看Python相关就业可以分为5个方向:AI、大数据、后端、运维、爬虫其中后端和爬虫主要依赖Python语言,而其它方向需要的技术不仅仅依赖Python,还需要强硬都数据功底学习成本大,成长周期相对比较长。

你可能感兴趣的:(数据报告)