每天新闻中都可以看到各种各样的排行,和数不尽的好玩的结论。可是有很多时候我们看到某些数据结论时,总会激发我们质疑精神,有时是对于数据取样的片面性的怀疑,有时也有不满足于数据的小众化的遗憾。恰好目前我们实验室正在开发下一代的更高效的husky分布式大数据计算平台,正好可以释放数据的洪荒之力。一来可以实现对数据全面性和真实性的追求以及挖掘隐藏在数据背后各类关系,二来可以验证husky强大的高效快速的数据分析能力。工具在手天下我有,不多说,我们进入正题吧!
今天想分析一下和大家都息息相关的职场那些事,那就从招聘信息开始吧。现在先介绍下几个问题:
import json import bindings.frontend as ph
ph.env.pyhusky_start('master',14925,params={'disable_progress':True}) line= ph.env.load('/haipeng/test/zhilian_rm/w4').map(lambda x:json.loads(x)).cache()
#按工作地点对平均工资排行,7000代表取招聘数量大于此数的城市比较。 show_salary_base_on_what('job_location',7000,2000)
#按工作地点对招聘数量排行,7000代表取招聘数量大于此数的城市比较。 show_number_base_on_what('job_location',7000,2000)
#对于招聘数量大于8000的职位类别调用函数,分析结果如下,2000是图形宽度 show_salary_base_on_what('job_category',8000,2000)
以上都是对整体的分析,不过大多数情况下不同的人可能更关心某些相关领域的情况,这时可以加入一些限制条件。例如以下考虑的是作为一位老师,只想知道关于老师招聘的相关统计数据:
#这里我们想知道不同城市的情况,故依然选'job_location'作为横坐标;另外只想知道职位是'老师'的数据。若想知道其他数据的话,以任意其他职位取代'老师'即可。 show_salary_base_on_what('job_location',250,1000,'position','老师')
#论工作经验的重要性,选职位为'C++'相关的测试如下 show_number_base_on_what('job_experience',50,800,'position','C++')
如图所示,工作经验为1-3年时平均工资为9432,3-5年时增长为13095,而到5-10年时则达到17368元/月。可见随着工作经验的增长,工资近似线性增加,所以只要好好努力,最终都会成为老司机。
#我们想知道不同城市的企业类型分布,由于篇幅关系,我们这里只展示北京和上海两地的比较: show_number_base_on_what('company_industry',500,2000,'job_location','北京') show_number_base_on_what('company_industry',450,2000,'job_location','上海')
#上海
图上可见,互联网/电子商务是北京上海两地从业人员最多的行业,基金/证券/期货/投资相关的则排在了第二位。另外,对于北京来说,计算机软件、教育/培训/院校、媒体出版/影视/文化传播和IT服务(系统数据维护)等方面要强于上海。而上海在房地产/建筑/建材/工程、专业服务/咨询(财会/法律/人力资源等)和贸易/进出口方面更加突出。
#我们想知道某些情况下工资分布在不同范围的比例,例如,以下可以看到老师、医生和律师在招聘中的各自工资分布的比例: show_proportion_of_salary_range_by_key('position',['老师','医生','律师'])
#工程师的情况怎么样呢? show_proportion_of_salary_range_by_key('position',['软件工程师','硬件工程师','建筑工程师','设计工程师'])
与第一组不同,这组工程师的薪水主要是分布在6000-9000这个范围,其中建筑工程师过半位于这一区间。而关于我们常谈论的软件工程师和硬件工程师,在6000元以下和9000元以上两个区域,硬件工程师的比例都要高于软件工程师。可见软件工程师薪水更加集中,而硬件工程师的贫富差距更加明显。另外,在27000以上的高新领域,建筑工程师表现突出。
#不同编程语言的表现如何呢?可见以下图表 show_proportion_of_salary_range_by_key('position',['C++','Java','Scala','Python','PHP'])
#取企业性质分析 show_proportion_of_salary_range_by_key('company_nature',['民营','国企','合资','国家机关'])
由于时间篇幅的关系,还有很多数不尽的有趣的结论有待开发,这里就不继续展示。以下提供这次分析工具Husky的网址和这次分析的数据源。欢迎大家一起研究讨论!
我们的网站:http://www.husky-project.com/
数据链接: http://pan.baidu.com/s/1gfn32dt 密码: tb14
Husky: 新世代大數據平台
正在进行:我的博客专栏《Husky大数据分析》被推荐评选年度十佳专栏,欢迎大家投票支持。投倒数第三个《Husky大数据分析》(网址:https://wj.qq.com/s/1375474/9b8e)