数据来源:链接:https://pan.baidu.com/s/18Z3WTf1_Y5ze_ALzBAZJfg
提取码:0thc
import pandas as pd
import numpy as np
import csv
import matplotlib.pyplot as plt
#导入数据
luohu_data = pd.read_csv('./bj_luohu.csv',index_col='id')
#describe()展示一些基本信息
luohu_data.describe()
score | |
---|---|
count | 6019.000000 |
mean | 95.654552 |
std | 4.354445 |
min | 90.750000 |
25% | 92.330000 |
50% | 94.460000 |
75% | 97.750000 |
max | 122.590000 |
可以看出共计6019个人通过积分落户,积分最高分122.59分,最低90.75分,平均分95.65分。
print(luohu_data.head())
name birthday company score
id
1 杨效丰 1972-12 北京利德华福电气技术有限公司 122.59
2 纪丰伟 1974-12 北京航天数据股份有限公司 121.25
3 王永 1974-05 品牌联盟(北京)咨询股份公司 118.96
4 杨静 1975-07 中科专利商标代理有限责任公司 118.21
5 张凯江 1974-11 北京阿里巴巴云计算技术有限公司 117.79
从数据中可以看出:可以从生日,公司,分数中挖掘出可用信息
按照维度与指标两方面来进行分析
分析:以公司为维度,以人数为指标进行分析
各公司落户人数及分布
获取每一公司的落户人数并进行排序
#按照company作为维度分组并计算每组个数
#groupby默认会把by的这个列作为索引列返回,可以设置下as_index=False取消
company_data = luohu_data.groupby('company',as_index=False).count()[['company','name']]
company_data
company | name | |
---|---|---|
0 | ABB(中国)有限公司 | 8 |
1 | BONNIER图书文化(北京)有限公司 | 1 |
2 | IGT科技开发(北京)有限公司 | 1 |
3 | POLYCOM通讯技术(北京)有限公司 | 2 |
4 | VIDIA技术服务(北京)有限公司 | 1 |
5 | 《中国企业报》股份有限公司 | 2 |
6 | 《中国当代医药》杂志社有限公司 | 1 |
7 | 《中国汽车报》社有限公司 | 1 |
8 | 《中国烟草》杂志社有限公司 | 1 |
9 | 《中国经济周刊》杂志社 | 1 |
10 | 《中国质量万里行》杂志社 | 1 |
11 | 《中国邮政报》社 | 1 |
12 | 《中国饲料》杂志社 | 1 |
13 | 《信息早报》社 | 1 |
14 | 《环境与生活》杂志社有限公司 | 1 |
15 | 《环球时报》社 | 5 |
16 | 《证券日报》社 | 1 |
17 | 一汽丰田汽车销售有限公司 | 12 |
18 | 万国数据服务有限公司北京分公司 | 1 |
19 | 万图(北京)科技有限公司 | 1 |
20 | 万浦投资(中国)有限公司 | 1 |
21 | 万达商业管理集团有限公司 | 2 |
22 | 万达商业规划研究院有限公司 | 3 |
23 | 万达文化旅游规划研究院有限公司 | 5 |
24 | 万达酒店设计研究院有限公司 | 2 |
25 | 三一重型能源装备有限公司 | 1 |
26 | 三人行传媒集团股份有限公司北京分公司 | 1 |
27 | 三星信息技术服务(北京)有限公司 | 2 |
28 | 三星电子(北京)技术服务有限公司 | 1 |
29 | 三星经济研究所股份有限公司北京代表处 | 1 |
... | ... | ... |
3400 | 飞驰镁物(北京)信息服务有限公司 | 1 |
3401 | 首创置业股份有限公司 | 3 |
3402 | 首游天地(北京)科技有限公司 | 1 |
3403 | 首都信息发展股份有限公司 | 7 |
3404 | 首都信息科技发展有限公司 | 1 |
3405 | 首都医科大学附属北京康复医院(北京工人疗养院) | 1 |
3406 | 首都空港贵宾服务管理有限公司 | 1 |
3407 | 首钢京唐钢铁联合有限责任公司北京办事处 | 1 |
3408 | 首钢集团有限公司 | 3 |
3409 | 香云海会(北京)文化发展有限公司 | 1 |
3410 | 香港永新专利商标代理有限公司北京办事处 | 1 |
3411 | 马兰拉面快餐连锁有限责任公司 | 1 |
3412 | 高伟达软件股份有限公司 | 2 |
3413 | 高德信息技术有限公司 | 2 |
3414 | 高德软件有限公司 | 3 |
3415 | 高盛高华证券有限责任公司 | 1 |
3416 | 高等教育出版社有限公司 | 7 |
3417 | 高通无线半导体技术有限公司 | 4 |
3418 | 高通无线通信技术(中国)有限公司 | 5 |
3419 | 麒麟远创软件(中国)有限公司 | 1 |
3420 | 麦肯锡(上海)咨询有限公司北京分公司 | 3 |
3421 | 默克雪兰诺有限公司 | 4 |
3422 | 鼎世新(北京)科技有限公司 | 1 |
3423 | 鼎桥通信技术有限公司 | 5 |
3424 | 鼎石天元投资(北京)有限公司 | 1 |
3425 | 龙源(北京)风电工程设计咨询有限公司 | 1 |
3426 | 龙田云端(北京)科技有限公司 | 1 |
3427 | 龙芯中科技术有限公司 | 1 |
3428 | CSB电池科技(北京)有限公司 | 1 |
3429 | JFE贸易(北京)有限公司 | 1 |
3430 rows × 2 columns
#重命名列名称
company_data.rename(columns={'name':'people_count'},inplace=True)
#按照人数排序(默认升序)
company_sorted_data = company_data.sort_values('people_count', ascending=False)
company_sorted_data
company | people_count | |
---|---|---|
1081 | 北京华为数字技术有限公司 | 137 |
312 | 中央电视台 | 73 |
2457 | 北京首钢建设集团有限公司 | 57 |
3082 | 百度在线网络技术(北京)有限公司 | 55 |
3194 | 联想(北京)有限公司 | 48 |
214 | 中国民生银行股份有限公司 | 40 |
2648 | 国际商业机器(中国)投资有限公司 | 39 |
1334 | 北京外企人力资源服务有限公司 | 39 |
174 | 中国国际技术智力合作有限公司 | 29 |
2514 | 华为技术有限公司北京研究所 | 27 |
3049 | 爱立信(中国)通信有限公司 | 26 |
3201 | 腾讯科技(北京)有限公司 | 24 |
2405 | 北京阿里巴巴云计算技术有限公司 | 23 |
240 | 中国石油天然气股份有限公司管道北京输油气分公司 | 20 |
3070 | 用友软件股份有限公司 | 20 |
434 | 中铁建工集团有限公司 | 19 |
356 | 中煤建设集团工程有限公司 | 17 |
118 | 中信银行股份有限公司 | 17 |
2815 | 微软(中国)有限公司 | 17 |
1507 | 北京市京才实业开发总公司 | 16 |
157 | 中国光大银行股份有限公司 | 16 |
3072 | 甲骨文(中国)软件系统有限公司 | 16 |
3270 | 西门子(中国)有限公司 | 16 |
422 | 中铁三局集团第四工程有限公司 | 15 |
438 | 中铁电气化局集团有限公司 | 15 |
2649 | 国际商业机器(中国)有限公司北京分公司 | 14 |
3379 | 阿里巴巴(北京)软件服务有限公司 | 14 |
324 | 中建二局安装工程有限公司 | 14 |
2899 | 施耐德电气(中国)有限公司 | 14 |
1271 | 北京四方继保自动化股份有限公司 | 14 |
... | ... | ... |
1348 | 北京大学口腔医院 | 1 |
1349 | 北京大安振业商业管理有限公司 | 1 |
1350 | 北京大宝化妆品有限公司 | 1 |
1351 | 北京大希科技有限公司 | 1 |
1352 | 北京大恒图像视觉有限公司 | 1 |
1353 | 北京大成律师事务所 | 1 |
1325 | 北京城际文化传播有限公司 | 1 |
1324 | 北京城建深港建筑装饰工程有限公司 | 1 |
1323 | 北京城建弘通物业管理有限责任公司 | 1 |
1322 | 北京城建八建设发展有限责任公司 | 1 |
1299 | 北京国锐信达动力科技有限公司 | 1 |
1300 | 北京国锐信达税务师事务所有限公司 | 1 |
1301 | 北京国际度假区有限公司 | 1 |
1302 | 北京国际电气工程有限责任公司 | 1 |
1303 | 北京国际(SOS)救援中心 | 1 |
1304 | 北京图书大厦有限责任公司 | 1 |
1305 | 北京图优谱信息技术有限公司 | 1 |
1306 | 北京圈网互动文化传播有限公司 | 1 |
1307 | 北京土人城市规划设计有限公司 | 1 |
1308 | 北京圣先福农种子有限公司 | 1 |
1309 | 北京圣凯盟商贸有限公司 | 1 |
1310 | 北京圣彩虹制版印刷技术有限公司 | 1 |
1311 | 北京圣彬科贸有限公司 | 1 |
1313 | 北京在线九州信息技术服务有限公司 | 1 |
1314 | 北京地下铁道通成广告有限公司 | 1 |
1315 | 北京地林伟业科技股份有限公司 | 1 |
1316 | 北京坚果先生科技有限公司 | 1 |
1317 | 北京坤和兴业科技有限公司 | 1 |
1318 | 北京埃文特朗科技有限公司 | 1 |
3429 | JFE贸易(北京)有限公司 |
#按条件过滤
#只有一人的公司
company_sorted_data[company_sorted_data['people_count']==1]
company | people_count | |
---|---|---|
2390 | 北京长京益康信息科技有限公司 | 1 |
2392 | 北京长亮新融科技有限公司 | 1 |
2447 | 北京首科力通机电设备有限责任公司 | 1 |
1922 | 北京泰瑞特认证有限责任公司 | 1 |
2448 | 北京首都创业集团有限公司 | 1 |
2312 | 北京通美晶体技术有限公司 | 1 |
2313 | 北京通航法荷航飞机航线维修有限责任公司 | 1 |
2374 | 北京铭源金丰石油化工产品销售有限公司 | 1 |
1932 | 北京浩海创新科技有限公司 | 1 |
2377 | 北京银天科创信息技术有限公司 | 1 |
2311 | 北京通畅电信规划设计院有限公司 | 1 |
2321 | 北京邮电大学世纪学院 | 1 |
2322 | 北京采菊科技有限公司 | 1 |
2446 | 北京首汽智行科技有限公司 | 1 |
1936 | 北京海利尔智能化科技有限公司 | 1 |
1931 | 北京浩普诚华科技有限公司 | 1 |
2376 | 北京银地房地产开发有限责任公司 | 1 |
2323 | 北京释天环境科技有限公司 | 1 |
2463 | 北京驷骑中天网络工程技术有限公司 | 1 |
2325 | 北京金万众空调制冷设备有限责任公司 | 1 |
2324 | 北京量科邦信息技术有限公司 | 1 |
2464 | 北京骏蓝拓科技有限公司 | 1 |
2379 | 北京银河智慧机电设备有限公司 | 1 |
2378 | 北京银河昊星置业投资有限公司 | 1 |
2460 | 北京香侬发动机科技有限公司 | 1 |
2320 | 北京邦融汇金融信息服务有限公司 | 1 |
2373 | 北京铭润创展科技有限公司 | 1 |
2399 | 北京阳光汇点数码科技有限公司 | 1 |
2388 | 北京锦途互动广告有限公司 | 1 |
2459 | 北京首钢股份有限公司 | 1 |
... | ... | ... |
1348 | 北京大学口腔医院 | 1 |
1349 | 北京大安振业商业管理有限公司 | 1 |
1350 | 北京大宝化妆品有限公司 | 1 |
1351 | 北京大希科技有限公司 | 1 |
1352 | 北京大恒图像视觉有限公司 | 1 |
1353 | 北京大成律师事务所 | 1 |
1325 | 北京城际文化传播有限公司 | 1 |
1324 | 北京城建深港建筑装饰工程有限公司 | 1 |
1323 | 北京城建弘通物业管理有限责任公司 | 1 |
1322 | 北京城建八建设发展有限责任公司 | 1 |
1299 | 北京国锐信达动力科技有限公司 | 1 |
1300 | 北京国锐信达税务师事务所有限公司 | 1 |
1301 | 北京国际度假区有限公司 | 1 |
1302 | 北京国际电气工程有限责任公司 | 1 |
1303 | 北京国际(SOS)救援中心 | 1 |
1304 | 北京图书大厦有限责任公司 | 1 |
1305 | 北京图优谱信息技术有限公司 | 1 |
1306 | 北京圈网互动文化传播有限公司 | 1 |
1307 | 北京土人城市规划设计有限公司 | 1 |
1308 | 北京圣先福农种子有限公司 | 1 |
1309 | 北京圣凯盟商贸有限公司 | 1 |
1310 | 北京圣彩虹制版印刷技术有限公司 | 1 |
1311 | 北京圣彬科贸有限公司 | 1 |
1313 | 北京在线九州信息技术服务有限公司 | 1 |
1314 | 北京地下铁道通成广告有限公司 | 1 |
1315 | 北京地林伟业科技股份有限公司 | 1 |
1316 | 北京坚果先生科技有限公司 | 1 |
1317 | 北京坤和兴业科技有限公司 | 1 |
1318 | 北京埃文特朗科技有限公司 | 1 |
3429 | JFE贸易(北京)有限公司 | 1 |
2626 rows × 2 columns
可以得到仅落户1人的公司有2626家
company_sorted_data[company_sorted_data['people_count']<5]
company | people_count | |
---|---|---|
1400 | 北京太极信息系统技术有限公司 | 4 |
2661 | 外语教学与研究出版社有限责任公司 | 4 |
1417 | 北京奥鹏远程教育中心有限公司 | 4 |
1681 | 北京搜狐新媒体信息技术有限公司 | 4 |
2382 | 北京银龙知识产权代理有限公司 | 4 |
1055 | 北京北大维信生物科技有限公司 | 4 |
1076 | 北京千龙新闻网络传播有限责任公司 | 4 |
2375 | 北京银信长远科技股份有限公司 | 4 |
296 | 中国铁路北京局集团有限公司北京电务段 | 4 |
295 | 中国铁路北京局集团有限公司北京建筑段 | 4 |
3224 | 苏伊士水务工程有限责任公司 | 4 |
290 | 中国铁路北京局集团有限公司丰台车辆段 | 4 |
2404 | 北京阿尔卡特朗讯科技有限公司 | 4 |
2571 | 卡特彼勒(中国)投资有限公司 | 4 |
260 | 中国联合网络通信有限公司北京市分公司 | 4 |
1166 | 北京南北天地科技股份有限公司 | 4 |
2533 | 华泰保险集团股份有限公司 | 4 |
2527 | 华夏银行股份有限公司北京分行 | 4 |
1283 | 北京国华电力有限责任公司 | 4 |
3281 | 谷歌信息技术(中国)有限公司 | 4 |
319 | 中工国际工程股份有限公司 | 4 |
1489 | 北京小米移动软件有限公司 | 4 |
1434 | 北京字节跳动网络技术有限公司 | 4 |
1575 | 北京康海天达科技有限公司 | 4 |
505 | 亿阳信通股份有限公司北京分公司 | 4 |
3092 | 瞻博网络研发(北京)有限公司 | 4 |
2130 | 北京经纬恒润科技有限公司 | 4 |
1663 | 北京拓尔思信息技术股份有限公司 | 4 |
3094 | 石化盈科信息技术有限责任公司北京分公司 | 4 |
3028 | 渣打银行(中国)有限公司北京分行 | 4 |
... | ... | ... |
1348 | 北京大学口腔医院 | 1 |
1349 | 北京大安振业商业管理有限公司 | 1 |
1350 | 北京大宝化妆品有限公司 | 1 |
1351 | 北京大希科技有限公司 | 1 |
1352 | 北京大恒图像视觉有限公司 | 1 |
1353 | 北京大成律师事务所 | 1 |
1325 | 北京城际文化传播有限公司 | 1 |
1324 | 北京城建深港建筑装饰工程有限公司 | 1 |
1323 | 北京城建弘通物业管理有限责任公司 | 1 |
1322 | 北京城建八建设发展有限责任公司 | 1 |
1299 | 北京国锐信达动力科技有限公司 | 1 |
1300 | 北京国锐信达税务师事务所有限公司 | 1 |
1301 | 北京国际度假区有限公司 | 1 |
1302 | 北京国际电气工程有限责任公司 | 1 |
1303 | 北京国际(SOS)救援中心 | 1 |
1304 | 北京图书大厦有限责任公司 | 1 |
1305 | 北京图优谱信息技术有限公司 | 1 |
1306 | 北京圈网互动文化传播有限公司 | 1 |
1307 | 北京土人城市规划设计有限公司 | 1 |
1308 | 北京圣先福农种子有限公司 | 1 |
1309 | 北京圣凯盟商贸有限公司 | 1 |
1310 | 北京圣彩虹制版印刷技术有限公司 | 1 |
1311 | 北京圣彬科贸有限公司 | 1 |
1313 | 北京在线九州信息技术服务有限公司 | 1 |
1314 | 北京地下铁道通成广告有限公司 | 1 |
1315 | 北京地林伟业科技股份有限公司 | 1 |
1316 | 北京坚果先生科技有限公司 | 1 |
1317 | 北京坤和兴业科技有限公司 | 1 |
1318 | 北京埃文特朗科技有限公司 | 1 |
3429 | JFE贸易(北京)有限公司 | 1 |
3265 rows × 2 columns
落户人数小于5人的公司有3265家
#落户人数前50的公司
company_sorted_data.head(50)
company | people_count | |
---|---|---|
1081 | 北京华为数字技术有限公司 | 137 |
312 | 中央电视台 | 73 |
2457 | 北京首钢建设集团有限公司 | 57 |
3082 | 百度在线网络技术(北京)有限公司 | 55 |
3194 | 联想(北京)有限公司 | 48 |
214 | 中国民生银行股份有限公司 | 40 |
2648 | 国际商业机器(中国)投资有限公司 | 39 |
1334 | 北京外企人力资源服务有限公司 | 39 |
174 | 中国国际技术智力合作有限公司 | 29 |
2514 | 华为技术有限公司北京研究所 | 27 |
3049 | 爱立信(中国)通信有限公司 | 26 |
3201 | 腾讯科技(北京)有限公司 | 24 |
2405 | 北京阿里巴巴云计算技术有限公司 | 23 |
240 | 中国石油天然气股份有限公司管道北京输油气分公司 | 20 |
3070 | 用友软件股份有限公司 | 20 |
434 | 中铁建工集团有限公司 | 19 |
356 | 中煤建设集团工程有限公司 | 17 |
118 | 中信银行股份有限公司 | 17 |
2815 | 微软(中国)有限公司 | 17 |
1507 | 北京市京才实业开发总公司 | 16 |
157 | 中国光大银行股份有限公司 | 16 |
3072 | 甲骨文(中国)软件系统有限公司 | 16 |
3270 | 西门子(中国)有限公司 | 16 |
422 | 中铁三局集团第四工程有限公司 | 15 |
438 | 中铁电气化局集团有限公司 | 15 |
2649 | 国际商业机器(中国)有限公司北京分公司 | 14 |
3379 | 阿里巴巴(北京)软件服务有限公司 | 14 |
324 | 中建二局安装工程有限公司 | 14 |
2899 | 施耐德电气(中国)有限公司 | 14 |
1271 | 北京四方继保自动化股份有限公司 | 14 |
357 | 中煤建设集团有限公司 | 14 |
3083 | 百度时代网络技术(北京)有限公司 | 13 |
2722 | 威睿信息技术(中国)有限公司 | 13 |
3231 | 英特尔(中国)有限公司北京分公司 | 13 |
482 | 亚信科技(中国)有限公司 | 13 |
3093 | 石化盈科信息技术有限责任公司 | 13 |
3378 | 阿里巴巴科技(北京)有限公司 | 12 |
17 | 一汽丰田汽车销售有限公司 | 12 |
2882 | 新华三技术有限公司北京研究所 | 12 |
194 | 中国建筑第二工程局有限公司 | 12 |
180 | 中国国际金融股份有限公司 | 12 |
3278 | 诺基亚通信系统技术(北京)有限公司 | 11 |
2524 | 华夏幸福基业股份有限公司北京管理咨询分公司 | 11 |
862 | 北京京东尚科信息技术有限公司 | 11 |
239 | 中国石油天然气股份有限公司北京销售分公司 | 10 |
3060 | 瑞斯康达科技发展股份有限公司 | 10 |
2369 | 北京铁路局 | 10 |
2018 | 北京用友政务软件有限公司 | 10 |
553 | 冠捷显示科技(中国)有限公司 | 10 |
2526 | 华夏银行股份有限公司 | 9 |
#前50的公司落户人数
num_50 = company_sorted_data.head(50).sum()['people_count']
print('前50的公司落户人数共有{}人,占总人数{}%'.format(num_50,round((num_50/6619)*100,2)))
前50的公司落户人数共有1122人,占总人数16.95%
#积分分数分布
#按照步长为5分桶统计下分数的分布
bins = np.arange(90,130,5)
bins = pd.cut(luohu_data['score'],bins)
bin_counts = luohu_data['score'].groupby(bins).count()
bin_counts
score
(90, 95] 3344
(95, 100] 1757
(100, 105] 653
(105, 110] 218
(110, 115] 32
(115, 120] 13
(120, 125] 2
Name: score, dtype: int64
积分主要分布在(90,95]区间内
#将index处理下
bin_counts.index = [ str(x.left) + '-' + str(x.right) for x in bin_counts.index ]
bin_counts.plot(kind='bar', alpha=1, rot=0)
plt.show()
#年龄分布
#出生日期转换为年龄
luohu_data['age'] = ((pd.to_datetime('2019-09')-pd.to_datetime(luohu_data['birthday']))/pd.Timedelta('365 days'))
luohu_data.describe()
score | age | |
---|---|---|
count | 6019.000000 | 6019.000000 |
mean | 95.654552 | 43.130723 |
std | 4.354445 | 2.814236 |
min | 90.750000 | 34.020000 |
25% | 92.330000 | 41.200000 |
50% | 94.460000 | 43.110000 |
75% | 97.750000 | 45.120000 |
max | 122.590000 | 61.210000 |
积分落户最小年龄为34岁,最大年龄61岁,平均年龄43岁。
bins = np.arange(20,70,5)
bins = pd.cut(luohu_data['age'],bins)
bin_counts = luohu_data['age'].groupby(bins).count()
bin_counts
age
(20, 25] 0
(25, 30] 0
(30, 35] 4
(35, 40] 770
(40, 45] 3682
(45, 50] 1535
(50, 55] 18
(55, 60] 8
(60, 65] 2
Name: age, dtype: int64
积分落户年龄主要分布在(40,45]年龄段内。
bin_counts.index = [ str(x.left) + '-' + str(x.right) for x in bin_counts.index ]
bin_counts.plot(kind='bar', alpha=1, rot=0)
plt.show()