北京积分落户数据分析

数据来源:链接:https://pan.baidu.com/s/18Z3WTf1_Y5ze_ALzBAZJfg
提取码:0thc

北京积分落户数据分析

import pandas as pd
import numpy as np
import csv
import matplotlib.pyplot as plt 
#导入数据
luohu_data = pd.read_csv('./bj_luohu.csv',index_col='id')
#describe()展示一些基本信息
luohu_data.describe()
score
count 6019.000000
mean 95.654552
std 4.354445
min 90.750000
25% 92.330000
50% 94.460000
75% 97.750000
max 122.590000

可以看出共计6019个人通过积分落户,积分最高分122.59分,最低90.75分,平均分95.65分。

print(luohu_data.head())
   name birthday          company   score
id                                       
1   杨效丰  1972-12   北京利德华福电气技术有限公司  122.59
2   纪丰伟  1974-12     北京航天数据股份有限公司  121.25
3    王永  1974-05   品牌联盟(北京)咨询股份公司  118.96
4    杨静  1975-07   中科专利商标代理有限责任公司  118.21
5   张凯江  1974-11  北京阿里巴巴云计算技术有限公司  117.79

从数据中可以看出:可以从生日,公司,分数中挖掘出可用信息

按照维度与指标两方面来进行分析

分析:以公司为维度,以人数为指标进行分析

各公司落户人数及分布

获取每一公司的落户人数并进行排序

#按照company作为维度分组并计算每组个数
#groupby默认会把by的这个列作为索引列返回,可以设置下as_index=False取消
company_data = luohu_data.groupby('company',as_index=False).count()[['company','name']]
company_data
company name
0 ABB(中国)有限公司 8
1 BONNIER图书文化(北京)有限公司 1
2 IGT科技开发(北京)有限公司 1
3 POLYCOM通讯技术(北京)有限公司 2
4 VIDIA技术服务(北京)有限公司 1
5 《中国企业报》股份有限公司 2
6 《中国当代医药》杂志社有限公司 1
7 《中国汽车报》社有限公司 1
8 《中国烟草》杂志社有限公司 1
9 《中国经济周刊》杂志社 1
10 《中国质量万里行》杂志社 1
11 《中国邮政报》社 1
12 《中国饲料》杂志社 1
13 《信息早报》社 1
14 《环境与生活》杂志社有限公司 1
15 《环球时报》社 5
16 《证券日报》社 1
17 一汽丰田汽车销售有限公司 12
18 万国数据服务有限公司北京分公司 1
19 万图(北京)科技有限公司 1
20 万浦投资(中国)有限公司 1
21 万达商业管理集团有限公司 2
22 万达商业规划研究院有限公司 3
23 万达文化旅游规划研究院有限公司 5
24 万达酒店设计研究院有限公司 2
25 三一重型能源装备有限公司 1
26 三人行传媒集团股份有限公司北京分公司 1
27 三星信息技术服务(北京)有限公司 2
28 三星电子(北京)技术服务有限公司 1
29 三星经济研究所股份有限公司北京代表处 1
... ... ...
3400 飞驰镁物(北京)信息服务有限公司 1
3401 首创置业股份有限公司 3
3402 首游天地(北京)科技有限公司 1
3403 首都信息发展股份有限公司 7
3404 首都信息科技发展有限公司 1
3405 首都医科大学附属北京康复医院(北京工人疗养院) 1
3406 首都空港贵宾服务管理有限公司 1
3407 首钢京唐钢铁联合有限责任公司北京办事处 1
3408 首钢集团有限公司 3
3409 香云海会(北京)文化发展有限公司 1
3410 香港永新专利商标代理有限公司北京办事处 1
3411 马兰拉面快餐连锁有限责任公司 1
3412 高伟达软件股份有限公司 2
3413 高德信息技术有限公司 2
3414 高德软件有限公司 3
3415 高盛高华证券有限责任公司 1
3416 高等教育出版社有限公司 7
3417 高通无线半导体技术有限公司 4
3418 高通无线通信技术(中国)有限公司 5
3419 麒麟远创软件(中国)有限公司 1
3420 麦肯锡(上海)咨询有限公司北京分公司 3
3421 默克雪兰诺有限公司 4
3422 鼎世新(北京)科技有限公司 1
3423 鼎桥通信技术有限公司 5
3424 鼎石天元投资(北京)有限公司 1
3425 龙源(北京)风电工程设计咨询有限公司 1
3426 龙田云端(北京)科技有限公司 1
3427 龙芯中科技术有限公司 1
3428 CSB电池科技(北京)有限公司 1
3429 JFE贸易(北京)有限公司 1

3430 rows × 2 columns

#重命名列名称
company_data.rename(columns={'name':'people_count'},inplace=True)
#按照人数排序(默认升序)
company_sorted_data = company_data.sort_values('people_count', ascending=False)
company_sorted_data

company people_count
1081 北京华为数字技术有限公司 137
312 中央电视台 73
2457 北京首钢建设集团有限公司 57
3082 百度在线网络技术(北京)有限公司 55
3194 联想(北京)有限公司 48
214 中国民生银行股份有限公司 40
2648 国际商业机器(中国)投资有限公司 39
1334 北京外企人力资源服务有限公司 39
174 中国国际技术智力合作有限公司 29
2514 华为技术有限公司北京研究所 27
3049 爱立信(中国)通信有限公司 26
3201 腾讯科技(北京)有限公司 24
2405 北京阿里巴巴云计算技术有限公司 23
240 中国石油天然气股份有限公司管道北京输油气分公司 20
3070 用友软件股份有限公司 20
434 中铁建工集团有限公司 19
356 中煤建设集团工程有限公司 17
118 中信银行股份有限公司 17
2815 微软(中国)有限公司 17
1507 北京市京才实业开发总公司 16
157 中国光大银行股份有限公司 16
3072 甲骨文(中国)软件系统有限公司 16
3270 西门子(中国)有限公司 16
422 中铁三局集团第四工程有限公司 15
438 中铁电气化局集团有限公司 15
2649 国际商业机器(中国)有限公司北京分公司 14
3379 阿里巴巴(北京)软件服务有限公司 14
324 中建二局安装工程有限公司 14
2899 施耐德电气(中国)有限公司 14
1271 北京四方继保自动化股份有限公司 14
... ... ...
1348 北京大学口腔医院 1
1349 北京大安振业商业管理有限公司 1
1350 北京大宝化妆品有限公司 1
1351 北京大希科技有限公司 1
1352 北京大恒图像视觉有限公司 1
1353 北京大成律师事务所 1
1325 北京城际文化传播有限公司 1
1324 北京城建深港建筑装饰工程有限公司 1
1323 北京城建弘通物业管理有限责任公司 1
1322 北京城建八建设发展有限责任公司 1
1299 北京国锐信达动力科技有限公司 1
1300 北京国锐信达税务师事务所有限公司 1
1301 北京国际度假区有限公司 1
1302 北京国际电气工程有限责任公司 1
1303 北京国际(SOS)救援中心 1
1304 北京图书大厦有限责任公司 1
1305 北京图优谱信息技术有限公司 1
1306 北京圈网互动文化传播有限公司 1
1307 北京土人城市规划设计有限公司 1
1308 北京圣先福农种子有限公司 1
1309 北京圣凯盟商贸有限公司 1
1310 北京圣彩虹制版印刷技术有限公司 1
1311 北京圣彬科贸有限公司 1
1313 北京在线九州信息技术服务有限公司 1
1314 北京地下铁道通成广告有限公司 1
1315 北京地林伟业科技股份有限公司 1
1316 北京坚果先生科技有限公司 1
1317 北京坤和兴业科技有限公司 1
1318 北京埃文特朗科技有限公司 1
3429 JFE贸易(北京)有限公司
#按条件过滤
#只有一人的公司
company_sorted_data[company_sorted_data['people_count']==1]
company people_count
2390 北京长京益康信息科技有限公司 1
2392 北京长亮新融科技有限公司 1
2447 北京首科力通机电设备有限责任公司 1
1922 北京泰瑞特认证有限责任公司 1
2448 北京首都创业集团有限公司 1
2312 北京通美晶体技术有限公司 1
2313 北京通航法荷航飞机航线维修有限责任公司 1
2374 北京铭源金丰石油化工产品销售有限公司 1
1932 北京浩海创新科技有限公司 1
2377 北京银天科创信息技术有限公司 1
2311 北京通畅电信规划设计院有限公司 1
2321 北京邮电大学世纪学院 1
2322 北京采菊科技有限公司 1
2446 北京首汽智行科技有限公司 1
1936 北京海利尔智能化科技有限公司 1
1931 北京浩普诚华科技有限公司 1
2376 北京银地房地产开发有限责任公司 1
2323 北京释天环境科技有限公司 1
2463 北京驷骑中天网络工程技术有限公司 1
2325 北京金万众空调制冷设备有限责任公司 1
2324 北京量科邦信息技术有限公司 1
2464 北京骏蓝拓科技有限公司 1
2379 北京银河智慧机电设备有限公司 1
2378 北京银河昊星置业投资有限公司 1
2460 北京香侬发动机科技有限公司 1
2320 北京邦融汇金融信息服务有限公司 1
2373 北京铭润创展科技有限公司 1
2399 北京阳光汇点数码科技有限公司 1
2388 北京锦途互动广告有限公司 1
2459 北京首钢股份有限公司 1
... ... ...
1348 北京大学口腔医院 1
1349 北京大安振业商业管理有限公司 1
1350 北京大宝化妆品有限公司 1
1351 北京大希科技有限公司 1
1352 北京大恒图像视觉有限公司 1
1353 北京大成律师事务所 1
1325 北京城际文化传播有限公司 1
1324 北京城建深港建筑装饰工程有限公司 1
1323 北京城建弘通物业管理有限责任公司 1
1322 北京城建八建设发展有限责任公司 1
1299 北京国锐信达动力科技有限公司 1
1300 北京国锐信达税务师事务所有限公司 1
1301 北京国际度假区有限公司 1
1302 北京国际电气工程有限责任公司 1
1303 北京国际(SOS)救援中心 1
1304 北京图书大厦有限责任公司 1
1305 北京图优谱信息技术有限公司 1
1306 北京圈网互动文化传播有限公司 1
1307 北京土人城市规划设计有限公司 1
1308 北京圣先福农种子有限公司 1
1309 北京圣凯盟商贸有限公司 1
1310 北京圣彩虹制版印刷技术有限公司 1
1311 北京圣彬科贸有限公司 1
1313 北京在线九州信息技术服务有限公司 1
1314 北京地下铁道通成广告有限公司 1
1315 北京地林伟业科技股份有限公司 1
1316 北京坚果先生科技有限公司 1
1317 北京坤和兴业科技有限公司 1
1318 北京埃文特朗科技有限公司 1
3429 JFE贸易(北京)有限公司 1

2626 rows × 2 columns

可以得到仅落户1人的公司有2626家

company_sorted_data[company_sorted_data['people_count']<5]

company people_count
1400 北京太极信息系统技术有限公司 4
2661 外语教学与研究出版社有限责任公司 4
1417 北京奥鹏远程教育中心有限公司 4
1681 北京搜狐新媒体信息技术有限公司 4
2382 北京银龙知识产权代理有限公司 4
1055 北京北大维信生物科技有限公司 4
1076 北京千龙新闻网络传播有限责任公司 4
2375 北京银信长远科技股份有限公司 4
296 中国铁路北京局集团有限公司北京电务段 4
295 中国铁路北京局集团有限公司北京建筑段 4
3224 苏伊士水务工程有限责任公司 4
290 中国铁路北京局集团有限公司丰台车辆段 4
2404 北京阿尔卡特朗讯科技有限公司 4
2571 卡特彼勒(中国)投资有限公司 4
260 中国联合网络通信有限公司北京市分公司 4
1166 北京南北天地科技股份有限公司 4
2533 华泰保险集团股份有限公司 4
2527 华夏银行股份有限公司北京分行 4
1283 北京国华电力有限责任公司 4
3281 谷歌信息技术(中国)有限公司 4
319 中工国际工程股份有限公司 4
1489 北京小米移动软件有限公司 4
1434 北京字节跳动网络技术有限公司 4
1575 北京康海天达科技有限公司 4
505 亿阳信通股份有限公司北京分公司 4
3092 瞻博网络研发(北京)有限公司 4
2130 北京经纬恒润科技有限公司 4
1663 北京拓尔思信息技术股份有限公司 4
3094 石化盈科信息技术有限责任公司北京分公司 4
3028 渣打银行(中国)有限公司北京分行 4
... ... ...
1348 北京大学口腔医院 1
1349 北京大安振业商业管理有限公司 1
1350 北京大宝化妆品有限公司 1
1351 北京大希科技有限公司 1
1352 北京大恒图像视觉有限公司 1
1353 北京大成律师事务所 1
1325 北京城际文化传播有限公司 1
1324 北京城建深港建筑装饰工程有限公司 1
1323 北京城建弘通物业管理有限责任公司 1
1322 北京城建八建设发展有限责任公司 1
1299 北京国锐信达动力科技有限公司 1
1300 北京国锐信达税务师事务所有限公司 1
1301 北京国际度假区有限公司 1
1302 北京国际电气工程有限责任公司 1
1303 北京国际(SOS)救援中心 1
1304 北京图书大厦有限责任公司 1
1305 北京图优谱信息技术有限公司 1
1306 北京圈网互动文化传播有限公司 1
1307 北京土人城市规划设计有限公司 1
1308 北京圣先福农种子有限公司 1
1309 北京圣凯盟商贸有限公司 1
1310 北京圣彩虹制版印刷技术有限公司 1
1311 北京圣彬科贸有限公司 1
1313 北京在线九州信息技术服务有限公司 1
1314 北京地下铁道通成广告有限公司 1
1315 北京地林伟业科技股份有限公司 1
1316 北京坚果先生科技有限公司 1
1317 北京坤和兴业科技有限公司 1
1318 北京埃文特朗科技有限公司 1
3429 JFE贸易(北京)有限公司 1

3265 rows × 2 columns

落户人数小于5人的公司有3265家

#落户人数前50的公司
company_sorted_data.head(50)
company people_count
1081 北京华为数字技术有限公司 137
312 中央电视台 73
2457 北京首钢建设集团有限公司 57
3082 百度在线网络技术(北京)有限公司 55
3194 联想(北京)有限公司 48
214 中国民生银行股份有限公司 40
2648 国际商业机器(中国)投资有限公司 39
1334 北京外企人力资源服务有限公司 39
174 中国国际技术智力合作有限公司 29
2514 华为技术有限公司北京研究所 27
3049 爱立信(中国)通信有限公司 26
3201 腾讯科技(北京)有限公司 24
2405 北京阿里巴巴云计算技术有限公司 23
240 中国石油天然气股份有限公司管道北京输油气分公司 20
3070 用友软件股份有限公司 20
434 中铁建工集团有限公司 19
356 中煤建设集团工程有限公司 17
118 中信银行股份有限公司 17
2815 微软(中国)有限公司 17
1507 北京市京才实业开发总公司 16
157 中国光大银行股份有限公司 16
3072 甲骨文(中国)软件系统有限公司 16
3270 西门子(中国)有限公司 16
422 中铁三局集团第四工程有限公司 15
438 中铁电气化局集团有限公司 15
2649 国际商业机器(中国)有限公司北京分公司 14
3379 阿里巴巴(北京)软件服务有限公司 14
324 中建二局安装工程有限公司 14
2899 施耐德电气(中国)有限公司 14
1271 北京四方继保自动化股份有限公司 14
357 中煤建设集团有限公司 14
3083 百度时代网络技术(北京)有限公司 13
2722 威睿信息技术(中国)有限公司 13
3231 英特尔(中国)有限公司北京分公司 13
482 亚信科技(中国)有限公司 13
3093 石化盈科信息技术有限责任公司 13
3378 阿里巴巴科技(北京)有限公司 12
17 一汽丰田汽车销售有限公司 12
2882 新华三技术有限公司北京研究所 12
194 中国建筑第二工程局有限公司 12
180 中国国际金融股份有限公司 12
3278 诺基亚通信系统技术(北京)有限公司 11
2524 华夏幸福基业股份有限公司北京管理咨询分公司 11
862 北京京东尚科信息技术有限公司 11
239 中国石油天然气股份有限公司北京销售分公司 10
3060 瑞斯康达科技发展股份有限公司 10
2369 北京铁路局 10
2018 北京用友政务软件有限公司 10
553 冠捷显示科技(中国)有限公司 10
2526 华夏银行股份有限公司 9
#前50的公司落户人数
num_50 = company_sorted_data.head(50).sum()['people_count']

print('前50的公司落户人数共有{}人,占总人数{}%'.format(num_50,round((num_50/6619)*100,2)))
前50的公司落户人数共有1122人,占总人数16.95%
#积分分数分布
#按照步长为5分桶统计下分数的分布
bins = np.arange(90,130,5)
bins = pd.cut(luohu_data['score'],bins)
bin_counts = luohu_data['score'].groupby(bins).count()
bin_counts
score
(90, 95]      3344
(95, 100]     1757
(100, 105]     653
(105, 110]     218
(110, 115]      32
(115, 120]      13
(120, 125]       2
Name: score, dtype: int64

积分主要分布在(90,95]区间内

#将index处理下
bin_counts.index = [ str(x.left) + '-' + str(x.right) for x in bin_counts.index ]
bin_counts.plot(kind='bar', alpha=1, rot=0)
plt.show()

北京积分落户数据分析_第1张图片

#年龄分布
#出生日期转换为年龄
luohu_data['age'] = ((pd.to_datetime('2019-09')-pd.to_datetime(luohu_data['birthday']))/pd.Timedelta('365 days'))
luohu_data.describe()

score age
count 6019.000000 6019.000000
mean 95.654552 43.130723
std 4.354445 2.814236
min 90.750000 34.020000
25% 92.330000 41.200000
50% 94.460000 43.110000
75% 97.750000 45.120000
max 122.590000 61.210000

积分落户最小年龄为34岁,最大年龄61岁,平均年龄43岁。

bins = np.arange(20,70,5)
bins = pd.cut(luohu_data['age'],bins)
bin_counts = luohu_data['age'].groupby(bins).count()
bin_counts
age
(20, 25]       0
(25, 30]       0
(30, 35]       4
(35, 40]     770
(40, 45]    3682
(45, 50]    1535
(50, 55]      18
(55, 60]       8
(60, 65]       2
Name: age, dtype: int64

积分落户年龄主要分布在(40,45]年龄段内。

bin_counts.index = [ str(x.left) + '-' + str(x.right) for x in bin_counts.index ]
bin_counts.plot(kind='bar', alpha=1, rot=0)
plt.show()

北京积分落户数据分析_第2张图片

你可能感兴趣的:(python数据分析)