北京积分落户人员特点分析

分析方向:
1.公司对于落户人员的分布情况.
2.积分段对于落户人员的分布情况.
3.年龄段对于落户人员的分布情况.

#导入数据并以id字段作为行索引
luohu_data = pd.read_csv('bj_luohu.csv',index_col = 'id')
display(luohu_data)

北京积分落户人员特点分析_第1张图片

#查看每列情况(由于是网上下载数据,数据比较干净,所以不用做数据清洗)
luohu_data.info()

北京积分落户人员特点分析_第2张图片

#查看积分分布情况
luohu_data.describe()

北京积分落户人员特点分析_第3张图片

#按照公司来分类计算人员个数
company_data = luohu_data[['company','name']].groupby('company',as_index = False).count()
#对company_data的name字段名进行重命名
company_data.rename(columns = {'name':'people_count'},inplace = True)
#对每个公司的人员个数进行排序
company_data = company_data.sort_values('people_count',ascending = False)
display(company_data)

北京积分落户人员特点分析_第4张图片

#人数前50的公司
company_top50 = company_data.head(50)
display(company_top50)
company_top50.describe()

北京积分落户人员特点分析_第5张图片

#查看人数只有1人的公司的数量
company_data[company_data['people_count'] == 1].count()

在这里插入图片描述
结论:
在落户人数的公司排名上,华为公司具有绝对的优势.
在前50名的公司人数的平均值是22人.
所有公司中,有76.6%的公司落户人数仅有1人.

#查看积分分布
#引入分桶概念
bins = np.arange(90,130,5)
bins = pd.cut(luohu_data['score'],bins)
score_count = luohu_data['score'].groupby(bins).count()
print(score_count)

北京积分落户人员特点分析_第6张图片

#处理index
score_count.index = [str(x.left) + '-' + str(x.right) for x in score_count.index]
print(score_count)

北京积分落户人员特点分析_第7张图片

score_count.plot(kind = 'bar',alpha = 1,rot = 0)
plt.show()

北京积分落户人员特点分析_第8张图片
结论:
所有人数中有95%的落户人员的积分在90-105之间.
其中90-95分数的人数分布最多,占一半以上.

#查看落户人员的年龄分布
#加入年龄字段
luohu_data['age'] = (pd.to_datetime('2019-08') - pd.to_datetime(luohu_data['birthday']))/pd.to_timedelta('365days')
luohu_data.describe()

北京积分落户人员特点分析_第9张图片

#对年龄段进行分桶
bins = np.arange(30,70,5)
bins = pd.cut(luohu_data['age'],bins)
age_count = luohu_data['age'].groupby(bins).count()
print(age_count)

北京积分落户人员特点分析_第10张图片

#对index进行处理
age_count.index = [str(x.left) + '-' + str(x.right) for x in age_count.index]
age_count

北京积分落户人员特点分析_第11张图片

age_count.plot(kind = 'bar',rot = 0)
plt.show()

北京积分落户人员特点分析_第12张图片
结论:
35-50岁之间占所有人员的95%以上.
40-50岁之间的年龄段占比最大,占61%左右.
落户人员的年龄最小都是30岁以上.

你可能感兴趣的:(数据分析)