前言
1. 关于数据集
数据来源:日月光华老师的《Python数据分析从入门到机器学习》的 lianjia 数据。
数据概况:
- cjtaoshu:成交套数
- mendian:门店
- cjzongjia:成交总价
- zhiwei:职位
- haoping:好评
- cjdanjia:成交单价
- cjxiaoqu:成交小区
- xingming:姓名
- cjzhouqi:成交周期
- biaoqian:经纪人标签
- cjlouceng:成交楼层
- cjshijian:成交时间
- congyenianxian:经纪人从业年限
- bankuai:板块
2. 分析环境
- Python3
- jupyter notebook
一、数据读取、数据观察与合并数据
1. 数据读取
可以看到一共有7个csv文件,而且由于数据文件的编码方式不统一,在循环读取的时候需要做一下处理。
代码:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
data_list = []
for i in range(1, 8):
try:
data = pd.read_csv('./lianjia/lianjia{}.csv'.format(i), encoding='gbk')
except:
data = pd.read_csv('./lianjia/lianjia{}.csv'.format(i))
data_list.append(data)
2. 合并数据
concat()方法
data_list里的数据的数据格式都是完全统一的,这里用pandas的concat()方法。
data = pd.concat(data_list)
data.head()
3. 确定分析目标,提取需要数据
分析目标:做一个房产估价模型,给定一些房子信息,模型估计出单价。这里需要:cjdanjia(成交单价),cjxiaoqu(成交小区),cjlouceng(成交楼层),bankuai(板块)。
data = data[['cjdanjia', 'cjxiaoqu', 'cjlouceng', 'bankuai']]
二、处理缺失值与重复值
1. 缺失值
isnull()方法
# 删除全部为null的值
data.dropna(how='all', inplace=True)
这里(bankuai)板块部分数据相对来说不是那么的重要,所以有缺失值问题不大,这里不做处理。
2. 重复值
duplicated()方法
由于在处理缺失值时,对板块数据没有进一步处理,在判断是否是重复值时就会存在这样一种情况:非null数据相同,但是板块数据一个为null,一个不为null,这其实是重复数据,所以在判断是否为重复值时,使用非null的数据判断:
(data.duplicated(subset=['cjdanjia','cjxiaoqu','cjlouceng'])).sum()
>>> 20012
drop_duplicates()方法
sort_values()方法
使用drop_duplicates()方法删除重复值时,会默认把后面的重复值删除掉,为了尽量保留有板块值不为null的数据,这里先使用sort_values()方法排序,该方法默认把包含null的值放后面。
data.sort_values(by='bankuai', inplace=True)
data.drop_duplicates(subset=['cjdanjia','cjxiaoqu','cjlouceng'], inplace=True)
三、数据类型转换、异常值处理以及数据离散化分析
1. 数据类型转换
将cjdanjia转换为数值类型,以万元为单位,保留两位小数。
# 判断数据是否都包含'元/平' ~:取反
(~data.cjdanjia.str.contains('元/平')).sum()
>>> 0
data = data.assign(cjdanjia = np.round(data.cjdanjia.str.replace('元/平', '').astype(np.float32).map(lambda x:x/10000), 2))
2. 异常值处理
按照北京房价行情分析,成交单价的最小值应该在5000元以上(主观推测),所以去掉成交单价小于5000的数据。
data = data[data.cjdanjia > 0.5]
3. 数据离散化分析
区间画图显示分析
bins = [0, 1, 2, 3, 4, 5, 7, 10, 15]
pd.cut(data.cjdanjia, bins).value_counts().plot.bar(rot=20)
由于这里分析的数据是2011~2016年之间的数据,所以可以看到成交单价大部分分布在2到4万之间。
四、字符串处理
这里以成交楼层(cjlouceng)数据为例学习字符串处理方法。由前面的图可以看到成交楼层(cjlouceng)数据都是以两个'/'分成了三部分,这里先判断一下。
(data.cjlouceng.str.split('/').map(len) != 3).sum()
>>> 0
然后从成交楼层数据中提取朝向和楼层信息,并以此添加两列数据。
data = data.assign(chaoxiang = data.cjlouceng.map(lambda x:x.split('/')[0]))
data = data.assign(louceng = data.cjlouceng.map(lambda x:x.split('/')[1]))
查看楼层数据都有哪些:
unipue()方法:返回唯一值
data.louceng.unique()
>>> array(['低楼层', '中楼层', '高楼层', '地下室', '未知', ''], dtype=object)
经分析这里louceng数据包含 '未知' 和 '' 的数据数量很少,而且信息不全,这里将其删除掉。
data = data[(data.louceng != '')&(data.louceng != '未知')]
get_dummies()方法
楼层数据不是数值,无法丢进模型进行分析,这里用pandas的get_dummies()方法数值化信息。
data.join(pd.get_dummies(data.louceng))
其他字符串类型数据处理方式大致相同。
五、分组运算与布尔过滤
在前面第一节:确定分析目标,提取需要数据中再加上 'xingming' 和 'cjzongjia','congyenianxian',其他不变。
1. 分组运算
分析:所有的板块中,经纪人成交总价值超过1亿的经纪人。
groupby()方法
data_group = data.groupby(['bankuai','xingming'])['cjzongjia'].sum()
2. 布尔过滤
data_group[data_group > 10000]
3. 透视表分析
进一步思考:这些成交总价超过一亿的经纪人有什么特点?跟从业年限(congyenianxian)的关系。
pivot_table()方法
data_1w = data.pivot_table('cjzongjia', index='xingming', columns='congyenianxian', aggfunc=sum)
#绘制饼图
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
(data_1w > 10000).sum().plot.pie(figsize=(6,6))
此图很明显的说明了一个问题:对经纪人来说,从业年限越高,他的成交总价超过一亿的人数就越多。
总结
通过对lianjia数据的分析处理,进一步巩固了Python数据分析数据预处理的一些方法。