@R星校长
最近在一个相对比较知名的房源网站上爬取了一份深圳各个区的租房信息,总共获得了2000*12
的数据集。
在获得了相应的数据之后,利用Python
的第三方库pandas
进行前期的数据清洗工作,最后可视化库plotly
绘制了相应的可视化图形进行了展示,并且得到了一些租房的结论,供租房者参考,自己对深圳的租房也有了一定的认识。
一、数据爬取
本文中获得的数据是自己通过爬虫从网上获取的。这个房源没有太多的反爬虫措施,所以爬取的过程没有遇到困难,比较顺利。数据集和代码已打包,提取码:56kj。提取码:q8ni 以下代码供参考。
1.1 导入各种库
首先,我们需要导入各种库,具体如下:
1.2 代码
下面是整个爬虫的源代码,主要是包含了以下几方面的信息:
Xpath
进行数据解析Python
中的字典类型数据转成json
类型数据,主要是掌握json
包的使用xlwt
进行数据的保存2.1 数据的读取
上面的数据保存成了excel数据,我们直接通过pandas的read_excel来进行数据的读取
下面对每个爬取的每个字段对应的含义进行了解释:
name: 小区的名字
layout:户型
location:朝向
size:房子建筑面积大小
sizeInside:套内面积大小
zhuangxiu:精装、豪装、普装、毛坯
numberFloor:楼层数
time:建成时间
zone:区
position:所在区的具体位置
money:价格
way:出租方式(整租或者合租)
2.3 原始数据信息
首先我们查看下数据的原始信息:
使用的是dropna函数,两个重要的参数:
axis:0表示行,1表示列
how:any表示至少有一个缺失值,all表示必须全部为缺失值
3.1 为何处理
对于我们已经获取到的数据字段,针对其中的某些字段,我们处理的只是其中某些信息,所以我们需要将它们从原始数据中提取出来再处理
3.2 处理方法
在这里介绍3种方法来处理数据:
apply
方法传入我们处理的函数或者方法replace
方法来处理我们看下处理前的前5条数据:
四、基于单个特征的分析
4.1 租房方式-way
首先对整个租房方式进行了处理和可视化展示,从下面的饼图中直接看出来:接近100%的房东选择整租的方式。
结论1:房东更愿意整租
第二,我们对比每个区的房源情况,从下面的饼图中,可以得到以下 结论2:
接下来对各种装修方式的房源进行对比分析。其中颜色表示的是各个区的房源数量,数量越多越接近蓝色
4.4 房子方位-location
接下来我们统计房源中每个房子的朝向,找出哪些朝向的房子更受欢迎。
通过饼图我们可以得到如下结论。
“ 结论3:朝南、朝南北、朝北3种方位的朝向显然更受欢迎。 ”
在房东提供的房源中,每个房子的房间数量不尽相同,分析统计每个房子的房间数量。
很明显的结论4:
“房子中房间数量为3,2,1的房子是非常多的 ”
接下来我们通过人力图来分析不同的行政区对房价的影响。通过热力图得到如下的结论5:
以上两个结论和实际情况也是符合的
在不同年份建成的房子,价格肯定是不同的,也造成了房子的出租价格不同。本节中分析房子的老旧(建成时间)对房租的影响
6.1 关内和关外
在很多年之前,深圳的行政区从区的城市建设风貌、市政管理、繁华程度等分为有关内和关外的说法
这种叫法目前是不存在了,但是每个区的经济实力不尽相同是不争的事实。
6.2 关内
通过观察关内的数据分布,可以看到:
在这里以南山区进行分析,具体过程为:
7.1 作图数据
先处理绘图需要的数据
为了分析某个区中房源分布、价格分布、楼层数等多因素对房租价格的影响,我们选择了南山区进行分析:
得到如下几点结论: