1.1.1 Q房网深圳二手房待售小区信息页
2、Q房网深圳二手房房源价格与各项指标信息页
code省略。
运行结果如下:
本文利用Anaconda里自带的Jupyter Notebook编辑器进行爬虫编写,新建Python3程序,首先创建请求头,定义初始化,爬取页及解析页的方法,将爬取得到的数据存为dataframe形式,并保存到本地txt文件中。
在进行数据分析之前,由于可能存在残缺补全的数据,因此需要先进行数据预处理,才能进行接下来的数据分析。首先使用Pandas库的read_csv方法打开前面爬取到的数据,并赋予各个列新的列名。
对【所在区域】列、【建设时间】列做数据清理,使用pandas库的str属性的split方法对数据进行切割,将多余的\r\n等去掉。其次,将【二手房现存量】和【租房现存量】列中除数字之外的字符去掉,并将这两列转换成int类型,便于后面我们对其进行数据可视化分析。
数据清洗结果如下:
表1 深圳市小区数据
属性名 | 描述 |
---|---|
小区名称 | 小区的名字 |
地址 | 区-街道 |
建设时间 | 该小区的建设时间 |
每平方米价格 | 每㎡的房屋价格 |
二手房现存量 | 该小区目前的待售二手房数 |
租房现存量 | 该小区目前的待租房数 |
表2 深圳市二手房源数据
属性名 | 描述 |
---|---|
二手房名称 | 二手房的名字 |
地址 | 区-街道 |
装修程度 | 该二手房装修的程度 |
房屋类型 | x室x厅 |
楼层 | 该二手房的整栋楼层数 |
朝向 | 阳台的朝向 |
单价 | 每平方米的价格 |
面积 | 该二手房的占地面积 |
总价 | 参考价格,为单价和面积的乘积 |
利用describe(),可以得到深圳市小区二手房源的描述性统计信息,该函数的返回值有均值、标准差、最大值、最小值、分位数等。从表格中我们可以发现深圳市在售二手房的小区的每平方米价格达到了63738.0元/平方米,平均的二手房现存量为13.4套,平均租房现存量为11.1套。
通过describe(),得到数据的描述性统计,可以发现:在Q房网这抽取出来的392套深圳在售二手房中:①单价的平均值为60387.19元/㎡;②面积的平均值为87.24㎡;③总价格的均值为547.68万元。此外,单价最高的二手房达到了惊人的14.8万元/㎡。
根据清洗后的深圳市二手房小区的数据,通过绘制散点图,分析深圳市小区租房现存数和二手房现存数的相关关系。x 轴表示租房现存数,y 轴表示二手房现存数。
可以发现:随着深圳市小区的租房现存数的增加,二手房现存数也在增加,虽然关系并不明显,但可以判断两者之间存在一定的正相关关系。
从深圳市二手房每平方米价格排名倒数前十小区排行榜中,我们可以看见二手房售价最低的小区是东津名座,价格仅为20000元/平方米。其它的低价楼盘大多在25000~30000这个区间内,可见深圳市二手房的价格基本处在两万以上的标准,对于二手房市场来说,这在全国范围都算是一个很高昂的价格。
分区后,统计深圳各区的待出售或待出租二手房的小区数目,发现龙岗和福田位居榜首,总数为63个。南山和罗湖紧随其后,分别为57个、53个。宝安和龙华分别是37个、21,处在第三梯队。最后四个区的带出售或出租二手房的小区数目过少,这个指标可能与各区的经济发展水平和人口密度息息相关,较发达地区的二手房需求更大,供应数量更多,二手房市场更加火热。
基于上面的深圳各区待售二手房小区数目统计(饼图),进一步对其剖析,绘制深圳各区二手房和租房现存量总量与均值统计(堆叠直方图)。红色方块代表二手房现存量总计与均值,灰绿色方块代表租房存量总计与均值。从总量统计结果上看,龙岗、罗湖、福田和南山的二手房房源相对充足,从均值统计结果来看大鹏新区、光明区的均值反而更高,说明虽然这两个区的二手房小区少,但是平均提供的房源却相对更高。
深圳各区的小区均价呈现阶梯式下降,每个区之间的差距大概在5000~10000元/㎡左右,从南山到大鹏新区,每平方米价格的平均值差距达到了惊人的50000元/㎡。
二手房分布集中在龙岗、罗湖、福田、南山、龙华、宝安等地区,二手房分布区域最多的地方不是单价最高的南山,反而是中等价格的龙岗区。
租房方面,光明、盐田、坪山、大鹏新区非常少租房房源挂在平台上,可能是这些地区的租房需求相较更发达地区而言比较小。
通过建立深圳各区的二手房、租房、每平方米价格的三维分析,以区为类别进行颜色划分,X轴为二手房现存量,Y轴为租房现存量,Z轴为每平方米价格。每个点代表一个小区。
可以发现,龙岗区是二手房和租房存量最高的,并且价格处于中流水平,如果在次级考虑地段的情况下,这里是比较理想的二手房购房地,有很多二手房可供选择,价格也处在中下段,具有比较高的性价比。
南山、福田、宝安、罗湖,房价较高,二手房待售数和租房待租数目处在中等数量级,可选项也较多,适合更多考虑通勤和离市中心远近的二手房卖家考虑。
其它区(光明、坪山等),二手房和租房待售数很少,建议价格不敏感者考虑买一手房,价格不会与二手房相差太大,而且还能够节省转移过户的复杂手续。
从深圳各区二手房数目统计来看,龙岗的二手房数目最多,宝安、南山、罗湖二手房数处在第二梯队,而光明、坪山、盐田、大鹏新区这四个区的二手房在售数较少,这与之前分析二手房在售小区的数据分析结果一致,可见较发达的区的二手房房供应量更大,二手房交易市场更为发达,这可能也与深圳较为快速的人口流动有关系。
从深圳二手房户型统计来看,3室2厅有121套,2室2厅有76套,4室2厅有50套,1室1厅有41套,2室1厅有21套,这五个户型为深圳二手房主要户型,而5室1厅往上走的大户型比较少见,可见在售二手房多为普通常见的中小户型。
从装修程度来看,精装占到了64.79%,简装占到了31.38%,而毛坯房仅仅占到了3.83%,可见大多数出售二手房的户主都是已经装修好或者是居住过一段时间的了,较少未使用过房屋者进行二手房出售。
从朝向比例来看,朝南占到了53.32%,朝东南占到了10.71%,朝东占到了8.16%,可见大多数深圳二手房都是朝向南或者是东南居多,鲜少二手房朝向西或北。这与中国建筑文化、风水文化相关,大多数家庭都会第一考虑朝南的户型。
从深圳二手房平均价格综合分析:二手房单价均值和总价呈现梯形分布,逐级递减。
第一梯队(75000-90000元/㎡ ,750万-1000万)为:南山、福田,第二梯队(55000-60000元/㎡ ,450万-550万)为:宝安、龙华、罗湖,第三梯队(30000-45000元/㎡ ,250万-400万)为:光明区、龙岗、盐田、坪山、大鹏新区。
为了探索二手房标题后的规律,使用jieba分词,对标题进行切分,然后统计该样本中出现频率较高的“关键词”,再用可视化的方法予以视觉上的突出,画出标题的词云图。
由词云分析得出,房屋中介为了更快的卖出二手房,最喜欢的标题是“满五年”、“花园”、“精装修”、“地铁”、“户型方正”、“南北通透”、“满两年”等结论。其中,满五年与满两年这里涉及到税务问题,如果你在买二手房的时候,买到“满两年”的房子(普通住宅),那么可以省下缴纳增值税的钱;如果你买到“满五年”的房子(普通住宅),那么可以省下缴纳增值税和个人所得税的钱。花园、精装修、户型方正说明二手房中介认为房屋装修情况和户型是人们购买二手房的重要考量要素,还包括地铁交通、通风采光等。
K-Means聚类是指对于给定的样本集A,按照样本之间的距离大小,将样本集A划分为K个簇,让这些簇内的点尽量紧密地连在一起,而让簇间的距离尽量大。这里我们使用用直方图展示每一个类别有多少二手房,设置聚类数目为4,可以聚出第一个簇数目为69,第二个簇数目为29,第三个簇数目为218,第四个簇数目为74。HC聚类通过创建一个有层次的嵌套聚类树,利用不同类别数据点的相似度来创建。通过系统聚类树,可以更加灵活地确定聚类的数目。
本文利用 Python 爬取Q房网上深圳二手房的相关信息,将采集到的二手房信息进行数据清洗过滤,通过可视化分析提炼出能帮助人们做出购房决策的信息。
经过数据分析,得出以下结论:从二手房分布来看,深圳市龙岗区的二手房待售数最大,二手房小区数目最多,而大鹏、光明等新区二手房市场规模较小;从二手房价格来看,南山、福田稳居前二,罗湖、宝安紧随其后,区之间的二手房价格相差很大;从户型来看,深圳二手房最常见户型是3室2厅;从标题来看,大都包含五年、花园、精装修、地铁等结论。
这个方法不仅局限于深圳二手房信息,也可以适用于不同城市的买房租房需求,购房租房人员可以据此掌控房屋市场动态,然后做出合理抉择。