链家网沈阳二手房数据分析——从数据爬取到数据分析

链家网沈阳二手房数据分析——从数据爬取到数据分析_第1张图片数据爬取主要是通过使用requests实现的,鉴于爬取数据的流程简单以及电脑的性能所限,没有使用scrapy框架,而是使用where循环手动控制页码的形式,每次爬取5页信息,并将信息写入.csv文件中。
得到数据后,首先看一下数据的描述性变量,通过print(data_read.describe())得到如下结果:
在这里插入图片描述观察网页,发现实际上当前区域只有1542套房源,可以得知数据里面包含了重复数据。
在这里插入图片描述这是由于在爬取信息时采用了手动改变页面的形式,每次爬取后在写入csv文件时,都会写入一个表头,所以造成了表头重复,这里需要把表头去重。

no_repeat_df = data_read.drop_duplicates()#去掉重复行

去重后再次查看信息行数:print(norepeat_df[‘名称’].count()),结果为1542,数据条数与原始数据一致。
检查缺失值,print(norepeat_df.info()),结果如下:
链家网沈阳二手房数据分析——从数据爬取到数据分析_第2张图片这里通过初步观察,没有发现缺失值,都为1542。

数据可视化分析
接下来假设当前数据没有问题,首先进行楼盘特征分析。对于楼盘特征,我们可以分析不同楼盘房价和数量的对比。

链家网沈阳二手房数据分析——从数据爬取到数据分析_第3张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第4张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第5张图片这里使用了pandas的网络透视功能groupby 分组排序。楼盘特征可视化直接采用 seaborn完成,颜色使用调色板palette 参数,颜色渐变,越浅说明越少,反之越多。可以观察到:
二手房均价:翠堤豪园的房价最贵均价大约8.8万/平,因为小区在新世界楼盘板块,且是别墅园区。其次是新世界名铸湾畔 大约5.7万/平,然后是新世界花园卓铸 大约4.1万/平,其它均低于4万/平。
二手房房数量:从数量统计上来看,目前二手房市场上比较火热的楼盘,世贸新五里河二手房数量最多,差不多有260多套,毕竟园区大,需求量也大。然后是新世界地块的三个小区,都在100到150套之间。
二手房总价:通过箱型图看到,各大楼盘房屋总价中位数大部分都集中在1000万以下,个别小区房屋总价离散值较高,说明房屋价格特征不是理想的正太分布。

接下来进行面积特征分析。
链家网沈阳二手房数据分析——从数据爬取到数据分析_第6张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第7张图片面积分布:通过 distplot 和 kdeplot 绘制柱状图观察面积特征的分布情况,二手房面积主要集中在40-180平之间,同时有少量面积很大的二手房。
面积与价格的关系:通过 regplot 绘制了面积和 价格之间的散点图,发现面积特征基本与价格呈现线性关系,符合基本常识,面积越大,价格越高。

第三,进行房屋户型分析。
链家网沈阳二手房数据分析——从数据爬取到数据分析_第8张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第9张图片房屋户型分析:由图可知,占据市场主导的房屋户型主要是3室2厅、2室2厅,三好街高端楼盘较多,多功能分区在这些高端楼盘是很普遍的;紧随其后的是2室1厅和1室1厅,三好街同时也拥有大量老楼盘,老楼盘大多采用这种传统户型; 4室2厅作为新兴楼盘的户型,对于传统家庭(5口人)在性价比上是较为合适的。
房屋户型和面积的关系:1室的房屋面积大多在100平以内,主要集中在30-80平之间,比较符合实际情况,其中出现了1室但面积在500平以上的数据,有些不符合常识,需要取看一下数据的准确性。通过temp = norepeat_df[norepeat_df[‘面积’].apply(lambda x:x>500)]和print(temp[norepeat_df[‘房屋户型’].str.contains(‘1室’)])两行代码可以获取到以下结果:
在这里插入图片描述推测此房屋可能属于非住宅,为商用房屋。
2室1厅到3室2厅房屋面积大多在80-150平左右,这类的房屋也是最多的。4室2厅的房子形成了一个小高峰,面积大多在150-280平之间,属于大户型,结合之前的房屋户型分析图,不难分析这种面积的户型存在的合理性。

第四:进行装修情况特征分析。
链家网沈阳二手房数据分析——从数据爬取到数据分析_第10张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第11张图片由图表观察到,精装修的二手房数量最多,简装其次,毛胚房最少。
对于价格来说,毛坯类型平均单价却是,其次是精装修,简装房价格最低。

第五:进行建成年代特征分析。
链家网沈阳二手房数据分析——从数据爬取到数据分析_第12张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第13张图片源数据经count函数处理后发现,建成年代出现了“[] 139”数据,查看原始网页,发现这类的数据在网站上就没有录入建成年代,因此要在绘制统计图之前,将数据处理为“其他”;在处理装建造年代及装修情况和售价之间的关系图时,要去掉建成年代不明的数据。
建造年代分布分析:从1990年到2020年建成的房子,二手房屋数量整体呈上升趋势。在1998年到2000年间建成的房子,二手房屋数量大幅增加,然后直到2011年建的房子二手房数量都在较低水平波动,2012年至2016年间建造的房屋二手房数量整体呈上升趋势,2016年达到顶峰,之后逐年下降。进入2012年后,高端楼盘开始入驻三好街区域,婚房、改善性住房及政府相关扶持政策,都是相关房源数量增加的原因。
建造年代及装修情况和售价之间的关系分析:整个二手房房价趋势是随着时间增长而增长的,其中2010年以后建造的房子二手房房价相较于2010年以前有很明显的价格上涨;2000年之前几乎不存在毛坯房数据,说明2000年之前房屋或多或少带有装修;2000年之前带装修的二手房中,精装二手房占绝大多数,简装房反而很少。

第六:进行所在楼层特征分析。
查看源数据,发现楼层数据为“中楼层(共32层)”格式,这里需要再次拆分,增加一个总楼层字段,即格式为“所在楼层:中楼层,总楼层数:32”。

norepeat_df['所在楼层']=norepeat_df["楼层"].apply(lambda x:x.split('(')[0])
norepeat_df[‘总楼层数’]=norepeat_df["楼层"].str.replace('[\s(\u4e00-\u9fa5)]','',regex=True)

1.相对楼层分析。
链家网沈阳二手房数据分析——从数据爬取到数据分析_第14张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第15张图片这里的楼层是相对于房屋的总的楼层,由图表可以看出,高层房屋数量最多,最受人们欢迎,比较受欢迎其次是中层和低层,数量最低的是2层,这里的2层是别墅,这也很符合大众很少会买别墅的的购房习惯。
抛开不符合大众购买习惯的别墅,常规住宅中,低楼层的房屋单价比较高,其次是中层,高层房价最低,但和中层房价差距不大。
结合以上两个图不难看出,价格最低的高层楼的数量最多,其次是价格略高一些的中层楼的数量,然后是价格较高的低层楼的数量,最少的是价格最高的别墅的数量。这说明价格对于人们购买房屋的影响是巨大的,价格和房屋数量成反比。
2.层高分析。
链家网沈阳二手房数据分析——从数据爬取到数据分析_第16张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第17张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第18张图片
总楼层高度在超高楼层(24层以上)的数量最多,消费者更加偏好超高楼层的房屋,其次是多层(3<楼层<=8),低层(楼层<=3层)的数量最少,自2006年以后的房屋大多为超高层,推测原因可能是超高楼层房屋价格较底层低廉,以及三好街寸金寸土,开发商也偏向于开发超高层楼盘。

第七:进行房屋朝向特征分析。
count一下,发现原始数据不规律,需要进行处理:这里需要将空格去掉,并且将类似于“西东”、“东西”的数据合并为一条。
链家网沈阳二手房数据分析——从数据爬取到数据分析_第19张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第20张图片由图表可知:在数量上,南北向的房子数量最多,最受人们欢迎,其次是南向的房子数,其他方向的房子数量只有极少部分。三个朝向的房子一般为别墅,所以房子数量最少。在价格上,三个方向的别墅价格最高,其次在普通住宅中,南北方向的房子价格最高,其次是单独朝南方向,价格最低的是东西方向的房子,也就是俗称的“东西厢房”。

第七:进行房屋面积特征分析。
链家网沈阳二手房数据分析——从数据爬取到数据分析_第21张图片链家网沈阳二手房数据分析——从数据爬取到数据分析_第22张图片总体来看房源大部分为90-120平之间,其次是120-200平之间;不同小区户型的占比情况有所不同,新小区大户型房源数量多,老小区小户型房源数量多;所有小区的中型房源数量都处于居中位置,数量不是最多也不是最少的。

你可能感兴趣的:(Python,python,数据分析)