重庆链家租房数据分析

     据数据统计,2020年我国城城流动人口已经达到8000多万,相比2010年的4600万已经增加了一倍。《2020中国青年租住生活蓝皮书》中显示在城市租住人群中,30岁以下占比超过55%,其中31.48%都是26-30岁租客,而2020年初贝壳找房发布的《2019租客居住报告》中重庆的租客平均年龄为28.2岁,是所有城市样本中最低的。从统计数据可以看到,当下年轻人租房需求非常普遍。

       在建筑房产交易相关领域,相比新房和二手房交易,租房交易频率高,资金日常且稳定,“租住”的买方和卖方基本涵盖了房屋建成交付后的住房消费全生命周期。

       作为曾经在建筑设计行业的打工人,虽然平日画的设计图纸的对象是地产新房,但同样经历过几次自己或者帮助建议他人的租房经历。在“租住”需求如此普遍的背景下,想要通过近日重庆租房房源数据分析的方式,了解当下居住的城市—重庆的租房市场以下几个问题的答案:

    • 租房房源会留存多久?房东放上房源后大概多久能够定下租客?租客寻找租房,比预定入住时间提前多久关注寻找房源比较合适?

    • 重庆主城区九区,房源在各区块上分布情况是怎么样的?

    • 整租/合租房源户型数量和价格分布是怎样的?

    • 以区块、小区为单位,房源性价比是怎么分布的?

  • 数据来源:爬虫爬取2022-09-02链家重庆主城九区租房房源

  • 数据描述:数据包括2022-09-02当日链家网站重庆主城九区租房房源共17688条房源数据,包括房源验真编号、区域、房源上架时间、价格、租赁方式、户型、所在楼层、面积等信息

  • 使用工具:

    • 总体数据的导入拼接、预处理在python3平台上完成

    • 字段拆分等处理在PowerPivot上完成

    • MySQL平台提取分析

    • Tableau可视化展现

  • 分析结构:

重庆链家租房数据分析_第1张图片

  • 分析结论概览:

    • 房源留存时间:

      • 5~6天左右平均留存时间,68.6%房源集中在前6天,6天后逐渐开始明显下降

      • 租客寻找房源基本可以参考5~6天左右安排看房计划,房东方面在房源上架超过7天后也需要及时考虑信息补充,优化条件等措施

    • 房源区域分布:

      • 房源集中在中央的渝北、江北、渝中、沙坪坝等六区,六区房源数量分布均匀,小区数量基本与区块面积大小相关

      • 房源小区的分布相对反映了区块人口和经济发展的差别,后续找房如无区域要求优先考虑中间六区

  • 房源整体情况:

    • 整租房源居多,房源所处楼层分布较均匀,房源楼栋基本在6层以上,以19-33层高层为主,看房一般以提前预约的方式为主。需留意:部分楼栋高于6层的无电梯,约十二分之一房源为商用水电

  • 整租与合租户型数量:

    • 整租以1~4室户型为主,2室1卫最多;1室1卫次之,3室的户型基本为1卫或2卫,剩下4室2卫较多144.3㎡。

    • 合租以3~5室户型为主,4室2卫户型最多,5室2卫次之,4室、5室的户型总体占比都比较多,基本为1~3卫,3室总体占比次之,以1卫、2卫为主,主流占比的户型中合租卧室的平均面积在17~18㎡左右。

  • 整租与合租区域性价比

    • 整租1~4室中1室房源均价明显高出其他户型很多,2~3室基本遵循人均租金逐渐降低的规律,四室开始人均租金比较不均匀,价格反而随户型卧室数

    • 合租1~2室均价最高,九龙坡、南岸区1室,沙坪坝、渝中区2室均明显低于其他区均价,应属于价格洼地,如果需求相同可重点关注。整体上随卧室数增多均价下降,沙坪坝区整体均价较低,在600左右

    • 江北、渝中、渝北整租合租的人均租金都明显高于其他区,尤其江北、渝中的整租房源,渝北的合租房源人均价格与其他区有明显差距

  • 区域小区户型性价比参考:统合布置了房源性价比动态看板,可结合区域户型需求寻找

重庆链家租房数据分析_第2张图片

一、数据情况和预处理

1、数据来源

    基于之前找租房的经历,数据来源的选取原则有:

  • 真实性:

    • 受限于平台房源验证策略和面对的房东群体,租房平台的房源数据中可能存在中介低价高质的引流虚假信息,这会造成数据的失真。

    • 链家的房源数据有平台规则和验真编号保证真实房源,因此选定链家中有 验真编号房源数据

  • 时效性:

    • 对于房东与租客双方,房源信息都是一段时间内有效的,交易的意向时间比较短,提早和迟了都对当下决定没有参考意义。在找租房信息时,如果比预定入住时间太早看房,看中的房源不能定下来最近入住,房东仍需要继续找租客,租客也不能保证期间是否会是其他人成交

    • 因此决定数据由爬虫爬取当天(2022-09-02)的全部重庆九区的房源信息

2、处理数据

1.将爬虫爬取的各区具体信息拼合后字段信息如下:

重庆链家租房数据分析_第3张图片

2. 拼合共21923条数据,去重全部字段重复的值后剩余17688条数据

3.统计缺失值,可以看到基本是验真编号的缺失附带的基本信息缺失,因验真编号对应房源识别,直接去除验真编号缺失值,去除后果然只剩余16条经纬度缺失,可忽略

重庆链家租房数据分析_第4张图片重庆链家租房数据分析_第5张图片

3.字段内信息需要提取和拆分处理,导出数据到excel,进入PowerPivot将验真编号、房型、楼层、房源介绍字段拆分出需要信息并调整数据类型,重新导入python

重庆链家租房数据分析_第6张图片

4. 统计‘验真编号’重复数据,发现存在仅上架时间、维护、价格存在差别,其余客观指标均相同的记录,可以判断是同一房源,价格后续有变动,产生了多条记录,时间较新的记录排序较后。因此取验真编号、标题(包含了租赁方式/小区/户型/朝向等信息的集合字段)、面积、所在楼层均相同的判断为同一房源,去重保留最后的数据。

去重剩余16683条数据

rent_r.drop_duplicates(subset=['房源验真编号','房源标题','面积','所在楼层'],keep='last',inplace=True)

统计缺失值,关键字段如验真编号、价格、面积等无缺失值,其余缺失值基本可忽略

去重后房源标题、维护字段已不再需要,重定义列去除

5.python导入MySQL中rent库作为rent表,另有爬虫抓取的小区-区位-区表去重后导入为position表,后续需要时连接

3、字段含义

通过拆分提取处理,最终得到信息字段有:

房源验真编号

作为房源的代表ID

区域、区块

区域:在重庆的哪个区

区块:区下的大致区块位置(在position表中)

小区

小区名

房源上架时间

房源信息的上架时间

租赁方式

整租还是合租

价格

季付方式下月租金

室, 厅, 卫生间

房型的卧室、厅堂、卫生间数量

所在楼层

房源所处楼层

楼栋分类

按房源所在楼栋总楼层数划分多层、小高层、高层、超高层等

面积

网页标注房源面积,㎡为单位

朝向

房源朝向

地铁

是否近地铁

经度, 纬度

地理位置信息

可入住时间

房东设置租客可入住时间

电梯, 用水, 用电, 燃气

是否有电梯,水电燃气是民用还是商用

看房方式

房东设定的方便看房时间

二、租房信息留存时间

1.各区房源信息平均留存时间

计算房源上架时间到数据采集时间的时间间隔,再求出各区的平均留存时间

SELECT `区域`,ROUND(AVG(diff),1) as '平均留存时间' 
FROM ( 
    SELECT `房源验真编号`,`房源上架时间`,`区域`,
            TIMESTAMPDIFF(DAY,`房源上架时间`,'2022-09-02') as diff 
    FROM `rent`
     ) AS day_diff 
GROUP BY `区域` 
ORDER BY `平均留存时间`

重庆链家租房数据分析_第7张图片

2.留存时间房源数量分布

以留存天数分组,统计房源数量,得到不同留存天数下房源数量分布

SELECT diff,COUNT(`房源验真编号`) 
FROM day_diff 
GROUP BY diff 
ORDER BY diff

重庆链家租房数据分析_第8张图片

结论:

  • 从各区的平均留存时间看,天数相差不大,总体在4.8~5.8天内,也就是5~6天左右

  • 从留存时间的房源数量分布看,房源集中在前6天,6天后逐渐开始明显下降,前6天的房源数量合计占总数量的68.6%

  • 结合来看,租客寻找房源基本可以参考5~6天左右安排看房计划,房东方面在房源上架超过7天后也需要及时考虑信息补充,优化条件等措施

三、房源区位分布

重庆链家租房数据分析_第9张图片

结论:

  • 可以看到房源集中在中间的渝北、江北、渝中、沙坪坝等六个区,六区房源数量在2000~2700,房源小区数量在400~650之间,小区数量基本与区块面积大小相关

  • 巴南、北碚、大渡口三区房源数量锐减,结合中间六区,房源小区的分布也相对反映了 区块人口和经济发展的差别

  • 后续区域详细分析关注中间六区

四、房源整体情况

重庆链家租房数据分析_第10张图片重庆链家租房数据分析_第11张图片

结论:

  • 以整租房源为主,所处楼层分布较均匀,楼栋基本在6层以上,以19-33层高层为主,看房以提前预约的方式为主

  • 有12%无电梯多于2.6%的多层,高于6层无电梯影响较大,需留意

  • 以民电为主,约十二分之一为商电,需留意水电缴费性质

  • 基本都有燃气

五、整租/合租情况分析

1、人均租金

为方便后续比较价格时标准的统一,按每室一人,计算人均租金(合租标记价格为单人的,保留;整租按卧室数均分)

Update rent 
set `人均租金`= 
    CASE 
        WHEN `租赁方式`='整租' THEN `价格`/`室` 
        WHEN `租赁方式`='合租' THEN `价格` 
    ELSE 
        '缺失' 
    END

2、整租/合租房源情况

以`租赁方式`,`室`,`卫生间`分组统计房源数量、平均面积。

以室和卫生间为维度,房源数量为大小和颜色区分,做出树形图,标注户型、户型平均面积、房源数量占比。

重庆链家租房数据分析_第12张图片重庆链家租房数据分析_第13张图片

结论:

  • 整租房源中:2室1卫户型是最多的,平均面积74.7㎡;1室1卫次之,平均面积48.8㎡;3室的户型总体是最多的,基本为1卫或2卫,平均面积94~114㎡,剩下4室2卫较多,平均面积144.3㎡。

  • 合租房源中:4室2卫户型最多,5室2卫次之,4室、5室的户型总体占比都比较多,基本为1~3卫,3室总体占比次之,以1卫、2卫为主,主流占比的户型中合租卧室的平均面积在17~18㎡左右。

  • 合租的主流户型要比整租的卧室数多

六、区域&户型租金性价比

1、区域&户型租金性价比

重庆链家租房数据分析_第14张图片重庆链家租房数据分析_第15张图片

结论:

  • 整租房源中:

    • 在房源数量占比最多的1~4室区间:1室房源均价最高,比其余户型多出不少,因为1室整租一般为单间配套,人均使用面积一般要大于其他户型,独立性高,比较受年轻人的欢迎,所以均价高出其他户型是符合常理的

    • 2~4室同区域基本遵循人均租金逐渐降低的规律,部分区域四室反而会比三室高一些,可能是这区间户型已经面对家庭或分租二房东比较多,四室反而比较受欢迎

    • 后续4室以上的户型人均租金比较不均匀,可能原因有到大户型区间卧室数多更受欢迎,也有后续房源数量少,部分大户型高价房源拉高了均价

    • 1~4室区间江北区、渝中区整体租价较高,渝北区4室以上均价较高

    • 租客和房东均可按具体房源户型和区位选择参考均价或预算

  • 合租房源中:

    • 1~2室均价最高,合租1室能存在单间和多室户型标注一室的情况,可能需要关注具体户型图,但九龙坡、南岸区1室,沙坪坝、渝中区2室均明显低于其他区均价,应属于价格洼地,如果需求相同可重点关注

    • 在房源数量占比最多的3~5室区间:整体上随卧室数增多均价下降,沙坪坝区整体均价较低,在600左右,渝北、渝中区整体均价较高,在800左右

  • 整租与合租对比:

    • 整体看江北、渝中、渝北整租合租的人均租金都明显高于其他区,尤其江北、渝中的整租房源,渝北的合租房源人均价格与其他区有明显差距

    • 1室户型以整租数据为准,中间6区价格在1500~2700,如能接受多室合租,则租金能下降一半

    • 2室户型一般整租较划算,但渝中区、沙坪坝区合租最划算,几乎是合租性价比最高的选择

    • 整租4室以上大户型及1室单间配套价格较高,合租2~3室小户型价格较高,但后续合租卧室数增加均价降低幅度有限,考虑多人干扰,性价比不高

2、 小区&户型租金性价比

基于前面区域房源数量分布的分析,选取中间6区房源数量前10的小区分析:

SELECT `区域`,`小区`,`人均租金`,`室`,`租赁方式`,`卫生间`,`楼栋分类` 
FROM `rent` 
WHERE `小区` IN ( 
    SELECT `小区` 
    FROM ( 
        SELECT `区域`,`小区`,num,RANK() OVER(PARTITION BY `区域` ORDER BY num DESC) ra 
        FROM ( 
            SELECT `区域`,`小区`,COUNT(`房源验真编号`) as num 
            FROM `rent` 
            WHERE `区域` not in ('北碚区','大渡口区','巴南区') 
            GROUP BY `区域`,`小区`
             ) T1
         ) T2 
    WHERE ra<=10)

重庆链家租房数据分析_第16张图片重庆链家租房数据分析_第17张图片重庆链家租房数据分析_第18张图片

结论:

  • 根据数量热力图基本可以看出该小区主流户型,对应户型与均价热力图选择

  • 假设我想在中间6区,选择1~2室性价比房源,结合之前的区域均价分析:九龙坡、南岸区一室,沙坪坝、渝中区两室,根据均价与数量热力图,我会重点关注九龙坡区:北大资源燕南小区一室(均价1100 房源数14)、汇祥荟广场小区一室(均价1200 房源数32),沙坪坝区:重庆融创文旅城御华小区两室(均价588 房源数13)、富力院士廷两室(均价600 房源数5)

3、区域小区&户型综合性价比动态看板

重庆链家租房数据分析_第19张图片

六、结论与建议

  • 5~6天左右平均留存时间

    • 各区域平均留存时间相差不大,均值均在5~6天左右。68.6%房源集中在前6天,6天后逐渐开始明显下降

    • 租客寻找房源基本可以参考5~6天左右安排看房计划,房东方面在房源上架超过7天后也需要及时考虑信息补充,优化条件等措施

  • 房源集中在中央的渝北、江北、渝中、沙坪坝等六区,巴南、北碚、大渡口三区房源数量锐减

    • 六区房源数量在2000~2700,房源小区数量在400~650之间,小区数量基本与区块面积大小相关

    • 房源小区的分布也相对反映了 区块人口和经济发展的差别,后续找房如无区域要求优先考虑中间六区

  • 整租房源居多,房源所处楼层分布较均匀,房源楼栋基本在6层以上,以19-33层高层为主,看房一般以提前预约的方式为主。需留意:部分楼栋高于6层的无电梯,约十二分之一房源为商用水电

  • 整租与合租户型数量

    • 整租以1~4室户型为主,2室1卫最多,平均面积74.7㎡;1室1卫次之,平均面积48.8㎡;3室的户型基本为1卫或2卫,平均面积94~114㎡,剩下4室2卫较多,平均面积144.3㎡。

    • 合租以3~5室户型为主,4室2卫户型最多,5室2卫次之,4室、5室的户型总体占比都比较多,基本为1~3卫,3室总体占比次之,以1卫、2卫为主,主流占比的户型中合租卧室的平均面积在17~18㎡左右。

  • 整租与合租区域性价比

    • 整租1~4室中1室房源均价明显高出其他户型很多,2~3室基本遵循人均租金逐渐降低的规律,四室开始人均租金比较不均匀,价格反而随户型卧室数

    • 合租1~2室均价最高,九龙坡、南岸区1室,沙坪坝、渝中区2室均明显低于其他区均价,应属于价格洼地,如果需求相同可重点关注。整体上随卧室数增多均价下降,沙坪坝区整体均价较低,在600左右

    • 江北、渝中、渝北整租合租的人均租金都明显高于其他区,尤其江北、渝中的整租房源,渝北的合租房源人均价格与其他区有明显差距

    • 1室户型以整租数据为准,中间6区价格在1500~2700,如能接受多室合租,则租金能下降一半

    • 2室户型一般整租较划算,但渝中区、沙坪坝区合租最划算,几乎是合租性价比最高的选择

    • 整租4室以上大户型及1室单间配套价格较高,合租2~3室小户型价格较高,合租卧室数增加均价降低幅度有限,考虑多人干扰,性价比不高

  • 区域户型性价比参考:统合布置了房源性价比动态看板,可结合区域户型需求寻找

你可能感兴趣的:(数据分析,数据挖掘)