Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!

Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第1张图片

昨天还幻想海边别墅的年轻人,今天可能开始对房租绝望了。

8 月初,有网友在“水木论坛”发帖控诉长租公寓加价抢房引起关注。据说,一名业主打算出租自己位于天通苑的三居室,预期租金 7500 元/月,结果被二方中介互相抬价,硬生生抬到了 10800。

过去一个月,全国热点城市的房租如脱缰野马。一线的房租同比涨了近 20%。一夜醒来,无产青年连一块立锥之地都悬了。

从 2018 下半年开始,租金海啸汹汹来袭,资本狂欢,官方默然,房东纠结,租客尖叫。

这不是一方的过错,而更像是一场全社会的“集体谋杀作品”。最令人不安的是,过去房地产的那套玩法和上涨逻辑,今天正在转移到房租上。

房租暴涨的不只是北京。有数据显示,7 月份北京、上海、广州、深圳、天津、武汉、重庆、南京、杭州和成都十大城市租金环比均有所上涨。其中北京、上海、深圳的租金涨幅最猛,北京 7 月份房租同比上涨 3.1%,有小区甚至涨幅超过 30%。

图自“21 世纪经济报道”《最新房租数据出炉,你一个月要交多少钱?(附房租地图)》一文

接下来,笔者通过 Python 获取某网数万条北京租房数据,给大家说说真实的房租情况。

还是老规矩,老套路(是不是有股熟悉的味道),笔者常用的三部曲:数据获取、数据清洗预览、数据分析可视化,与你一起探究最近房租的状况。


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第2张图片

图自“21 世纪经济报道”《最新房租数据出炉,你一个月要交多少钱?(附房租地图)》一文

接下来,笔者通过 Python 获取某网数万条北京租房数据,给大家说说真实的房租情况。

还是老规矩,老套路(是不是有股熟悉的味道),笔者常用的三部曲:数据获取、数据清洗预览、数据分析可视化,与你一起探究最近房租的状况。

01:数据获取

笔者今天就把目前市场占有率最高的房屋中介公司为目标,来获取北京、上海两大城市的租房信息。


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第3张图片

目标链接:https://bj.lianjia.com/zufang/

整体思路是:

先爬取每个区域的 URL 和名称,跟主 URL 拼接成一个完整的 URL,循环 URL 列表,依次爬取每个区域的租房信息。

在爬每个区域的租房信息时,找到最大的页码,遍历页码,依次爬取每一页的二手房信息。

post 代码之前简单讲一下这里用到的几个爬虫 Python 包:

requests: 就是用来请求对链家网进行访问的包;

lxml: 解析网页,用 xpath 表达式与正则表达式一起来获取网页信息,相比 bs4 速度更快。

详细代码如下:


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第4张图片


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第5张图片


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第6张图片


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第7张图片

02:数据清洗预览


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第8张图片

数据共 14038 条,10 个维度,由上图可看出北京房源均价为 9590 元/月,中位数为 7000。一半的房源价格在 7000 以下,所有房源的价格区间为[1000,250000],价格极差过大。

03:数据分析可视化

四维度-北京房租均价

接下来,笔者将北京各区域、各路段、各楼盘房屋数量、均价分布放在同一张图上,更直观地来看待房租。


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第9张图片

从图中可看出,最近,北京市各区域的房租均在 6000 元/月以上,其中最高区域为东城,均价达 12463 元/月。不过,由于房源信息过多过杂,房屋位置、面积、楼层、朝向等对价格均有较大影响,因此,价格这个维度需要进一步分析。


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第10张图片

由上图可得,各路段的均价基本都在 6000 以上,其中海淀北部新区的房源数最多,但均价最低,为 3308 元/月,这或许与海淀北部生态科技新区作为高新技术产业的承载区、原始创新策源地的研发基地,以及科技园集聚区,目前已入驻华为、联想、百度、腾讯、IBM、Oracle 等近 2000 家国内外知名的科技创新型企业有关。另一方面,海淀紫竹桥的房价竟一起冲天,其附近以博物馆、体育场馆为特色,交通便利,配套设施完善,均价较高也是情理之中。


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第11张图片

可以看出,不同楼盘的均价浮动很大,但都在 6000/月以上。最高的甚至达到 17516/月。由于每个楼盘户型差别较大,地理位置也较为分散,因此均价波动很大。每个楼盘具体情况还需具体分析。


附详情代码:


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第12张图片


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第13张图片

由上图可以看出,均价在 8000-10000 之间的房屋数量最多,同时 1500-2000 这个价位之间房屋数少的可怜。

据北京市统计局的数据,2017 年全市居民月人均可支配收入为 4769 元。另据 58 同城和赶集网发布的报告,2017 年北京人均月租金为 2795 元。

北京租房者的房租收入比,惊人地接近 60%。很多人一半的收入,都花在了租房上,人生就这样被锁定在贫困线上。

统计数据也表明,北京租房人群收入整体偏低。47%的租房人,年薪在 10 万以下。在北京,能够负担得起每月 5000 元左右房租的群体,就算得上是中高收入人群。就这样,第一批 90 后扛过了离婚、秃头、出家和生育,终于还是倒在了房租面前。

附详情代码:


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第14张图片


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第15张图片

上图可以看出,80%的房源面积集中在 0-90 平方米之间,也符合租客单租与合租情况,大面积的房屋很少。


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第16张图片

面积&租金分布呈阶梯性,比较符合常理。租房主力军就是上班族了,一般对房子面积要求较低,基本集中在 30 平。

附详情代码:


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第17张图片


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第18张图片

大多数房屋年龄在 10 年以上


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第19张图片

由上图看出,房屋年龄大多集中在 10-20 年、25 年以上,而 5 年以下的不到 2%;不过,别看这些都是老房子,最近房租变得这么猖狂?原因其中之一就是资本圈地。


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第20张图片

这条网贴立马点燃了大众的情绪:“好啊,原来是这些长租平台烧钱圈地,一心只想要垄断市场房源,哄抬租金,企图赚取暴利差价!”

04:后记

拿自如举例,表面上看跟中介公司没啥两样,收了各种散盘,然后集中装修、出租、管理,因为运营成本和住房质量提高,房租肯定有所上涨。

但更关键的事情在背后。自如把项目打包起来搞起了资产证券化,以租金收益权为基础资产做担保,投放到金融市场上发行国内首单租房市场消费分期类 ABS,让各路资金来认购,每年给大家搞点分红。

大量资本都在赌租房这个风口,而前期谁的规模越大、资源越多,以后的定价权就越大,利润空间就越不可想象。

这次笔者一共从链家网上爬取 14038 条数据,而那就是大概一周前,8 月 17 日北京住建委约谈了几家中介公司。最终的结果是自如、相寓和蛋壳承诺将拿出 12 万间房子投入市场其中,自如将拿出 8 万间(链家、自如、贝壳找房),他们的实际控制人是同一个人 —— 链家老板左晖。


Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!_第21张图片

也就是说,平常的时候,链家网+自如一共在网上待租的也就是 1 万多套房子,但是一被约谈他们就一口气拿出了 8 万套房子增援??怎么增?继续收房,让房源更加供不应求?

昨天买不起房,今天租不起房,如果连这样的生活也要因为市场的不规范而被逼迫、被夺走,真的会让人对一个城市失去希望。

本文分享就到此结束,希望我的分享对你会有所帮助,如果你也在学习Python,那么我推荐你关注下我的微信公众号:Python学习部落,更多资源与教程与你共享。

你可能感兴趣的:(Python 爬取数万条北京租房数据,揭穿房租疯涨的秘密!)