本文全部内容可在GitHub获取:
https://github.com/Paradiseeee/Home/blob/master/article01_DA4B_LSZ.md
欢迎关注,欢迎找茬,刚开始写文章,以后会分享更多的学习心得,与大家共同进步!
最近,深圳的一个新楼盘深业中城开盘,备案价高达 13.1 万的豪宅项目,光认筹就需要缴纳 500 万的诚意金,在别的城市已经可以全款购买一套房了。单看新盘的价格,深圳早几年就已经超越北京稳居榜首了。但是最近中国房价行情网的最新数据显示,10 月份深圳二手房均价为 65,364 元/㎡,环比增长 1.07%,意味着深圳的二手房价首次超越北京。以下表格来自中国房价行情网的报告:
这里我们的主要目标是了解深圳的二手房市场的各方面详细情况,并且与北京的数据和深圳的历史数据进行对比。刚好在10月份的时候,在看到这个报道之前,做过一次关于深圳楼市的分析研究,获取了相关的数据。在这里可以分别对深圳和北京11月份进行一个截面数据的分析,再对深圳10月份和11月份的数据进行面板数据的分析。
根据分析需求,我们需要获取两地楼市的价格,具体分布等信息,这些信息在网上都有公开的数据。如果需要得到严谨的统计分析结果,则需要获取市场上全面的数据,而我们这里更关注的是细节的分布,所以只取一部分市场数据进行分析。通过浏览网络上的信息,发现链家二手房网站上的信息符合需求,既有足够多的商品房数据,也可以轻松获得。
首先通过模拟 HTTP 请求,自动遍历以上商品展示页中的信息,返回的源码文本中包含标题、行政区域、地铁、户型、面积、朝向、装修、楼层,等字段的信息。然后使用正则表达式或者 css 选择器、xpath 解析各个字段的信息。再进行规整化字段的取值,空值的填充和清除等清洗步骤,获得最终的数据。
得到的数据分别写进数据库和文本文件,方便后面的研究分析。首先利用 Navicat 的分析引擎可以得到数据分布的预览。图中给出了区域、面积、单价三个重点字段的分布情况,可以看到深圳龙岗区和北京朝阳区各自占了两地近三成的房源数量。而面积字段北京较深圳集中趋势更明显。单价的分布基本一致。
单纯看图获取的信息不够多,更好的方法是使用交互式的报告预览数据(获取预览报告)。这里使用 pandas-profiling 可以一键生成交互式的 HTML 文件。如果结合 pandoc 也可以生成 pdf 或 markdown 格式的数据预览报告。或者使用 Excel 的数据透视表可以更加具体地交互式地研究每一个字段的分布以及相关统计指标。
通过预览数据发现,获取到的数据包括面积、单价、总价、行政区域、地铁站等重点信息。接下来对数据进行可视化分析,通过更多的图表直观地洞察数据。
首先来看我们最关心的价格的情况,这里使用条形图显示两地不同区域的总价和单价的均值分布。从下图可以看到,深圳南山区的总价均值高达 1122.6 万元,单价均值超 9万。而北京方面的“老大”西城区总价均值只有 800 万,但是单价均值高达 11.4 万。
接下来进一步查看更细节的价格分布,下面的堆积条形图可以看到不同区域的单价分布以及总的分布。通过绘出各区域的单价密度图,可以更明显地看到不同区域的价格分布的差异。
从上图可以看到,两地的单价中位数都位于5.5万左右。通过分区域的密度图更清楚地看到,北京单价中位数超10万的区域有东城区和西城区,并且东城区的分布更加集中。紧跟10万界线的有海淀区,以及接近并列的朝阳区和丰台区。而深圳单价均值最高的南山区只有9万多,但是分布更为差异化,部分离群值甚至去到25w+。总价均值的分布同样有以上特点。下面通过箱形图展示了两地各行政区总价的分布情况。
上面是标准的箱形图,散点表示超出1.5倍四分位距离的观测点。就深圳南山区来说,存在几个接近八千万的离群观测。仔细看一下这里还不止一个“异常值”,而是一连串,于是保留这些观测。后面再具体看一下这些离群点的数据。
接下来具体看一下面积的分布以及与总价的关联情况。首先从左列的面积-总价散点图中可以看到,区域的聚类趋势十分明显,也就是说区域跟单价有较强相关关系。在右边的图中对两地分别选出了几个排行靠前的区域进行线性回归拟合。可以看到北京东城区和西城区的总价方差随面积增大迅速增大,深圳各区总价方差随面积的变化相对不太明显。
看完了价格方面的分布和关联情况,接下来看一下其他字段的数据给我们传递了什么有价值的信息。从Excel数据透视表可以看到,每一个区域又派生出多个地铁站的类别,是影响区域内分布情况的主要因素。因此可以以 地铁站 划分商圈,具体看一下不同商圈的分布情况。下图可以看到不同地铁商圈的价格分布,并着重标出了单价名列前茅的商圈。
可以看到北京地铁站的数量比深圳大很多。据了解,北京开放运营的共有22条地铁线路,约400个地铁站。相比之下深圳只有8条线路,约200个站点。图中标出了单价排行靠前的地铁站。北京最高的德胜门单价均值达到14.6w,单价均值12w+的地铁站商圈共有10个。而深圳12w+的地铁站商圈仅有3个,虽然数量少,但是最高的深圳湾高达15.8w。
看完这些寸土寸金的商圈,再来“围观”一些高端的土豪楼盘。这里找到了南山区单价分布图中“捅破”坐标轴的“罪魁祸首”,香山美墅一期。紧随其后的汀兰鹭榭花园单价也超过了25w。相比之下北京的数据比较“温和”。好奇心的驱使下,在MySQL中把它select出来看一下。可以看到都是一些大面积的别墅,鄙人如果有幸进去参观一下都此生无憾了。
上面那些“前后大花园”、“室内电梯”、“天然氧吧”、“喝茶看海”,与我们大部分人都无关了。但是可以发现商品标题里展示出来的,自然都是迎合客户需求的内容。因此接下来通过词云图对标题字段进行可视化,看一下吸引客户的,或者说消费者最关注的,都有哪些方面。
上面左图是北京的情况,可以看到主要有朝向、户型、建成年份以及装修等方面。右图是深圳的情况,除了常见的一些字眼,我们看到“安静”也是一个高频词。看来购房者对环境安静要求还是比较高。本人现在住的地方,周边环境的噪音感觉还是比较严重的,不知道这是不是深圳的普遍情况。
从上面词云中发现大家都比较在乎户型和朝向,那就来看一下户型和朝向的分布情况。下图分别是北京和深圳的户型和单价关系,颜色深度表示该户型的数量。可以看到北京的户型比较集中,约一半集中在2室1厅的户型,也就是标准家庭住房的配置,均价稍大于6w。而深圳的户型选择性更多,分布更复杂,主要有2室1厅和3室2厅,均价也在6w左右。还有非常夸张的9室5厅,是一些大面积的复式别墅。
朝向方面,从下图可以看到两地的朝向主要都分布在南北朝向,或东南和西南,这也符合总体的偏好。虽然朝向是选房时的首要因素之一,但是通过相关分析,发现朝向跟价格并没有显著的相关性,从图中也可以看到,反而两地都是一些冷门的朝向价格最高,应该是由于总数比较小出现的虚高。
另外在词云图中还看到,关于年份的关键词出现的频率是比较高的,主要原因是政策上满五免税。这里对不同年份房屋的分布做一个多项式平滑处理,看一下不同年份的分布趋势:
如果把这里的二手房数量,作为房地产市场库存的参考指标,可以看到北京的存量主要分布在2006年前后,深圳的存量主要分布在2010前后。两地占市场份额最多的分别是朝阳区和龙岗区。
文章开头中国房价行情网给出了10月份的数据,这里我们分析一下11月份的数据。由于这里数据来源与中国房价行情网不同,因此不将两者进行具体比较,只作为参考。在链家二手房的数据中,10月份深圳二手房的单价均值为61326元,与中国房价行情网公布的数据(65364元/平米)还是有较大差异。
从下图中可以看到,11月份深圳二手房价总体环比上涨1.67%。具体到每个区域可以看到,最高的光明区环比上涨约16个百分点,但是光明区在所有二手房中占比较小,与大鹏新区加起来占比还不到1%。而占市场总量最大的龙岗区环比上涨0.55%。南山区在价格高位依然达到2.47%的环比增长,以这个趋势,单价均值将在3个月后突破10w。当然准确的趋势还需要分析更长时期的历史数据才能得出。
房子有两种功能,一种是居住效用功能,一种是流动性功能。一方面作为生活的刚性需求,一方面作为市场上流动的资产,其价格一直是关乎民生以及金融市场运作的一个重点话题。通过这份分析报告可以直观的认识到北京和深圳两地的房价水平。首先聚合来看,两地的房价均超过六万每平米,总价均值分别为六百万和五百万。根据国家统计局今年发布的数据,各行业中薪资最高的信息技术服务业,年薪约为15w,一套中规中矩的住房,就相当于五十年的工资了。并且增速上,信息技术服务业2019年薪资同比上涨10.9%。而根据相关的统计,近五年北京二手房房价年均上涨14.3%,远大于薪资上涨速度。而且这还是相对于目前最赚钱的行业来说的,这意味着工薪阶层这个群体在北京深圳等大城市是无法解决住房这个刚需的。
但是在另一方面,住房空置率却一直居高不下。按照通用的国际经验数据,当商品房空置率达10%以上时,便会形成较为严重的泡沫经济。2008年金融危机时,美国的住房空置率也只有10%。虽然国家统计局没有相关的统计数据,但是根据相关调查,普遍认为中国的住房空置率已经超过20%。金融市场牵一发动全身,普通人不可能做到全面地分析。但是仅作为居住效用的商品,房价显然严重偏离了均衡点。还是需要更强力的政策,优化金融市场中的信贷扩张、优质资产短缺,等相关问题,真正做到“房住不炒”。
本文对比分析了北京和深圳的二手房市场,包括房价以及房屋的各种特征的分布和关联情况。并对深圳11月份和10月份的数据进行了环比分析。最后唠几句本人对楼市的浅显拙见。分析中存在以下可以进一步改进的地方:
END