在去库存的大背景下,2016年一二线城市的房价经历了一场逆势疯狂上涨的大戏,使得许多城市从10月份开始不得不相继出台了号称史上最严的限购措施。与此同时,美联储加息消息不断使得美元强势,人民币对美元的汇率加速贬值,直逼7.0关口。加上股市经历两次断崖式暴跌至今元气大伤,在外围市场总体向好的情况下中国股市还未能走出低迷状态,使得大量资金流向海外。严格的限购和资金的大量外流是否会遏制房价过快上涨的趋势,更甚能否刺破传说已久的楼市泡沫呢?带着这个疑问,我想以事情为依据,用数据说话,于是我们开始吧!
第一步,收集数据。为了更好的分析,确定选取几大有代表性的一二线城市的二手房和出租房的相关信息。在Husky平台下分布式爬取从2016年10月份到目前为止每个月的房子信息数据。
第二步,清洗、变换、整合数据,以便在后面的计算中更好的使用。这一步比较繁琐,最后保存成所需的有不同key:value对的json数据,共约100万条不同房源的大数据集,存储在HDFS上。
第三步,计算获得不同类型的结果并绘制清晰的图形,以便更好观察数据结果特征。
为了方便,这里具体分析计算过程先不谈,直接让数据告诉我们结果。如下图,选取了八大城市的数据,包括四大直辖市北京、上海、天津和重庆,改革开放的窗口深圳及其毗邻的东莞,还有六朝古都南京和近年来号称最具新一线城市竞争力的天府之国成都市。下面两图分别给出四个月份以来每个城市按套计算的均价和价格中位数。
如上图所示,北京房子按套计算无论是在在均价还是在价格中位数的比较上,都位列上述八大城市中的首位,上海和深圳则紧随其后。而同为直辖市的重庆则最低并且较为平稳,价格中位数大概100万/每套左右,与北京均价上1000万/每套相比,重庆人民在买房置业方面的压力明显会小很多。对于房价变化趋势,总体来看这几个月来稳中有降。北京均价在十一月份出现大幅的下降,随后略有增长,而中位数保持平稳,其原因随后分析。除此之外,这几个月以来只有成都房价无论在均价还是中位数上都有较快的上升,这和成都相对较低的房价和人们对成都未来潜力的看好都有关系。而深圳、南京和东莞等地都有较明显的降温。
按每套价格来计算可能会有房间大小带来的影响,所以再换一种比较方式。接下来按单位面积来计算均价和中位数,这回对结论带来什么影响呢?请看下图分析:
比较上下两图,可见基本特征并没有太大的变化。北京的均价还是位列首位最高,大概在8万/每平方米上下,上海深圳也挤进了6万大关,东莞、成都和重庆依然徘徊在2万以下。与第一张图不同,按单位面积计算得出的天津市近几个月来房价是在上升渠道。还发现一个问题,北京十月份的数据按每套计算价格均价高于其他几个月的数据,而按面积计算每平方米的均价这低于其余几月。这是为什么呢?我们用点图来观察一下可以发现其中缘由,请看下图:
绿色点图代表十月份的数据,紫色代表十一月份的数据。横坐标是房子的面积,纵坐标代表对应的房价,图像颜色越深则代表相应位置的房子数量越大。从上图可发现,两个月房子的数据都是最为集中在面积为80平方米,房价在600万元附近。而十一月份与十月份最大的不同是,十一月份200平方米以上的大房子数据大大减少,这也解释了为什么按套计算的均价在十一月份突然降低这一现象。
讨论了二手房市场,租房市场怎么样呢?为了去除房间大小的影响,以下只给出每个城市按单位面积计算的房租价格:
与前面分析对比,可见租房价格和二手房价格是正相关的。上图看出北京房租在均价和中位价都在100元/(平方米.月)以上,可见北京在居住方面的生活成本无疑是最高的。对比二手房和租房市场,发现成都这两者并非如其他城市般正相关。成都市这几个月以来在二手房价格较快增长的同时,租房市场价格却稳中有降。导致这种原因我觉得最主要的是最近几个月炒房客将大量热钱引入成都房市推高了二手房交易价格,而同期却并没有那么多人流涌向成都居住,所以支撑不起房租价格的上涨。可以预见,在刚性需求不强的情况下,成都未来几个月的房价将逐步降温。
还可以看各个区的具体情况,例如深圳各区域的租房价格如下:
横坐标代表各区域名字的,例如第一个 'szba' 代表 '深圳宝安区'。
自从来到香港体验了居住环境后,对蜗居有了新的认识,开门即是床是很多香港房子给港漂一族的印象。那么在大陆各城市的居住环境如何呢?为了了解情况,这里按地域选取了三个有代表性的城市,北京代表北方,上海代表中部,南方选取深圳为代表。分别以房子拥有房间数量多少和房间总面积大小所占的比例,一窥不同地域人们居住的差异。图示如下:
比较三个地方的数据,可以看出北京上海两地均以两房居多,特别是上海两房类型的比例占到其全部房子的40%以上,独有深圳以三房居多。从面积上来看,北京60平方米以下的小房子和大于120平方米的大房子所占的比例均高于其他两个城市,可看出北京房子面积大小两级分化程度最严重。另外在60平方米到120平方米的中等类型房子所占比中,深圳占比最高,达到60%,也是唯一一个中等面积房子占比过半的城市。不过,三个城市相同的是占比最大的区间都位于60-80平方米和80-100平方米这两个区间。
#分别对不同城市按房子年代划分,计算相对数量如下图柱形的高低,并计算每个年代房子对应的按单位面积计算的均价,如下图曲线所表示:
show_esf_price_num_by_year('sz')#下图表示深圳的情况
如图所示,深圳是一座年轻的城市,目前收集到的在售二手房建设年代最早是1995年。除2016年房源最多外 ,2002年至2007年的房子也有较多在售。如曲线所示,十年前即2006年的房源对应的房价达到76000元/每平方米左右,高于其他年份。这与当年房子多数位于市中心的优势位置位置有关。
为了排除数据的不确定性,更真实的揭开每个月房子价格变化。下面我想跟踪相同房子在每个月的价格变动,并绘制出相邻两个月价格保持不变、价格提高和价格降低的房子所占全部房子的比例条形图。请看下图:
#选取5个城市绘制价格变动条形图
show(gridplot(bar2,bar3,bar6,bar7,bar8,ncols=3))
如上图所示,红色高度代表下跌的幅度,绿色代表上涨,蓝色代表保持不变。我们注意到深圳的红色比例大大领先于绿色比例,可见最近几个月深圳房价确实属于下行通道,但红色比例也逐渐变窄,说明房价在渐渐恢复平稳。与深圳恰恰相反的是成都市,其房价正在上行,红色部分几乎看不见,即是几乎没有房子在降价出售。不过由于绿色也在逐渐变窄,可见其房价也逐渐在恢复平稳。而重庆市,这几个月来蓝色条形图都占据了绝大部分比例,可见其房价特别稳定,没有大涨大跌的现象。这也与我们前面的分析相互印证了。
到目前为止,分析了每个城市居住的诸多方面,让我们对不同城市的房子有了个总体的认识,并了解了目前房价的变化趋势。了解了居住的生活成本,对于年轻人要往哪里发展有一定的指导意义。但是还要考虑不同城市的工作机会和工资水平,这时就可以看看前面的博文:Husky数据分析--招聘信息背后的潜规则揭秘。
下面提供工具,和数据链接,欢迎讨论研究~
计算工具:Husky 网址:http://www.husky-project.com/
绘图:Bokeh
数据链接: http://pan.baidu.com/s/1pKILkq3 密码: 49st
正在进行:我的博客专栏《Husky大数据分析》被推荐评选年度十佳专栏,欢迎大家投票支持。投倒数第三个《Husky大数据分析》(网址:https://wj.qq.com/s/1375474/9b8e)