【数据分析师养成记】全国天价小区究竟在哪里?

【数据分析师养成记】全国天价小区究竟在哪里?_第1张图片

在中国,由于受到安土重迁的思想影响,无论是刚踏入社会的年轻人,还是步入中年的家庭中坚,人们对房价的关注从未减少过。从2016年起,房价一路走高,甚至有一些十分神秘的天价房产。本文将揭示从数据上看全国最贵的天价小区有哪些?高房价分布在哪些城市?天价房都有什么特点?

用Top-N从茫茫数据中找到天价房

本次分析需要涉及全国范围内的大量房地产数据,如果有一个函数可以快速从海量数据中找到某个维度(比如单价)上前20%的数据,就可以帮我们快速缩小要分析的范围,甚至直接定位目标。

于是,分析师小杜就想到了 Top-N。Top-N 在很多领域的分析中都很常用,简单来说,通过 Top-N 可以得到海量数据中符合要求的 N 个顶级项。 但在海量数据背景下,随着明细数据集越来越大,只通过在线计算的方式得到一个大数据集的 Top-N 结果需要耗费很长时间。

Kyligence Enterprise 作为使用预计算的 OLAP 引擎,引入了 Top-N 函数来解决上述问题。具体来说,一方面将需要聚合的指标预计算,另一方面对数据分组排序并舍弃尾端数据,整体上降低了查询成本,因而可以迅速地获取并返回Top-N的结果。

本例中,分析师将通过 Kyligence Enterprise 中 Top-N 函数对海量房产数据进行分析。数据爬取自房天下(全球最大的房地产家居网络平台),涉及全国 28 个城市的 34,944 个小区。获得的数据集中,包含房产所在城市(CITY),小区(GADERN),平米单价(UNIT_PRICE),以及总价(PRICE)。

为实现 Top-N 函数的预计算,分析师需在设计 Cube 时在“度量”步骤为UNIT_PRICE 添加 Top-N 度量。设置后如下图所示。


【数据分析师养成记】全国天价小区究竟在哪里?_第2张图片
Top-N度量设置

全国房价最高的10个城市

首先,以城市为聚合组,来查看全国普遍房价。我们分别选取 25%、50%、75% 分位数来代表房价情况,对全国平米单价进行排序。使用 percentile 函数①, 选取UNIT_PRICE 分位数,利用 Top-N 进行排序。以 50% 分位数为例,查询语句如下:

select CITY, percentile_approx(UNIT_PRICE,0.5) as UNIT_PRICE_50

from CHI_PRICE_07271

group by CITY

order by percentile_approx(UNIT_PRICE,0.5) desc limit 20

有 Top-N 预计算的 Cube 只需要0.38秒就可以得到结果。结果如下:

【数据分析师养成记】全国天价小区究竟在哪里?_第3张图片
全国28城市房价排行,50分位数


选取 25%、50%、75% 分位数来代替房价,三次计算的完整结果如下表。

【数据分析师养成记】全国天价小区究竟在哪里?_第4张图片
全国房价 top10 的城市

结果显示,北京、深圳、上海、厦门四个城市,在各分位房价均位列全国前四。其中第一名的北京以房价中位数为 6.4万元/㎡ 远超同为直辖市的天津 。

总体看来,房价前十名的大多为一线城市。但有趣的是,厦门和福州两个来自闽南地区的二线城市,也进入了 top10 榜单。其中厦门更是以中位数 4.1万元/㎡ 的均价超过广州,成为全国房价第四高的城市。而老牌一线城市广州,则仅在 50% 和 75% 高分位数区域超过杭州,位列全国第五。看来随着杭州经济的发展,杭州房价已逐渐上涨,在低分位数区间尤为明显。

全国房价最高的10个小区

为了查找“天价小区”,接下来以小区为聚合组,选取 50% 分位数代表房价,利用 Top-N 预计算查询全国小区房价 Top 50。查询语句如下:

select CITY, GADERN, percentile_approx(UNIT_PRICE,0.5) as UNIT_PRICE_50 from CHI_PRICE_07271

group by CITY,GADERN

order by percentile_approx(UNIT_PRICE,0.5) desc limit 50

【数据分析师养成记】全国天价小区究竟在哪里?_第5张图片
全国高价小区 top50


提取前十名如下:

【数据分析师养成记】全国天价小区究竟在哪里?_第6张图片
全国房价 top10 的小区


【数据分析师养成记】全国天价小区究竟在哪里?_第7张图片
高价小区所在城市饼图


分析师继续对全国范围内单价前50的小区所在城市进行分析,得出深圳和上海分别以40% 和 34% 的天价小区比例,占据了第一、第二名的位置。

其中深圳的纯水岸二期小区,以44.01万元/㎡的价格位列全国天价小区之首。天价小区在北京的分布比例为18%,最高价为23.06 万元/㎡,仅排18名。而四大一线城市之一的广州,仅有两个小区上榜,分别位列16名和29名。

天价小区的户型:多为别墅型

进一步分析上榜天价小区的面积,可以发现绝大部分(74%)的高价小区面积超过200平方米,为别墅型住宅。

对上榜的天价小区分别进行分析,可以发现单价前75%的小区存在更多的超大户型,且超过200平方米的别墅户型占比更多(77%);单价后25%的小区经济型住宅比例更大(60%)。究其原因,分析师推测可能是2006年以来国家出台的停批别墅用地政策,造成别墅型土地资源稀缺,各级城市已无在建别墅楼盘,因此别墅型住宅价格一路走高。

【数据分析师养成记】全国天价小区究竟在哪里?_第8张图片
天价小区面积分布


【数据分析师养成记】全国天价小区究竟在哪里?_第9张图片
房价前75%小区面积分布

小户型也有高单价

解密了天价小区的特点后,分析师开始关心更贴近居民生活的经济适用房,真的经济吗?比如面积低于 50㎡ 的小户型,房价如何?依旧以小区为聚合组,对50㎡(小户型)的房子进行Top-N排序。

查询语句如下:

select CITY, GADERN,UNIT_PRICE

from CHI_PRICE_0730 where SIZE_ROOM<50

order by UNIT_PRICE desc

【数据分析师养成记】全国天价小区究竟在哪里?_第10张图片
全国房价top20的小户型小区


【数据分析师养成记】全国天价小区究竟在哪里?_第11张图片
小户型高价小区分布

在小户型领域,单价前50名中,北京拥有其中的46%,超过上海和深圳的总和。地点多分布在德胜门、 西单、后海附近,多为地铁房。值得一提的是,天津也有4个小区进入 top50(8%),可见京津地区对小户型是很青睐的。

结语

利用 Kyligence Enterprise 的 Top-N 预计算,能够在1秒以内实现对全国房价的排序查询。从全国来看,天价小区主要集中在深圳、上海,多为超豪华别墅区。从房型来看,对于面积小于 50㎡ 的小户型来说,天价小区主要集中在北京、天津地区。看来长三角、珠三角人民更愿意为休闲度假花钱,而京津冀人民更愿意为便捷买单。

Kyligence Enterprise 提供了基于海量数据的 Top-N 函数计算,通过预计算提供亚秒级查询响应。对全国天价房产的分析,只是对 Top-N 预计算性能的一个小尝试。之后还会针对更多统计函数推出实例介绍和使用展示,敬请期待。

参考内容:

《Apache Kylin 的 Top-N 近似预计算》

①:函数类型之一,用于计算数据的K百分位点及该点上的数值。该数值称为“分位数”


关于 Kyligence

Kyligence (上海跬智信息技术有限公司)由首个来自中国的 Apache 软件基金会顶级开源项目 Apache Kylin 核心团队组建,是专注于大数据分析领域创新的数据科技公司。Kyligence 提供基于 Apache Kylin 的企业级智能大数据分析产品 Kyligence Enterprise及云计算产品 Kyligence Cloud。目前,Kyligence 已赢得了海内外多家保险、证券、电信、制造、零售、广告等行业的企业级客户,包括华为、中国联通、OPPO、上汽集团、太平洋保险集团、中国银联、国泰君安、欣和等行业领导者。公司总部在上海,同时,在北京、深圳等地设有办事机构, 在美国硅谷设有分公司,目前,已获得来自红点中国、思科、宽带资本、顺为资本及斯道资本(富达国际自有投资机构)等投资机构的多轮投资。

更多大数据洞察,欢迎来 Kyligence 官网

你可能感兴趣的:(【数据分析师养成记】全国天价小区究竟在哪里?)