深圳链家房源分析

自从拿到了房源信息,就开始着手分析了,然后就发现了有个数据取错了。。。


深圳链家房源分析_第1张图片

没办法,只能再来爬一次,可是链家的反爬虫恢复正常了。。。


深圳链家房源分析_第2张图片

接下来就是和反爬虫斗智斗勇的故事了。
  • 之前构建的代理池上阵,结果发现代理也太不靠谱了,失败率超高,这要爬那么多数据,得到猴年马月,果断放弃。
  • 尝试登陆后再爬,依然会出现反爬虫,再一次失败。
  • 发现通过流量异常验证后的cookies能用一段时间,没办法的时候只能靠笨办法了。

具体就不多说了,大概就是:爬着-流量异常-发现跳转-selenium打开跳转链接-手动验证-获取验证后cookies-用这个cookies接着爬-等下一次流量异常。。。

终于数据能用了,搞起。

工具依然是python,mongodb,jupyter notebook,highcharts。

成交房源数量分布
深圳链家房源分析_第3张图片
成交房源数量分布

龙岗福田遥遥领先。而后面的坪山、光明和大鹏。。。一定是绿中介还没有开到里去!

在售房源数量分布
深圳链家房源分析_第4张图片
在售房源数量分布

龙岗再次第一位,超过关内3个区,让我没想到的是宝安房源居然这么少。

历年成交数量分布
深圳链家房源分析_第5张图片
历年成交数量分布

链家2015年收购中联进入深圳市场,2014年以前的数据应该是之前中联的,而2010年这么多,就不清楚为什么了。

成交房源分布
深圳链家房源分析_第6张图片
成交房源分布

深圳链家房源分析_第7张图片
成交房源分布

龙岗福田2个区就占了深圳二手房买卖半壁江山啊。

历年成交价格分布
深圳链家房源分析_第8张图片
历年成交价格分布

成交价格方差巨大,最高成交价已经到了15万一平。
每年房价中位数节节攀升,2017年成交单价中位数已超过5万一平。


深圳链家房源分析_第9张图片
成交房源面积分布
深圳链家房源分析_第10张图片
成交房源面积分布

小户型依然是成交主力,80㎡以下户型成交比例逐年增长。谁让房价这么高呢。。。


深圳链家房源分析_第11张图片
成交房源数量分布
深圳链家房源分析_第12张图片
成交房源数量分布

热点居然在1-2万,60-80平,我不禁在想这TM是什么时候的事情了。。。

在售房源数量分布
深圳链家房源分析_第13张图片
在售房源数量分布

好吧,这个才是现实。


深圳链家房源分析_第14张图片

总结

  • 数据一定要尽量准确,浪费多少时间只有自己知道。。。
  • 查文档,不懂就查文档。
  • 本来想着有了这些数据,能探索下房价洼地什么的,谁来告诉我怎么做。。。

你可能感兴趣的:(深圳链家房源分析)