深圳链家小区数据分析

数据的收集和整理,会占用数据分析大部分的时间。
——沃兹基硕德

之前的爬虫获得深圳小区信息4785条,与链家一致,骄傲!


数据量不多,但还是选择用mongodb练手。
工具:jupyter notebook,mongodb,highchart

准备工作

新手上路,数据是要被随便造的,安全起见,先复制一份原始数据。
进入mongo shell 复制数据


Paste_Image.png

把mongo目录加入环境变量


深圳链家小区数据分析_第1张图片
Paste_Image.png

再执行mongo命令就没问题了


Paste_Image.png

show dbs 显示所有database


深圳链家小区数据分析_第2张图片

数据在lianjia中,


Paste_Image.png

show tables 显示所有collection,


Paste_Image.png

需要复制sz_xiaoqu 数据,先新建一个collection,显示ok就新建成功了,


Paste_Image.png

将sz_xiaoqu数据复制到新建的collection,显示复制4785条数据,复制成功。


Paste_Image.png

然后就可以开始可劲造了~

开始折腾

去除所有错误小区后,有效小区总数4775
所有小区房屋加总数2146156,大概就是深圳所有商品房总数量了。

各行政区小区分布
深圳链家小区数据分析_第3张图片
各行政区小区分布图
深圳链家小区数据分析_第4张图片
各行政区小区分布

小区数量明显的关内三区领先。

各行政区房屋分布
深圳链家小区数据分析_第5张图片
各行政区房屋分布图
深圳链家小区数据分析_第6张图片
各行政区房屋分布饼图

没想到龙岗房子很多啊,小区也不多,那里的小区应该都很大~

小区房屋数平均值450
各行政区大于平均值的小区
深圳链家小区数据分析_第7张图片
各行政区大于平均值的小区
小区均价min 14275,max 230450
均价分布直方图
深圳链家小区数据分析_第8张图片
均价分布直方图
各行政区小区均价
深圳链家小区数据分析_第9张图片
各行政区小区均价

房价最高的还是大南山。

前1000均价大区-小区数量
深圳链家小区数据分析_第10张图片
前1000均价大区-小区数量

排名靠前的基本都是南山福田的。

片区均价前10位
深圳链家小区数据分析_第11张图片
片区均价前10位

深圳湾房价一路狂飙。

最后

小区信息好像没什么价值啊……唯一的好处就是对mongodb取数和highchart熟悉了很多。

明天开始看具体房源信息。

你可能感兴趣的:(深圳链家小区数据分析)