工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第1张图片

这是 公众号:【朱利安笔记】 2019年的第二篇原创文章。

大部分来深圳追逐梦(ban)想(zhuan)的人,除非家里有矿或拼搏了几年,不然都只能选择租房。

但每次租房的时候,都需要交一笔4位数的中介费,真的心疼自己。


工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第2张图片


这次呢,教你如何自己动手,丰衣足食,自己筛选有效的房源,找到自己理想的租房,免掉这笔4位数的中介费。

正文前,先来叨磕几句。


你为什么搬家?


根据我观察身边人的经验,大多数租房的人,不到两年就会搬一次家,问到原因的话,无非是以下几种


1. 换工作了/换公司了/公司搬了

毕竟每天如果花上一两个小时的时间上班,那真的太痛苦了


2. 合租的室友变动

这种现象特别容易出现在大的合租房子,例如,4室2厅,3室1厅等,刚毕业的时候,大伙一起热火朝天,都住在同一个房子,但是人越多,其实越不稳定,没多久,因为工作的变动,大家四散东西,很快,这种大房子就没办法再住下去了。

特别是大城市压力大,而二三线城市近年来发展也不错,不少人毕业后在大城市待上一两年之后,选择回老家发展,当然这也不失为是一种好的选择,只是会因此导致了合租无法再继续。


3. 找到了男/女朋友了

原本独居,但因为想要和喜欢的人腻在一起,或者想要那种两个人互相对上眼,就无法出门的同居的日子:),所以就搬一起


4. 分手…

原本同居,后来分手了,一起养的猫,也被Ta带走了…


深圳的租房市场现状


链家数据-2017

看一组数据了解深圳租房的市场状况(来源:链家网2017年年末发布的《深圳租房报告》)


· 整体

深圳实际管理人口超过2000万,有80%人租房,全深圳市一共有1040万套住房,其中70%房子在出租。


· 供给方面

深圳的740万套租赁住房中,城中村租赁住房达450万套,占比为60.8%

而这450万套城中村租房中,73.8%的城中村住房租金在2000元以内,26.1%的租金水平在1000元以内。


· 需求方面

租客方面,目前有超过52%的深圳租客,其月租金支付不到2000元,18.2%的租客其月租金支付甚至在1000元以内。


看到这组数据的时候,还是觉得蛮欣慰的,虽然现在的房价高到让人怀疑人生,但是租房的价格比起北京,算是还过得去的。

并且北京和上海不少地区都是押一付三,这对于刚毕业的大学生而言很不友好,而在深圳普遍都是押二付一,或者押一付一。



自如数据-2019

网上看到的最新数据的自如统计的合租房源单间价格如下,链接见文末。


· 南山区-南山中心

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第3张图片


· 南山区-西丽

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第4张图片


· 宝安-西乡

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第5张图片

个人不靠谱估算,将「自如的价格 - 300~500」,差不多是周边城中村的合租时候单间的价格,如果所以租房的时候,自己也有个心理预估价格,如果太便宜的,要多个心了。

好了,进入正题,如何使用豆瓣找房。


如何使用豆瓣找房?



1、豆瓣的租房信息在哪?

答案是——豆瓣小组

为了省下4位数的中介费用,网友自发建立了豆瓣租房小组,房东自己跑到豆瓣小组上发布的房源,而不少想合租的人,也会跑到豆瓣上发布合租或求租信息。

豆瓣,一直以来都是文艺青年聚集之地,从社区氛围上,首先就过滤掉了一些奇奇葩葩的合租舍友。

再者,豆瓣小组对于中介非常反感,鼓励小组内的人,积极举报,所以中介相对较少,这在一定程度上减少垃圾信息。

(刚毕业那会真的被恶心到,58上看到的中介发帖,价格几乎都是虚标,标题党吸引你加微信,然后看房后再告诉你真正价格,浪费时间)

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第6张图片


2、如何高效的利用豆瓣租房信息?

豆瓣小组上虽然有不少租房的信息,但豆瓣网一直高冷的基调,并没有提供标签,筛选,搜索等功能,对信息筛选而言,非常的不方便,自己一个个看下来,非常低效。

加上每天发帖的网友聚众多,想在其中找到符合自己的租房,真的是非常花精力的一件事情。


既然在网上直接浏览信息不方便,那我们就把它全部都爬下来,再通过excle高效筛选吧。


3、不会代码怎么爬取豆瓣的租房信息?

这里推荐大家使用一个工具叫「八爪鱼采集器」

只要简单的配置之后即可爬取豆瓣租房的信息,不需要码一行代码!

操作步骤如下:

1)找到豆瓣租房小组的链接

在开始爬之前,至少你要知道爬哪些信息对不对


进入豆瓣小组,搜索「深圳 租房」,会出来一堆小组,选择人多,发帖多靠谱的小组(自己点击进去看看)

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第7张图片

如果你实在是懒癌+选择困难症。。。


推荐下面2个小组


· 深圳南山租房(个人房源免费推广)    

https://www.douban.com/group/nanshanzufang/

需要其他区的,进入后公共栏会有链接

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第8张图片


· 深圳1号罗宝地铁沿线租房

https://www.douban.com/group/luobao1haoxian/

其他 地铁线的,进入小组公共后会有链接

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第9张图片


PS:如果要发布「合租」「求租」「个人直租」的,需要先加入小组,才能发帖

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第10张图片


推荐1个豆瓣小站

· 深圳租房团(不欢迎中介)

https://site.douban.com/227778

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第11张图片


· 非深圳的盆友

进入「豆瓣小组」内,搜索「租房小组」

或直接输入链接访问,https://www.douban.com/group/fangzi/


这个小组内,良心网友整理了各地的靠谱的租房小组,直接点击跳转访问即可

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第12张图片


注意:

信息不要贪多!

信息不要贪多!

信息不要贪多!


例如你本来在南山工作,根本不打算在「龙岗」或「罗湖」找房,就不要打开「龙岗」或「罗湖」的小组,或者进入根本不区分行政区的小组(整个深圳市的信息都在里面的那种),不然后面爬完一堆信息,筛选会筛选到你想哭。


2)下载安装「八爪鱼采集器」

进入官网 http://www.bazhuayu.com/download

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第13张图片

(八爪鱼应该给我广告费的:P)


3)注册

由于软件需要登录后才能使用,下载的期间,顺便注册个账号

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第14张图片


4)登录

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第15张图片


5)创建采集任务

1. 选择自定义采集

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第16张图片


2. 输入要采集的网站(就是第一步中找到的豆瓣小组,链接)

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第17张图片


3. 配置采集流程

· 找到帖子 列表页面 的入口

滑动打开的豆瓣小组页面,到最底部,找到「更多小组讨论」

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第18张图片


· 点击进入 列表页面

选择「点击该链接」,进入小组帖子的列表页面

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第19张图片


设定 列表页面 循环

选择「循环」点击「后页」,这样就能采集完一页后自动跳转到下一页采集

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第20张图片


· 循环点击 列表内的 每一个帖子

点击帖子的标题,选择「循环点击」,这样就能在采集完一个帖子后继续采集下一个帖子

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第21张图片


· 设定要采集的内容

打开流程配置

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第22张图片


· 采集标

设定我们要采集的一个帖子中的内容,选择「采集标题」

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第23张图片


· 采集时间

采集内容 - 时间,太老的帖子很可能早就不租了,所以时间也是参考信息 

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第24张图片


· 采集租房信息详情(注意,这种采集是不带图片的)

虽然没有图片,但是通过文字信息大致能确认是否是自己想要的了,确定后,再点击「链接」来查看帖子详情

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第25张图片


· 采集链接

帖子的内容浏览后,觉得这个房子OK,再通过采集的链接,查看帖子中的图片,或者他人的评论内容

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第26张图片


· 保存

保存,开!始!采!集!

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第27张图片


· 启动

开始本地采集

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第28张图片


· 放着电脑等采集完

程序开始 吭哧吭哧 的自己采集后,这时候你可以去吃个饭,扫个地,听个歌啥的。

等采集到足够的数据后(例如400条),自己点击「停止采集」,「导出数据」

因为之前有其他需要买了会员,不知道现在免费账号导出要不要收费,印象中单次采集数据量小于1W条导出是免费的

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第29张图片


4、如何处理扒下来的信息

拿到数据后,直接一条条看?

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第30张图片

OUT!这样会有大量的无用数据,浪费时间。

根据我在实习时候导师教我的,正确的数据处理流程应该如下

「原数据备份-清洗(去重,补齐,去脏数据)-筛选-分析」


1)清洗

处理数据的原则1——保留原数据,方便回溯

新建「Sheet2」表格,将「Sheet1」的数据复制过来,在「Sheet2」折腾


1. 去除性别限制的

在「sheet2」表格中搜索,「限*女生」,「限*妹纸」,删除!

当然,如果你是个妹子的话,那么你就只看「限*女生」,「限*妹纸」

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第31张图片


扯个题外话,采集的时候,发现租房百态,真的限制什么的都有,哈哈哈哈哈

· 限制女生

这个好理解

· 限制男生

都是男生,担心女生进来,女生会不安全。。。

· 仅可以男女朋友或夫妻一起住进来,不能单独女生

我看了下,发帖合租的是个女生,和男朋友一起住,空了一个房间,所以这个限制条件,不用我多解释了吧。


2. 去除多人的

我不喜欢多人合租,三人可以接受,以上的真的受不了,不是不喜欢多人一起的氛围,而是越多人越不稳定,4人,5人的,一旦其中有个人要走,就需要发帖找人来住,这段时间的空窗期可能还要几个人均摊,麻烦。


如果同样介意多人的,可以搜索「三*房」「四*房」「五*房」的数据,删除

同理如果要只找一个人住的,仅筛选「大单间」「一*房」即可


3. 价格限制

3000以上的不考虑,同样删除

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第32张图片


4. 还有各种奇葩的限制,不过是少数

限制微商/养宠物/做饭/健身/打机…,自己看情况删除


2)定等级

新建三列,「优先级」「价格」「备注」

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第33张图片

租房要考虑的无非以下几个信息

· 离公司远近

· 离男/女朋友住处远近

· 周边环境

· 价格

· 房间大小

· 房间设施


一边看的时候,一般将觉得有戏的房子备注下,定个等级,产品经理的毛病来了:)

· P0 最优

· P1 次优

· P2 备用

· 不喜欢的,不需要给等级


另外,推荐使用百度地图,因为上面的信息大量都是我不知道的地名,小区。


所以我在看的时候,手机就放电脑旁,打开手机「百度地图」

一边在浏览的时候,一边说

·「小度小度帮我查一下,xx在哪里」,看地点和周边环境,太远就Pass

·「小度小度,从xxx到公司坐公交」,看公交时间,太远Pass

·「小度小度,从xxx到公司坐地铁」,看地铁时间,太远Pass

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第34张图片

如果你还有男/女朋友

·「小度小度,从xxx到xxx坐公交」,看去男/女朋友那的时间,不要约次会搞得像异地恋一样是不是,太远就Pass啦


「百度地图」的语音识别做的很棒,全程不需要再打字,效率贼高。


3)按等级排序,开始联系

数据筛选排序,从P0开始,点击末尾链接,到网页上看下有没有图片,有没有评论(有些评论会说已经租出)


觉得OK的,从P0开始看到P2,加微信,或打电话联系,约看房。


4)约定日期看房,看房看房,

接下来就是纯体力活了,按照约好的时间,看房看房看房,一般工作日的晚上也是Ok的


看完觉得不合适的,及时回复别人,同时友善的说下「微信互删了哈」,避免打扰。


说一下我个人的经历,年后回来

· 12号,周二,上午筛选信息,中午联系,最终筛选出了4个符合的P0房子,下午和晚上看房(晚上一般都在)

· 13号,周三,又在网上看一遍,没有更满意的了,13号晚上签合同,交定金

· 16号,周六,上午整理房间,下午叫货拉拉,搬完。


另外,豆瓣也非常良心了推出了「豆瓣租房」小程序,也可以上去上面发布个人的房源和求租信息。

工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?_第35张图片


以上,就是采集的教程啦,复习下,实际就三步


1. 找到要采集的内容,分析路径

2. 八爪鱼设定采集程序

3. Excel处理数据


学会了这招后,实际很多网站你都可以去爬了,比如,你哪天心血来潮,想去爬某榴的话。


温馨提示


注意有防爬措施

各大网站一般都会有防爬措施,所以会导致爬到一半的时就会被限制IP访问。

要解决这个问题,一来可以通过,八爪鱼采集器的特定配置解决(免费,但可能失效),二来可以购买他们的付费IP解决


如果不知道怎么配置防爬的,搜索 关注 微信公众号 「朱利安笔记」 回复「八爪鱼」,获取教程~


· 参考文章

· 《链家发布“深圳租赁”报告,八成深圳人租房住》http://sz.southcn.com/content/2017-11/02/content_178543142.htm

· 《《租房攻略2.0》新鲜出炉,带你开年租房轻松上分》https://mp.weixin.qq.com/s/sK2HrYi4wfQdkhRVkqwfuQ

你可能感兴趣的:(工具篇 | 不会代码如何爬取豆瓣信息,免中介找到理想租房?)