水木清华社区招聘信息定时抓取

水木上有很活跃的招聘者在发布招聘信息,但是水木的速度却很慢,于是试着将其抓取下来,这样子浏览的速度就快了很多,而且将其部署在SAE上面,可以只查看需要的信息,降低了本地流量耗费,在新浪云平台上启用了两个JVM,云豆估计能够用的。

在浏览器中请求水木时候,它会分不同的数据返回,首先就是页面的框架和广告,最后才是内容!分析了它的返回数据的构成之后,就可以利用Jsoup去请求了,取回来的数据直接进行抽取和过滤,留下需要的数据,然后存到数据库中去。最后再显示到页面上来。整个过程大概就是如此。

同时觉得要是手动去抓取的话,就太没有意思了,于是设置了定时器,可以定时地去抓取数据并保存。每一个小时抓取一次,这样算是差不多能追上论坛的更新了吧,(突然想到还可以晚上的时间段休息,降低消耗)。

突然想到,可以加个功能,每一篇招聘信息中几乎都会有邮箱地址,可以解析出来,准备好一个简历模板,自动批量发简历!

之后可能会添加别的网站的数据。

界面简单微笑

可能会有很多bug敲打

具体可以移步:http://huntinfo.sinaapp.com/ ,

完整代码放在 :https://github.com/laozhaokun/huntinfo。

你可能感兴趣的:(数据抓取,水木社区)