R爬虫实战1(学习)—基于RVEST包

这里用Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖。

查阅资料如下:

  1. rvest的github
  2. rvest自身的帮助文档
  3. rvest + CSS Selector 网页数据抓取的最佳选择-戴申 : 里面有提及如何快速获得html的位置。看完这篇,想想我之前看代码看半天分段真是逗比。。经测试,遨游浏览器,右键,审查元素可以得到类似结果。 戴申的blog 里面还有若干相关文章,国内RVEST资料基本就靠他的BLOG了,感激!

言归正传,拿了几个网页练手。包括 对拉勾网爬了一下虫,还尝试了对国外某黄页爬虫,对ebay用户评价爬虫分析其卖家卖的东西主要在哪个价格段(我查的那个卖家,卖8.99和39.99最多,鞋子类),做了一下文本挖掘,还有爬了一下股票数据,基金买入情况等等。

之所以放拉勾网为例子,因为这个大家都比较熟一点?其他的都有点小众=_=而且虽然我没有跳槽的心,但年初却是很多人跳槽的热点。另外, 因为之前听人说过,要了解一个公司的动态,有一个办法是去看这个公司放出来的招聘岗位,可以知道他们最近哪个业务线要扩张了,哪个业务线要跑人了,以及了解技术需求。

rvest基础语法:

library(rvest)

lagou<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc
=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn=3"

web<-html(lagou,encoding="UTF-8") #读取数据,规定编码

#之前我是用关键字搜索,阅读html代码,获得html_nodes里需要什么属性,不过许多浏览器有开发者工具,可以直接获得层级信息。如遨游

position<-web %>% html_nodes("li div.hot_pos_l a") %>% html_text()

#上面就是直接读取数据,获得位置信息

#不过在后面做其他网站时发现,有时候信息储存在同类数据里(如div没有class等等),建议是找一个大的分类,先获得表格信息,再做数据

list_lagou<-web %>% html_nodes("li.clearfix")

#这里正确找准正确的划分点很重要。有<li class="odd clearfix">,其实用li.clearfix一样可以取(对于空格二选一,如"li.odd"或者"li.clearfix")

#接下来的company/position照选即可,因为事先已经分好了list,所以每一个出多少心里有数。。

在讲完原理之后,现在开始尝试写代码

因为里面涉及太多的选取数据工作。为了避免出现太多变量,我最后是编了一个函数,输出数据库。

函数部分

#下面开始写代码,首先写一个函数getdata,会输出一个数据框

getdata<-function(page,urlwithoutpage){

  url=paste0(urlwithoutpage,page) #这里输入拉勾网没有页码的url

  web<-html(url,encoding="UTF-8") #读取数据,规定编码,access用

  list_lagou<-web %>% html_nodes("li.clearfix") #获得一个清单,15个职位

  title<-list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_text()

  company<-list_lagou %>% html_nodes("div.hot_pos_r div.mb10 a")%>%html_text()

  link<-gsub("\\?source\\=search","",list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_attr("href"))

#接下来的由于数据都存在span里,没有很好的划分。这个取数要复杂一些。我在这里,研究他们的表,先取15个完整list,然后用seq等序列取数

#之后要研究是否有更好的方法

#如果有table,可以直接用data.table取数更快。。。

  temp<-list_lagou %>% html_nodes("div.hot_pos_l span")

  city<-temp[seq(1,90,by=6)] %>% html_text()

  salary<-gsub("月薪:","",temp[seq(2,90,by=6)]%>% html_text())

  year<-gsub("经验:","",temp[seq(3,90,by=6)]%>% html_text())

  degree<-gsub("最低学历:","",temp[seq(4,90,by=6)]%>%html_text())

  benefit<-gsub("职位诱惑:","",temp[seq(5,90,by=6)]%>% html_text())

  time<-temp[seq(6,90,by=6)]%>%html_text()

  data.frame(title,company,city,salary,year,degree,benefit,time,link)

}

获取函数,这里先爬一页!

> url<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn="

> final<-data.frame()

> for (i in 3){

+     final<-rbind(final,getdata(i,url))        

+ } #定义个数,把上面的getdata得到的Data.frame合并

查看爬取结果

image

分析数据

关于这个数据有什么用呢…… 简单来说,我们可以用它来看这个网上有多少在招的,各公司招人的比例,以及薪资水平,做一点基础的数据分析。

虽然我现在不跳槽,不过了解一下市场状况也是不错的~譬如见下图,从目前这网上的平均薪资与工作年限的关系来看,数据分析岗至少在职位前五年属于薪资增长期,初始涨得快,后面涨得慢,但平均应有13%左右的增长?然后这网上目前没有什么高级岗位开出来(工作5-10年的岗位很少),反而是有些公司搞错分类,放了一堆数据录入的到数据分析栏目。

(等待……代码还需要完善,要设置间隔时间,要不然会被当掉!!!)

你可能感兴趣的:(学习)