RCurl-入门1

Term Project需要做一个爬虫-Crawler。爬什么、怎么爬,都不确定。索性网上搜教程开始学。很多语言都可以实现这个功能,比如JavaPythonR这三个我感兴趣的语言。

今晚看到的教学视频是关于R的。

R的爬虫Package为RCurl,首先需要在RStudio或R上安装,然后新建R Script后,引用该库。

library(RCurl)

今晚两小时,主题是:RCurl最重要的三个函数。只看到了第一个的两个基本命令。

getURL()

首先看一个很基本的查询网页是否存在的命令。

url.exist("http://www.baidu.com")

当网页存在是返回TRUE,否则返回FALSE

第二个基本命令可以查询Header。

d = debugGatherer
temp <- getURL("http://www.dataguru.com",debugfunction=d$update,verbose=TRUE)
cat(d$value()[3])#提交给服务器的Header
cat(d$value()[1])#服务器地址和端口号
cat(d$value()[2])#服务器返回的Header

其中的verbose=TRUE参数表示是否要将结果存储在d中。ddebugGatherer赋予了三个method,分别是updatevaluereset。当需要请求Header信息时,采用update函数,将信息存储在value中,如果需要重置value,则可使用reset。同时,如果verbose=FALSE,则会发现value中不会存储此次操作的信息。

你可能感兴趣的:(RCurl-入门1)