R语言在当当网页面爬取时遇到的读取错误问题解决

1、在进行数据抓取的过程中,看到其他作者的文章中说明道需要在读取过程中改encoding的命令,但是改了“gbk”,以及“gb2312”都不行。错误如下:

web<-read_html("http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1",encoding = "GBK")


Error in read_xml.raw(raw, encoding = encoding, base_url = base_url, as_html = as_html,  : 
  input conversion failed due to input error, bytes 0xAA 0xE5 0xA3 0xAB [6003]

2、借鉴了其他作者的方法,利用以下的命令查找了最优的编码

html_encoding_guess("http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1")
        encoding language confidence
       ISO-8859-1       en       0.48
       ISO-8859-2       hu       0.18

       ...以下略

最终根据提示换了编码“ISO-8859-1”,可以正常读取。

3、但是是在利用以下代码抓取相应的数据时,发现读取的结果为empty

position<-web %>% html_nodes(xpath="/html/body/div[2]/div[3]/div[2]/ul/li[1]/div[7]/p[1]/span[1]") %>% html_text()

4、不过在经过自己的信息查找,比对list之后,有一个惊人的发现,利用“copy full xpath”的方法提供的路径竟然出错了

R语言在当当网页面爬取时遇到的读取错误问题解决_第1张图片

 如上图所示,红圈圈出来的内容竟然没有三角标

自己用“copy full xpath ”得出来的路径是:/html/body/div[3]/div[3]/div[2]/ul/li[1]/div[7]/p[1]/span[1],但是因为第一个div没有三角标的的原因,实际的路径应是:/html/body/div[2]/div[3]/div[2]/ul/li[1]/div[7]/p[1]/span[1],你们能看出其中的不同吗,就是第一个div[] 应该由3改成2,不知道有没有朋友跟我遇到相同的问题

你可能感兴趣的:(r语言)