Node Js爬虫

Node Js爬虫

参考博客
参考博客
首先个人了解到,也用到过的爬虫工具有三个:

  • cheerio: 主要是解析下载的网页可以像jquery一样骚
  • superagent :superagent是node里一个非常方便的、轻量的、渐进式的第三方客户端请求代理模块,用他来请求目标页面
  • request: 同样是客户端请求模块

其他的环境方面需要用到node, express,用Express框架搭建会更加快速。

本次学习的主要是爬取电影网站的电影标题、链接、图片、集数等信息,爬虫的整体思路大概就是:

  • 模拟浏览器向目标网页发起请求, 通过request、superagent模块均可,但是在实际中用superagent向目标网址发送post请求时,需要以form-data的形式发送,然而并没有成功,所以改用的request模块。
  • 在数据请求成功后,拿到的是网页的文本,在通过cheerio,将数据转换成像jQuery一样的对象,方便筛选操作,cheerio.load(res.text);
  • 然后通过选择器或者其他方式,将想要获取的数据保存下来。

具体实现的代码可以参考我的github上得项目 项目地址 。

你可能感兴趣的:(node,踩坑,爬虫)