nodejs实现简单爬虫

要实现爬虫,首先我们需要安装三个依赖,分别是express,superagent和cheerio。这里默认大家已经在本地安装好了node环境,不会安装的小伙伴建议自行百度~

首先来介绍一下上述提到的三个库:

superagent是个http方面的库,可以发起get或post请求,在本例中,我们使用;

cheerio可以理解为nodejs版的jquery,用来从网页中以css selector取数据,使用方式跟jquery一样;

express是一个基于nodejs平台,快速、开放、极简的Web开发框架。

今天要和大家一起爬cnode社区的首页数据,下面我们来看一下具体操作吧~

1.新建一个文件夹,进去之后npm init,一路enter,得到一个package.json文件;

2.安装依赖

npm install express superagent cheerio --save

3.写具体应用逻辑(新建app.js)

var express = require('express');
var cheerio = require('cheerio');
var superagent = require('superagent');

var app = express();

app.get('/', function (req, res, next) {
  // 用 superagent 去抓取 https://cnodejs.org/ 的内容
  superagent.get('https://cnodejs.org/')
    .end(function (err, sres) {
      // 常规的错误处理
      if (err) {
        return next(err);
      }
      // sres.text 里面存储着网页的 html 内容,将它传给 cheerio.load 之后
      // 就可以得到一个实现了 jquery 接口的变量,我们习惯性地将它命名为 `$`
      // 剩下就都是 jquery 的内容了
      var $ = cheerio.load(sres.text);
      var items = [];
      $('#topic_list .topic_title').each(function (idx, element) {
        var $element = $(element);
        items.push({
          title: $element.attr('title'),
          href: $element.attr('href')
        });
      });

      res.send(items);
    });
});

app.listen(8888, function () {
  console.log('app is listening at port 8888');
});

4.测试效果

在浏览器中输入localhost:8888,得到结果。

nodejs实现简单爬虫_第1张图片

你可能感兴趣的:(nodejs)