Node爬虫:批量下载网页

编写网页爬虫时,爬取 html 页面是基本功能。在 Node.js 中,只需借助内置的 http 模块,即可实现一个网页下载器,代码如下:

const http = require('http')
const https = require('https')
const iconv = require('iconv-lite')
const userAgent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'

function isRedirect(code) {
  return code === 300 || code === 301 || code === 302 || code === 303 || code === 305 || code === 307 || code === 308
}

/**
 * 网页下载器
 * @param {string} url - 网页的网络地址
 * @param {number} timeout - 超时时间,默认 1 分钟
 * @param {number} retries - 重试次数,默认重试 2 次;为 0 时,不支持重试
 * @param {number} redirect - 支持重定向次数,默认重试 5 次;为 0 时,不支持重定向
 * @return promise
 */
module.exports = function htmlDoanloader(url, timeout = 60 * 1000, retries = 2, redirect = 5) {
  return new Promise(function (resolve, reject) {
    function wrapper (url, timeout, retries, redirect) {
      let request = url.startsWith('https') ? https.request : http.request
      let req = request(url, res => {
        let buf = [], size = 0 
        if (isRedirect(res.statusCode) && 'location' in res.headers && redirect > 0) {
          wrapper(res.headers.location, timeout, retries, redirect - 1)
          return
        }
        res.on('data', (chunk) => {
          buf.push(chunk)
          size += chunk.length
        })
        res.on('end', () => {
          resolve(iconv.decode(Buffer.concat(buf, size), 'utf8'))
        })
      })
      req.setHeader('User-Agent', userAgent)
      req.setTimeout(timeout, () => {
        retries--
        req.abort()
      })
      req.on('error', (err) => {
        retries > 0 ? retries-- : reject(err)
      })
      req.on('close', () => {
        // 重试时,将超时时间递增 1 分钟
        if (retries > 0) wrapper(url, timeout + 60 * 1000, retries, redirect)
      })
      req.end()
    }
    wrapper(url, timeout, retries, redirect)
  })
}

随着 Node 直接支持 async await,异步编程的复杂度大为简化,并且更直观。因此,上述代码使用了 Promise,方便在 async function 中拿到下载的页面字符串,以便后续进行分析。

有了上述网页下载器(htmlDownloader.js),只需循环遍历网页地址,即可实现批量网页下载,而下载网页是为了从中抽取需要的数据,这里不再展示如何批量下载网页,下一篇将展示如何用 cheerio 从网页抽取数据。

 

转载于:https://my.oschina.net/junyiz/blog/1615793

你可能感兴趣的:(Node爬虫:批量下载网页)