Node.js cheerio + request 爬虫实战

项目简介:

使用 Nodes.js (以下简称Node) 完成

  1. 爬取一个传统静态网站, 用 cheerio 库做页面解析
  2. 爬取一个网络API接口数据
  3. 使用JSON文件保存所需数据
  4. 导出到 excel 或数据库

1. 使用模块如下:

"dependencies": {
    "cheerio": "^1.0.0-rc.2",
    "dateformat": "^3.0.2"
  }

此外, 使用了 Node 内置模块 fs request

2. 执行: 切换到项目目录

npm test
// 或者
node index.js

3. 项目地址 https://github.com/wiviwiv/web-crawler


流程

构造URL ===> 爬取检查 robots.txt ===> 清洗数据 ===> 存储文件

未完待续 。。。

你可能感兴趣的:(Node.js cheerio + request 爬虫实战)