node爬虫简单demo

1.安装node

2.新建一个文件夹,文件夹里新建一个game.js

3.安装依赖和模块

在命令行输入安装模块命令:
npm i
npm install cheerio sync-request --save

4.这里以taptap网站排行榜为例:https://www.taptap.com/top/do...

5.想爬这个排行榜的榜单名字,检查元素发现dom结构如下

4.js文件代码如下

var request = require('sync-request');//获取网页内容

var cheerio = require('cheerio');//筛选网页内容

url = ' https://www.taptap.com/top/do... ';//爬虫网站

var html = '';

html = request('GET', url).getBody().toString();

var $ = cheerio.load(html);

var gameName = $('.top-card-middle>a>h4').text();//获取游戏名称

console.log(gameName);

5.然后在文件夹路径下运行node game.js,结果如下

你可能感兴趣的:(网页爬虫,node.js)