node爬虫初体验

1.安装node

2.新建一个文件夹,文件夹里新建一个game.js

3.安装模块

在命令行输入安装模块命令:

npm i

npm install cheerio sync-request --save

4.这里以taptap网站排行榜为例:taptap排行榜

5.想爬这个排行榜的榜单名字,检查元素发现dom结构如下

4.js文件代码如下

var request = require('sync-request');//获取网页内容

var cheerio = require('cheerio');//筛选网页内容

url = 'https://www.taptap.com/top/download';//爬虫网站

var html = '';

html = request('GET', url).getBody().toString(); 

var $ = cheerio.load(html);

var gameName = $('.top-card-middle>a>h4').text();//获取游戏名称

console.log(gameName); 

5.然后在文件夹路径下运行node game.js,结果如下


你可能感兴趣的:(node爬虫初体验)