node爬虫(一)

无聊打算继续之前的爬虫工作

简单介绍基本的原理

  • 浏览器驱动(chrome、PhantomJS)
  • 浏览器自动化插件(selenium-webdriver)
  • 获取和操作页面数据(cheerio)

需注意,我的node版本为7.10.0,版本太低可能会出现问题。

start

简单的先来一个获取百度首页数据的例子

require('chromedriver'); //chrome浏览器驱动
let webdriver = require('selenium-webdriver'); //浏览器自动操作
let cheerio = require('cheerio'); //获取页面数据
let fs = require('fs');

let driver = new webdriver.Builder().forBrowser('chrome').build()

driver.get('http://www.baidu.com')
driver.getPageSource().then((val) => {
  const $ = cheerio.load(val);
  let result = $('#u1').text()
  fs.writeFile('mes.txt', result, (err) => {
    if(err) throw err
    console.log('is saved')
  })//将数据写进mes.txt文件中
})

package.json文件如下

{
  "name": "tuku",
  "engines": {
    "node": "7.10.0"
  },
  "author": "silentsvv",
  "license": "ISC",
  "devDependencies": {
    "cheerio": "^0.22.0",
    "chromedriver": "^2.29.0",
    "selenium-webdriver": "^3.4.0",
  }
}

接下来输入指令

node爬虫(一)_第1张图片
查看mes.txt的信息

我们就成功获取了相关信息!!!


相关文章信息:
node爬虫一
node爬虫二
node爬虫三

你可能感兴趣的:(node爬虫(一))