Puppeteer 无头浏览器简介

Puppeteer是什么

Puppeteer 是一个 Node 库，它提供了高级的 API 并通过 DevTools 协议来控制 Chrome(或Chromium)。通俗来说就是一个 headless chrome 浏览器 (也可以配置成有 UI 的，默认是没有的)

Puppeteer 的 Logo 很形象，顾名思义像是一个被操控的傀儡、提线木偶

Puppeteer结构

Puppeteer 使用 DevTools 协议与浏览器进行通信
Browser 实例可以拥有浏览器上下文
BrowserContext 实例定义了一个浏览会话并可拥有多个页面、
Page 至少有一个主框架(main frame)。可能还有其他框架由 iframe 或 frame 创建
frame 至少有一个执行上下文(默认的执行JavaScript的上下文)。框架可能有额外的与扩展关联的执行上下文
Worker 具有单一执行上下文，以便于和 WebWorkers 交互

Puppeteer能做什么

生成网页截图或者 PDF
抓取单页应用(SPA)执行并渲染
做表单的自动提交、UI的自动化测试、模拟键盘输入等
用浏览器自带的一些调试工具和性能分析工具帮助我们分析问题
在最新的无头浏览器环境里做测试、使用最新浏览器特性

安装

npm i puppeteer -S

默认会下载一个最新版本的Chromium，也可以通过一些配置跳过下载，此时需要配置启动参数 executablePath 来指定 Chromium 的位置。下载失败可以参考 Github Issue，或者使用如下方法快速安装

npm config set puppeteer_download_host=https://npm.taobao.org/mirrors
npm i puppeteer -S
复制代码

如果 Mac 下下载时出现 mkdir 的权限问题，可以添加安装参数解决

sudo npm i puppeteer -S --unsafe-perm=true --allow-root
复制代码

或者安装 puppeteer-cn

npm i puppeteer-cn -S
复制代码

使用示例

最简单的例子，打开百度并关闭

const browser = await puppeteer.launch({
    headless: false  // 关闭无头模式
});

const page = await browser.newPage();
await page.goto('http://www.baidu.com/');
await browser.close();
复制代码

打开百度，截图&生产PDF，然后关闭

const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto('http://www.baidu.com/');
await page.screenshot({path: 'baidu.png'});
// 目前只能在无头模式下生成pdf **https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.md#pagepdfoptions*

await page.pdf({path: 'baidu.pdf'})await browser.close();
复制代码

在打开的页面里执行JS并返回结果

const browser = await puppeteer.launch({headless: false});
const page = await browser.newPage();
await page.goto('https://www.trip.com/m/');
const dimensions = await page.evaluate(() => {
  return {
    width: document.documentElement.clientWidth,
    height: document.documentElement.clientHeight,
    deviceScaleFactor: window.devicePixelRatio
  }
});
console.log('Dimensions:', dimensions);
await browser.close();
复制代码

监听 console，你会看到熟悉的百度招聘的硬广

const browser = await puppeteer.launch();
const page = await browser.newPage();
page.on('console', msg => console.log(msg.type(), msg.text()));
await page.goto('https://www.baidu.com/');
await browser.close();
复制代码

设置窗体尺寸

const browser = await puppeteer.launch({
  headless: false
});
const page = await browser.newPage();
// 模拟iPhone6的尺寸打开
await page.setViewport({
  width: 375,
  height: 667
});
await page.goto('https://www.trip.com/m/');
复制代码

Performance Trace 性能数据捕获，之后将 trace.json 导入 DevTools -> Performance 即可查看

const browser = await puppeteer.launch({
    headless: false
});
const page = await browser.newPage();
// 设置数据文件，并包含截图
await page.tracing.start({
    path: 'trace.json',
    screenshots: true
});
await page.goto('https://www.trip.com');
await page.tracing.stop();
await browser.close();
复制代码

模拟表单提交，以 Trip.com 首页为例，需要先注册账号并替换，祝你好运不要遇上验证码

const browser = await puppeteer.launch({
  headless: false
});
const page = await browser.newPage();
await page.goto('https://www.trip.com/account/signin?');
await page.waitForSelector('#userName');
await page.focus('#userName');
await page.waitFor(500);
await page.type('#userName', 'your account', {delay: 100});
await page.focus('#txtPassword');
await page.waitFor(500);
await page.type('#txtPassword', 'your password', {delay: 100});
await page.waitFor(500);
await page.click('#btnSubmitData')
复制代码

爬取豆瓣电影的搜索列表，Document 里返回的是加密的数据 window.DATA，套路是在前端JS解密

const search_text = '漫威';
const size = 15; // 每页搜索结果数
let start = 0; // 起始pageconst 
browser = await puppeteer.launch({
  headless: false
});
const page = await browser.newPage();
const crawlMovies = async () => {
  await page.goto(`https://movie.douban.com/subject_search?search_text=${encodeURIComponent(search_text)}&start=${start * size}`, {waitUntil: 'domcontentloaded'})
  console.log(`crawling page ${start + 1}...`);
  // page.evaluate 里的 currentStart 参数需要传进去，不能直接使用外部参数
  let result = await page.evaluate((currentStart) => {
    // 获取该页所有电影标题
    let list = Array.from(document.querySelectorAll('.detail')).map((item) => {
      return item.querySelector('.title a').innerHTML;
    });
    // 判断是否是最后一页，作为递归退出的条件
    let maxStart = Math.max.apply(null, Array.from(document.querySelectorAll('.paginator a')).map((item) => {
      let startNum = 0;
      try {
        startNum = item.getAttribute('href').match(/\d+$/)[0];
      } catch (e) {
      }
      return startNum;
    }))
    return {
      list: list,
      isEnd: currentStart > maxStart
    }
  }, start * size);
  if (result.isEnd) {
    return result.list;
  }
  start += 1;
  return result.list.concat((await crawlMovies()))
}
const movieList = await crawlMovies();
console.log(JSON.stringify(movieList, null, 2))
复制代码

简而言之

Puppeteer 是一个无头浏览器，可以更方便的做一些其他无头浏览器能做事情，以上例子简单的介绍了他的基本用法，详细的 API 在官方文档里也有，就简单介绍到此

参考链接

文档地址

实用工具，在线操作puppeteer，直观看效果。