爬虫应用示例--puppeteer数据抓取的实现方法

一、背景

软件机器人自动化(RPA)技术近两年来应用越来越广泛,市面上也有比较多成熟的RPA产品。

利用puppeteer实现的RPA,可以实现远程数据自动抓取的爬虫应用功能。

二、需求描述

在一个指定的远程网站上,通过RPA输入查询条件执行查询后显示出结果清单,获取这个清单中的数据后执行翻页,直至取到全部数据为止。

三、实现思路

Puppeteer 是一个node库,内含了一个chrome浏览器(正是因为包含了这个导致安装非常麻烦),以及一组用来操纵Chrome的API。因此基于Puppeteer实现RPA就非常简单了,有了RPA我们就可以模拟手工操作进行远程数据的自动抓取,而这恰恰就是网络爬虫要实现的功能。

实现以上思路的基本流程为:
1、打开内含的chrome浏览器
2、进入指定的网站
3、找到条件输入框,输入查询条件(查询条件包括input、select,所以识别和处理方式并不相同)
4、点击查询按钮,执行查询,结果以分页方式显示
5、取到第一页的全部数据
6、检测是否有下一页数据,如果有则点击下一页的按钮
7、重复5、6两步直至结果的所有页面都获取完毕
8、多获取到的数据进行后续加工处理

四、代码示例

import puppeteer from 'puppeteer'    //引入puppeteer组件
。。。。。。
puppeteer.launch({启动参数}).then(async browser => {
    let page = await browser.newPage();      //在chrome中打开一个标签页
    await page.setJavaScriptEnabled(true);   
     await page.goto("远程网络地址");         //在该标签页上打开指定网址,如www.baidu.com
     let companyName = await page.$("#aa");    //输入条件是一个input,id="aa"
      await companyName.focus();          
      await page.keyboard.type("华为");     //在该input中输入查询条件,如"华为"
      await page.waitFor('#bb');              //输入条件是一个select,id="bb"
      await page.select('#bb','11');          //select的列表中有一个选择项value=11,自动选择value=11的选择项作为该输入条件的值
      let btnSearch = await page.$("#cc");    //执行查询的按钮是一个button,id="cc"
      await btnSearch.click();                     //自动点击该按钮,触发该按钮的click事件
       let btnNext = {} ;                             //下面开始处理结果集合
       do{          
           await page.waitFor('#table1');     //结果结合显示在一个table中,其id="table1"
           let data1 = await page.$$eval('# table1 tr', tds => tds.map((tr) => {
                 return tr.innerText.split('\t');
            }));      //当前页得所有数据都保存在data1中, data1是一个二维数组,data1[i]存储每一行数据,data1[i][j]存放第1行得第j列数据。
           btnNext = await page.$eval("#btnNext",obj => obj.href);   //下一页放在一个id=btnNext的a中,这个功能是获取下一页这个超链的跳转地址,如果还有下一页则结果就是跳转地址,如果没有下一页,则返回空
            if(btnNext){                 //有下一页的处理
                 btnNext = await page.$("#btnNext");   
                 await btnNext.click();          // 自动点击下一页的a,触发该a的click事件
             };
          } while(btnNext) ;
       。。。。。处理采集的数据
       await browser.close();    //关闭浏览器
});

五、后续

以上实现思路好理解,具体实现代码是个难点,不过通过上面的代码示例就可以轻松解决这个难点。

遗留的另外一个难点就是puppeteer组件的安装问题,具体另文再详细讲解。

你可能感兴趣的:(爬虫应用示例--puppeteer数据抓取的实现方法)