playwright教程(二)适合小白

上一篇介绍过在单页面中获取数据,这次加上click页面跳转

一、介绍

本文获取多页面,不同小标签下的数据

1.推荐爬虫小白练习网址

Scrape Centericon-default.png?t=M5H6https://scrape.center/适合初学者练习,里面资源挺多,页面也不是非常复杂

上代码!

import xlwt
from playwright.sync_api import sync_playwright

def run(playwright):
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://spa5.scrape.center/page/502")
    listMsg =[]
    # 这里的range(3)代表0,1,2也就是遍历三次,自己可以设置
    for i in range(3)  :
        # page.wait_for_timeout(2000)
        # 因为循环中遍历三次数据,每个数据获取完都要进行页面跳转,
        # 如果不设置页面等待,则未加载完的数据将获取不到,直接error
        page.wait_for_load_state("networkidle")
        # xpath选择器获取大标签下的内容
        msgs = page.query_selector_all("//*[@id='index']/div[1]/div/div/div")
        print(f"第{i+1}页,共{len(msgs)}条:")
        # 将大标签的内容分成小标签,进行获取
        for msg in msgs :
            img_href = msg.query_selector("//a/img").get_attribute("src")
            book_name = msg.query_selector("//a/h3").text_content()
            if msg.query_selector("//p") is None:
                book_author = "佚名"
            else:
                book_author = msg.query_selector("//p").text_content().replace(" ", "")
            print('\t',img_href,book_name,book_author)
            listMsg.append((img_href,book_name,book_author))
        print(listMsg)
        print(f"共获取到{len(listMsg)}条数据")
        # 判断下一页按钮是否生效
        if page.query_selector("//button[2]").get_attribute("disabled") == "disabled":
            print("没有下一页了...,爬取结束")
        else:
            page.click("//button[2]/i")

    workbook = xlwt.Workbook(encoding='utf-8')
    wordsheet = workbook.add_sheet("爬虫书籍网")
    colName = ["图片链接","书籍名称","书籍作者"]
    wordsheet.write(0,0,"书籍全部信息")
    wordsheet.col(0).width = 10000
    wordsheet.col(1).width = 4000
    wordsheet.col(2).width = 8000

    for i in range(len(colName)):
        wordsheet.write(1,i,colName[i])
    # 遍历所有数据,打印出结果为 索引 [(内容1),(内容2)]
    for i,items, in enumerate(listMsg) :
        print(i,items)
        wordsheet.write(2+i,0,items[0])
        wordsheet.write(2+i,1,items[1])
        wordsheet.write(2+i,2,items[2].replace(" ",""))

    workbook.save("Excel_books.xls")
    page.close()
    context.close()
    browser.close()

with sync_playwright() as playwright:
    run(playwright)

2.代码分析

在实现之前必须要有个思路,按照这个思路来进行

1、模拟浏览器获取数据前几布都是一样的

①打开浏览器

②创建轻量级context浏览器

③新建页面

④加载所需网址

import xlwt
from playwright.sync_api import sync_playwright

def run(playwright):
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://spa5.scrape.center/")

2、寻找自己所需数据

⑤通过选择器选择所需要的内容

与上个案例不同的是,上个案例获取的数据都是放在一个标签中的,可以直接获取(不懂的可以看豆瓣TOP10案例),而这个案例则是在一个

标签中,所获取的数据不是来自同一个小标签

思路:先拿到所需数据的大标签,在大标签中遍历数据时在拿到小标签中的数据,也就是加了个遍历操作

msgs = page.query_selector_all("//*[@id='index']/div[1]/div/div/div")

⑥将选择的数据保存至列表中,方便excel写入

page.query_selector_all(“选择器”)就是在当前页面寻通过选择器找所有满足条件的结果取名为msgs,当然,结果不是数据,而是一个一个标签,还需要再标签中继续选择

        for msg in msgs :
            img_href = msg.query_selector("//a/img").get_attribute("src")
            book_name = msg.query_selector("//a/h3").text_content()
            if msg.query_selector("//p") is None:
                book_author = "佚名"
            else:
                book_author = msg.query_selector("//p").text_content().replace(" ", "")
            print('\t',img_href,book_name,book_author)
            listMsg.append((img_href,book_name,book_author))
        print(listMsg)
        if page.query_selector("//button[2]").get_attribute("disabled") == "disabled":
            print("没有下一页了...,爬取结束")
        else:
            page.click("//button[2]/i")

如上段代码所示,采用的是xpath选择器,在msgs(已经被筛选过)中继续筛选,找到所需数据,数据以追加的方式存储在列表中,以每条数据以元组进行存储,将所哟数据存储到listMsg后。判断下一页按钮是否可用,因为最后一页下一页功能disable="disabled",可以点击,但是没有效果。也会导致程序出错。

第一个条件判断,因为在获取第二页数据时,有一张图片没有作者,获取不到数据直接error

可以自己不加条件判断直接获取作者名试一试,不知道后面网站作者会不会补上。

第二个条件判断,获取到503页时,下一页标签不能使用。

每次获取到的数据可以打印看看格式对不对,推荐!

⑦获取完整页数据后可以点击进行下一页的获取,直到下一页按钮失效

page.click("选择器") 通过选择器出发点击事件,直接F12找到下一页按钮即可

3、创建设置excel表中的信息(表名、表头、单元格大小)

⑧设置excel基本信息

⑨拿到数据了可以直接遍历了,也是采用enumerate方法,获取到的数据写入excel中就行

⑩保存excel

    workbook = xlwt.Workbook(encoding='utf-8')
    wordsheet = workbook.add_sheet("爬虫书籍网")
    colName = ["图片链接","书籍名称","书籍作者"]
    wordsheet.write(0,0,"书籍全部信息")
    wordsheet.col(0).width = 10000
    wordsheet.col(1).width = 4000
    wordsheet.col(2).width = 8000

    for i in range(len(colName)):
        wordsheet.write(1,i,colName[i])

    for i,items, in enumerate(listMsg) :
        print(i,items)
        wordsheet.write(2+i,0,items[0])
        wordsheet.write(2+i,1,items[1])
        wordsheet.write(2+i,2,items[2].replace(" ",""))
    workbook.save("Excel_books.xls")

11.关闭页面、浏览器。

二、总结

本次案例有限制,不能在自己想要的页码中获取数据,下一个案例补充这个不足,直接采用接口获取,方便快捷。这个案例有个小bug,在for i in range(x) 循环中,获取的数据第0条和第一条18个数据时相同的,等后续改进,整体还是为了让新手熟悉熟悉流程,问题不大。

你可能感兴趣的:(python)