Playwright——爬取潘茄小说

from playwright.sync_api import sync_playwright  # 导入Playwright同步API,用于浏览器自动化

# 使用上下文管理器启动Playwright,并确保资源正确释放
with sync_playwright() as p:
    # 创建一个Chromium浏览器实例,默认以无头模式运行(没有图形界面)
    browser = p.chromium.launch()
    
    # 在当前浏览器上下文中打开一个新的页面
    page = browser.new_page()
    
    # 访问指定的小说章节URL
    page.goto("https://fanqienovel.com/reader/6983940360997178407")  # 小说链接
    
    # 开始一个无限循环来遍历小说的所有章节
    while True:
        # 查询页面上所有的

标签元素,这些通常包含文本段落 paragraphs = page.query_selector_all("p") # 遍历每个段落元素并打印其内部文本内容 for paragraph in paragraphs: print(paragraph.inner_text()) # 查找页面上的“下一章”按钮 next_button = page.query_selector('button:has-text("下一章")') # 如果找不到“下一章”按钮,说明已经是最后一章,退出循环 if not next_button: break # 点击“下一章”按钮前往下一个章节 next_button.click() # 等待页面加载完成直到网络空闲状态,确保新章节完全加载 page.wait_for_load_state("networkidle") # 关闭浏览器实例,释放资源 browser.close()

你可能感兴趣的:(python,Playwright,网络爬虫)