简单记录:selenium和pyppeteer获取页面全内容代码

以网页 http://www.haosimple.com/ 为例

selenium方式

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('http://www.haosimple.com/')
content = browser.page_source
print(len(content))
browser.close()
----------------------------------------------
out:14335

pyppeteer方式

pyppeteer需要采用异步操作

import asyncio
import nest_asyncio
nest_asyncio.apply()
import pyppeteer
from pyppeteer import launch

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto("http://www.haosimple.com/")
    content = await page.content()
    print(len(content))

asyncio.run(main())
--------------------------------
out:14358

两种方式取得的内容长度有差别,用文本对比来看下
简单记录:selenium和pyppeteer获取页面全内容代码_第1张图片
差异部分对后续的操作没什么影响。

你可能感兴趣的:(python)