协程就是前面加了'async'
的函数(从Python 3.6开始有)
async def f()
return 0
•调用协程时,必须在函数名前面加'await'
await f()
协程只能在协程里面调用,即await
语句只能出现在协程里面。
•协程是一种特殊的函数,多个协程可以并行
•pyppeteer中的所有函数都是协程,调用时前面都要加 await,且只能在协程中调用
获取网页的源代码的一个函数:
def getHtml(url): #暂时适用于百度图片搜索
import asyncio #Python 3.6之后自带的协程库
import pyppeteer as pyp
async def asGetHtml(url): #获取url对应网页的源代码
browser = await pyp.launch(headless=False)
# 启动Chromium,browser即为Chromium浏览器,非隐藏启动,headless=True就是隐藏
page = await browser.newPage()# 在浏览器中打开一个新页面(标签)
await page.setUserAgent('Mozilla/5.0 (Windows NT 6.1; \
Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/78.0.3904.70 Safari/537.36') #反反爬措施
await page.evaluateOnNewDocument(
'() =>{ Object.defineProperties(navigator, \
{ webdriver:{ get: () => false } }) }' ) #反反爬措施
await page.goto(url) # 装入url对应的网页
text = await page.content() # page.coutent就是网页源代码字符串
await browser.close() # 关闭浏览器
return text
m = asyncio.ensure_future(asGetHtml(url)) # 协程外启动协程
asyncio.get_event_loop().run_until_complete(m) # 等待协程结束
return m.result() # 返回的就是asGetHtml的返回值 text
browser = await launch(headless=False, executablePath = "c:/tmp/chrome-win32/chrome.exe", userdataDir = "c:/tmp")
excutablePath
: 如果Chromium没有安装在默认文件夹下面,则需要指定其位置
userdataDir
: userdataDir指明用来存放浏览器工作期间存放临时文件的文件夹。不是必须,能够防止可能出现的莫名其妙的错误
启动时看到浏览器界面launch 里面设置broswer = await launch(headless=False)
browser = await launch(devtools=True)
打开调试窗口
browser = await launch(headless=False, args=['--disable-infobars'])
“Chrome 正受到自动测试软件的控制” 关闭这个提示
browser = await launch(headless=False, args=[f'--window-size={width},{height}'])
浏览器窗口比显示的内容窗口大小调整
import asyncio
from pyppeteer import launch
from pyquery import PyQuery as pq
async def main():
browser = await launch()
page = await browser.newPage()
await page.goto('http://.....')
doc = pq(await page.content())
print('Quotes:', doc('.quote').length)
await browser.close()
Pyppeteer 里面进行了异步操作,所以需要配合 async/await 关键词来实现
launch 方法会新建一个 Browser 对象,然后赋值给 browser
browser 调用 newPage 方法相当于浏览器中新建了一个选项卡,同时新建了一个 Page 对象
Page 对象调用了 goto 方法就相当于在浏览器中输入了这个 URL,浏览器跳转到了对应的页面进行加载
加载完成之后再调用 content 方法,返回当前浏览器页面的源代码
asyncio 的 get_event_loop 等方法的相关操作则属于 Python 异步 async 相关的内容
await page.screenshot(path='example.png')
await page.pdf(path='example.pdf')
await page.evaluate('''() => {
return {
width: document.documentElement.clientWidth,
height: document.documentElement.clientHeight,
deviceScaleFactor: window.devicePixelRatio,
}
import asyncio
from pyppeteer import launch
async def main():
browser = await launch(headless=False, args=['--disable-infobars'])
page = await browser.newPage()
await page.goto('https://login.taobao.com/member/login.jhtml?redirectURL=https://www.taobao.com/')
await page.evaluate(
'''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')
await asyncio.sleep(100)
设置 userDataDir
import asyncio
from pyppeteer import launch
async def main():
browser = await launch(headless=False, userDataDir='./userdata', args=['--disable-infobars'])
page = await browser.newPage()
await page.goto('https://www.taobao.com')
await asyncio.sleep(100)
asyncio.get_event_loop().run_until_complete(main())
这里就是加了一个 userDataDir 的属性,值为 userdata,即当前目录的 userdata 文件夹。我们可以首先运行一下,然后登录一次淘宝,这时候我们同时可以观察到在当前运行目录下又多了一个 userdata 的文件夹
Pyppeteer 三种解析方式
Page.querySelector()
# 选择器
Page.querySelectorAll()
Page.xpath()
# xpath 表达式
简写方式为:
Page.J(), Page.JJ(), and Page.Jx()
“”"
<span class="title">肖申克的救赎</span>
# 获取其中文本
name = await page.xpath('//span[@class="title"]')
await (await name.getProperty("textContent")).jsonValue()
<div class="p-name p-name-type-2">
<a target="_blank" title="此商品将于2019-07-27,00点结束闪购特卖,女神价到30期"
href="//item.jd.com/7019143.html"
onclick="searchlog(1,7019143,1,1,'','flagsClk=1094718088')">
<em>Apple <font class="skcolor_ljg">iPadfont>
平板电脑 2018年新款9.7英寸(128G WLAN版/A10 芯片/Touch ID MRJP2CH/A)金色
em>
<i class="promo-words" id="J_AD_7019143">
此商品将于2019-07-27,00点结束闪购特卖,女神价到30期
i>
a>
div>
# 获取 title 对应字段
name = await num.xpath("./div[@class='p-name p-name-type-2']/a")
name = await (await name.getProperty("title")).jsonValue()
getProperty:为获取标签内的字段的值
page.querySelector(…)
<i class="iconfont static" id="J_Quick2Static" data-spm-anchor-id="a2107.1.0.i4.44d211d9RgKFmD">111i>
获取这个标签,点击
pwd_login = await page.querySelector('#J_Quick2Static')
# print(await (await pwd_login.getProperty('textContent')).jsonValue())
await pwd_login.click()
slider = await page.Jeval('#nocaptcha', 'node => node.style') # 是否有滑块
第一个参数:css 选择
第二个参数:应该是执行的 js 代码获得此标签,.style 获得标签 css 风格;.textContent 获得标签的文本
await page.type('#TPL_username_1', username, {'delay': input_time_random() - 50})
await page.type('#password-label', pwd, {'delay': input_time_random()})
第一个参数:用 css 方法定位元素
第二个参数:提交字段
第三个参数:delay 延迟的意思,单位毫秒,意思是指定递交需要多少时间
鼠标悬停到指定元素上方 .hover
await page.hover('#nc_1_n1z')
把鼠标选定到指定元素,用 css 选取的
鼠标放下,移动,放开
await page.mouse.down()
await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
await page.mouse.up()
.move()
:第一个参数向 x,第二个 y,第三个延迟,需要几秒完成
await page.keyboard.press('Enter')
回车
.waitForNavigation()
当页面重新加载或定向到新的 url,将返回响应
.click()
找到元素点击
btn = await page.querySelector('#J_SubmitStatic')
await btn.click()
await page.setUserAgent(
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299')
await asyncio.sleep(6)
休息几秒
await page.waitForSelector("#main>h2", timeout=30000)
#等待“等待指定元素出现…"标题出现
await page.waitForNavigation()
# 等新网页装入完毕
await page.evaluate('window.scrollBy(0, document.body.scrollHeight)')
html = await page.content()
用名字来找
frame = await page.frames().find(f => f.name() === 'name')
frame = await page.frames();//得到所有的frame框
console.log(frames.length);//查看得到的frame列表数量
选择所有的iframe 选第四个
frame = ( await page.frames() )[4]
嵌套i的frame
frame1 = await page.frames().find(f => f.name() === 'leftframe');
// 得到第一个iframe框架的子框架
childframe1 = ( await frame1.childFrames() )[0];
// 等待输入框出现,输入信息
await childframe1.waitFor('#input_01');
await childframe1.type('#input_01','第一次输入:leftframe');
await page.setUserAgent('Mozilla/5.0 (Windows NT 6.1; Win64; x64) \ '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/78.0.3904.70 Safari/537.36')
await page.evaluateOnNewDocument(
'() =>{ Object.defineProperties(navigator,'
'{ webdriver:{ get: () => false } }) }')
element = await page.querySelector("#email") #找到账户输入框 这里也可以写xpath()
await element.type("[email protected]") # 输入邮箱
element = await page.querySelector("#password") #找到密码输入框
await element.type("XXXXXXXXX") # 输入密码
element = await page.querySelector("#c") #找到点击按钮
await element.click() # 点击
工作原理
import asyncio
import pyppeteer as pyp
import bs4
import requests
def sessionGetHtml(session, url): # 发送带session的网页请求
fakeHeaders = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) \
AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/81.0.4044.138 Safari/537.36 Edg/81.0.416.77'
} # 伪装浏览器用的请求头
try:
result = session.get(url, headers=fakeHeaders)
result.encoding = result.apparent_encoding
return result.text
except Exception as e:
print(e)
return ""
async def makeSession(page):
# 返回一个session,将其内部cookies修改成pypeteer浏览器页面对象中的cookies
cookies = await page.cookies() # cookies是一个列表,每个元素都是一个字典
cookies1 = {}
for cookie in cookies: # requests中的cookies只要 "name"属性
cookies1[cookie['name']] = cookie['value']
session = requests.Session()
session.cookies.update(cookies1)
return session
async def antiAntiCrawler(page):
# 为page添加反反爬虫手段
await page.setUserAgent('Mozilla/5.0 (Windows NT 6.1; Win64; x64) \ '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/78.0.3904.70 Safari/537.36')
await page.evaluateOnNewDocument(
'() =>{ Object.defineProperties(navigator,'
'{ webdriver:{ get: () => false } }) }')
async def getOjSourceCode(loginUrl):
width, height = 1400, 800 # 网页宽高
browser = await pyp.launch(headless=False,
userdataDir="c:/tmp",
args=[f'--window-size={width},{height}'])
page = await browser.newPage()
await antiAntiCrawler(page) # 反爬虫函数
await page.setViewport({'width': width, 'height': height})
await page.goto(loginUrl)
await page.waitForSelector("#main>h2",
timeout=30000) # 等待手动登录后,“正在进行的比赛...."标题出现
element = await page.querySelector("#userMenu>li:nth-child(2)>a")
# 找"个人首页”链接
await element.click() # 点击个人首页链接
await page.waitForNavigation() # 等新网页装入完毕
elements = await page.querySelectorAll(".result-right")
# 找所有"Accepted"链接, 其有属性 class="result-right"
session = await makeSession(page) # 调用函数获取session
for element in elements[:2]:
obj = await element.getProperty("href")
url = await obj.jsonValue()
html = sessionGetHtml(session, url) # 利用之前获取的session爬取
soup = bs4.BeautifulSoup(html, "html.parser")
element = soup.find("pre")
print(element.text)
print("-------------------------")
await browser.close()
def main():
url = "http://openjudge.cn/auth/login/"
asyncio.get_event_loop().run_until_complete(getOjSourceCode(url))
main()