最近登录某宝和某乎,发现之前写的代码又熄火了,官方给的反扒机制越来越牛叉了,发现之前使用的selenium无法完成登陆的滑动验证,一点作用都没有,菜鸟一枚,查了相关的资料,就开始使用pyppeteer来弄某数据平台的内容。使用pyppeteer滑动验证参考网上很多文章,以下代码也来源于网络,只对部分细节进行了修改,并且记录了pyppeteer使用过程中遇到的一些问题。
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import asyncio
from pyppeteer.launcher import launch
async def main(username, pwd, url):
# 若启动时无法自动下载chrome.exe,可手动下载(需科学上网打开https://download-chromium.appspot.com/)然后指定路径运行,如:
# browser = await launch({'headless': False, 'args': ['--no-sandbox'], 'dumpio': True, executablePath: r'[path]\chrome.exe'})
browser = await launch({'headless': False, 'args': ['--no-sandbox'],'dumpio':True}) # 'dumpio':True 浏览器就不会卡住了
page = await browser.newPage() # 启动个新的浏览器页面
await page.setUserAgent(
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36')
await page.goto(url)
if __name__ == '__main__':
username = 'xxxxxx' # 用户名
pwd = 'xxxxxx' # 密码
url = 'www.baidu.com'
loop = asyncio.get_event_loop() # 协程,开启个无限循环的程序流程,把一些函数注册到事件循环上。当满足事件发生的时候,调用相应的协程函数。
m = main(username, pwd, url)
loop.run_until_complete(m) # 将协程注册到事件循环,并启动事件循环
主要需要修改浏览器的window.navigator.webdriver、window.navigator.languages等值。
打开正常的浏览器可以看到:
window.navigator.webdriver的值为undefined,而通过pyppeteer控制打开的浏览器该值为True,当被检测到该值为True的时候,则滑动会一直失败,所以我们需要修改该属性。需要注意,在测试的过程中发现登陆成功后页面的该属性又会变成True,所以在每次重新加载页面后要重新设置该属性的值。
async def page_evaluate(page):
# 替换淘宝在检测浏览时采集的一些参数
await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => undefined } }) }''')
await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {}, }; }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')
完整代码:
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
import asyncio
import time
import random
from pyppeteer.launcher import launch # 控制模拟浏览器用
from retrying import retry # 设置重试次数用的
async def main(username, pwd, url): # 定义main协程函数,
# dumpio:True 浏览器就不会卡住了
browser = await launch({'headless': False, 'args': ['--no-sandbox'], 'dumpio':True}) # 启动pyppeteer 属于内存中实现交互的模拟器
page = await browser.newPage() # 启动个新的浏览器页面
await page.setUserAgent(
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36')
await page.goto(url) # 访问登录页面
await page_evaluate(page)
await page.type('.J_UserName', username, {'delay': input_time_random() - 50})
await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})
await page.waitFor(2)
# 检测页面是否有滑块。原理是检测页面元素。
slider = await page.Jeval('#nocaptcha', 'node => node.style') # 是否有滑块
if slider:
print('当前页面出现滑块')
while True:
print('刷新')
# 用于滑动失败刷新
flag, page = await mouse_slide(page=page)
fresh = ''
try:
fresh = await page.Jeval('.errloading', 'node => node.textContent')
except:
pass
if fresh:
await page.hover('a[href="javascript:noCaptcha.reset(1)"]')
await page.mouse.down()
await page.mouse.up()
time.sleep(1)
else:
break
if flag:
await page.keyboard.press('Enter') # 确保内容输入完毕,少数页面会自动完成按钮点击
print("print enter", flag)
await page.evaluate('''document.getElementById("J_SubmitStatic").click()''') # 如果无法通过回车键完成点击,就调用js模拟点击登录按钮。
time.sleep(2)
await get_cookie(page)
else:
print("")
await page.keyboard.press('Enter')
print("print enter")
await page.evaluate('''document.getElementById("J_SubmitStatic").click()''')
await page.waitFor(20)
await page.waitForNavigation()
try:
global error # 检测是否是账号密码错误
print("error_1:", error)
error = await page.Jeval('.error', 'node => node.textContent')
print("error_2:", error)
except Exception as e:
error = None
finally:
if error:
print('确保账户安全重新入输入')
# 程序退出。
loop.close()
else:
print(page.url)
await get_cookie(page)
await spider_search(browser, page)
print('over')
await page.close()
time.sleep(10)
await browser.close()
async def page_evaluate(page):
# 替换淘宝在检测浏览时采集的一些参数。
# 就是在浏览器运行的时候,始终让window.navigator.webdriver=false
# navigator是windiw对象的一个属性,同时修改plugins,languages,navigator
await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => undefined } }) }''') # 以下为插入中间js,将淘宝会为了检测浏览器而调用的js修改其结果。
await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {}, }; }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')
async def spider_search(browser, page):
url = 'https://s.taobao.com/search?spm=a21bo.2017.201856-fline.3.5af911d9CJTHFx&q=T%E6%81%A4&refpid=420462_1006&source=tbsy&style=grid&tab=all&pvid=d0f2ec2810bcec0d5a16d5283ce59f67&bcoffset=0&p4ppushleft=3%2C44&s=0'
await page.goto(url)
await page_evaluate(page)
page_num = 0
while page_num < 5:
print(page_num+1)
time.sleep(0.5)
# 这里选择通过构造url来翻页,这样对于可能出现的滑块验证就存在于page中
# 如果选择通过点击页面的翻页按钮翻页,则会在当前页面弹出一个小框滑动验证,此时需要检查页面的frames,找到弹出的框才能定位到滑块
url = 'https://s.taobao.com/search?spm=a21bo.2017.201856-fline.3.5af911d9CJTHFx&q=T%E6%81%A4&refpid=420462_1006&source=tbsy&style=grid&tab=all&pvid=d0f2ec2810bcec0d5a16d5283ce59f67&bcoffset=0&p4ppushleft=3%2C44&s={0}'.format(44*page_num)
await page.goto(url)
# 由于重新跳转了页面,window.navigator.webdriver的值被改为了True,需要再次设置为undefined,否则翻页过程中出现滑块,则会一直滑动失败
await page_evaluate(page)
try:
slider = await page.Jeval('#nocaptcha', 'node => node.style') # 是否有滑块
if slider:
while True:
print('刷新')
# 用于滑动失败刷新
flag, page = await mouse_slide(page=page)
fresh = ''
try:
fresh = await page.Jeval('.errloading', 'node => node.textContent')
except:
pass
if fresh:
await page.hover('a[href="javascript:noCaptcha.reset(1)"]')
await page.mouse.down()
await page.mouse.up()
time.sleep(1)
else:
break
except Exception as e:
print(e)
pass
page_num += 1
print('over')
# 获取登录后cookie
async def get_cookie(page):
cookies_list = await page.cookies()
cookies = ''
for cookie in cookies_list:
str_cookie = '{0}={1};'
str_cookie = str_cookie.format(cookie.get('name'), cookie.get('value'))
cookies += str_cookie
return cookies
def retry_if_result_none(result):
return result is None
@retry(retry_on_result=retry_if_result_none,)
async def mouse_slide(page=None, frame=None):
await asyncio.sleep(2)
try:
# 鼠标移动到滑块,按下,滑动到头(然后延时处理),松开按键
if frame:
await frame.hover('#nc_1_n1z')
else:
await page.hover('#nc_1_n1z')
await page.mouse.down()
await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
await page.mouse.up()
except Exception as e:
print(e, ':验证失败')
return None, page
else:
await asyncio.sleep(2)
# 判断是否通过
slider_again = ''
try:
slider_again = await page.Jeval('.nc-lang-cnt', 'node => node.textContent')
except:
pass
if slider_again != '验证通过':
return None, page
else:
print('验证通过')
return 1, page
def input_time_random():
return random.randint(100, 151)
if __name__ == '__main__':
username = 'xxxxxx' # 淘宝用户名
pwd = 'xxxxxx' # 密码
url = 'https://login.taobao.com/member/login.jhtml?style=mini&css_style=b2b&from=b2b&full_redirect=true&redirect_url=https://login.1688.com/member/jump.htm?target=https://login.1688.com/member/marketSigninJump.htm?Done=http://login.1688.com/member/taobaoSellerLoginDispatch.htm®= http://member.1688.com/member/join/enterprise_join.htm?lead=http://login.1688.com/member/taobaoSellerLoginDispatch.htm&leadUrl=http://login.1688.com/member/'
loop = asyncio.get_event_loop() # 协程,开启个无限循环的程序流程,把一些函数注册到事件循环上。当满足事件发生的时候,调用相应的协程函数。
m = main(username, pwd, url)
loop.run_until_complete(m) # 将协程注册到事件循环,并启动事件循环
使用pyppeteer出现的错误:
Protocol Error (Page.navigate): Session closed. Most likely the page has been closed.
解决办法:
修改pyppeteer/connection.py,参考https://github.com/miyakogi/pyppeteer/pull/181/files
self._ws = websockets.client.connect(
self._url, max_size=None, loop=self._loop)
# 修改为
self._ws = websockets.client.connect(
self._url, max_size=None, loop=self._loop, ping_interval=None, ping_timeout=None)
pyppeteer资料:
https://github.com/miyakogi/pyppeteer
https://miyakogi.github.io/pyppeteer/reference.html
辅助:基于pyppeteer实现最新版知乎模拟登陆
https://blog.csdn.net/jay_wonder/article/details/84109201 其他相关代码涉及私密,不予开放!
https://github.com/miyakogi/pyppeteer/pull/181/files