pyppeteer实现某宝登陆以及获取搜索结果

实现自动登陆某宝,以及通过搜索关键词获取结果,发现之前使用的selenium无法完成登陆的滑动验证,查找了一些资料应该是可以实现的,但是简单尝试了下没有成功,于是发现了今天说到的主角pyppeteer,使用pyppeteer滑动验证参考网上很多文章,以下代码也来源于网络,只对部分细节进行了修改,并且记录了pyppeteer使用过程中遇到的一些问题,该文章仅用作自己的学习笔记,避免时间过长忘记。

首先创建运行实例:

#!/usr/bin/env python
# -*- coding: UTF-8 -*-

import asyncio
from pyppeteer.launcher import launch

async def main(username, pwd, url): 
    # 若启动时无法自动下载chrome.exe,可手动下载(需科学上网打开https://download-chromium.appspot.com/)然后指定路径运行,如:
    # browser = await launch({'headless': False, 'args': ['--no-sandbox'], 'dumpio': True, executablePath: r'[path]\chrome.exe'})
    browser = await launch({'headless': False, 'args': ['--no-sandbox'],'dumpio':True})  # 'dumpio':True 浏览器就不会卡住了
    page = await browser.newPage()   # 启动个新的浏览器页面
    await page.setUserAgent(
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36')
	await page.goto(url)

if __name__ == '__main__':
    username = 'xxxxxx'  # 用户名
    pwd = 'xxxxxx'  # 密码
    url = 'www.baidu.com'
    loop = asyncio.get_event_loop()  # 协程,开启个无限循环的程序流程,把一些函数注册到事件循环上。当满足事件发生的时候,调用相应的协程函数。
    m = main(username, pwd, url)
    loop.run_until_complete(m)  # 将协程注册到事件循环,并启动事件循环

主要需要修改浏览器的window.navigator.webdriver、window.navigator.languages等值。

打开正常的浏览器可以看到:
pyppeteer实现某宝登陆以及获取搜索结果_第1张图片
window.navigator.webdriver的值为undefined,而通过pyppeteer控制打开的浏览器该值为True,当被检测到该值为True的时候,则滑动会一直失败,所以我们需要修改该属性。需要注意,在测试的过程中发现登陆成功后页面的该属性又会变成True,所以在每次重新加载页面后要重新设置该属性的值。

async def page_evaluate(page):
    # 替换淘宝在检测浏览时采集的一些参数
    await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => undefined } }) }''')
    await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')
    await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
    await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')

完整代码:

#!/usr/bin/env python
# -*- coding: UTF-8 -*-

import asyncio
import time
import random
from pyppeteer.launcher import launch   # 控制模拟浏览器用
from retrying import retry      # 设置重试次数用的


async def main(username, pwd, url): # 定义main协程函数,
	# dumpio:True 浏览器就不会卡住了
    browser = await launch({'headless': False, 'args': ['--no-sandbox'], 'dumpio':True})     # 启动pyppeteer 属于内存中实现交互的模拟器
    page = await browser.newPage()   # 启动个新的浏览器页面
    await page.setUserAgent(
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36')
    await page.goto(url)    # 访问登录页面
    await page_evaluate(page)
    await page.type('.J_UserName', username, {'delay': input_time_random() - 50})
    await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})
    await page.waitFor(2)
    # 检测页面是否有滑块。原理是检测页面元素。
    slider = await page.Jeval('#nocaptcha', 'node => node.style')  # 是否有滑块
    if slider:
        print('当前页面出现滑块')
        while True:
            print('刷新')
            # 用于滑动失败刷新
            flag, page = await mouse_slide(page=page)
            fresh = ''
            try:
                fresh = await page.Jeval('.errloading', 'node => node.textContent')
            except:
                pass
            if fresh:
                await page.hover('a[href="javascript:noCaptcha.reset(1)"]')
                await page.mouse.down()
                await page.mouse.up()
                time.sleep(1)
            else:
                break

        if flag:
            await page.keyboard.press('Enter')  # 确保内容输入完毕,少数页面会自动完成按钮点击
            print("print enter", flag)
            await page.evaluate('''document.getElementById("J_SubmitStatic").click()''')    # 如果无法通过回车键完成点击,就调用js模拟点击登录按钮。
            time.sleep(2)
            await get_cookie(page)
    else:
        print("")
        await page.keyboard.press('Enter')
        print("print enter")
        await page.evaluate('''document.getElementById("J_SubmitStatic").click()''')
        await page.waitFor(20)
        await page.waitForNavigation()

        try:
            global error    # 检测是否是账号密码错误
            print("error_1:", error)
            error = await page.Jeval('.error', 'node => node.textContent')
            print("error_2:", error)
        except Exception as e:
            error = None
        finally:
            if error:
                print('确保账户安全重新入输入')
                # 程序退出。
                loop.close()
            else:
                print(page.url)
                await get_cookie(page)
    await spider_search(browser, page)
    print('over')
    await page.close()
    time.sleep(10)
    await browser.close()

async def page_evaluate(page):
    # 替换淘宝在检测浏览时采集的一些参数。
    # 就是在浏览器运行的时候,始终让window.navigator.webdriver=false
    # navigator是windiw对象的一个属性,同时修改plugins,languages,navigator
    await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => undefined } }) }''')  # 以下为插入中间js,将淘宝会为了检测浏览器而调用的js修改其结果。
    await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')
    await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')
    await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')

async def spider_search(browser, page):
    url = 'https://s.taobao.com/search?spm=a21bo.2017.201856-fline.3.5af911d9CJTHFx&q=T%E6%81%A4&refpid=420462_1006&source=tbsy&style=grid&tab=all&pvid=d0f2ec2810bcec0d5a16d5283ce59f67&bcoffset=0&p4ppushleft=3%2C44&s=0'
    await page.goto(url)
    await page_evaluate(page)
    page_num = 0
    while page_num < 5:
        print(page_num+1)
        time.sleep(0.5)
        # 这里选择通过构造url来翻页,这样对于可能出现的滑块验证就存在于page中
        # 如果选择通过点击页面的翻页按钮翻页,则会在当前页面弹出一个小框滑动验证,此时需要检查页面的frames,找到弹出的框才能定位到滑块
        url = 'https://s.taobao.com/search?spm=a21bo.2017.201856-fline.3.5af911d9CJTHFx&q=T%E6%81%A4&refpid=420462_1006&source=tbsy&style=grid&tab=all&pvid=d0f2ec2810bcec0d5a16d5283ce59f67&bcoffset=0&p4ppushleft=3%2C44&s={0}'.format(44*page_num)
        await page.goto(url)
        # 由于重新跳转了页面,window.navigator.webdriver的值被改为了True,需要再次设置为undefined,否则翻页过程中出现滑块,则会一直滑动失败
        await page_evaluate(page)
        try:
            slider = await page.Jeval('#nocaptcha', 'node => node.style')  # 是否有滑块
            if slider:
                while True:
                    print('刷新')
                    # 用于滑动失败刷新
                    flag, page = await mouse_slide(page=page)
                    fresh = ''
                    try:
                        fresh = await page.Jeval('.errloading', 'node => node.textContent')
                    except:
                        pass
                    if fresh:
                        await page.hover('a[href="javascript:noCaptcha.reset(1)"]')
                        await page.mouse.down()
                        await page.mouse.up()
                        time.sleep(1)
                    else:
                        break
        except Exception as e:
            print(e)
            pass
        page_num += 1
    print('over')

# 获取登录后cookie
async def get_cookie(page):
    cookies_list = await page.cookies()
    cookies = ''
    for cookie in cookies_list:
        str_cookie = '{0}={1};'
        str_cookie = str_cookie.format(cookie.get('name'), cookie.get('value'))
        cookies += str_cookie
    return cookies


def retry_if_result_none(result):
    return result is None


@retry(retry_on_result=retry_if_result_none,)
async def mouse_slide(page=None, frame=None):
    await asyncio.sleep(2)
    try:
        # 鼠标移动到滑块,按下,滑动到头(然后延时处理),松开按键
        if frame:
            await frame.hover('#nc_1_n1z')
        else:
            await page.hover('#nc_1_n1z')
        await page.mouse.down()
        await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})
        await page.mouse.up()
    except Exception as e:
        print(e, ':验证失败')
        return None, page
    else:
        await asyncio.sleep(2)
        # 判断是否通过
        slider_again = ''
        try:
            slider_again = await page.Jeval('.nc-lang-cnt', 'node => node.textContent')
        except:
            pass
        if slider_again != '验证通过':
            return None, page
        else:
            print('验证通过')
            return 1, page


def input_time_random():
    return random.randint(100, 151)


if __name__ == '__main__':
    username = 'xxxxxx'  # 淘宝用户名
    pwd = 'xxxxxx'  # 密码
    url = 'https://login.taobao.com/member/login.jhtml?style=mini&css_style=b2b&from=b2b&full_redirect=true&redirect_url=https://login.1688.com/member/jump.htm?target=https://login.1688.com/member/marketSigninJump.htm?Done=http://login.1688.com/member/taobaoSellerLoginDispatch.htm®= http://member.1688.com/member/join/enterprise_join.htm?lead=http://login.1688.com/member/taobaoSellerLoginDispatch.htm&leadUrl=http://login.1688.com/member/'
    loop = asyncio.get_event_loop()  # 协程,开启个无限循环的程序流程,把一些函数注册到事件循环上。当满足事件发生的时候,调用相应的协程函数。
    m = main(username, pwd, url)
    loop.run_until_complete(m)  # 将协程注册到事件循环,并启动事件循环

使用pyppeteer出现的错误:
Protocol Error (Page.navigate): Session closed. Most likely the page has been closed.
解决办法:
修改pyppeteer/connection.py,参考 这里

self._ws = websockets.client.connect(
            self._url, max_size=None, loop=self._loop)
# 修改为
self._ws = websockets.client.connect(
            self._url, max_size=None, loop=self._loop, ping_interval=None, ping_timeout=None)

pyppeteer资料:
https://github.com/miyakogi/pyppeteer
https://miyakogi.github.io/pyppeteer/reference.html

你可能感兴趣的:(pyppeteer实现某宝登陆以及获取搜索结果)