使用sanic+pyppeteer构建动态引擎服务

sanic 异步框架

sanic 使用 异步非阻塞框架,使用python3的async/await 语法。使用 uvloop 作为事件循环,其底层使用的是libuv,速度优势明显。

pyppeteer

非官方的操作chrome 浏览器的Python实现,基本与谷歌亲儿子的puppeteer拥有相同的功能。

构建服务器

由于整个逻辑比较复杂,写的比较乱,具体逻辑不粘贴了,写下每个函数功能就好。

总的原则:

  • 支持多线程访问

  • 服务不能断,不能阻塞,发生错误能自动清理。

  • 提供重启接口,且在重启过程中,告知请求需要等待。

注意事项:

  • 处理下载页面,操作为禁止下载

  • 处理dialog信息,操作为dismiss

  • 处理xdg-open类型,暂时解决不了。

  • 执行js和截图功能要分开执行。截图不支持并发。看源代码也是通过队列排任务。截图还是另起服务单线程好。

  • 可以使用headless模式,正常网站没问题。(but,我要处理黑产网页。。。)

状态码管理:

1.503 服务不可用,需要重启服务

2.500 程序报错返回,需要重启服务

3.600 chrome 正在重启(随便自定义的)

4.408 超时默认90s

5.200 请求成功

很简单的脚本,加注释才300来行,不过解决其中的问题,还是很蛋疼的!!!

遇到一些网址DNS能解析,服务器连接不能返回内容的,会导致我这个服务阻塞。要记得使用asyncio.wait 设置超时,而且下面代码中 page.goto 也即打开页面设置超时属性有时不起作用

import asyncio
import functools
from collections import defaultdict

from pyppeteer import errors
from pyppeteer.launcher import launch
from sanic import Sanic
from sanic import response
from sanic.response import json
from sanic.exceptions import RequestTimeout, ServiceUnavailable

from send_emails import send_email

app = Sanic()
app.config.RESPONSE_TIMEOUT = 90
app.config.REQUEST_TIMEOUT = 90


async def start_chrome(app):
    # 启动浏览器
    # TODO: 是否有启动浏览器可以关闭xdg-open类型
    browser = await launch(
        {"args": ['--disable-infobars', '--no-sandbox', '--disable-web-security'],
         "executablePath":"/opt/google/chrome/chrome",
         "ignoreHTTPSErrors": True, "headless": False}
    )
    app.browser = browser
    app.mystop = False


async def dialog_test(dialog):
    await dialog.dismiss()


async def get_target(page, url):
    # 向浏览器发送请求
    await page.setRequestInterception(True)
    page.on(
        'dialog',
        lambda dialog: asyncio.ensure_future(dialog_test(dialog))
    )
    try:
        # 拒绝下载
        await page._client.send('Page.setDownloadBehavior', {"behavior": 'deny'})
        await page.goto(url=url, options={"timeout": 20000, "waitUntil": "networkidle2"})
    except errors.PageError as e:
        print(e)
    except errors.TimeoutError as e:
        print(e)
    except errors.NetworkError as e:
        print(e)


async def get_contents(page):
    # 获取contents内容,并执行js函数
    content = await page.content()
    title = await page.title()
    url = page.url
    iframe_size = await exec_jsfunc(page, get_iframe)
    return {"url": url,
            "html": content,
            "title": title,
            "dimen": iframe_size
            }


@app.listener('before_server_start')
async def setup_db(app, loop):
    # 在服务启动之前启动浏览器
    await start_chrome(app)


@app.middleware("response")
async def check_brower(request, response):
    # 检查状态码,进行下一步操作,比如邮件通知
    pass
        

@app.middleware("request")
async def check_brower(request):
    # 在request请求之前先到这里,也即是预处理
    # 需要处理两个事情:
    # 请求之前要打开几个chrome page页面
    # 请求之前确认chrome是否在重启
    pass


@app.exception(RequestTimeout)
async def timeout(request, exception):
    # 处理请求超时问题
    pass


@app.exception(ServiceUnavailable)
def responseTimeout(request, exception):
    # 处理服务发生500错误
    pass


@app.route('/restartchrome')
async def main(req):
    # 重启浏览器
    pass


@app.route("/", methods=['POST'])
async def test(request):
    # 请求主体
    bws = request.app.page_list
    req = request.json
    pass


def manger():
    app.run(host="0.0.0.0", port=8000)

if __name__ == "__main__":
    manger()

说在最后,这个脚本其实我是来练习写Python异步代码,最近才明白异步是怎么一回事儿。笨蛋一个

这个代码后期在整理下,有需要的朋友可以考虑联系我。

你可能感兴趣的:(使用sanic+pyppeteer构建动态引擎服务)