Giyn

Pyppeteer 的基本使用方法

什么是 Puppeteer？

要想知道什么是 Pyppeteer，首先应该先了解一下 Puppeteer：

Puppeteer 是 Google 基于 Node.js 开发的一个工具，拥有 Puppeteer 即可通过 JavaScript 来控制 Chrome 浏览器的一些操作，也可以用于网络爬虫上，其 API 极其完善，功能非常强大。

什么是 Pyppeteer？

Pyppeteer 是 Puppeteer 的 Python 实现，Pyppetter 基于 Chromium 浏览器通过执行一些动作来进行网页渲染，Pyppeteer 基于 Python 的新特性 async 实现，因此它也支持异步操作，效率相对于 Selenium 也有一定的提高。

使用 Pyppeteer 进行页面渲染

豆瓣电影筛选页面页面是 JavaScript 渲染生成的，此处使用 Pyppeteer，模拟浏览器的操作，直接用浏览器把页面渲染出来，然后再直接获取渲染后的结果。

import asyncio

from lxml import etree
from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0'


async def main():
    browser = await launch()
    page = await browser.newPage()

    await page.setUserAgent(fake.user_agent())
    await page.goto(URL, options={
     'timeout': 10000})

    doc = etree.HTML((await page.content()))
    titles_xpath = "//div[@class='list']/a[@class='item']/div/img/@alt"
    titles = doc.xpath(titles_xpath)
    print(titles)

    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

运行结果：

['心灵奇旅', '无依之地', '迈阿密的一夜', '捕鲸男孩', '绿洲', '我是大哥大 电影版', '除暴', '女人的碎片', '波斯语课', '穷途鼠的奶酪梦', '一秒钟', '刻在你心底的名字', '神奇女侠1984', '白虎', '玫瑰岛的不可思议的历史', '2020去死', '沐浴之王', '我和我的家乡', '夺冠', '信条']

具体分析如下：

使用 launch 方法新建一个 Browser 对象，相当于启动浏览器；接着 browser 调用 newPage 方法新建了一个 Page 对象，相当于浏览器新建一个选项卡，随后调用 setUserAgent 方法设置 User-Agent，然后 Page 对象调用了 goto 方法访问目标页面，相当于在浏览器中输入目标 URL，浏览器跳转到了对应页面进行加载；页面加载完成后再调用 content 方法获取当前浏览器页面的源代码，即 JavaScript 渲染后的结果；最后使用 lxml 进行解析并提取电影名称。

可以看到 Pyppeteer 的代码比 Selenium 更简洁易读，且环境配置更方便，还实现了异步爬取。

除此以外，我们还可以尝试 Pyppeteer 的其他功能：

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0'


async def main():
    browser = await launch()
    page = await browser.newPage()

    await page.setViewport(viewport={
     'width': 1280, 'height': 800})
    await page.setUserAgent(fake.user_agent())
    await page.goto(URL, options={
     'timeout': 10000})

    await asyncio.sleep(4.12)
    await page.screenshot(path='screenshot.png')

    dimensions = await page.evaluate('''() => {
        return {
            width: document.documentElement.clientWidth,
            height: document.documentElement.clientHeight,
            deviceScaleFactor: window.devicePixelRatio,
        }
    }''')
    print(dimensions)

    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

运行结果：

{
     'width': 1263, 'height': 800, 'deviceScaleFactor': 1.0000000149011612}

此处使用 setViewport 方法设定了浏览器窗口大小并模拟了网页截图，此外还执行了自定义的 JavaScript 以获得特定的内容。

截图如下：

最后调用 evaluate 方法执行 JavaScript 代码，其传入一个函数，返回网页的宽高、像素大小比率，最后得到一个 JSON 格式的对象。

Pyppeteer 常用方法

launch

使用 Pyppeteer 的第一步是调用 launch 方法来启动浏览器，首先通过官方文档查看 launch 方法的定义：

pyppeteer.launcher.launch(options: dict=None, **kwargs) → pyppeteer.browser.Browser

launch 方法处于 launcher 模块中，参数没有在声明中特别指定，返回类型是 browser 模块中的 Browser 对象，launch 方法是 async 修饰的方法，因此调用时需要使用 await。

launch 方法的参数如下：

参数	描述
ignoreHTTPSErrors (bool)	是否要忽略 HTTPS 的错误，默认是 False。
headless (bool)	是否启用 Headless 模式，即无界面模式，如果 devtools 这个参数是 True 的话，那么该参数就会被设置为 False，否则为 True，即默认是开启无界面模式的。
executablePath (str)	可执行文件的路径，如果指定之后就不需要使用默认的 Chromium 了，可以指定为已有的 Chrome 或 Chromium。
slowMo (int or float)	通过传入指定的时间，可以减缓 Pyppeteer 的一些模拟操作。
args (List[str])	在执行过程中可以传入的额外参数。
ignoreDefaultArgs (bool)	不使用 Pyppeteer 的默认参数，如果使用了这个参数，那么最好通过 args 参数来设定一些参数，否则可能会出现一些意想不到的问题。这个参数相对比较危险，慎用。
handleSIGINT (bool)	是否响应 SIGINT 信号，也就是可以使用 Ctrl + C 来终止浏览器程序，默认是 True。
handleSIGTERM (bool)	是否响应 SIGTERM 信号，一般是 kill 命令，默认是 True。
handleSIGHUP (bool)	是否响应 SIGHUP 信号，即挂起信号，比如终端退出操作，默认是 True。
dumpio (bool)	是否将 Pyppeteer 的输出内容传给 process.stdout 和 process.stderr 对象，默认是 False。
userDataDir (str)	即用户数据文件夹，即可以保留一些个性化配置和操作记录。
env (dict)	环境变量，可以通过字典形式传入。
devtools (bool)	是否为每一个页面自动开启调试工具，默认是 False。如果这个参数设置为 True，那么 headless 参数就会无效，会被强制设置为 False。
logLevel (int or str)	日志级别，默认和 root logger 对象的级别相同。
autoClose (bool)	当一些命令执行完之后，是否自动关闭浏览器，默认是 True。
loop (asyncio.AbstractEventLoop)	事件循环对象。

有头模式和调试模式

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0'


async def main():
    browser = await launch({
     'headless': False,
                            'devtools': True,
                            })
    page = await browser.newPage()

    await page.setUserAgent(fake.user_agent())
    await page.goto(URL, options={
     'timeout': 10000})

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

运行结果：

使用调试模式后，每开启一个界面就会弹出一个调试窗口。

禁用页面顶端提示条

有头模式时可以看到页面顶端提示条：“Chrome 正受到自动测试软件的控制”，可以使用 args 参数来关闭：

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0'


async def main():
    browser = await launch({
     'headless': False,
                            'args': ['--disable-infobars']
                            })
    page = await browser.newPage()

    await page.setUserAgent(fake.user_agent())
    await page.goto(URL, options={
     'timeout': 10000})

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

防止 WebDriver 检测

我们试着访问美团美食网：

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://gz.meituan.com/meishi/'


async def main():
    browser = await launch({
     'headless': False,
                            'args': ['--disable-infobars']
                            })
    page = await browser.newPage()

    await page.setUserAgent(fake.user_agent())
    await page.goto(URL, options={
     'timeout': 10000})

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

可以看到 HTTP 状态码为 403（403 Forbidden），即使我们设置了 User-Agent，美团依然能够检测到 WebDriver。

Pyppeteer 的 Page 对象有一个 evaluateOnNewDocument 方法，可以在每次加载网页的时候执行某个语句，此处执行将 WebDriver 隐藏的命令 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'：

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://gz.meituan.com/meishi/'


async def main():
    browser = await launch({
     'headless': False,
                            'args': ['--disable-infobars']
                            })
    page = await browser.newPage()

    await page.setUserAgent(fake.user_agent())
    await page.evaluateOnNewDocument('function(){Object.defineProperty(navigator, "webdriver", {get: () => undefined})}')
    await page.goto(URL, options={
     'timeout': 10000})

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

如下图可以看到绕过了 WebDriver 的检测，成功访问页面并加载出美团美食内容：

页面大小调整

上图中可发现页面大小与浏览器大小不统一，可以使用 setViewport 方法进行调整：

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://gz.meituan.com/meishi/'


async def main():
    browser = await launch({
     'headless': False,
                            'args': ['--disable-infobars']
                            })
    page = await browser.newPage()
    
    await page.setViewport({
     'width': 1530, 'height': 800})
    await page.setUserAgent(fake.user_agent())
    await page.evaluateOnNewDocument('function(){Object.defineProperty(navigator, "webdriver", {get: () => undefined})}')
    await page.goto(URL, options={
     'timeout': 10000})

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

可以看到页面大小调整为正常状态：

用户数据持久化

平时访问网站时关键 Cookies 已经保存到本地浏览器，因此下次登录时可以直接读取并保持登录状态，这些信息保存在用户目录下，其不仅包含浏览器的基本配置信息，还有一些 Cache、Cookies 等信息，若能在浏览器启动时读取这些信息，则可以恢复一些历史记录以及登录状态信息。

Pyppeteer 提供了实现手段，即在启动的时候设置 userDataDir：

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://www.zhihu.com/'


async def main():
    browser = await launch({
     'headless': False,
                            'args': ['--disable-infobars'],
                            'userDataDir': './userdata'
                            })
    page = await browser.newPage()

    await page.setViewport({
     'width': 1530, 'height': 800})
    await page.setUserAgent(fake.user_agent())
    await page.evaluateOnNewDocument('function(){Object.defineProperty(navigator, "webdriver", {get: () => undefined})}')
    await page.goto(URL, options={
     'timeout': 10000})

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

第一次启动时先手动登录：

登录后相关信息会保存在用户目录下，下次登录时即可直接读取：

此后再启动，无需重新登录（除非 Cookies 过期）。

Browser

launch 方法返回的是 Browser 对象（浏览器对象），即 Browser 类的一个实例，其拥有许多用于操作浏览器的方法。

无痕模式

无痕模式的好处就是环境干净，不与其他的浏览器示例共享 Cache、Cookies 等内容，其开启方式可以通过 createIncognitoBrowserContext 方法，其返回一个 context 对象，用其创建新选项卡：

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://gz.meituan.com/meishi/'


async def main():
    browser = await launch({
     'headless': False,
                            'args': ['--disable-infobars'],
                            'userDataDir': './userdata'
                            })
    context = await browser.createIncognitoBrowserContext()
    page = await context.newPage()

    await page.setViewport({
     'width': 1530, 'height': 800})
    await page.setUserAgent(fake.user_agent())
    await page.evaluateOnNewDocument('function(){Object.defineProperty(navigator, "webdriver", {get: () => undefined})}')
    await page.goto(URL, options={
     'timeout': 10000})

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

访问美团后先登录：

第二次使用无痕模式访问的时候，仍然需要登录：

Page

Page 对象即一个选项卡，对应一个页面。

提取网页资源

成功访问网页后，可以通过 Page 对象的 xpath 方法提取资源，并使用 getProperty 方法和 .jsonValue() 获取资源：

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()
URL = 'https://www.zhihu.com/'


async def main():
    browser = await launch({
     'headless': False,
                            'args': ['--disable-infobars'],
                            'userDataDir': './userdata'
                            })
    page = await browser.newPage()

    await page.setViewport({
     'width': 1530, 'height': 800})
    await page.setUserAgent(fake.user_agent())
    await page.evaluateOnNewDocument('function(){Object.defineProperty(navigator, "webdriver", {get: () => undefined})}')
    await page.goto(URL, options={
     'timeout': 10000})

    title_elements = await page.xpath("//div[@class='Card TopstoryItem TopstoryItem--old TopstoryItem-isRecommend']//a[@target='_blank']")
    for element in title_elements:
        title = await (await element.getProperty('textContent')).jsonValue()
        url = await (await element.getProperty('href')).jsonValue()
        print(title)
        print(url)

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

获取和切换选项卡

新建选项卡使用的是 newPage 方法，下面是获取和切换操作：

import asyncio

from pyppeteer import launch


async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()
    await page.goto('https://www.baidu.com')
    page = await browser.newPage()
    await page.goto('https://www.bilibili.com/')
    pages = await browser.pages()  # 获取所有页面

    print('Pages:', pages)
    page1 = pages[1]
    
    # 等候2秒后切换选项卡
    await asyncio.sleep(2)
    await page1.bringToFront()
    await asyncio.sleep(4)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

此处调用了 newPage 方法新建了两个选项卡并访问了两个网站。若要切换选项卡，只需调用 pages 方法获取所有页面，然后选一个页面调用其 bringToFront 方法即可切换到该页面对应的选项卡。

页面的前进、后退、刷新、截图、关闭功能

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()


async def main():
    browser = await launch(headless=False, args=['--disable-infobars'])
    page = await browser.newPage()
    
    await page.setUserAgent(fake.user_agent())
    await page.setExtraHTTPHeaders(headers={
     })
    await page.evaluateOnNewDocument(
        'function(){Object.defineProperty(navigator, "webdriver", {get: () => undefined})}')

    await page.goto('https://www.bilibili.com/')
    await page.goto('https://www.toutiao.com/')

    await page.goBack()
    await page.goForward()

    await page.reload()
    await page.screenshot()

    await page.close()
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

输入文本、点击操作

输入文本使用 Page 对象的 type 方法：

第一个参数为选择器；
第二个参数为所输入的内容。

点击操作使用 Page 对象的 click 方法：

第一个参数为选择器；
button：left、middle、right；
clickCount：点击次数；
delay：延迟点击（ms）。

import asyncio

from faker import Faker
from pyppeteer import launch


async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()

    await page.goto('https://www.baidu.com/')

    await page.type('#kw', 'Python')  # 输入文本
    await page.click('#su', options={
     
        'button': 'left',
        'clickCount': 1,
        'delay': 3000,  # 延迟点击(ms)
    })

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

运行结果：

获取源代码和 Cookies

Page 对象获取源代码使用 content 方法，获取 Cookies 使用 cookies 方法。

import asyncio

from faker import Faker
from pyppeteer import launch


async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()

    await page.goto('https://www.baidu.com/')
    print(await page.content())
    print(await page.cookies())

    await asyncio.sleep(412)
    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

运行结果：

<!DOCTYPE html><html><head><script type="text/javascript" charset="utf-8" src="https://dss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/js/components/guide-8759cd328f.js"></script><script type="text/javascript" charset="utf-8" src="https://dss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/js/components/qrcode-da919182da.js"></script><script type="text/javascript" charset="utf-8" src="https://dss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/js/super_load-a97cbd2188.js"></script><script type="text/javascript" charset="utf-8" src="https://dss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/js/components/tips-e2ceadd14d.js"></script><meta http-equiv="Content-Type" content="text/html;charset=utf-8"><meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"><meta content="always" name="referrer"><meta name="theme-color" content="#2932e1"><meta name="description" content="全球最大的中文搜索引擎、致力于让网民更便捷地获取信息，找到所求。百度超过千亿的中文网页数据库，可以瞬间找到相关的搜索结果。">
[{
     'name': 'PSTM', 'value': '1611901664', 'domain': '.baidu.com', 'path': '/', 'expires': 3759385311.821295, 'size': 14, 'httpOnly': False, 'secure': False, 'session': False}, {
     'name': 'BIDUPSID', 'value': '6361BE73058980E68337B0E3AAA39F48', 'domain': '.baidu.com', 'path': '/', 'expires': 3759385311.821179, 'size': 40, 'httpOnly': False, 'secure': False, 'session': False}, {
     'name': 'H_PS_PSSID', 'value': '33425_33516_33440_33259_33344_33585_26350_33544', 'domain': '.baidu.com', 'path': '/', 'expires': -1, 'size': 57, 'httpOnly': False, 'secure': False, 'session': True}, {
     'name': 'BAIDUID', 'value': '6361BE73058980E68E74F842C5A4CEBB:FG=1', 'domain': '.baidu.com', 'path': '/', 'expires': 1643437664.821377, 'size': 44, 'httpOnly': False, 'secure': False, 'session': False}, {
     'name': 'BD_HOME', 'value': '1', 'domain': 'www.baidu.com', 'path': '/', 'expires': -1, 'size': 8, 'httpOnly': False, 'secure': False, 'session': True}, {
     'name': 'BD_UPN', 'value': '12314753', 'domain': 'www.baidu.com', 'path': '/', 'expires': 1612765665, 'size': 14, 'httpOnly': False, 'secure': False, 'session': False}, {
     'name': 'BA_HECTOR', 'value': '8pak0l852g812l0guh1g17an10r', 'domain': '.baidu.com', 'path': '/', 'expires': 1611905265, 'size': 36, 'httpOnly': False, 'secure': False, 'session': False}]

执行 JavaScript 代码

使用 Page 对象的 evaluate 方法即可执行 JavaScript 代码：

import asyncio

from faker import Faker
from pyppeteer import launch

fake = Faker()


async def main():
    browser = await launch(headless=False)
    page = await browser.newPage()

    await page.setViewport({
     'width': 1530, 'height': 800})
    await page.goto('https://www.bilibili.com/')

    await asyncio.sleep(2)

    dimensions = await page.evaluate('''() => {
        return {
            width: document.documentElement.clientWidth,
            height: document.documentElement.clientHeight,
            deviceScaleFactor: window.devicePixelRatio,
        }
    }''')
    print(dimensions)

    await browser.close()


if __name__ == '__main__':
    asyncio.get_event_loop().run_until_complete(main())

运行结果：

{
     'width': 465, 'height': 658, 'deviceScaleFactor': 1.25}

除了 evaluate 方法，还有 exposeFunction、evaluateOnNewDocument、evaluateHandle 方法也可以执行 JavaScript 代码。

延时等待

方法	描述
waitForFunction	等待某个 JavaScript 方法执行完毕或返回结果
waitForNavigation	等待页面跳转，如果没加载出来就会报错
waitForRequest	等待某个特定的请求被发出
waitForResponse	等待某个特定的请求收到了回应
waitFor	通用的等待方法
waitForSelector	等待符合选择器的节点加载出来
waitForXPath	等待符合 XPath 的节点加载出来

Reference：https://kaiwu.lagou.com/course/courseInfo.htm?courseId=46#/detail/pc?id=1679

Python入门到精通（三）：数据结构第一部分 love9599 Python入门到精通 python 开发语言
python的常用数据结构类型字符型字典列表元组、集合一、序列序列：是python中的一类数据类型，比如字符串、列表序列类型的对象是可以进行循环变例的1.1序列特性索引：指的是在序列中找到指定元素的索引编号切片：指的是从序列中提取一部分内容加法：序列对象可以将多个序列合并成一个乘法：可以将序列通过乘法输出多个相同的1.2序列操作索引操作格式：序列名[索引值]#案例1：str1="hello"#定义
Spring Boot 核心知识点精讲：助你快速上手与深度理解无眠_ spring boot 运维后端
SpringBoot核心知识点精讲：助你快速上手与深度理解摘要：SpringBoot以其约定优于配置、快速开发、易部署等特性，成为Java微服务开发的首选框架。本文将深入浅出地介绍SpringBoot的核心知识点，包括自动配置、起步依赖、依赖注入、外部化配置等，帮助读者快速上手SpringBoot并深入理解其运行机制，为高效开发SpringBoot应用打下坚实基础。关键词：SpringBoot,自
python的数据结构有哪些_Python的数据结构 weixin_39804059 python的数据结构有哪些
一、Python中有哪些数据结构？dict,list,tuple,set,str二、dict,list,tuple,set,str的特点dict：字典，由键值对构成，通过键值对字典中元素进行索引，是可变数据结构list：列表，列表中的元素可以是任意类型，通过下标进行索引，是可变数据结构tuple：元组，元组中的元素可以是任意类型，通过下标进行索引，其中的元素不可变str：字符串，通过下表索引，元素
Python基础语法（一）算法工程师y python 开发语言
一、Python的安装与环境配置在开始编程之前，你需要确保计算机上安装了Python。以下是简单步骤：下载Python：访问Python官网，选择适合你操作系统的版本（推荐Python3.10+）。安装Python：运行安装程序，勾选“AddPythontoPATH”（确保在命令行中可以直接使用Python）。验证安装：打开终端（Windows用户使用CMD/PowerShell，Mac/Linu
Python常用数据结构我真的不会做啊 python 数据结构开发语言
背景：最近在学习自动化测试，发现基本是用python写的脚本就顺带好好学一学python，准备以后也深入学习一下今天简单的介绍一下python里面常用的数据结构吧Python数据结构原生数据结构原生数据结构元组Tuple()tup1=('Python','Java',1,2)tup2=(9527,)注意：1、使用()、tuple()创建元组，元组可以为空且元素类型可以不同；2、若元组中仅包含一个数
.NET c#知识点小补充豆皮没有豆 .Net基础-c#c#基础 .net
1.面向对象：（1)对象：在程序中我们可以把任何事物来映射显示生活中的万事万物，那么我们把这些事物称之为对象。对象：属性、方法(主动）、事件（被动）。（2)面向对象：使用这种语言通过描述属性以及行为进行构造一个对象。（3)集成开发环境：具有代码的编辑、编译、检测、运行。a.所有的文件（.cs/.java/.py/.html。。。。）只是装载代码的一个载体文件。b.其承载的代码若要实现其具有的功能，
【动手学深度学习】#1PyTorch基础操作 -一杯为品- 机器学习深度学习人工智能
主要参考学习资料：《动手学深度学习》阿斯顿·张等著【动手学深度学习PyTorch版】哔哩哔哩@跟李牧学AI目录1.1数据操作1.1.1入门1.1.2运算符1.1.3广播机制1.1.4索引和切片1.1.5节省内存1.1.6转换为其他Python对象1.2数据预处理1.2.1读取数据集1.2.2处理缺失值1.2.3转换为张量格式1.3线性代数1.3.1标量1.3.2向量1.3.3矩阵1.3.4张量1.
软件开发面试题C#，.NET知识点（续） .房东的猫 c#.net
1.C#中的封装是什么，以及它的重要性。封装（Encapsulation）是面向对象编程（OOP）的一个基本概念。它指的是将对象的状态（属性）和行为（方法）绑定在一起，并且将这些细节隐藏起来，只暴露必要的接口给外部使用。这样做的好处包括：提高代码的安全性：通过将数据隐藏在类内部，并通过公共方法（getters和setters）来访问和修改这些数据，可以防止外部代码直接修改类的内部状态，从而保护数据
使用python3批量查询ip9000.txt的9000端口标题 longerxin2020 Linux 脚本集合 python 开发语言
fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionsfromselenium.common.exceptionsimportWebDriverException#配置chromium浏览器选项options=Options()options.binary_location="/usr/bin/ch
python中定义结构体的方法 lxc521wjh python
Python中没有专门定义结构体的方法，不过可以使用class标记定义类来代替结构体，其成员可以在构造函数__init__中定义，具体方法如下。classitem:def__init__(self):self.name=''#名称self.size=10#尺寸self.list=[]#列表a=item()#定义结构对象a.name='cup'a.size=8a.list.append('water
javaweb中@Component和@Mapper和@Service和@RestController这几个注解要加在哪?为什么? 瑞金彭于晏 maven java spring boot spring
在JavaWeb开发中特别是在使用Spring框架（包括SpringBoot）时，@Component、@Mapper、@Service、@RestController这些注解扮演着非常重要的角色，它们用于定义组件的类型，并帮助Spring框架进行自动装配和依赖注入。下面分别解释这些注解应该加在哪里以及为什么：1.@Component加在哪里：@Component可以加在任何类上，表示这个类是一个
python网格插值站点_在python中，在二维零网格上两点之间插值一条值线 weixin_39965490 python网格插值站点
TLDR:在2dnumpy数组中找到2个点后，如何在0数组中在它们之间插值一条1行？在上下文：目前我正在尝试从二值化的医学图像数据(0和1)对一个3d数组执行2d操作。最终目标是在填充体素/像素(即第一个和最后一个实例)的起点和终点之间添加一条1s的线。在为此，我使用SimpleITK分割一行，然后将其转换为numpy数组。在其他示例之后，我编写了返回一组数组的函数，这些数组显示填充(1)个像素和
python 网格数据插值_python – 网格数据的快速插值 weixin_39747399 python 网格数据插值
当然！有两个选项可以做不同的事情，但是既能利用原始数据的定期网格性质。第一个是scipy.ndimage.zoom.如果你只想通过内插原始数据生成一个更加密集的规则网格，那就是要走的路。第二个是scipy.ndimage.map_coordinates.如果你想在你的数据中插入一些(或许多)任意点，但仍然利用原始数据的定期网格性质(例如，不需要四叉树)，那就是去的方式。作为一个快速示例(这将使用三
springboot是如何在没有web.xml的情况下在外部tomcat启动的菜鸟王老汉 spring
最近在公司部署测试环境的时候遇到了问题，本地用springboot内嵌tomcat启动没有问题，部署到测试环境的外部tomcat就不加载，在咨询了同事之后在启动类上继承了SpringBootServletInitializer之后就没有了问题，但并没有深入去想。由于servlet的规范是要配置web.xml的，包括Struts2和spring都是要在web.xml配置的，有一天在服务器上看编译后的
地理数据中的分辨率转换木叶清风666 地理信息数据处理 matlab python 开发语言
数据分辨率问题气象海洋数据在实际应用中，常常涉及到重采样，即分辨率的提高或降低等操作。本文提供了matlab以及python的样例程序，以降低（网格平均）或提高（线性插值）数据的分辨率。1.高分辨率——>低分辨率可以使用循环逐个网格进行操作,但循环次数过多,存在效率低下的问题。%---需要的分辨率0.25°,以及经纬度网格点deg=0.25;lat_era=16:deg:47.75;lon_era
JavaScript 全面教程：从基础到高级实践幼儿园扛把子\ javascript 开发语言 ecmascript
JavaScript全面教程：从基础到高级实践目录JavaScript全面教程：从基础到高级实践2.JavaScript基础语法2.1变量与数据类型2.1.1变量声明2.1.2数据类型2.2条件语句与循环2.2.1条件语句2.2.2循环2.3函数2.3.1函数定义2.3.2参数默认值3.对象与数组3.1对象3.2数组4.高级特性与最佳实践4.1作用域与闭包4.1.1闭包示例4.2事件循环（Even
ServerStatus牛逼！！架构文摘JGWZ 学习工具开源软件
作为一名攻城狮，面对各种服务器内存飙高、CPU猛增、磁盘打满等等服务器问题，可谓是伤透了我们的心。不仅要开发，还要处理这些问题，大把的时间浪费了，这时候一个好的全面的监控工具尤为重要了。所以，带着这个问题，为大家一个酷炫高逼格的服务器探针的监控工具：ServerStatus介绍ServerStatus是一个免费开源的监控工具，并且提供了一个直观的Web页面，极大的方便了开发人员。特性实时监控，如在
一个简单的语音识别实现---百度在线语音识别REST API SDK（Python）简单使用 DerrickOzil 语音识别 python sdk 语音识别
百度在线语音识别RESTAPISDK（Python）简单使用首先申请开发者权限注册开发者信息完成注册创建新应用下载SDK并查看key在应用管理中，选择查看key，记录AppID、APIKey、SecretKey三个参数值。测试音频链接：http://pan.baidu.com/s/1o8Ue4B4密码：o5r1]注意事项音频格式限制pcm（不压缩）、wav、amr采样频率及位数支持评测8k/16k
python_学习爬虫遇到的第一个问题_urllib获取baidu首页源代码 KJDETL python_爬虫 python 学习爬虫
第一天学习爬虫，学习的是urllib的基本用法，通过urllib.request获取baidu首页源代码。#导入urllib所需要的库importurllib.request#左边自定义名称，右边是要访问的地址url='https://www.baidu.com/Index.htm'#左边自定义名称可以叫做响应，右边是通过urllib.request.urlopen方法向url发出请求respon
VUE前端实现防抖节流 Lodash 2501_91133275 前端 vue.js javascript
写在前面：兄弟们，我手里有个长期项目，考虑接私活的可以看看我GitHub！https://github.com/ccy-233/coder2retire方法一：采用Lodash工具库Lodash是一个一致性、[模块化]、高性能的JavaScript实用工具库。（1）采用终端导入Lodash库$npmi-gnpm$npmi--savelodash（2）应用示例：搜索框输入防抖在这个示例中，我们希望用
python基础版课件_Python入门基础ppt课件.ppt 六间仓库的仓老师 python基础版课件
《Python入门基础ppt课件.ppt》由会员分享，可在线阅读，更多相关《Python入门基础ppt课件.ppt(30页珍藏版)》请在人人文库网上搜索。1、Python语言基础,1,Python诞生于20世纪90年代初，是一种解释型、面向对象、动态数据类型的高级程序设计语言，是最受欢迎的程序设计语言之一。这节课我们主要来介绍Python语言的基本情况和基础知识。,课程描述,2,课程知识点,1初识
计算机组成原理（知识点+易错点，超详细）|第四章指令系统 sailing_c 计算机组成原理计算机组成原理学习笔记
目录4.1指令系统4.1.1指令集体系结构4.1.2指令的基本格式4.1.3定长操作码指令格式4.1.4扩展操作码指令格式4.1.5指令的操作类型4.2指令的寻址方式4.2.1指令寻址和数据寻址4.2.2常见的数据寻址方式4.3程序的机器级代码表示4.3.1常用汇编指令介绍4.3.2选择语句的机器级表示4.3.3循环语句的机器级表示4.3.4过程调用的机器级表示4.4CISC和RISC的基本概念4
从零开始学机器学习——构建一个推荐web应用努力的小雨机器学习机器学习前端人工智能
首先给大家介绍一个很好用的学习地址：https://cloudstudio.net/columns今天，我们终于将分类器这一章节学习完活了，和回归一样，最后一章节用来构建web应用程序，我们会回顾之前所学的知识点，并新增一个web应用用来让模型和用户交互。所以今天的主题是美食推荐。美食推荐Web应用程序首先，请不要担心，本章节并不会涉及过多的前端知识点。我们此次的学习重点在于机器学习本身，因此我们
Python从入门到实践电子书,python编程入门到实践pdf 小六oO 智能写作 python django 开发语言
《Python编程从入门到实践》txt下载在线阅读，求百度网盘云资源《Python编程》（[美]埃里克·马瑟斯（EricMatthes））电子书网盘下载免费在线阅读资源链接：链接：提取码：6vcz书名：Python编程作者：[美]埃里克·马瑟斯（EricMatthes）译者：袁国忠豆瓣评分：9.2出版社：人民邮电出版社出版年份：2020-10页数：476内容简介：本书是针对所有层次Python读者
在使用selenium进行爬虫时， add_experimental_optio(),add_argument()的用法数据牧马人 selenium 爬虫测试工具
driver.add_experimental_option('excludeSwitches',['enable-automation'])是在使用SeleniumWebDriver与浏览器交互时设置的一行代码。这行代码用于禁用浏览器中的自动化检测。具体来说，当你在使用SeleniumWebDriver与浏览器交互时，有些浏览器（例如GoogleChrome）可能会检测到自动化行为（例如，通过检
【2025年春季】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽子凯哥 web安全学习安全 CTF夺旗赛网络安全
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
【前端入门】应该了解和知道的几个国内外前端开发资源网站爱上大树的小猪前端
与大家分享一下几个国内外前端开发资源网站国际资源MDNWebDocs(MozillaDeveloperNetwork)用途：MDN是Web技术领域最全面的文档库之一，涵盖了HTML、CSS、JavaScript以及浏览器API等。链接:https://developer.mozilla.orgW3Schools用途：适合初学者学习Web技术，提供从基础到进阶的教程，同时还有在线练习环境。链接:ht
Python（1）Python全方位指南：定义、应用与零基础入门实战一个天蝎座白勺程序猿 Python入门到精通 python 开发语言
背景：为什么Python成为开发者必备技能？‌Python自1991年发布以来，凭借‌“简单高效”‌的设计理念，成为全球增长最快的编程语言。根据TIOBE2023年榜单，Python稳居前三，其核心竞争力包括：‌开发效率高‌：代码量仅为Java的1/5，C++的1/10。‌跨领域通吃‌：从Web开发到AI训练，覆盖90%以上技术场景。‌企业级应用‌：YouTube用Python处理视频推荐，NAS
Python 赋能经济趋势与股票研究：数据驱动的投资洞察 Small踢倒coffee_氕氘氚笔记经验分享
在当今数据爆炸的时代，Python凭借其强大的数据处理能力和丰富的开源库，已成为经济趋势分析和股票研究的利器。本文将探讨如何利用Python进行以下方面的研究：**一、数据获取与清洗*****数据来源:*****财经数据API:**Tushare、AKShare、YahooFinance、AlphaVantage等提供丰富的股票、基金、宏观经济等数据。***网络爬虫:**使用BeautifulSo
突破反爬终极指南：如何用Python实现100%隐形数据抓取（附实战代码）煜bart 机器人人工智能 web3.py
引言：当爬虫遭遇铜墙铁壁2023年Q2最新统计显示，全球Top100网站中89%部署了AI驱动的反爬系统，传统爬虫存活率暴跌至17%。本文将揭秘一套基于深度伪装技术的爬虫方案，在最近三个月实测中保持100%成功率，成功突破Cloudflare、Distil等顶级防护系统。---###一、指纹伪装：让爬虫"隐身"的核心科技####1.1浏览器指纹深度克隆（代码实现）```pythonfromsele
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

Pyppeteer 的基本使用方法

什么是 Puppeteer？

什么是 Pyppeteer？

使用 Pyppeteer 进行页面渲染

Pyppeteer 常用方法

launch

有头模式和调试模式

禁用页面顶端提示条

防止 WebDriver 检测

页面大小调整

用户数据持久化

Browser

无痕模式

Page

提取网页资源

获取和切换选项卡

页面的前进、后退、刷新、截图、关闭功能

输入文本、点击操作

获取源代码和 Cookies

执行 JavaScript 代码

延时等待

你可能感兴趣的:(【Python爬虫知识】,python,javascript,web)