Bigcrab__

基于Playwright自动化测试软件的数据采集（拉钩网，智联招聘，前程无忧，猎聘）爬虫招聘信息滑块验证 playwright安装与测试

拉钩网，智联招聘，前程无忧，猎聘数据采集

一、Playwright——使用起来比Selenium更加方便的自动化采集工具
- 1.Playwright 库的安装
- 2.Playwright 浏览器的安装
- 3.Playwright 功能测试
二、拉勾网——招聘网站的数据采集
- 1.用端口浏览器打开网站
- 2.分析网站并用代码提取
- 3.运行代码等待得到提取结果
三、智联招聘——招聘网站的数据采集
- 1.用端口浏览器打开网站
- 2.分析网站并用代码提取
- 3.运行代码等待得到提取结果
四、前程无忧——招聘网站的数据采集
- 1.用端口浏览器打开网站
- 2.分析网站并用代码提取
- - 滑块验证
  - 完整代码
- 3.运行代码等待得到提取结果
五、猎聘——招聘网站的数据采集
- 1.用端口浏览器打开网站
- 2.分析网站并用代码提取
- 3.运行代码等待得到提取结果

一、Playwright——使用起来比Selenium更加方便的自动化采集工具

1.Playwright 库的安装

playwright的安装和测试安装前置条件 PyPi环境或者Anaconda环境

PyPi安装方式

# 命令行输入
pip install pytest-playwright

Anaconda安装方式

# 命令行输入
conda config --add channels conda-forge
conda config --add channels microsoft
conda install playwright

2.Playwright 浏览器的安装

playwright附带浏览器配置功能，免去了下载selenium中下载对应版本开发版浏览器的步骤，在这里只需要一步就可以
PyPi/Anaconda安装方式

# 命令行输入
playwright install

记录好浏览器的安装地址我的安装地址为 C:\Users\Administrator\AppData\Local\ms-playwright

3.Playwright 功能测试

测试代码生成功能打开bilibili

# 命令行输入
playwright codegen

代码运行结果

测试是否能够打开百度 3s后自动关闭

import time
from playwright.sync_api import Playwright, sync_playwright

def run(playwright: Playwright) -> None:
    browser = playwright.chromium.launch(headless=False)
    context = browser.new_context()
    page = context.new_page()
    page.goto("https://www.baidu.com/")
    time.sleep(3)
    context.close()
    browser.close()

with sync_playwright() as playwright:
    run(playwright)

代码运行结果
连接已打开浏览器跳过登入验证步骤
首先进入第二步下载的浏览器文件夹我这里是 C:\Users\Administrator\AppData\Local\ms-playwright

在这里我们看见 chromium，ffmpeg， firefox， webkit 四种浏览器自动化测试软件在这里我们已谷歌浏览器 chromium 为例子

打开得到命令行窗口，发现其路径正好为文件夹路径，在这里我们通过命令行打开浏览器并且同时给浏览器分配一个端口，这样我们便可以对新打开的浏览器进行控制

在命令行窗口输入这里6568可以替换为你想要的端口

# 命令行输入
chrome.exe --remote-debugging-port=6568

代码运行结果，发现打开了一个浏览器

不要关掉这个浏览器，如果关掉再重复一遍上述操作，接下来看看是否可以使用代码控制这个浏览器，用代码打印一下浏览器的标题

import time
from playwright.sync_api import Playwright, sync_playwright


def run(playwright: Playwright) -> None:
	# 这里 http://localhost:6568 中 6568 替换为自己上一步设置的端口
    browser = playwright.chromium.connect_over_cdp('http://localhost:6568')
    page = browser.contexts[0].pages[0]
    print(page.title())


with sync_playwright() as playwright:
    run(playwright)

运行结果如下

完成！

如果上述流程都能运行成功，可以开始下一步操作

二、拉勾网——招聘网站的数据采集

招聘网站由于对数据非常重视，做了许多的反爬取策略，如果一个个逆向时间开销很大，因此我们在这里使用自动化测试软件对招聘信息进行提取，虽然速度相较于 requests 慢，但是还是可以得到结果滴！在这里我们以拉钩网为例 https://www.lagou.com/

1.用端口浏览器打开网站

登入网站，在搜索框输入信息，这里以查询新闻就业情况为例子，在搜索框内输入新闻

框里面就是我们需要的数据，现在通过代码进行提取

2.分析网站并用代码提取

import os
import time
import pandas as pd
from playwright.sync_api import Playwright, sync_playwright


def name_file(name):
    ix = 0
    while True:
        filename = f'{name}_{ix}.xlsx'
        if os.path.exists(filename):
            ix += 1
        else:
            return filename


def get_new_page_info(context, Locator):
    with context.expect_page() as new_page_info:
        Locator.click()
    new_page = new_page_info.value
    new_page.wait_for_load_state()
    position_name = new_page.locator('xpath=//*[@id="__next"]/div[2]/div[1]/div/div[1]/div[1]/h1/span/span/span[1]').text_content()
    job_company = new_page.locator('xpath=//*[@id="job_company"]').text_content()
    job_request = new_page.locator('xpath=//*[@id="__next"]/div[2]/div[1]/div/div[1]/dd/h3').text_content()
    salary = new_page.locator('xpath=//*[@id="__next"]/div[2]/div[1]/div/div[1]/div[1]/h1/span/span/span[2]').text_content()
    position_label = new_page.locator('xpath=//*[@id="__next"]/div[2]/div[1]/div/div[1]/dd/ul').text_content()
    content = new_page.locator('xpath=//*[@id="job_detail"]').text_content()
    new_page.close()
    return [position_name, job_company, job_request, salary, position_label, content]


def run(playwright: Playwright) -> None:
    browser = playwright.chromium.connect_over_cdp('http://localhost:6568')
    context = browser.contexts[0]
    page = context.pages[0]

    info_list = []
    try:
        for i in range(30):
            Locators = page.locator('xpath=//*[@id="openWinPostion"]')
            for Locator in Locators.all():
                info = get_new_page_info(context, Locator)
                time.sleep(0.3)
                print(info)
                info_list.append(info)
            page.get_by_text('下一页').click()
            page.wait_for_load_state()

    except:
        pass

    df = pd.DataFrame(info_list, columns=['position_name', 'job_company', 'job_request', 'salary', 'position_label', 'content'])
    df.to_excel(name_file('拉钩'), index=False)


with sync_playwright() as playwright:
    run(playwright)

3.运行代码等待得到提取结果

运行后得到结果

完成！

三、智联招聘——招聘网站的数据采集

1.用端口浏览器打开网站

2.分析网站并用代码提取

import os
import time
import pandas as pd
from playwright.sync_api import Playwright, sync_playwright


def name_file(name):
    ix = 0
    while True:
        filename = f'{name}_{ix}.xlsx'
        if os.path.exists(filename):
            ix += 1
        else:
            return filename


def get_new_page_info(context, Locator):
    with context.expect_page() as new_page_info:
        Locator.click()
    new_page = new_page_info.value
    new_page.wait_for_load_state()
    position_name = new_page.locator('xpath=//*[@id="root"]/div/div[2]/div[2]/div/div[2]/span/span').text_content()
    job_company = new_page.locator('xpath=//div[@class="intro"]').text_content()
    job_request = new_page.locator('xpath=//p[@class="muilt-infos"]').text_content()
    salary = new_page.locator('xpath=//*[@id="root"]/div/div[2]/div[2]/div/div[3]/div[1]/p[2]/span').text_content()
    position_label = ''
    content = new_page.locator('xpath=//div[@class="describe"]').text_content()
    new_page.close()
    return [position_name, job_company, job_request, salary, position_label, content]


def run(playwright: Playwright) -> None:
    browser = playwright.chromium.connect_over_cdp('http://localhost:6568')
    context = browser.contexts[0]
    page = context.pages[0]

    info_list = []
    try:
        for i in range(30):
            Locators = page.locator('xpath=//*[@id="pane-reletive"]/div/div/div/div[1]')
            for Locator in Locators.all():
                info = get_new_page_info(context, Locator)
                time.sleep(0.3)
                print(info)
                info_list.append(info)
            page.get_by_text('下一页').click()
            time.sleep(1)
            page.wait_for_load_state()
    except Exception as e:
        print(e)

    df = pd.DataFrame(info_list, columns=['position_name', 'job_company', 'job_request', 'salary', 'position_label', 'content'])
    df.to_excel(name_file('智联'), index=False)


with sync_playwright() as playwright:
    run(playwright)

3.运行代码等待得到提取结果

四、前程无忧——招聘网站的数据采集

1.用端口浏览器打开网站

2.分析网站并用代码提取

滑块验证

在这里我们发现访问次数超过一定数量时，会一直出现滑块验证，因此我们需要在代码中加入滑块移动模块

def sliding_path(page):
    # 定义滑块和包含容器
    slider_box = page.locator('xpath=//*[@id="nc_1_n1z"]').bounding_box()
    contain_box = page.locator('xpath=//*[@id="nc_1__scale_text"]/span').bounding_box()
    distance = contain_box['width']
    page.mouse.move(x=int(slider_box['x']), y=slider_box['y'] + slider_box['height'] / 2)
    page.mouse.down()
    size = 1000
    scale = 3
    tolerance = distance * 0.2

    # 超过
    lst = np.linspace(0, distance + tolerance, size) + np.random.normal(size=size, scale=scale)
    ix = np.array([i ** 2 for i in range(1, int(size ** 0.5 + 1))]) - 1
    move_list = lst[ix]

    for move in move_list:
        page.mouse.move(x=int(slider_box['x']) + move, y=slider_box['y'] + slider_box['height'] / 2, steps=3)

    size = 100
    scale = 10

    # 返回
    lst = np.linspace(move_list[-1], distance, size) + np.random.normal(size=size, scale=scale)
    ix = np.array([i ** 2 for i in range(1, int(size ** 0.5 + 1))]) - 1
    move_list = lst[ix]
    for move in move_list:
        page.mouse.move(x=int(slider_box['x']) + move, y=slider_box['y'] + slider_box['height'] / 2, steps=10)

    page.mouse.move(x=int(slider_box['x']) + 300, y=slider_box['y'] + slider_box['height'] / 2, steps=3)
    page.mouse.up()
    page.wait_for_load_state()

模块运行成功！

完整代码

import os
import time
import random
import pandas as pd
import numpy as np
from playwright.sync_api import Playwright, sync_playwright


def name_file(name):
    ix = 0
    while True:
        filename = f'{name}_{ix}.xlsx'
        if os.path.exists(filename):
            ix += 1
        else:
            return filename


def get_new_page_info(context, Locator):
    with context.expect_page() as new_page_info:
        Locator.click()
    new_page = new_page_info.value
    new_page.wait_for_load_state()

    if '滑动' in new_page.title():
        sliding_path(new_page)
        new_page.wait_for_load_state()

    position_name = new_page.locator('xpath=/html/body/div[2]/div[2]/div[2]/div/div[1]/h1').text_content()
    job_company = new_page.locator('xpath=/html/body/div[2]/div[2]/div[3]/div[4]/div').text_content()
    job_request = new_page.locator('xpath=/html/body/div[2]/div[2]/div[2]/div/div[1]/p').text_content()
    salary = new_page.locator('xpath=/html/body/div[2]/div[2]/div[2]/div/div[1]/strong').text_content()
    position_label = new_page.locator('xpath=/html/body/div[2]/div[2]/div[2]/div/div[1]/div/div').text_content()
    content = new_page.locator('xpath=/html/body/div[2]/div[2]/div[3]/div[1]/div').text_content()
    new_page.close()
    return [position_name, job_company, job_request, salary, position_label, content]


def sliding_path(page):
    # 定义滑块和包含容器
    slider_box = page.locator('xpath=//*[@id="nc_1_n1z"]').bounding_box()
    contain_box = page.locator('xpath=//*[@id="nc_1__scale_text"]/span').bounding_box()
    distance = contain_box['width']
    page.mouse.move(x=int(slider_box['x']), y=slider_box['y'] + slider_box['height'] / 2)
    page.mouse.down()
    size = 1000
    scale = 3
    tolerance = distance * 0.2

    # 超过
    lst = np.linspace(0, distance + tolerance, size) + np.random.normal(size=size, scale=scale)
    ix = np.array([i ** 2 for i in range(1, int(size ** 0.5 + 1))]) - 1
    move_list = lst[ix]

    for move in move_list:
        page.mouse.move(x=int(slider_box['x']) + move, y=slider_box['y'] + slider_box['height'] / 2, steps=3)

    size = 100
    scale = 10

    # 返回
    lst = np.linspace(move_list[-1], distance, size) + np.random.normal(size=size, scale=scale)
    ix = np.array([i ** 2 for i in range(1, int(size ** 0.5 + 1))]) - 1
    move_list = lst[ix]
    for move in move_list:
        page.mouse.move(x=int(slider_box['x']) + move, y=slider_box['y'] + slider_box['height'] / 2, steps=10)

    page.mouse.move(x=int(slider_box['x']) + 300, y=slider_box['y'] + slider_box['height'] / 2, steps=3)
    page.mouse.up()
    page.wait_for_load_state()


def run(playwright: Playwright) -> None:
    browser = playwright.chromium.connect_over_cdp('http://localhost:6568')
    context = browser.contexts[0]
    page = context.pages[0]

    info_list = []
    try:
        for i in range(30):
            Locators = page.locator('xpath=//*[@id="app"]/div/div[2]/div/div/div[2]/div/div[2]/div/div[2]/div[1]/div/div[2]/div/span')
            for Locator in Locators.all():
                info = get_new_page_info(context, Locator)
                time.sleep(0.2)
                print(info)
                info_list.append(info)
            page.locator('xpath=//i[@class="el-icon el-icon-arrow-right"]').click()
            time.sleep(1)
            page.wait_for_load_state()
    except Exception as e:
        print(e)

    df = pd.DataFrame(info_list, columns=['position_name', 'job_company', 'job_request', 'salary', 'position_label', 'content'])
    df.to_excel(name_file('前程'), index=False)


with sync_playwright() as playwright:
    run(playwright)

3.运行代码等待得到提取结果

五、猎聘——招聘网站的数据采集

1.用端口浏览器打开网站

2.分析网站并用代码提取

import os
import time
import random
import pandas as pd
import numpy as np
from playwright.sync_api import Playwright, sync_playwright


def name_file(name):
    ix = 0
    while True:
        filename = f'{name}_{ix}.xlsx'
        if os.path.exists(filename):
            ix += 1
        else:
            return filename


def get_new_page_info(context, Locator):
    with context.expect_page() as new_page_info:
        Locator.click()
    new_page = new_page_info.value
    new_page.wait_for_load_state()
    new_page.set_default_timeout(1000)

    if '滑动' in new_page.title():
        sliding_path(new_page)
        new_page.wait_for_load_state()

    position_name = new_page.locator('xpath=/html/body/section[3]/div[1]/div[1]/span[1]').text_content()
    try:
        job_company = new_page.locator('xpath=/html/body/main/aside/div[3]').text_content()
    except:
        job_company = ''
    job_request = new_page.locator('xpath=/html/body/section[3]/div[1]/div[2]').text_content()
    salary = new_page.locator('xpath=/html/body/section[3]/div[1]/div[1]/span[2]').text_content()
    position_label = new_page.locator('xpath=/html/body/section[4]/div/div[1]').text_content()
    content = new_page.locator('xpath=/html/body/main/content/section[2]').text_content()
    new_page.close()
    return [position_name, job_company, job_request, salary, position_label, content]


def sliding_path(page):
    # 定义滑块和包含容器
    slider_box = page.locator('xpath=//*[@id="nc_1_n1z"]').bounding_box()
    contain_box = page.locator('xpath=//*[@id="nc_1__scale_text"]/span').bounding_box()
    distance = contain_box['width']
    page.mouse.move(x=int(slider_box['x']), y=slider_box['y'] + slider_box['height'] / 2)
    page.mouse.down()
    size = 1000
    scale = 3
    tolerance = distance * 0.2

    # 超过
    lst = np.linspace(0, distance + tolerance, size) + np.random.normal(size=size, scale=scale)
    ix = np.array([i ** 2 for i in range(1, int(size ** 0.5 + 1))]) - 1
    move_list = lst[ix]

    for move in move_list:
        page.mouse.move(x=int(slider_box['x']) + move, y=slider_box['y'] + slider_box['height'] / 2, steps=3)

    size = 100
    scale = 10

    # 返回
    lst = np.linspace(move_list[-1], distance, size) + np.random.normal(size=size, scale=scale)
    ix = np.array([i ** 2 for i in range(1, int(size ** 0.5 + 1))]) - 1
    move_list = lst[ix]
    for move in move_list:
        page.mouse.move(x=int(slider_box['x']) + move, y=slider_box['y'] + slider_box['height'] / 2, steps=10)

    page.mouse.move(x=int(slider_box['x']) + 300, y=slider_box['y'] + slider_box['height'] / 2, steps=3)
    page.mouse.up()
    page.wait_for_load_state()


def run(playwright: Playwright) -> None:
    browser = playwright.chromium.connect_over_cdp('http://localhost:6568')
    context = browser.contexts[0]
    page = context.pages[0]

    info_list = []
    try:
        for i in range(30):
            Locators = page.locator('xpath=//*[@id="lp-search-job-box"]/div[3]/section[1]/div[1]/div/div/div[1]/div/a/div[1]/div')
            for Locator in Locators.all():
                info = get_new_page_info(context, Locator)
                time.sleep(0.2)
                print(info)
                info_list.append(info)
            page.locator('xpath=//span[@aria-label="right"]').click()
            time.sleep(1)
            page.wait_for_load_state()
    except Exception as e:
        print(e)

    df = pd.DataFrame(info_list, columns=['position_name', 'job_company', 'job_request', 'salary', 'position_label', 'content'])
    df.to_excel(name_file('猎聘'), index=False)

with sync_playwright() as playwright:
    run(playwright)

3.运行代码等待得到提取结果

完成！

【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽黑客鹏哥 web安全 CTF 网络安全大赛 python Linux
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15
anaconda 创建虚拟环境 yuweififi 环境搭建
1.打开AnacondaPrompt2.创建环境condacreate--nametorchpython=3.62.输入activatetorch安装的anacondapython虚拟环境打开，torch为创建的env名字3.condainfo--env查看所有创建的环境4.关闭环境deactivate切记先激活环境
Python连接SQL SEVER数据库全流程 m0_74824865 面试学习路线阿里巴巴数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
网络安全工具 AWVS 与 Nmap：原理、使用及代码示例阿贾克斯的黎明网络安全安全 web安全网络
目录网络安全工具AWVS与Nmap：原理、使用及代码示例AWVS：Web漏洞扫描的利器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用AWVSAPI进行扫描）Nmap：网络探测与端口扫描的神器1.工具概述2.工作原理3.使用方法4.代码示例（Python调用Nmap进行扫描）总结在网络安全领域，AWVS（AcunetixWebVulnerabilityScanner）和Nmap是
深入剖析 Weblogic、ThinkPHP、Jboss、Struct2 历史漏洞阿贾克斯的黎明网络安全 web安全
目录深入剖析Weblogic、ThinkPHP、Jboss、Struct2历史漏洞一、Weblogic漏洞（一）漏洞原理（二）漏洞利用代码（Python示例）（三）防范措施二、ThinkPHP漏洞（一）漏洞原理（二）漏洞利用代码（示例，假设存在漏洞的代码片段）（三）防范措施三、Jboss漏洞（一）漏洞原理（二）漏洞利用代码（Java示例，用于构造恶意序列化数据）（三）防范措施四、Struct2漏洞
【Python专栏】Python的发展历程雾岛心情 Python入门到精通 python 开发语言
Python的创始人为吉多·范罗苏姆（GuidovanRossum），人称龟叔1989年，为了打发圣诞节假期，Guido开始写Python语言的编译器。Python这个名字，来自Guido所挚爱的电视剧MontyPython’sFlyingCircus。他希望这个新的叫做Python的语言，能符合他的理想：创造一种C和shell之间，功能全面，易学易用，可拓展的语言。Python的具体发展历史和版
Stable diffusion 3.5本地运行环境配置记录寸先生的牛马庄园扩散模型 stable diffusion
1.环境配置创建虚环境condacreate-nsd3.5python=3.10Pytorch(>2.0)condainstallpytorch==2.2.2torchvision==0.17.2torchaudio==2.2.2pytorch-cuda=12.1-cpytorch-cnvidiaJupyter能使用Anaconda虚环境condainstallipykernelpython-mi
阿里巴巴DIN模型原理与Python实现 eso1983 python 开发语言算法推荐算法
阿里巴巴的DeepInterestNetwork(DIN)是一种用于点击率预测（CTR）的深度学习模型，特别针对电商场景中用户兴趣多样化和动态变化的特性设计。其核心思想是通过注意力机制动态捕捉用户历史行为中与当前候选商品相关的兴趣。1.DIN模型原理1.核心问题传统推荐模型（如Embedding+MLP）将用户历史行为视为固定长度的向量，忽略了用户兴趣的多样性。例如，用户历史行为中可能包含多个互不
pytorch基础-比较矩阵是否相等 yuweififi pytorch 人工智能
1、使用NumPy库NumPy是Python中用于科学计算的常用库，它提供了array_equal和allclose函数来判断矩阵是否相等。array_equal用于精确比较，allclose用于考虑一定误差范围的近似比较，适合浮点数矩阵。importnumpyasnp#创建示例矩阵matrix_a=np.array([[1,2,3],[4,5,6]])matrix_b=np.array([[1,
一学就会：A*算法详细介绍（Python）不去幼儿园人工智能（AI）#启发式算法算法 python 人工智能机器学习开发语言
本篇文章是博主人工智能学习以及算法研究时，用于个人学习、研究或者欣赏使用，并基于博主对相关等领域的一些理解而记录的学习摘录和笔记，若有不当和侵权之处，指出后将会立即改正，还望谅解。文章分类在启发式算法专栏：【人工智能】-【启发式算法】（6）---《一学就会：A*算法详细介绍（Python）》一学就会：A*算法详细介绍（Python）目录A*算法介绍A*算法的核心概念A*算法的特点A*算法示例：迷宫
电竞赛事数据分析：LNG vs BLG的胜利背后烧瓶里的西瓜皮 python 自动驾驶人工智能数据可视化机器学习
电竞赛事数据分析：LNGvsBLG的胜利背后摘要在S14瑞士轮次日，LNG以1:0战胜BLG，取得了开赛二连胜。本文将通过Python进行数据处理与分析，结合机器学习算法预测比赛结果，并使用数据可视化工具展示关键指标。通过对这场比赛的数据深入挖掘，揭示LNG获胜的关键因素。引言电子竞技（Esports）已经成为全球范围内的一项重要娱乐活动，而《英雄联盟》（LeagueofLegends,LoL）作
如何使用Python编程实现捕获笔记本电脑麦克风的音频并通过蓝牙耳机实时传输 winfredzhang python 音视频实时传输蓝牙耳机
在现代的工作和生活环境中，音频传输的需求日益增加。无论是远程会议、在线教育，还是家庭娱乐，音频的实时传输都扮演着至关重要的角色。今天，我将向大家介绍一个简单而实用的应用程序，它能够捕获笔记本电脑麦克风的音频，并通过蓝牙耳机实时传输。这款应用程序特别适用于需要在会议室等场景中远程听取声音的情况。接下来，我将详细讲解这个应用程序的实现过程，并提供完整的代码和使用指南。引言想象一下这样的场景：你需要离开
体育数据系统是怎么开发的 sanx18 信息可视化
体育数据系统的开发通常包括多个环节，涉及数据采集、处理、存储和展示等方面。下面是开发一个体育数据系统的主要步骤：1.需求分析与规划确定目标：明确系统的目标，比如实时比赛数据跟踪、球员统计、比赛分析等。确定用户群体：不同的用户群体（如教练、球员、分析师、媒体等）可能有不同的需求。功能规划：确定系统需要的功能，如数据采集、可视化展示、数据报表生成、实时更新等。2.数据采集与接口设计数据来源：体育数据可
电竞数据怎么助力创业者在电竞行业发展 sanx18 人工智能
电竞数据对于创业者在电竞行业的发展有着非常大的助力作用，特别是在以下几个方面：1.精准市场定位与需求分析创业者可以通过电竞数据分析了解行业趋势、用户需求和市场痛点。例如，通过分析观众的观看行为、玩家的活跃度、不同游戏的受欢迎程度等数据，创业者可以更好地确定进入电竞行业的切入点，找到未被满足的市场需求。这样能够大大降低市场调研的成本，提高决策的准确性。2.个性化产品与服务开发电竞数据可以帮助创业者开
网络安全加密python代码黑客Ash web安全安全
点击文末小卡片，免费获取网络安全全套资料，资料在手，涨薪更快网络信息安全中遇到的各种攻击是防不胜防的，采取适当的防护措施就能有效地保护网络信息的安全,包括防火墙、入侵检测系统、漏洞扫描技术以及加密技术等多种防护措施。而信息安全的本质就是要保护信息本身和信息系统在存储、传输中的完整性和保密性,保障不被攻击和篡改,上述的主动攻击、被动攻击和病毒袭击都会造成信息的破坏和泄密,我们以信息安全中的基础理论出
python 商城性能,python商城项目总结 Yvetzy python 商城性能
importhashlib#实例化md5对象md5=hashlib.md5()#md5.update()方法的参数必须是字节型数据md5.update(bytes(request.POST['password'],encoding="UTF-8"))#以16进制格式存储md5.hexdigest()'''这里有个坑必须注意：md5.update()方法会将每次加密的字符进行拼接，所以每次加密前都要
用Python写一个商城系统潮水岩
如果要用Python写一个商城系统，可以先定义需要实现的功能，再按照功能模块分别进行开发。下面是一个简单的开发流程：数据模型设计：需要定义商品、订单、用户等数据模型，并且将它们存储在数据库中。用户模块：用户可以注册、登录、查看个人信息、修改密码等。商品模块：商家可以发布商品、管理商品信息、查看商品列表等；用户可以查看商品详情、加入购物车等。订单模块：用户可以下单、查看订单详情、取消订单、评价订单等
python pandas 读取数据库_Python+Pandas 获取数据库并加入DataFrame的实例 weixin_39955149 python pandas 读取数据库
Python+Pandas获取数据库并加入DataFrame的实例实例如下所示：importpandasaspdimportsysimportimpimp.reload(sys)fromsqlalchemyimportcreate_engineimportcx_Oracledb=cx_Oracle.connect('userid','password','10.10.1.10:1521/dbins
python导出结果_Python连接Oracle数据查询导出结果 weixin_39712821 python导出结果
python连接oracle，需用用到模块cx_oracle，可以直接pip安装，如网络不好，可下载离线后本地安装本人由于工作需要，期望便捷查询所得结果，且固定输出某个格式具体代码如下：#!coding:utf-8importcx_Oracleconn=cx_Oracle.connect('username/password@IP/连接名')cur=conn.cursor()cur.execute
Python—kafka操作蓝魔Y Python编程 kafka
文档结构1、概念简介2、环境搭建3、操作实践1、概念简介2、环境搭建接口手册：https://kafka-python.readthedocs.io/en/master/Python操作kafka的模块为：kafka-python模块安装pipinstallkafka-python3、操作实践=============================================over====
python使用kafka原理详解_Python操作Kafka原理及使用详解形象顧問Aking
Python操作Kafka原理及使用详解一、什么是KafkaKafka是一个分布式流处理系统，流处理系统使它可以像消息队列一样publish或者subscribe消息，分布式提供了容错性，并发处理消息的机制二、Kafka的基本概念kafka运行在集群上，集群包含一个或多个服务器。kafka把消息存在topic中，每一条消息包含键值(key)，值(value)和时间戳(timestamp)。kafk
python把oracle的查询结果导出为insert语句优游的鱼 oracle python 数据库开发语言
可以使用cx_Oracle库在Python中连接Oracle数据库并执行查询。然后，可以使用pandas库将查询结果读取为DataFrame，并使用to_sql()方法将其导出为insert语句。示例代码如下：importcx_Oracleimportpandasaspd#ConnecttoOracledatabaseconn=cx_Oracle.connect('username/passwor
python画出roc曲线 auc计算逻辑_Python画ROC曲线和AUC值计算路过炊烟 python画出roc曲线 auc计算逻辑
前言ROC(ReceiverOperatingCharacteristic)曲线和AUC常被用来评价一个二值分类器(binaryclassifier)的优劣。这篇文章将先简单的介绍ROC和AUC，而后用实例演示如何python作出ROC曲线图以及计算AUC。AUC介绍AUC(AreaUnderCurve)是机器学习二分类模型中非常常用的评估指标，相比于F1-Score对项目的不平衡有更大的容忍性，
基于STM32的无人机自主导航与避障系统 STM32发烧友 stm32 无人机嵌入式硬件
目录引言环境准备2.1硬件准备2.2软件准备无人机自主导航与避障系统基础3.1控制系统架构3.2功能描述代码实现：实现无人机自主导航与避障系统4.1数据采集模块4.2数据处理与控制算法4.3通信与远程监控实现4.4用户界面与数据可视化应用场景：无人机智能化与任务执行问题解决方案与优化收尾与总结1.引言无人机自主导航与避障技术是无人机系统实现智能化和高效任务执行的核心功能。基于STM32微控制器，该
【spug】使用勤不了一点 CI/CD python django ci/cd 运维 devops
目录简介下载与安装初始化配置启动与日志版本更新登录与使用工作台主机管理批量执行配置中心应用发布系统管理监控与告警使用问题简介手动部署|Spugwalle的升级版本轻量级无Agent主机管理主机批量执行主机在线终端文件在线上传下载应用发布部署在线任务计划配置中心监控报警如果有测试错误请指出。下载与安装测试环境：Python3.7.8CentOSLinuxrelease7.4.1708(Core)sp
记一次从mysql数据迁移到oralce （基于python和pandas） qq_36532060 mysql oracle pandas python
记一次从mysql数据迁移到oralce（基于python）前景提要具体实现创建数据库链接读取mysql数据写入orcale结语前景提要公司最近有个从mysql迁移数据到oracle的需求，于是进行了一下方案调研和分析，但作为一个之前从没接触过Oracle的人真的感到好难，但再难也难上，这篇文章主要是记录一下做这件事时遇到的坑以及分享一下最终的方案及代码。具体实现创建数据库链接其实我觉得这个算是最
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
python实现从oracle数据库查询数据生成excel透视表发送outlook niceme！ python
#-*-coding:utf-8-*-#http://pypi.cq.pegatroncorp.com/simple--trusted-hostpypi.cq.pegatroncorp.comimportchardetimportdatetimeimporttimeimportxlwtimportwin32com.clientaswin32fromwin32com.clientimportcons
pip 与当前python环境版本不匹配，python安装库成功，还是提示没有该库灿灿的金 python pip 开发语言
解决pip版本不一致在使用pip命令前加上python-m即可让pip版本和当前python版本一致因此,当使用pip安装依赖时,需要在命令前添加python-m来配合使用,比如安装一个pillow库,命令如下python-mpipinstallpillow你同时安装了python2和python3pipinstallPillow可能下载的是python3的库，而你代码跑的是python2可以通过
【Python-ML】SKlearn库性能指标ROC-AUC fjssharpsword Big data python专栏
#-*-coding:utf-8-*-'''Createdon2018年1月19日@author:Jason.F@summary:ROC(receiveroperatorcharacteristic，基于模型真正率和假正率等性能指标评估分类模型'''importpandasaspdfromsklearn.preprocessingimportLabelEncoderfromsklearn.cros
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

基于Playwright自动化测试软件的数据采集（拉钩网，智联招聘，前程无忧，猎聘）爬虫 招聘信息 滑块验证 playwright安装与测试

拉钩网，智联招聘，前程无忧，猎聘数据采集

一、Playwright——使用起来比Selenium更加方便的自动化采集工具

1.Playwright 库的安装

2.Playwright 浏览器的安装

3.Playwright 功能测试

二、拉勾网——招聘网站的数据采集

1.用端口浏览器打开网站

2.分析网站并用代码提取

3.运行代码等待得到提取结果

三、智联招聘——招聘网站的数据采集

1.用端口浏览器打开网站

2.分析网站并用代码提取

3.运行代码等待得到提取结果

四、前程无忧——招聘网站的数据采集

1.用端口浏览器打开网站

2.分析网站并用代码提取

滑块验证

完整代码

3.运行代码等待得到提取结果

五、猎聘——招聘网站的数据采集

1.用端口浏览器打开网站

2.分析网站并用代码提取

3.运行代码等待得到提取结果

你可能感兴趣的:(数据采集,Python爬虫,python,求职招聘,数据分析,网络爬虫)

基于Playwright自动化测试软件的数据采集（拉钩网，智联招聘，前程无忧，猎聘）爬虫招聘信息滑块验证 playwright安装与测试