叶庭云

Python爬虫实战：单线程、多线程和协程性能对比

文章目录

一、前言
二、爬取测试
三、单线程爬虫
四、多线程爬虫
五、异步协程爬虫
六、总结回顾

不自卑也不炫耀，不动声色变好，愿每一步都奔走在自己的热爱中

一、前言

今天我要给大家分享的是如何爬取中农网产品报价数据，并分别用普通的单线程、多线程和协程来爬取，从而对比单线程、多线程和协程在网络爬虫中的性能。

目标URL：https://www.zhongnongwang.com/quote/product-htm-page-1.html

爬取产品品名、最新报价、单位、报价数、报价时间等信息，保存到本地Excel。

二、爬取测试

翻页查看 URL 变化规律：

https://www.zhongnongwang.com/quote/product-htm-page-1.html
https://www.zhongnongwang.com/quote/product-htm-page-2.html
https://www.zhongnongwang.com/quote/product-htm-page-3.html
https://www.zhongnongwang.com/quote/product-htm-page-4.html
https://www.zhongnongwang.com/quote/product-htm-page-5.html
https://www.zhongnongwang.com/quote/product-htm-page-6.html

检查网页，可以发现网页结构简单，容易解析和提取数据。

思路：每一条产品报价信息在 class 为 tb 的 table 标签下的 tbody 下的 tr 标签里，获取到所有 tr 标签的内容，然后遍历，从中提取出每一个产品品名、最新报价、单位、报价数、报价时间等信息。

# -*- coding: UTF-8 -*-
"""
@File    ：demo.py
@Author  ：叶庭云
@CSDN    ：https://yetingyun.blog.csdn.net/
"""
import requests
import logging
from fake_useragent import UserAgent
from lxml import etree


# 日志输出的基本配置
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
# 随机产生请求头
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')
url = 'https://www.zhongnongwang.com/quote/product-htm-page-1.html'
# 伪装请求头
headers = {
     
    "Accept-Encoding": "gzip",  # 使用gzip压缩传输数据让访问更快
    "User-Agent": ua.random
}
# 发送请求  获取响应
rep = requests.get(url, headers=headers)
print(rep.status_code)    # 200
# Xpath定位提取数据
html = etree.HTML(rep.text)
items = html.xpath('/html/body/div[10]/table/tr[@align="center"]')
logging.info(f'该页有多少条信息：{len(items)}')  # 一页有20条信息
# 遍历提取出数据
for item in items:
    name = ''.join(item.xpath('.//td[1]/a/text()'))  # 品名
    price = ''.join(item.xpath('.//td[3]/text()'))   # 最新报价
    unit = ''.join(item.xpath('.//td[4]/text()'))    # 单位
    nums = ''.join(item.xpath('.//td[5]/text()'))    # 报价数
    time_ = ''.join(item.xpath('.//td[6]/text()'))   # 报价时间
    logging.info([name, price, unit, nums, time_])

运行结果如下：

可以成功爬取到数据，接下来分别用普通的单线程、多线程和协程来爬取 50 页的数据、保存到Excel。

三、单线程爬虫

# -*- coding: UTF-8 -*-
"""
@File    ：单线程.py
@Author  ：叶庭云
@CSDN    ：https://yetingyun.blog.csdn.net/
"""
import requests
import logging
from fake_useragent import UserAgent
from lxml import etree
import openpyxl
from datetime import datetime

# 日志输出的基本配置
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
# 随机产生请求头
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')
wb = openpyxl.Workbook()
sheet = wb.active
sheet.append(['品名', '最新报价', '单位', '报价数', '报价时间'])
start = datetime.now()

for page in range(1, 51):
    # 构造URL
    url = f'https://www.zhongnongwang.com/quote/product-htm-page-{page}.html'
    # 伪装请求头
    headers = {
     
        "Accept-Encoding": "gzip",  # 使用gzip压缩传输数据让访问更快
        "User-Agent": ua.random
    }
    # 发送请求  获取响应
    rep = requests.get(url, headers=headers)
    # print(rep.status_code)
    # Xpath定位提取数据
    html = etree.HTML(rep.text)
    items = html.xpath('/html/body/div[10]/table/tr[@align="center"]')
    logging.info(f'该页有多少条信息：{len(items)}')  # 一页有20条信息
    # 遍历提取出数据
    for item in items:
        name = ''.join(item.xpath('.//td[1]/a/text()'))  # 品名
        price = ''.join(item.xpath('.//td[3]/text()'))   # 最新报价
        unit = ''.join(item.xpath('.//td[4]/text()'))    # 单位
        nums = ''.join(item.xpath('.//td[5]/text()'))    # 报价数
        time_ = ''.join(item.xpath('.//td[6]/text()'))   # 报价时间
        sheet.append([name, price, unit, nums, time_])
        logging.info([name, price, unit, nums, time_])


wb.save(filename='data1.xlsx')
delta = (datetime.now() - start).total_seconds()
logging.info(f'用时：{delta}s')

运行结果如下：

单线程爬虫必须上一个页面爬取完成才能继续爬取，还可能受当时网络状态影响，用时48.528703s，才将数据爬取完，速度比较慢。

四、多线程爬虫

# -*- coding: UTF-8 -*-
"""
@File    ：多线程.py
@Author  ：叶庭云
@CSDN    ：https://yetingyun.blog.csdn.net/
"""
import requests
import logging
from fake_useragent import UserAgent
from lxml import etree
import openpyxl
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED
from datetime import datetime

# 日志输出的基本配置
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
# 随机产生请求头
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')
wb = openpyxl.Workbook()
sheet = wb.active
sheet.append(['品名', '最新报价', '单位', '报价数', '报价时间'])
start = datetime.now()


def get_data(page):
    # 构造URL
    url = f'https://www.zhongnongwang.com/quote/product-htm-page-{page}.html'
    # 伪装请求头
    headers = {
     
        "Accept-Encoding": "gzip",    # 使用gzip压缩传输数据让访问更快
        "User-Agent": ua.random
    }
    # 发送请求  获取响应
    rep = requests.get(url, headers=headers)
    # print(rep.status_code)
    # Xpath定位提取数据
    html = etree.HTML(rep.text)
    items = html.xpath('/html/body/div[10]/table/tr[@align="center"]')
    logging.info(f'该页有多少条信息：{len(items)}')  # 一页有20条信息
    # 遍历提取出数据
    for item in items:
        name = ''.join(item.xpath('.//td[1]/a/text()'))   # 品名
        price = ''.join(item.xpath('.//td[3]/text()'))    # 最新报价
        unit = ''.join(item.xpath('.//td[4]/text()'))     # 单位
        nums = ''.join(item.xpath('.//td[5]/text()'))     # 报价数
        time_ = ''.join(item.xpath('.//td[6]/text()'))    # 报价时间
        sheet.append([name, price, unit, nums, time_])
        logging.info([name, price, unit, nums, time_])


def run():
    # 爬取1-50页
    with ThreadPoolExecutor(max_workers=6) as executor:
        future_tasks = [executor.submit(get_data, i) for i in range(1, 51)]
        wait(future_tasks, return_when=ALL_COMPLETED)

    wb.save(filename='data2.xlsx')
    delta = (datetime.now() - start).total_seconds()
    print(f'用时：{delta}s')


run()

运行结果如下：

多线程爬虫爬取效率提升非常可观，用时 2.648128s，爬取速度很快。

五、异步协程爬虫

# -*- coding: UTF-8 -*-
"""
@File    ：demo1.py
@Author  ：叶庭云
@CSDN    ：https://yetingyun.blog.csdn.net/
"""
import aiohttp
import asyncio
import logging
from fake_useragent import UserAgent
from lxml import etree
import openpyxl
from datetime import datetime

# 日志输出的基本配置
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s: %(message)s')
# 随机产生请求头
ua = UserAgent(verify_ssl=False, path='fake_useragent.json')
wb = openpyxl.Workbook()
sheet = wb.active
sheet.append(['品名', '最新报价', '单位', '报价数', '报价时间'])
start = datetime.now()


class Spider(object):
    def __init__(self):
        # self.semaphore = asyncio.Semaphore(6)  # 信号量，有时候需要控制协程数，防止爬的过快被反爬
        self.header = {
     
                "Accept-Encoding": "gzip",    # 使用gzip压缩传输数据让访问更快
                "User-Agent": ua.random
            }

    async def scrape(self, url):
        # async with self.semaphore:  # 设置最大信号量，有时候需要控制协程数，防止爬的过快被反爬
        session = aiohttp.ClientSession(headers=self.header, connector=aiohttp.TCPConnector(ssl=False))
        response = await session.get(url)
        result = await response.text()
        await session.close()
        return result

    async def scrape_index(self, page):
        url = f'https://www.zhongnongwang.com/quote/product-htm-page-{page}.html'
        text = await self.scrape(url)
        await self.parse(text)

    async def parse(self, text):
        # Xpath定位提取数据
        html = etree.HTML(text)
        items = html.xpath('/html/body/div[10]/table/tr[@align="center"]')
        logging.info(f'该页有多少条信息：{len(items)}')  # 一页有20条信息
        # 遍历提取出数据
        for item in items:
            name = ''.join(item.xpath('.//td[1]/a/text()'))  # 品名
            price = ''.join(item.xpath('.//td[3]/text()'))  # 最新报价
            unit = ''.join(item.xpath('.//td[4]/text()'))  # 单位
            nums = ''.join(item.xpath('.//td[5]/text()'))  # 报价数
            time_ = ''.join(item.xpath('.//td[6]/text()'))  # 报价时间
            sheet.append([name, price, unit, nums, time_])
            logging.info([name, price, unit, nums, time_])

    def main(self):
        # 50页的数据
        scrape_index_tasks = [asyncio.ensure_future(self.scrape_index(page)) for page in range(1, 51)]
        loop = asyncio.get_event_loop()
        tasks = asyncio.gather(*scrape_index_tasks)
        loop.run_until_complete(tasks)


if __name__ == '__main__':
    spider = Spider()
    spider.main()
    wb.save('data3.xlsx')
    delta = (datetime.now() - start).total_seconds()
    print("用时：{:.3f}s".format(delta))

运行结果如下：

而到了协程异步爬虫，爬取速度更快，嗖的一下，用时 0.930s 就爬取完 50 页数据，aiohttp + asyncio 异步爬虫竟恐怖如斯。异步爬虫在服务器能承受高并发的前提下增加并发数量，爬取效率提升是非常可观的，比多线程还要快一些。

三种爬虫都将 50 页的数据爬取下来保存到了本地，结果如下：

六、总结回顾

今天我演示了简单的单线程爬虫、多线程爬虫和协程异步爬虫。可以看到一般情况下异步爬虫速度最快，多线程爬虫略慢一点，单线程爬虫速度较慢，必须上一个页面爬取完成才能继续爬取。

但协程异步爬虫相对来说并不是那么好编写，数据抓取无法使用 request 库，只能使用aiohttp，而且爬取数据量大时，异步爬虫需要设置最大信号量来控制协程数，防止爬的过快被反爬。所以在实际编写 Python 爬虫时，我们一般都会使用多线程爬虫来提速，但必须注意的是网站都有 ip 访问频率限制，爬的过快可能会被封ip，所以一般我们在多线程提速的同时可以使用代理 ip 来并发地爬取数据。

多线程(multithreading)：是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程，进而提升整体处理性能。具有这种能力的系统包括对称多处理机、多核心处理器以及芯片级多处理或同时多线程处理器。在一个程序中，这些独立运行的程序片段叫作 “线程” (Thread），利用它编程的概念就叫作 “多线程处理”。
异步(asynchronous)：为完成某个任务，不同程序单元之间过程中无需通信协调，也能完成任务的方式，不相关的程序单元之间可以是异步的。例如，爬虫下载网页。调度程序调用下载程序后，即可调度其他任务，而无需与该下载任务保持通信以协调行为。不同网页的下载、保存等操作都是无关的，也无需相互通知协调。这些异步操作的完成时刻并不确定。简言之，异步意味着无序。
协程(coroutine)，又称微线程、纤程，协程是一种用户态的轻量级线程。协程拥有自己的寄存器上下文和栈。协程调度切换时，将寄存器上下文和栈保存到其他地方，在切回来的时候，恢复先前保存的寄存器上下文和栈。因此协程能保留上一次调用时的状态，即所有局部状态的一个特定组合，每次过程重入时，就相当于进入上一次调用的状态。协程本质上是个单进程，协程相对于多进程来说，无需线程上下文切换的开销，无需原子操作锁定及同步的开销，编程模型也非常简单。我们可以使用协程来实现异步操作，比如在网络爬虫场景下，我们发出一个请求之后，需要等待一定的时间才能得到响应，但其实在这个等待过程中，程序可以干许多其他的事情，等到响应得到之后才切换回来继续处理，这样可以充分利用 CPU 和其他资源，这就是协程的优势。

作者：叶庭云
CSDN：https://yetingyun.blog.csdn.net/
热爱可抵岁月漫长，发现求知的乐趣，在不断总结和学习中进步，与诸君共勉。

第二课堂笔记——大语言模型 skna_ 笔记语言模型人工智能
part1——qwen在这一部分中需要完成初步运行通义千问，流式输出与在网页窗口进行对话。1.环境准备首先配置满足需求的环境。配置环境代码中：!pipinstalltransformers==4.37.0-U用于安装或更新Python的transformers库到特定版本4.37.0。‌这里的-U参数表示如果已安装transformers库，‌则将其更新到指定的版本。‌!pipinstallstr
Python 遍历文件夹下的文件码破苍穹其他
importosdeffindAllFile(base):forroot,ds,fsinos.walk(base):forfinfs:fullname=os.path.join(root,f)yieldfullnamedefmain():base='data\\user00'#当前的相对目录foriinfindAllFile(base):if"sensor_log_0"ini:print(i)if
Python100道练习题 Taichi呀 python python 开发语言
Python100道练习题BIlibili1、两数之和num1=20num2=22result=num1+num2print(result)2、一百以内的偶数list1=[]foriinrange(1,100):ifi%2==0:list1.append(i)print(list1)3、一百以内的奇数#方法一list1=[]foriinrange(1,100):ifi%2!=0:list1.app
Python调用通义千问qwen2.5模型步骤我就是全世界 python 人工智能
Qwen2.5模型简介1.1模型概述Qwen2.5是阿里云推出的一款超大规模语言模型，它基于阿里巴巴达摩院在自然语言处理领域的研究和积累。Qwen2.5系列模型采用了更先进的算法和优化的模型结构，能够更准确地理解和生成自然语言、代码、表格等文本。除了基本的文本生成和问答能力，Qwen2.5还支持更多的定制化需求，可以针对不同场景和应用进行扩展和定制，提供更加个性化的服务和解决方案。1.2模型特点Q
【2024年华为OD机试】 (B卷,100分)- 流水线（Java & JS & Python&C/C++）妄北y 算法汇集总结华为od java javascript 游戏 C++c语言 python
一、问题描述题目描述一个工厂有m条流水线，来并行完成n个独立的作业，该工厂设置了一个调度系统，在安排作业时，总是优先执行处理时间最短的作业。现给定流水线个数m，需要完成的作业数n，每个作业的处理时间分别为t1,t2,...,tn。请你编程计算处理完所有作业的耗时为多少？当n>m时，首先处理时间短的m个作业进入流水线，其他的等待，当某个作业完成时，依次从剩余作业中取处理时间最短的进入处理。输入描述第
基于python的时空地理加权回归（GTWR）模型有梦想的Frank博士数据处理数据分析回归空间分析时空异质性
一、时空地理加权回归（GTWR）模型时空地理加权回归（GTWR）模型是由美国科罗拉多州立大学的AndyLiaw、StanleyA.Fiel和MichaelE.Bock于2008年提出的一种高级空间统计分析方法。它是在传统地理加权回归（GWR）模型的基础上发展起来的，通过结合时间和空间两个维度，提供了一种更为灵活和精确的时空数据分析手段。背景和发展传统的地理加权回归（GWR）模型主要关注地理空间上的
基于Python读取ZIP和TAR格式压缩包教程袁袁袁袁满 Python实用技巧大全 python 前端开发语言 ZIP和TAR格式 Python读取压缩包
在数据处理和文件管理中，压缩包（如ZIP、TAR等格式）的使用非常普遍。Python提供了多种库来读取和处理这些压缩包。本文将介绍如何使用Python的内置库和第三方库来读取ZIP和TAR格式的压缩包。1、读取ZIP文件Python的zipfile模块提供了处理ZIP文件的功能。以下是一个简单的示例，展示如何读取ZIP文件并提取其中的内容。步骤1：导入zipfile模块pythonimportzi
python 手动安装第三方库 xiongerbuer python python 库
1.下载对应操作系统的安装包，如lxml包官网有下载，网上也有很多下载地址2.安装wheelpipinstallwheel3.安装lxmlpipinstallF:\Downloads\lxml-3.6.0-cp35-cp35m-win32.whl
Python调用.dll文件,报错FileNotFoundError: Could not find module ‘xx\....\xx.dll 腿。 python 经验分享开发语言
一、代码及报错详情fromctypesimportCDLLimportosdll_path=r"path_to_your_dll\name.dll"#替换为实际的DLL文件路径tmp=CDLL(dll_path)Traceback(mostrecentcalllast):self._handle=_dlopen(self._name,mode)FileNotFoundError:Couldnotf
windows平台定时杀掉Chrome浏览器少陽君 python windows chrome python
在Windows系统上，你可以使用Python脚本配合系统的计划任务功能来实现每天晚上9点自动结束谷歌浏览器的进程。以下是具体步骤：1.编写Python脚本编写一个脚本来查找并结束Chrome的进程：这个是kill线程importosimportsignalimportpsutildefkill_chrome():forprocessinpsutil.process_iter(attrs=['pi
python3验证有效正则表达式少陽君 python 正则表达式 python 开发语言
Python中字符串类型本质上没有标记“是否原始”的特性，原始字符串只是为了书写方便。运行时，原始字符串与普通字符串的表现是相同的，唯一的区别是编写代码时是否进行了转义。因此，如果需要确保某些输入是有效正则表达式，可以结合re模块验证：importredefis_valid_regex(pattern):try:re.compile(pattern)returnTrueexceptre.error
[WIN7 Python3.8] FileNotFoundError-- 找不到dll的问题雅各布_001 python 算法
文章目录一、报错二、分析1.按照找不到lib_lightgbm.dll库来分析——失败2.按照缺失依赖查找(***oroneofitsdependencies***)2.1Dependencywalker简介
Python自学 - 递归函数彩虹小黑馬 Python 开发语言 Python
<<返回目录1Python自学-递归函数递归函数是一种在函数体内调用自己的函数，就像“左脚踩着右脚，再右脚踩着左脚…嗯，你就可以上天了！”。递归函数虽然不能上天，但在处理某些场景时非常好用，一种典型的场景就是遍历目录。由于递归使用不当时，会产生死循环，为了保护程序不发生死循环，Python对递归的最大次数进行了限制，通过getrecursionlimit()函数可以查看当前设置的最大递归次
python使用pyzbar报错filenotfounderror: could not find module ‘libiconv.dll‘ susu1083018911 python
查了好久的问题，也不知道为什么。记录一下解决办法：libiconv.dll需要安装动态连接库，下载地址：https://download.microsoft.com/download/F/3/5/F3500770-8A08-488E-94B6-17A1E1DD526F/vcredist_x64.exe下载完以后双击安装，安装好就没有问题了。
202、Python王者归来：Django、Flask、FastAPI框架争霸与应用解析多多的编程笔记 python django flask
Python开发框架Django之Django与其他框架：与Flask、FastAPI等框架的比较与集成大家好，今天我将向大家介绍Python开发框架Django，并与其他框架如Flask、FastAPI等进行比较和集成。希望这篇文章能帮助大家更好地理解Django的优势和使用场景。1.Django简介首先，让我们来了解一下Django。Django是一个开源的高级PythonWeb框架，它鼓励快
智能化植物病害检测：使用深度学习与图像识别技术的应用机器懒得学习深度学习人工智能
植物病害一直是农业生产中亟待解决的问题，它不仅会影响作物的产量和质量，还可能威胁到生态环境的稳定。随着人工智能（AI）技术的快速发展，尤其是深度学习和图像识别技术的应用，智能化植物病害检测已经成为一种趋势，能够大幅提高病害检测的效率与准确性。本文将介绍如何使用深度学习和图像识别技术，通过Python编写的智能化病害检测程序，实现对植物叶片病害的自动识别与分类。1.项目背景与目标在农业领域，及时发现
阿里p5学习路线图?思维导图代码示例（java 架构) 用心去追梦学习 java 架构
阿里P5是指阿里巴巴集团内部对于工程师职级的一种称呼，达到P5通常意味着该工程师已经具备了较为资深的经验和技能。针对Java架构师的学习路线图，这里提供一个大致的方向以及一些可能的思维导图分支和代码示例主题。请注意，具体的晋升标准和学习路径可能会根据公司的具体要求和个人的职业发展方向有所不同。Java架构师学习路线图（简化版）1.基础知识巩固Java语言基础：深入理解面向对象编程、多线程、异常处理
Python之Mock数据神器Faker 大唐锦绣 #Python python 开发语言
引言在软件开发和测试过程中，我们经常需要使用模拟数据来进行验证、填充数据库或生成测试用例。而手动创建大量的模拟数据是一项繁琐且耗时的任务。为了解决这个问题，Python提供了一个强大的库——Faker，它可以帮助我们轻松地生成各种类型的模拟数据。本文将介绍Faker的基本概念和用法，并通过一个使用MySQL生成千万用户信息表的示例来展示其应用。一、介绍FakerFaker是一个Python库，用于
Python数值计算（1）——Numpy中数据的保存和加载 C囧囧 Python numpy
这里讨论一下在进行数值计算中，对计算数据的保存和加载。1.文本格式这种方式可以采用文本的方式保存numpy数组，函数原型如下：numpy.savetxt(fname,X,fmt='%.18e',delimiter='',newline='\n',header='',footer='',comments='#',encoding=None)其中fname是文件名称，如果文件名以.gz结尾，numpy
华为OD机试E卷 - 通过软盘拷贝文件（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python c语言 javascript c++华为OD机试E卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述有一名科学家想要从一台古董电脑中拷贝文件到自己的电脑中加以研究。但此电脑除了有一个3.5寸软盘驱动器以外，没有任何手段可以将文件持贝出来，而且只有一张软盘可以使用。因此这一张软盘是唯一可以用来拷贝文件的载体。科学家想要尽可能多地将计算机中的信息拷贝到软盘中，做到软盘中文件内容总大小最大。已知该软盘容量为1474560字
非科班转码第5年零241天 Dontla 程序员总结
文章目录非科班转码第5年零241天第一份工作鸭梨山大同事的帮助第二份工作新公司学到很多出海计划非科班转码第5年零241天第一份工作2019年5月24日，我从机械工程转码后找到第一份工作——图像算法工程师，能得到这份工作纯属偶然，当时公司的图像算法工程师刚好要离职，小城市没什么人，我那会学了一个月Java，又学了一个星期的Python，正愁没有回应，这家公司给了我面试机会，面试前的一个星期，我又恶补
Python字典详解 2401_89224765 python 开发语言
print(dict4)需要注意的是：fromkeys方法只用来创建新字典，不负责保存。当通过一个字典来调用fromkeys方法时，如果需要后续使用一定记得给他复制给其他的变量。②访问字典：第一阶段：基操勿6！如果要想获取字典中某个键的值，可以通过访问键的方式来显示对应的值。上代码：dict={‘线代’:“99”,“数据分析”:“99”,“概率论”:“98”}#创建字典print(‘小红同学的线代
python基于redis实现分布式锁 2401_89224765 python redis 分布式
上图可以看到，变量A存在三个服务器内存中（这个变量A主要体现是在一个类中的一个成员变量，是一个有状态的对象），如果不加任何控制的话，变量A同时都会在分配一块内存，三个请求发过来同时对这个变量操作，显然结果是不对的！即使不是同时发过来，三个请求分别操作三个不同内存区域的数据，变量A之间不存在共享，也不具有可见性，处理的结果也是不对的！如果我们业务中确实存在这个场景的话，我们就需要一种方法解决这个问题
Python 潮流周刊#81：在个人电脑上运行 GPT-4 级别的大模型（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则音视频，全文2200字。以下是本期摘要：文章&教程①在个人电脑上运行GPT-4级别的大模型②PEP-768：CPython的安全外部调试接口③深入探究Cele
Python 潮流周刊#69：是时候停止使用 Python 3.8了（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，全文2100字。以下是本期摘要：文章&教程①是时候停止使用Python3.8了②多版本Python库的思考③为什么我要从Pandas切换用Polars？④我们如何
Python 潮流周刊#70：微软 Excel 中的 Python 正式发布！（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则音视频，全文2000字。以下是本期摘要：文章&教程①微软Excel中的Python正式发布②UV汇总：五篇好文章和一个pre-commit技巧③Spiderw
如何处理列表的部分元素？努力学习的耶耶 python numpy 开发语言
想对大家说的话：大家好呀，我是耶耶在这里，我会将Python代码像拆解精密玩具一样，一步步剖析，确保每一步的来龙去脉都清晰可见。我会详细解释为什么选择特定的关键字和结构，通过对比不同类型的代码片段，让你不仅知其然，更知其所以然！！！拜托大家给我点一个关注！让我们一起进步吧！！！上期本期学习了怎么创建数值列表，今天给大家讲一下如何处理列表的部分元素~前言：以处理列表的部分元素——Python称之为切
使用Python爬虫将抓取的数据保存到Excel文件 Python爬虫项目 2025年爬虫实战项目 python 爬虫 excel 测试工具开发语言信息可视化
在进行Python爬虫开发时，数据的存储是非常重要的一环。随着数据分析需求的不断增长，保存和管理大量的数据变得尤为重要。CSV（Comma-SeparatedValues）格式一直是一个常见的存储格式，但在许多应用场景下，Excel文件作为一种更直观、结构化的方式，具有更多的优势，尤其在数据分析与可视化方面。Excel文件不仅能够承载数据，还能进行复杂的数据操作、图表展示等，使其在数据科学、商业分
华为OD机试E卷 --通过软盘拷贝文件--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript python c语言
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述有一名科学家口想要从一台古董电脑中拷贝文件到自己的电脑中加以研究。但此电脑除了有一个3.5寸软盘驱动器以外，没有任何手段可以将文件持贝出来，而且只有一张软盘可以使用。因此这一张软盘是唯一可以用来拷贝文件的载体。科学家想要尽可能多地将计算机中的信息拷贝到软盘中，做到软盘中文件内
Python测试的艺术：深入理解单元测试与unittest框架应用清水白石008 开发语言 Python题库 python python 单元测试开发语言
Python测试的艺术：深入理解单元测试与unittest框架应用一、引言在软件开发过程中，测试是确保软件质量的关键环节。Python作为一种流行的编程语言，其测试体系也非常成熟和强大。其中，单元测试是测试体系中最基础、最常用的一种。本文将详细介绍单元测试的概念，并使用Python的内置测试框架unittest来编写一个简单的测试用例，帮助读者理解并掌握单元测试的基本方法和技巧。二、单元测试概述单
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。

Python爬虫实战：单线程、多线程和协程性能对比

文章目录

一、前言

二、爬取测试

三、单线程爬虫

四、多线程爬虫

五、异步协程爬虫

六、总结回顾

你可能感兴趣的:(python,爬虫,python,爬虫,多线程,异步协程)