西瓜WiFi

【爬虫】案例03：某图网图片多线程下载

本文介绍了进程与线程的基本概念和关系；使用threading.Thread实多线程爬虫，在提高爬虫效率的同时，也引发了一些思考。

本案例仅供学习交流使用，请勿商用。如涉及版本侵权，请联系我删除。

一、进程与线程

二、threading模块的使用

1. 创建多线程：threading.Thread类

2. 使用Thread创建多线程

三、某图网单线程下载

1. fake_useragent的使用

2. 获取网站URL

3. 下载图片

4. 添加主函数

四、某图网多线程下载

1. 创建多线程

2. 完整代码

五、多线程爬虫的思考

一、进程与线程

我们都知道，计算机是由硬件和软件两部分组成的，其中硬件包括中央处理器（CPU）、内存、硬盘、显示器等，软件则包括操作系统和应用程序。

中央处理器（CPU）是计算机的核心部件，它负责执行计算机的所有指令和计算任务。

操作系统是计算机的管理者，它负责协调和管理计算机中的各种资源，包括CPU、内存、硬盘、网络等，以确保它们能够高效地协同工作。操作系统还负责任务的调度和分配，为多任务处理提供支持，并提供用户界面和文件管理等基本功能。

应用程序是运行于操作系统之上的具有某种功能的程序。它们通过操作系统提供的接口访问硬件资源，并利用CPU来执行特定的计算任务，例如文本编辑、图形处理、音频播放等。应用程序可以是系统自带的工具软件，也可以是用户自行安装的第三方软件，它们通常具有各种不同的功能和特点，以满足用户不同的需求。因此，计算机的硬件和软件相互协作，才能完成各种任务和应用。CPU作为计算机的核心部件，通过操作系统协调和管理各种资源，为应用程序提供支持，从而实现了计算机的各种功能。

进程是操作系统中一个基本的概念，进程是一个具有一定独立功能的程序在一个数据集合上依次动态执行的过程。进程是一个正在执行的程序的实例，包括程序计数器、寄存器和程序变量的当前值。在计算机系统中，每个进程都有自己的内存空间和系统资源，如CPU、内存、磁盘等，它们被分配给进程以支持其运行。进程通常由一个可执行文件（例如程序）启动，该文件在操作系统中被加载到内存中。

线程在早期的操作系统中，进程是最小的独立运行单位，也是程序执行的最小单位，因为此时并没有线程的概念。任务调度采用的是时间片轮转的抢占式调度方式，进程是任务调度的最小单位。每个进程拥有独立的一块内存，这使得不同进程之间的内存地址互相隔离。然而，随着计算机的发展，对CPU的要求越来越高，进程之间的切换开销变得过大，已经无法满足日益复杂的程序的要求。因此，人们发明了线程。线程是程序执行中的单一顺序控制流程，是程序执行流的最小单元。

CPU 在处理进程和线程时，都会进行来回切换。当 CPU 处理进程时，它会将进程的执行状态保存到进程控制块中，然后切换到另一个进程去执行。这个过程被称为进程切换。进程切换的目的是使 CPU 能够同时执行多个进程，提高系统的并发能力。当 CPU 处理线程时，它也会进行来回切换，但是线程切换的代价要比进程切换小得多。因为线程是共享进程的资源，在一个进程中的多个线程可以同时访问该进程的全局变量、静态变量和堆内存等资源，无需进行额外的拷贝或传输操作。这种共享的方式能够让多个线程之间更加高效地通信和协作，从而提高程序的性能。所以在切换线程时，只需要切换线程的执行状态即可，不需要切换进程的地址空间和其他资源。这使得线程切换比进程切换更加高效。因此，CPU 在处理进程和线程时都需要进行来回切换，但是线程切换的开销要比进程切换小。

二、threading模块的使用

1. 创建多线程：threading.Thread类

属性/方法	描述
Thread(target=None, name=None, args=(), kwargs={})	Thread类的构造方法，其中target为线程要执行的函数名，name为线程名称，args和kwargs为要传递给函数的参数。
start()	启动线程。
run()	线程要执行的任务函数。需要重写该方法并在其中实现线程的业务逻辑。
join(timeout=None)	当前线程等待该线程执行完毕。timeout为等待的最大时间。
is_alive()	判断线程是否还在运行中。
name	线程的名称。
ident	线程的唯一标识符。

Thread类是Python中的多线程编程核心，通过实例化Thread类创建线程对象，并使用start()方法启动线程。同时可以使用join()方法等待线程执行完毕。

2. 使用Thread创建多线程

import threading
import time

# 定义线程要执行的任务
def worker():
    for i in range(5):
        print(threading.current_thread().name, i)
        time.sleep(1)

# 创建多个线程对象并启动
threads = []
for i in range(3):
    t = threading.Thread(target=worker, name=f'Thread-{i}')
    t.start()
    threads.append(t)

# 等待所有线程执行完毕
for t in threads:
    t.join()

print('线程执行完了...')

在上面例中，我们首先定义了线程要执行的任务函数worker。通过循环创建了3个Thread对象，并使用start()方法启动了它们。同时，我们还将每个线程对象保存到一个列表中，方便后续使用join()方法等待它们执行完毕。

三、某图网单线程下载

1. fake_useragent的使用

fake_useragent 库可以用来生成随机的 User-Agent，进行UA伪装。下面我们介绍fake_useragent 库的使用。

安装 fake_useragent 库

pip install fake_useragent

导入 fake_useragent 库

from fake_useragent import UserAgent

使用 UserAgent.get_random_user_agent() 方法生成随机的 User-Agent。例如：

from fake_useragent import UserAgent

headers = {
    'User-Agent': UserAgent().random  # 获取随机 User-Agent
}

2. 获取网站URL

import os, time
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent

def get_img_urls() -> list:
    """
    爬取指定网站 https://www.pkdoutu.com/photo/list/ 上的图片链接，并返回一个链接列表。

    Returns:
        url_list (list): 图片链接列表，每个元素为一个字符串类型的链接。
    """
    url = r'https://www.pkdoutu.com/photo/list/'
    headers = {
        "User-Agent": UserAgent().random  # 设置请求头，使用随机 User-Agent。
    }
    res = requests.get(url=url, headers=headers).content.decode()  # 发送 GET 请求，并获取返回的 HTML 页面。
    soup = BeautifulSoup(res, 'lxml')  # 解析 HTML 页面，生成 BeautifulSoup 对象。
    div_li = soup.find('div', class_='page-content text-center').find_all('a')  # 获取所有图片链接所在的 a 标签。
    url_list = []
    for a in div_li:
        img_url = a.find('img', class_='img-responsive lazy image_dta')['data-backup']  # 获取图片链接。
        url_list.append(img_url)  # 将图片链接添加到列表中。
    return url_list  # 返回图片链接列表

上面的函数中，使用requests模块获取网页响应，bs4进行网页解析，得到图片URL的列表。

3. 下载图片

import os, time
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent

def download_img(img_url: str, folder: str):
    '''
    根据图片的 URL 下载图片，并将其保存到指定文件夹中。

    :param img_url: 图片的 URL。
    :param folder: 保存图片的文件夹。
    '''
    # 创建文件夹（如果不存在的话）
    if not os.path.exists(folder):
        os.makedirs(folder)

    # 爬取图片
    headers = {
        "User-Agent": UserAgent().random  # 获取随机 User-Agent
    }
    res_img = requests.get(img_url, headers=headers)

    # 保存图片
    file_name = img_url.split('/')[-1]
    file_path = os.path.join(folder, file_name)
    with open(file_path, 'wb') as f:
        f.write(res_img.content)
        print(f'{file_name} 下载完成...')
        print('-' * 200)

4. 添加主函数

if __name__ == '__main__':
    start_time = time.time()

    # (1) 爬取当前页的所有的 img_url
    img_urls = get_img_urls()

    # (2) 根据 img_urls 下载图片
    folder = './结果数据/案例03：斗图网多线程采集/'
    for img_url in img_urls:
        download_img(img_url, folder)

    print(f"整体耗时{time.time() - start_time} 秒")

执行程序，下载图片68张，耗时24.72秒。

四、某图网多线程下载

1. 创建多线程

if __name__ == '__main__':
    start_time = time.time()
    # (1) 爬取当前页的所有的img_url
    img_urls = get_img_urls()
    # (2) 根据img_urls下载图片
    folder = './结果数据/案例03：斗图网多线程采集/'
    t_list = []
    for img_url in img_urls:
        t = threading.Thread(target=download_img, args=(img_url, folder,))
        t.start()
        t_list.append(t)
    for t in t_list:
        t.join()
    print(f"整体耗时{time.time() - start_time} 秒")

在上面的程序中，我们创建了68个线程，执行程序，下载图片68张，耗时4.18秒，极大的节约了数据采集时间。

2. 完整代码

# -*- coding:utf-8 -*-
import os, time
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import threading


def get_img_urls() -> list:
    """
    爬取指定网站 https://www.pkdoutu.com/photo/list/ 上的图片链接，并返回一个链接列表。

    Returns:
        url_list (list): 图片链接列表，每个元素为一个字符串类型的链接。
    """
    url = r'https://www.pkdoutu.com/photo/list/'
    headers = {
        "User-Agent": UserAgent().random  # 设置请求头，使用随机 User-Agent。
    }
    res = requests.get(url=url, headers=headers).content.decode()  # 发送 GET 请求，并获取返回的 HTML 页面。
    soup = BeautifulSoup(res, 'lxml')  # 解析 HTML 页面，生成 BeautifulSoup 对象。
    div_li = soup.find('div', class_='page-content text-center').find_all('a')  # 获取所有图片链接所在的 a 标签。
    url_list = []
    for a in div_li:
        img_url = a.find('img', class_='img-responsive lazy image_dta')['data-backup']  # 获取图片链接。
        url_list.append(img_url)  # 将图片链接添加到列表中。
    return url_list  # 返回图片链接列表


def download_img(img_url: str, folder: str):
    '''
    根据图片的 URL 下载图片，并将其保存到指定文件夹中。

    :param img_url: 图片的 URL。
    :param folder: 保存图片的文件夹。
    '''
    # 创建文件夹（如果不存在的话）
    if not os.path.exists(folder):
        os.makedirs(folder)

    # 爬取图片
    headers = {
        "User-Agent": UserAgent().random  # 获取随机 User-Agent
    }
    res_img = requests.get(img_url, headers=headers)

    # 保存图片
    file_name = img_url.split('/')[-1]
    file_path = os.path.join(folder, file_name)
    with open(file_path, 'wb') as f:
        f.write(res_img.content)
        print(f'{file_name} 下载完成...')
        print('-' * 200)


if __name__ == '__main__':
    # 多线程爬虫
    start_time = time.time()
    # (1) 爬取当前页的所有的img_url
    img_urls = get_img_urls()
    # (2) 根据img_urls下载图片
    folder = './结果数据/案例03：斗图网多线程采集/'
    t_list = []
    for img_url in img_urls:
        t = threading.Thread(target=download_img, args=(img_url, folder,))
        t.start()
        t_list.append(t)
    for t in t_list:
        t.join()
    print(f"整体耗时{time.time() - start_time} 秒")
    # 单线程爬虫
    # start_time = time.time()
    #
    # # (1) 爬取当前页的所有的 img_url
    # img_urls = get_img_urls()
    #
    # # (2) 根据 img_urls 下载图片
    # folder = './结果数据/案例03：斗图网多线程采集/'
    # for img_url in img_urls:
    #     download_img(img_url, folder)
    #
    # print(f"整体耗时{time.time() - start_time} 秒")

五、多线程爬虫的思考

我们使用Thread创建多线程爬虫，极大的提高了爬虫的效率，提高了程序的响应速度，可以方便的控制线程数量。但是还存在一些弊端，如下：

线程间竞争和协作问题：多个线程同时访问共享资源时，容易出现竞争和协作问题。例如，当多个线程同时对同一个变量进行修改时，可能会导致数据的不一致性。为了解决这个问题，可以使用锁等机制进行同步。
线程切换的开销：线程的切换需要消耗一定的时间和资源，如果线程切换过于频繁，可能会导致程序效率反而下降。此外，由于 Python 解释器的 GIL（全局解释器锁）机制，Python 中的多线程并不是真正的并行执行，而是通过在不同线程之间切换执行来实现的。
内存和资源的占用：多线程在运行时会占用更多的内存和资源，特别是在同时创建大量线程时，可能会导致系统负载过高，甚至出现内存泄漏等问题。
容易触发反爬虫机制：一些网站为了防止爬虫的访问，会设置一些反爬虫机制。如果使用多线程爬虫，可能会因为访问频率过高而被检测到，从而触发反爬虫机制，导致爬虫失败。为了避免这种情况，可以使用代理 IP 等技术进行反反爬虫。
网络拥塞：多线程爬虫同时向服务器发送大量请求，可能会造成网络拥塞，从而导致请求失败或者响应时间过长。这可能会影响到其他用户的网络使用体验，甚至会影响到整个网络的正常运行。
服务器压力：多线程爬虫会给被爬取网站的服务器带来更大的负载压力，如果服务器没有良好的负载均衡和容错机制，可能会导致服务器崩溃或者停机。

因此，在进行多线程爬虫开发时，多线程爬虫虽然可以提高爬虫效率，但也存在多个方面的弊端，需要在实际应用中谨慎使用，并进行合理的优化和调整。例如，设置适当的爬取速度、采用代理 IP、合理规划爬取任务、采用分布式爬虫等。

全平台QQ聊天数据库解密项目常见问题解决方案管旭韶
全平台QQ聊天数据库解密项目常见问题解决方案qq-win-db-keyQQNT/WindowsQQ聊天数据库解密项目地址:https://gitcode.com/gh_mirrors/qq/qq-win-db-key项目基础介绍本项目是一个开源项目，旨在为用户提供全平台QQ聊天数据库的解密方法。项目主要使用Python、JavaScript和C++等编程语言实现。新手常见问题及解决步骤问题一：如何
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python Day58 别勉. python机器学习 python 信息可视化数据分析
Task：1.时序建模的流程2.时序任务经典单变量数据集3.ARIMA（p，d，q）模型实战4.SARIMA摘要图的理解5.处理不平稳的2种差分a.n阶差分—处理趋势b.季节性差分—处理季节性建立一个ARIMA模型，通常遵循以下步骤：数据可视化：观察原始时间序列图，判断是否存在趋势或季节性。平稳性检验：对原始序列进行ADF检验。如果p值>0.05，说明序列非平稳，需要进行差分。确定差分次数d:进行
Python Day56 别勉. python机器学习 python 开发语言
Task：1.假设检验基础知识a.原假设与备择假设b.P值、统计量、显著水平、置信区间2.白噪声a.白噪声的定义b.自相关性检验：ACF检验和Ljung-Box检验c.偏自相关性检验：PACF检验3.平稳性a.平稳性的定义b.单位根检验4.季节性检验a.ACF检验b.序列分解：趋势+季节性+残差记忆口诀：p越小，落在置信区间外，越拒绝原假设。1.假设检验基础知识a.原假设与备择假设原假设(Null
Python Day57 别勉. python机器学习 python 开发语言
Task：1.序列数据的处理：a.处理非平稳性：n阶差分b.处理季节性：季节性差分c.自回归性无需处理2.模型的选择a.AR§自回归模型：当前值受到过去p个值的影响b.MA(q)移动平均模型：当前值收到短期冲击的影响，且冲击影响随时间衰减c.ARMA(p,q)自回归滑动平均模型：同时存在自回归和冲击影响时间序列分析：ARIMA/SARIMA模型构建流程时间序列分析的核心目标是理解序列的过去行为，并
Python Day44 别勉. python机器学习 python 开发语言
Task：1.预训练的概念2.常见的分类预训练模型3.图像预训练模型的发展史4.预训练的策略5.预训练代码实战：resnet181.预训练的概念预训练（Pre-training）是指在大规模数据集上，先训练模型以学习通用的特征表示，然后将其用于特定任务的微调。这种方法可以显著提高模型在目标任务上的性能，减少训练时间和所需数据量。核心思想：在大规模、通用的数据（如ImageNet）上训练模型，学习丰
Python Day42 别勉. python机器学习 python 开发语言
Task：Grad-CAM与Hook函数1.回调函数2.lambda函数3.hook函数的模块钩子和张量钩子4.Grad-CAM的示例1.回调函数定义：回调函数是作为参数传入到其他函数中的函数，在特定事件发生时被调用。特点：便于扩展和自定义程序行为。常用于训练过程中的监控、日志记录、模型保存等场景。示例：defcallback_function():print("Epochcompleted!")
Python-什么是集合難釋懷 python 开发语言数据库
一、前言在Python中，除了我们常用的列表（list）、元组（tuple）和字典（dict），还有一种非常实用的数据结构——集合（set）。集合是一种无序且不重复的元素集合，常用于去重、交并差运算等场景。本文将带你全面了解Python中集合的基本用法、操作方法及其适用场景，并通过大量代码示例帮助你掌握这一重要数据类型。二、什么是集合（set）？✅定义：集合是Python中的一种可变数据类型，它存
Python Day53 别勉. python机器学习 python 开发语言
Task：1.对抗生成网络的思想：关注损失从何而来2.生成器、判别器3.nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法4.leakyReLU介绍：避免relu的神经元失活现象1.对抗生成网络的思想：关注损失从何而来这是理解GANs的关键！传统的神经网络训练中，我们通常会直接定义一个损失函数（如均方误差MSE、交叉熵CE），然后通过反向传播来优化这个损失。这个损失的“来源”
〖Python零基础入门篇⑮〗- Python中的字典哈哥撩编程 #① -零基础入门篇 Python全栈白宝书 python 开发语言后端 python中的字典
>【易编橙·终身成长社群，相遇已是上上签！】-点击跳转～<作者：哈哥撩编程（视频号同名）图书作者：程序员职场效能宝典博客专家：全国博客之星第四名超级个体：COC上海社区主理人特约讲师：谷歌亚马逊分享嘉宾科技博主：极星会首批签约作者文章目录⭐️什么是字典？⭐️字典的结构与创建方法⭐️字典支持的数据类型⭐️在列表与元组中如何定义字典
python换行输出字典_Python基础入门：字符串和字典 weixin_39959236 python换行输出字典
10、字符串常用转义字符转义字符描述\\反斜杠符号\'单引号\"双引号\n换行\t横向制表符(TAB)\r回车三引号允许一个字符串跨多行，字符串中可以包含换行符、制表符以及其他特殊字符para_str="""这是一个多行字符串的实例多行字符串可以使用制表符TAB(\t)。也可以使用换行符[\n]。"""print(para_str)#这是一个多行字符串的实例#多行字符串可以使用制表符#TAB()。
Python----Python中的集合及其常用方法 redrose2100 Python python 开发语言后端
【原文链接】1集合的定义和特点（1）集合是用花括号括起来的，集合的特点是元素没有顺序，元素具有唯一性，不能重复>>>a={1,2,3,4}>>>type(a)>>>a={1,2,3,1,2,3}>>>a{1,2,3}2集合的常用运算（1）集合元素没有顺序，所以不能像列表和元组那样用下标取值>>>a={1,2,3}>>>a[0]Traceback(mostrecentcalllast):File""
langchain+langserver+langfuse整合streamlit构建基础智能体中心 Messi^ 人工智能-大模型应用 langchain 人工智能
ServerApi******#!/usr/bin/python--coding:UTF-8--importuvicornfromfastapiimportFastAPIfrombaseimportFaissEnginefromlangserve.serverimportadd_routesfromlangchain_core.promptsimportPromptTemplatefromlang
pycharm两种运行py之路径问题 hellopbc software #pycharm python pycahrm path
文章目录pycharm两种运行py之路径问题pycharm两种运行py之路径问题运行python代码在pycharm中有两种方式：一种是直接鼠标点击runxxx运行，还有一种是使用#In[]:点击该行左边的绿色三角形按钮运行有可能在pythonconsole窗口运行有可能在你当前运行文件的窗口（就是run之后产生的那个窗口）**问题：**你会发现，涉及到路径问题时（使用相对路径），可能在这两种运行
Python元组的遍历難釋懷 python 前端 linux
一、前言在Python中，元组（tuple）是一种非常基础且常用的数据结构，它与列表类似，都是有序的序列，但不同的是，元组是不可变的（immutable），一旦创建就不能修改。虽然元组不能被修改，但它支持高效的遍历操作，非常适合用于存储不会变化的数据集合。本文将系统性地介绍Python中元组的多种遍历方式，包括基本遍历、索引访问、元素解包、结合函数等，并结合大量代码示例帮助你掌握这一重要技能。二、
Python集合生成式
一、前言在Python中，我们已经熟悉了列表生成式（ListComprehension），它为我们提供了一种简洁高效的方式来创建列表。而除了列表之外，Python还支持一种类似的语法结构来创建集合——集合生成式（SetComprehension）。集合生成式不仅可以帮助我们快速构造一个无序且不重复的集合，还能有效提升代码的可读性和执行效率。本文将带你全面了解：✅什么是集合生成式✅集合生成式的语法结
Selenium使用指南
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快Selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera
Python开发从新手到专家：第三章列表、元组和集合 caifox菜狐狸 Python开发从新手到专家 python 元素集合列表元组数据结构字典
在Python开发的旅程中，数据结构是每一位开发者必须掌握的核心知识。它们是构建程序的基石，决定了代码的效率、可读性和可维护性。本章将深入探讨Python中的三种基本数据结构：列表、元组和集合。这三种数据结构在实际开发中有着广泛的应用，从简单的数据存储到复杂的算法实现，它们都扮演着不可或缺的角色。无论你是刚刚接触Python的新手，还是希望进一步提升编程技能的开发者，本章都将是你的宝贵指南。我们将
python入门之字典二十四桥_ python入门 python
文章目录一、字典定义二、字典插入三、字典删除四、字典修改五、字典查找六、字典遍历七、字典拆包一、字典定义#{}键值对各个键值对之间用逗号隔开#1.有数据的字典dict1={'name':'zmz','age':20,'gender':'boy'}print(dict1)#2.创建空字典dict2={}print(dict2)dict3=dict()print(dict3)二、字典插入dict1={
python类的定义与使用菜鸟驿站2020 python
class01.py代码如下classTicket():#类的名称首字母大写#在类里定义的变量称为属性,第一个属性必须是selfdef__init__(self,checi,fstation,tstation,fdate,ftime,ttime,notes):self.checi=checiself.fstation=fstationself.tstation=tstationself.fdate
Python爬虫设置代理IP 菜鸟驿站2020 python
配置代理ipfrombs4importBeautifulSoupimportrequestsimportrandom#从ip代理网站获取ip列表defget_ip_list(url,headers):web_data=requests.get(url,headers=headers)soup=BeautifulSoup(web_data.text,'lxml')ips=soup.find_all(
Tensorflow 回归模型 FLASK + DOCKER 部署至 Ubuntu 虚拟机
准备工作：安装虚拟机，安装ubuntu，安装python3.x、pip和对应版本的tensorflow和其他库文件,安装docker。注意事项：1.windows系统运行的模型文件不能直接运行到虚拟机上，需在虚拟机上重新运行并生成模型文件2.虚拟机网络状态改为桥接Flask代码如下：fromflaskimportFlask,request,jsonifyimportpickleimportnump
10个可以快速用Python进行数据分析的小技巧_python 通径分析 2401_86043917 python 数据分析开发语言
df.iplot()![](https://img-blog.csdnimg.cn/img_convert/f3c1ad79e3c29ed0231d72af2988f6f9.jpeg)![](https://img-blog.csdnimg.cn/img_convert/dd456c392a2ddd14c649270707520e48.jpeg)df.iplot()vsdf.plot()右侧的可视
【Python多线程】晟翰逸闻 Python python
文章目录前言一、Python等待event.set二、pythonracecondition和lock使用使用锁(Lock)三.pythonDeadLock使用等综合运用总结前言这篇技术文章讨论了多线程编程中的几个重要概念。它首先介绍了等待事件的使用，并强调了避免使用“ForLoop&Sleep”进行等待的重要性。接着，文档解释了竞态条件，并提供了处理共享资源的建议，即在使用共享资源时进行加锁和解
【pycharm专业版】【如何远程配置Python解释器】【SSH】资源存储库 python pycharm
Wejustlookedatconfiguringalocalinterpreter.Butwedon’talwayshavea“local”environment.Sometimes–andincreasinglyoften–ourenvironmentisoverthere.我们刚刚看了配置本地解释器。但我们并不总是有一个“本地”的环境。有时候–而且越来越多的时候–我们的环境就在那里。Let’
python线程同步锁_python的Lock锁，线程同步 weixin_39649660 python线程同步锁
一、Lock锁凡是存在共享资源争抢的地方都可以使用锁，从而保证只有一个使用者可以完全使用这个资源一旦线程获得锁，其他试图获取锁的线程将被阻塞acquire(blocking=True,timeout=-1):默认阻塞，阻塞可以设置超时时间，非阻塞时，timeout禁止设置，成功获取锁，返回True，否则返回Falsereleas():释放锁，可以从任何线程调用释放，已上锁的锁，会被重置为unloc
并发与并行：python多线程详解 m_merlon python 服务器 Python进阶教程 python
简介多进程和多线程都可以执行多个任务，线程是进程的一部分。线程的特点是线程之间可以共享内存和变量，资源消耗少，缺点是线程之间的同步和加锁比较麻烦。在cpython中，截止到3.12为止依然存在全局解释器锁（GIL）,不能发挥多核的优势，因此python多线程更适合IO密集型任务并发提高效率，CPU密集型任务推荐使用多进程并行解决。注：此说法仅适用于python（如：c++的多线程可以利用到多核并行
python多线程：生产者与消费者，高级锁定Condition、queue队列使用案例与注意事项网小鱼的学习笔记 Python python java 大数据
高级锁定这是python中的另一种中锁定，就像是它的名字一样是可以有条件的condition，首先程序使用acquire进入锁定状态，如果需要符合一定的条件才处理数据，此时可以调用wait，让自己进入睡眠状态，程序设计时候需要用notify通知其他线程，然后放弃锁定release此时其他再等待的线程因为受到通知notify，这时候被激活了，就开始运作。生产者与消费者的设计程序用producer方法
python协程与异步并发，同步与阻塞，异步与非阻塞，Python异步IO、协程与同步原语介绍，协程的优势和劣势网小鱼的学习笔记 Python python 服务器开发语言
协程与异步软件系统的并发使用异步IO，无非是我们提的软件系统的并发，这个软件系统，可以是网络爬虫，也可以是web服务等并发的方式有多种，多线程，多进程，异步IO等多线程和多进程更多应用于CPU密集型的场景，比如科学计算的事件都消耗在CPU上面，利用多核CPU来分担计算任务多线程和多进程之间的场景切换和通讯代价很高，不适合IO密集型的场景，而异步IO就是非常适合IO密集型的场景，例如网络爬虫和web
使用Python和FFmpeg实现RGB到YUV444的转换追逐程序梦想者 ffmpeg python 开发语言
使用Python和FFmpeg实现RGB到YUV444的转换如果你需要将RGB图像转换为YUV444格式的图像，那么本文将为你提供一个简单且可靠的方法。我们将使用Python和FFmpeg来完成这个任务。首先，让我们了解一下什么是RGB和YUV。RGB表示红、绿、蓝三种颜色的组合，是最常见的图像格式之一。另一方面，YUV是一种亮度-色度编码，用于视频压缩和传输，它将图像分成明亮度（Y）和色度（U和
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户

【爬虫】案例03：某图网图片多线程下载

一、进程与线程

二、threading模块的使用

1. 创建多线程：threading.Thread类

2. 使用Thread创建多线程

三、某图网单线程下载

1. fake_useragent的使用

2. 获取网站URL

3. 下载图片

4. 添加主函数

四、某图网多线程下载

1. 创建多线程

2. 完整代码

五、多线程爬虫的思考

你可能感兴趣的:(爬虫,爬虫,python)