Jenrey

Python并发编程实战，用多线程、多进程、多协程加速程序运行

文章目录

1. 并发 & 并行、同步 & 异步
- 1.1 并发 & 并行
- - 并发 Concurrency
  - 并行 Parallelism
- 1.2 同步 & 异步
- - 同步 Synchronous
  - 异步 Asynchronous
2. CPU密集型计算 & IO密集型计算
- 2.1 CPU密集型（CPU-bound）
- 2.2 IO密集型（I/O-bound）
3. 单线程编程 & 多线程编程
- 3.1 (单线程)异步编程 Asynchronous Programming
- 3.2 多线程编程 Multi-threading
4. Python中并发编程
- 4.1 为什么要引入并发编程？
- 4.2 引入并发编程的意义
- 4.3 程序提速的方法
- 4.4 Python对并发编程的支持
- 4.5 Python并发编程的三种方式及使用场景
- 4.6 怎样根据任务选择对应技术？
5. GIL 全局解释器锁
- 5.1 Python速度慢的两大原因
- 5.2 GIL是什么？
- 5.3 为什么有GIL这个东西？
- 5.4 怎样规避GIL带来的限制？
6. Python中的代码实战
- 6.1 单线程 & 多线程
- - Python 创建多线程的方式
  - 传统单线程版本
  - 多线程版本
- 6.2 生产者 & 消费者
- - 多组件的Pipeline技术架构
  - 生产者消费者爬虫的架构
  - 多线程数据通信的 queue.Queue
  - 代码编写实现生产者消费者爬虫
  - - 单线程版本
    - 多线程版本
- 6.3 Python线程安全问题以及解决方案
- - 线程安全概念介绍
  - Lock用于解决线程安全问题
  - - 用法一：try-finally 模式
    - 用法二：with 模式
  - 实例代码演示问题以及解决方案
- 6.4 好用的线程池 - ThreadPoolExecutor
- - 线程池的原理
  - 使用线程池的好处
  - ThreadPoolExecutor的使用语法
  - 使用线程池改造爬虫程序
- 6.5 在Web服务中使用线程池加速
- - Web服务的架构以及特点
  - 使用线程池ThreadPoolExecutor加速
  - 代码用Flask实现Web服务并实现加速
- 6.6 使用多进程 multiprocessing 加速程序的运行
- - 有了多线程threading，为什么还要用多进程multiprocessing
  - 多进程multiprocessing：知识梳理
  - 代码实战：单线程、多线程、多进程对比CPU密集计算速度
- 6.7 在Flask服务中使用进程池加速
- 6.8 Python异步IO实现并发爬虫
- - 什么是协程
  - Python 异步IO库介绍：asyncio
  - 异步代码
- 6.9 在异步IO中使用信号量控制爬虫并发度
- - 使用方式一
  - 使用方式二
  - 在异步IO中加入并发度限制

1. 并发 & 并行、同步 & 异步

1.1 并发 & 并行

是一个比较宽泛的概念，它单纯的代表计算机能够同时执行多项任务，至于计算机怎么做到“并发” 则有许多不同的形式。

并发 Concurrency

单核计算机实现并发：通过分配时间片的方式，让一个任务执行一段时间，然后切换到另一个任务再运行一段时间，不同的任务会这样交替往复的一直执行下去，这个过程也被称作是进程或者线程的上下文切换（context switching）。

并行 Parallelism

多核计算机实现并发：在不同的核心上真正并行地执行任务，而不用通过分配时间片的方式运行，这种情况也就是我们所说的并行。

1.2 同步 & 异步

同步和异步是两种不同的编程模型

同步 Synchronous

“同步” 代表需要等到必须前一个任务执行完毕之后，才能进行下一个任务。
在同步中没有并发或者并行的概念。

异步 Asynchronous

异步则代表不同的任务之间并不会相互等待
在执行任务A的时候，也可以同时运行任务B
一个典型实现异步的方式则是通过多线程编程（Multithreading）
特别注意，在Python中由于受到GIL的限制，并不会出现下图所示的执行效果。而其他编程语言在多核CPU环境下，每个线程就会被分配到独立的核心上运行，实现真正的并行。但如果使用单核心处理器或者通过设置亲和力（Affinity）强制将线程绑定到某个核心上，操作系统则会通过分配时间片的方式来执行这些线程，这些线程则是在并发地执行。

import threading

"""在Python中，无论单核还是多核CPU，都可以看到下面发生了某一个CPU核心的时间片切换，证明只能并发执行，不能并行执行，即不能利用多CPU核心（受到GIL限制）。
Print from thread 0.
Print from thread 1.
Print from thread 1.
Print from thread 1.
Print from thread 1.
Print from thread 1.
Print from thread 0.
Print from thread 0.
Print from thread 0.
Print from thread 0.
Print from thread 2.
Print from thread 2.
Print from thread 2.
Print from thread 2.
Print from thread 2.
"""

def my_thread(index):
    for _ in range(5):
        print("\nPrint from thread %s." % index)

if __name__ == "__main__":
    for index in range(3):
        thread = threading.Thread(target=my_thread, args=(index,))
        thread.start()

2. CPU密集型计算 & IO密集型计算

单词bound就是受限制的意思。

2.1 CPU密集型（CPU-bound）

任务的运行受到cpu的限制，CPU占用率能达到顶峰，而读写操作不会花费大量的时间。
CPU密集型也叫计算密集型，是指I/O在很短的时间就可以完成，CPU需要大量的计算和处理，特点是CPU占用率相当高。
例如：压缩、解压缩、加密、解密、正则表达式搜索。

2.2 IO密集型（I/O-bound）

任务的运行受到IO的限制，IO是你程序运行的瓶颈。
IO密集型指的是系统运行大部分的状况是CPU在等I/O（硬盘/内存/网络）的读/写操作，CPU占用率较低。
简而言之，如果你的程序依赖大量的外部数据源，比如内存、磁盘、网络，那么它就是IO密集型。否则如果只在CPU中进行计算那么就是CPU密集型。
例如：文件处理程序、网络爬虫程序、读写数据库程序。

3. 单线程编程 & 多线程编程

3.1 (单线程)异步编程 Asynchronous Programming

对于 I/O 密集的应用程序，比如Web应用就会经常执行网络操作、数据库访问，这类应用就非常适合使用异步编程的方式。

# 单线程的并发，这里是异步编程的方式
import asyncio
async def main():
    print("hello")
    await asyncio.sleep(1)
    print("world")
asyncio.run(main())

反之，如果使用多线程的方式则会浪费不少的系统资源。因为每个线程的绝大多数时间都是在等待这些 I/O 操作。线程自身也会占用额外的内存，线程的切换也会有额外的开销，更不用说线程之间的资源竞争问题。

3.2 多线程编程 Multi-threading

多线程编程则非常适合于计算量密集的应用。例如视频图像处理、科学计算等等。
多线程编程能够让每一个 CPU 核心发挥最大的功效，而不是消耗在空闲的等待上。

4. Python中并发编程

4.1 为什么要引入并发编程？

场景1：一个网络爬虫，按顺序爬取花了1小时，采用并发下载减少到20分钟！
场景2：一个APP应用，在它的后台服务中请求了大量的外部资源，优化前每次打开页面需要3秒，采用异步并发提升到每次200毫秒；

4.2 引入并发编程的意义

引入并发，就是为了提升程序运行速度。
学习并掌握并发编程，是高级别 + 高薪资程序员的必备能力

4.3 程序提速的方法

单线程串行：初级的程序都是单线程串行运行的。
多线程并发：这种原理上还是一个CPU来进行运行的。有一个知识点咱们电脑中的CPU和IO这两个它们是可以同时并行进行的，IO的执行例如读取内存、磁盘、网络它们的过程中是不需要CPU参与的，这样CPU可以释放出来执行其他task，实现并发的加速。
多CPU并行：多个CPU核心同时真正的并行执行。
多机器并行：在大数据时代，用多个机器执行。

CPU在程序IO的时候是不做什么事情的，所以这就是可以提速的切入点。

4.4 Python对并发编程的支持

多线程：threading，利用CPU和IO可以同时执行的原理，让CPU不会干巴巴等待IO完成，而是让CPU切换到其他task，进行多线程的并发执行。
多进程：multiprocessing，利用多核CPU的能力，真正的并行执行任务。
多协程：也称异步IO：asyncio，该模块比较新，在单线程中利用CPU和IO可以同时执行的原理，实现函数异步执行。

对于上面这些模块，Python提供了一些辅助：

使用Lock对资源加锁，防止冲突访问。
使用Queue实现不同线程 / 进程之间的数据通信，实现生产者-消费者模式。
使用线程池Pool / 进程池Pool ，简化线程/进程的任务提交、等待结束、获取结果。
使用subprocess启动外部程序的进程，并进行输入输出交互

4.5 Python并发编程的三种方式及使用场景

4.6 怎样根据任务选择对应技术？

5. GIL 全局解释器锁

5.1 Python速度慢的两大原因

相比 C / C++ / JAVA，Python确实慢，在一些特殊场景下，Python比 C++ 慢100～200倍。
由于速度慢的原因，很多公司基础架构代码依然用 C / C++ 开发，比如各大公司阿里/腾讯/快手的推荐引擎、搜索引擎、存储引擎等底层对性能要求高的模块。
Python速度慢的两大原因：
- 动态类型语言，边解释边执行
- GIL，无法利用多核CPU并发执行

5.2 GIL是什么？

全局解释器锁（英语：Global Interpreter Lock，缩写GIL)
是计算机程序设计语言解释器（Python）用于同步线程的一种机制，它使得任何时刻仅有一个线程在执行。简单来说，就是一把锁，这把锁在任意时刻只允许一个 Python 进程使用 Python 解释器。
即便在多核心处理器上，使用GIL的解释器也只允许同一时间执行一个线程。所以我们用Python开发多线程的程序，在同一时间只能执行一个线程。
由于GIL的存在，即使电脑有多核CPU，单个时刻也只能使用1个核心，相比并发加速的C++ / JAVA所以慢。
对C++和JAVA来说，如果开启了多线程并且在多核CPU下，那么这个多线程会并行执行；如果是单核CPU下，即使是JAVA的多线程也是并发执行的。

5.3 为什么有GIL这个东西？

简而言之：Python设计初期，为了规避并发问题引入了GIL，现在想去除却去不掉了！
GIL为了解决多线程之间 数据完整性 和 状态同步 问题
- Python中对象的管理，是使用引用计数器进行的，引用数为0则释放对象。平时写的 Python 代码，引用计数是在你调用变量的时候自动增加的，不需要你去手动加 1。
- GIL 锁住的东西，都是不需要你的代码直接交互的东西。
  - GIL 锁用来保护指向当前进程状态的指针
  - 当两个线程同时提高同一个对象的引用计数时，（如果没有 GIL 锁）那么引用计数只会被提高了 1 次而不是 2 次。
- Python支持多线程编程后，为了避免引用计数等出现线程安全问题，就引入了 GIL。注意，即使有了GIL锁，我们对共享资源obj仍需使用Lock加锁。即使同一时间只有一个线程在运行，但是两个线程同时修改同一个变量时，也会发生并发冲突。如下图所示：
- GIL确实有好处，简化了Python对共享资源的管理；

5.4 怎样规避GIL带来的限制？

GIL带来的限制是：在任意时刻只允许有一个线程在运行，无法使用多核CPU的优势。
GIL的存在也是有意义的
- 场景一：多线程 threading 机制依然是有用的，用于IO密集型计算。
  因为 I/O（read、write、send、recv、etc.）期间，线程会释放GIL，实现CPU和IO的并行，因此多线程用于IO密集型计算依然可以大幅提升速度。
  但是多线程用于CPU密集型计算时，只会更加拖慢速度，因为只有CPU一个核心在运行，同时经常会发生多线程的切换，多线程的切换会带来额外开销，那么就会拖慢CPU的执行速度。
- 场景二：使用 multiprocessing 的多进程机制，利用多核CPU的优势，实现真正的并行计算。所以为了应对GIL的问题，Python提供了 multiprocessing

6. Python中的代码实战

6.1 单线程 & 多线程

Python创建多线程的方法
改写爬虫程序，变成多线程爬取
速度对比：单线程爬虫VS多线程爬虫

Python 创建多线程的方式

# 1、准备一个函数
def my_func(a,b):
    do_craw(a,b)

# 2、创建一个子线程
import threading
t = threading.Thread(target=my_func, args=(100,200)) # 注意传入函数名而不是调用，args是元组

# 3、启动线程
t.start()

# 4、等待结束
# 如果不关心线程的结束，可以不用写，让线程一直运行即可
# 如果想知道线程什么时候结束就可以用join方法，这个方法会一直等待线程的结束
t.join()

传统单线程版本

import time

import requests

# 要爬取的网页URL
urls = [f"https://www.cnblogs.com/#p{page}" for page in range(1, 50 + 1)]

def craw(url: str):
    r = requests.get(url)
    print(url, len(r.text))

def single_thread():
    for url in urls:
        craw(url)

if __name__ == "__main__":
    start = time.time()
    single_thread()
    end = time.time()
    print("single thread cost:", end - start, "seconds")

多线程版本

import threading
import time

import requests

# 要爬取的网页URL
urls = [f"https://www.cnblogs.com/#p{page}" for page in range(1, 50 + 1)]

def craw(url: str):
    r = requests.get(url)
    print(url, len(r.text))

def multi_thread():
    threads = []
    for url in urls:
        threads.append(threading.Thread(target=craw, args=(url,)))
    for thread in threads:
        thread.start()
    for thread in threads:
        thread.join()

if __name__ == "__main__":
    start = time.time()
    multi_thread()
    end = time.time()
    print("multi thread cost:", end - start, "seconds")

6.2 生产者 & 消费者

多组件的Pipeline技术架构
生产者消费者爬虫的架构
多线程数据通信的 queue.Queue
代码编写实现生产者消费者爬虫

多组件的Pipeline技术架构

复杂的事情一般都不会一下子做完，而是会分很多中间步骤一步步完成

生产者消费者爬虫的架构

多线程数据通信的 queue.Queue

queue.Queue 可以用于多线程之间的、线程安全的数据通信。

线程安全：指的是多个线程并发同时的访问数据，不会出现冲突。

# 1、导入类库
import queue

# 2、创建Queue
q = queue.Queue()

# 3、添加元素, 阻塞的方法
q.put(item)

# 4、获取元素，阻塞的方法
item = q.get()

# 5、查询状态
# 查看元素的多少
q.qsize()
# 判断是否为空
q.empty()
# 判断是否已满
q.full()

代码编写实现生产者消费者爬虫

单线程版本

from typing import List, Tuple

import requests
from bs4 import BeautifulSoup

# 要爬取的网页URL
urls = [f"https://www.cnblogs.com/#p{page}" for page in range(1, 50 + 1)]


def craw(url: str) -> str:
    """生产者
    :return 返回网页的HTML
    """
    r = requests.get(url)
    return r.text


def parse(html: str) -> List[Tuple[str, str]]:
    """Processor: 获取网页中所有的文章及URL"""
    soup = BeautifulSoup(html, "html.parser")
    links = soup.find_all("a", class_="post-item-title")
    return [(link["href"], link.get_text()) for link in links]


if __name__ == "__main__":
    """消费者"""
    for result in parse(craw(urls[2])):
        print(result)

多线程版本

import queue
import random
import threading
import time
from typing import List, Tuple

import requests
from bs4 import BeautifulSoup

# 要爬取的网页URL
urls = [f"https://www.cnblogs.com/#p{page}" for page in range(1, 50 + 1)]


def craw(url: str) -> str:
    """获取网页的HTML
    :param url: 要获取的URL
    :return: 返回网页的HTML
    """
    r = requests.get(url)
    return r.text


def parse(html: str) -> List[Tuple[str, str]]:
    """Processor: 获取网页中所有的文章及URL"""
    soup = BeautifulSoup(html, "html.parser")
    links = soup.find_all("a", class_="post-item-title")
    return [(link["href"], link.get_text()) for link in links]


def do_craw(url_queue: queue.Queue, html_queue: queue.Queue):
    """生产者"""
    while True:
        url = url_queue.get()  # 获取元素，阻塞的方法
        html = craw(url)
        html_queue.put(html)
        print(threading.current_thread().name, f"craw {url}", "url_queue.size=", url_queue.qsize())
        time.sleep(random.randint(1, 2))  # 随机睡眠1或2秒


def do_parse(html_queue: queue.Queue, fout):
    """消费者"""
    while True:
        html = html_queue.get()
        results = parse(html)
        for result in results:
            fout.write(str(result) + "\n")
        print(threading.current_thread().name, "results.size", len(results), "html_queue.size=", html_queue.qsize())
        time.sleep(random.randint(1, 2))  # 随机睡眠1或2秒


if __name__ == "__main__":
    url_queue = queue.Queue()  # 队列大小为无限
    html_queue = queue.Queue()  # 队列大小为无限
    for url in urls:
        url_queue.put(url)
    # 启动生产者线程
    for idx in range(3):
        t = threading.Thread(target=do_craw, args=(url_queue, html_queue), name=f"craw{idx}")
        t.start()
    fout = open("data.txt", "w")
    # 启动消费者线程
    for idx in range(2):
        t = threading.Thread(target=do_parse, args=(html_queue, fout), name=f"parse{idx}")
        t.start()

6.3 Python线程安全问题以及解决方案

线程安全概念介绍

线程安全：指某个函数、函数库在多线程环境中被调用时，能够正确地处理多个线程之间的共享变量，使程序功能正确完成。
线程不安全：由于线程的执行随时会发生切换，就造成了不可预料的结果，出现线程不安全

Lock用于解决线程安全问题

只要第一个线程拿到锁了，即使发生了线程切换，第二个线程因为没有锁，也无法进入到被锁住的代码段，只有当第一个线程把锁释放，第二个线程才能进来。

我们可以把一大段可能出现问题的代码段放在锁里，这样就保证了在多线程情况下，即使线程发生了切换，也不会造成线程不安全的问题。

用法一：try-finally 模式

import threading

lock = threading.Lock()

lock.acquire()
try:
    # do something
finally:
    lock.release()

用法二：with 模式

import thread

lock = thread.Lock()

with lock:
    # do something

实例代码演示问题以及解决方案

# 线程不安全
import threading
import time

class Account:
    def __init__(self, balance):
        self.balance = balance

def draw(account, amount):
    if account.balance >= amount:
        time.sleep(0.1)  # 加上这句会一直出现“余额-600”问题,因为sleep语句一定会导致当前线程的阻塞(或者进行远程调用也会导致当前线程阻塞)，从而进行线程的切换
        print(threading.current_thread().name, "取钱成功")
        account.balance -= amount
        print(threading.current_thread().name, "余额", account.balance)
    else:
        print(threading.current_thread().name, "取钱失败, 余额不足")

if __name__ == "__main__":
    account = Account(1000)
    t1 = threading.Thread(name="t1", target=draw, args=(account, 800))
    t2 = threading.Thread(name="t2", target=draw, args=(account, 800))
    t1.start()
    t2.start()

第一个线程进入if语句，此时还没有减去amount，遇到sleep语句发生线程切换，切换到第二个线程，线程二进入if语句，遇到sleep语句发生线程切换，切换到第一个线程，执行减去amount操作并结束第一个线程，然后继续执行线程二的减去amount操作，最后结果一定是余额-600

# 不加sleep
t1 取钱成功
t2 取钱成功
t2 余额 200
t1 余额 -600

# 加上sleep
t1 取钱成功
t1 余额 200
t2 取钱成功
t2 余额 -600

解决线程不安全的问题：

即使拿到锁的第一个线程在sleep，被切换到第二个线程，但第二个线程拿到不锁，所以就没法进入被锁住的代码，所以系统重新切换回第一个线程，然后第一个线程往下执行最后结束，然后第二个线程获取了锁，等到进入代码的时候balance不够提取的余额了，所以取钱失败。

# 线程安全
import threading
import time

lock = threading.Lock()

class Account:
    def __init__(self, balance):
        self.balance = balance

def draw(account, amount):
    with lock:
        if account.balance >= amount:
            time.sleep(0.1)
            print(threading.current_thread().name, "取钱成功")
            account.balance -= amount
            print(threading.current_thread().name, "余额", account.balance)
        else:
            print(threading.current_thread().name, "取钱失败, 余额不足")


if __name__ == "__main__":
    account = Account(1000)
    t1 = threading.Thread(name="t1", target=draw, args=(account, 800))
    t2 = threading.Thread(name="t2", target=draw, args=(account, 800))
    t1.start()
    t2.start()

t1 取钱成功
t1 余额 200
t2 取钱失败, 余额不足

一旦我们开始多线程编程的开发，就会遇到线程不安全的问题，如果这个问题我们不处理的话，会造成非常严重的Bug，并且这个Bug还不好排查。

6.4 好用的线程池 - ThreadPoolExecutor

线程池的原理

一个线程包含以下几个状态：新建、就绪、运行、阻塞、终止
- 新建：线程在新增的时候，这个线程处于完全不动的状态，然后我们调用 start() 方法，此时线程就会进入就绪状态。
- 就绪：进入就绪状态的线程此时并没有真正的运行，因为一个线程的运行是需要系统进行调度的，系统进行调度让此线程获得CPU的资源，此时线程就进入运行状态了。
- 运行：线程在运行的过程中，可能会失去CPU资源，重新进入就绪状态；也有可能自身遇到了 sleep() 或者IO进入阻塞的状态。
- 阻塞：当对应的 sleep/IO 完成以后，就会再次回到就绪状态，等待系统的调度。
- 终止：当run方法执行完以后，或者线程被终止，就进入了终止的状态。
新建线程系统需要分配资源、终止线程系统需要回收资源，如果可以重用线程，则可以减去新建/终止的开销。
下图是线程池流转图
- 一个线程池主要由两部分组成：
  - 线程池本身：里面是提前预先建好的线程，这些线程会被重复的使用
  - 任务队列：当有新的任务时，并不是直接创建一个线程，而是放在这个任务队列里，然后线程池里已经提前创建好的这些线程会挨个取出任务队列里的任务，进行执行。当这个任务执行完毕，会取下一个任务进行执行；如果说没有在任务队列中发现任务，则线程回到线程池中，并不销毁，放在池里等待下一个任务的到来。
- 通过任务队列以及可重用的线程就实现了线程池这么一个功能。

使用线程池的好处

提升性能：因为减去了大量新建、终止线程的开销，重用了线程资源；
适用场景：适合处理突发性大量请求或需要大量线程完成任务、但实际任务处理时间较短；
防御功能：能有效避免系统因为创建线程过多，而导致系统负荷过大相应变慢等问题；
代码优势：使用线程池的语法比自己新建线程、执行线程更加简洁

ThreadPoolExecutor的使用语法

from concurrent.futures import ThreadPoolExecutor, as_completed

# 用法一, 使用map
with ThreadPoolExecutor() as pool:
    # craw是函数名，urls是很多个参数的参数列表, results是线程池执行完返回的结果列表
    # 咱们之前只能使用queue的方式间接的获取结果不能使用return的方式, 现在可以了
    results = pool.map(craw, urls)
    for result in results:
        print(result)

map函数，很简单，注意map的结果和入参是顺序对应的
future模式，更强大，注意如果使用as_completed顺序是不定的

# 用法二, 使用submit
with ThreadPoolExecutor() as pool:
    # url是单个参数
    futures = [pool.submit(craw, url) for url in ulrs]
    # 遍历方式一, 会按照url的顺序依次获取future对象, 会按顺序等待线程执行结束并返回
    for future in futures:
        print(future.result())  # 获取线程执行的结果
    # 遍历方式二, as_completed函数会实现只要线程有结果就先进行返回,而不是按顺序返回
    for future in as_completed(futures):
        print(future.result())

使用线程池改造爬虫程序

from concurrent.futures import ThreadPoolExecutor, as_completed

import requests
from bs4 import BeautifulSoup

urls = [f"https://www.cnblogs.com/#p{page}" for page in range(1, 50 + 1)]

def craw(url: str) -> str:
    r = requests.get(url)
    return r.text

def parse(html: str):
    soup = BeautifulSoup(html, "html.parser")
    links = soup.find_all("a", class_="post-item-title")
    return [(link["href"], link.get_text()) for link in links]

with ThreadPoolExecutor() as pool:
    htmls = pool.map(craw, urls)
    htmls = list(zip(urls, htmls))
    for url, html in htmls:
        print(url, len(html))
print("craw over")

with ThreadPoolExecutor() as pool:
    futures = {}
    for url, html in htmls:
        future = pool.submit(parse, html)
        futures[future] = url
    # 按顺序打印结果
    #for future, url in futures.items():
    #    print(url, future.result())
    
    # as_completed函数是哪个任务先执行完成就先返回哪个任务
    for future in as_completed(futures):
        url = futures[future]
        print(url, future.result())

6.5 在Web服务中使用线程池加速

Web服务的架构以及特点

Web后台服务的特点：

Web服务对响应时间要求非常高，比如要求200MS返回
Wb服务有大量的依赖IO操作的调用，比如磁盘文件、数据库、远程API
Web服务经常需要处理几万人、几百万人的同时请求，这就意味着我们不能够无限制的创建线程，因为线程是耗费系统资源的。

使用线程池ThreadPoolExecutor加速

使用线程池ThreadPoolExecutor的好处：

方便的将磁盘文件、数据库、远程API的IO调用并发执行
线程池的线程数目不会无限创建（导致系统挂掉)，具有防御功能

代码用Flask实现Web服务并实现加速

import json
import time

from flask import Flask

app = Flask(__name__)

def read_file():
    time.sleep(0.1)
    return "file result"

def read_db():
    time.sleep(0.2)
    return "db result"

def read_api():
    time.sleep(0.3)
    return "api result"

@app.route("/")
def index():
    result_file = read_file()
    result_db = read_db()
    result_api = read_api()
    return json.dumps(
        {
            "result_file": result_file,
            "result_db": result_db,
            "result_api": result_api,
        },
    )

if __name__ == "__main__":
    app.run()

上面运行时间在 “0.631s” 左右。下面进行改造

import json
import time

from flask import Flask
from concurrent.futures import ThreadPoolExecutor, as_completed

app = Flask(__name__)
pool = ThreadPoolExecutor()  # 初始化全局pool对象

def read_file():
    time.sleep(0.1)
    return "file result"

def read_db():
    time.sleep(0.2)
    return "db result"

def read_api():
    time.sleep(0.3)
    return "api result"

@app.route("/")
def index():
    result_file = pool.submit(read_file)
    result_db = pool.submit(read_db)
    result_api = pool.submit(read_api)
    return json.dumps(
        {
            "result_file": result_file.result(),
            "result_db": result_db.result(),
            "result_api": result_api.result(),
        },
    )

if __name__ == "__main__":
    app.run()

改造后，花费时间在"0.324"左右，与sleep最长的时间有关，因为3个read是并发运行，几乎是同时运行。

6.6 使用多进程 multiprocessing 加速程序的运行

有了多线程threading，为什么还要用多进程multiprocessing

multiprocessing 模块就是python为了解决GIL缺陷引入的一个模块，原理是用多进程在多CPU上并行执行。所以在系统中会运行多个python的解释器进程，它们真正的在并行计算，但是也会有些额外的负担。

多进程multiprocessing：知识梳理

多进程与多线程语法几乎完全一样，只要改个类名即可，这是python官方为了让大家无缝方便的迁移来提供的易用性。

代码实战：单线程、多线程、多进程对比CPU密集计算速度

import math
import time
from concurrent.futures import ProcessPoolExecutor, ThreadPoolExecutor

PRIMES = [112272535095293] * 100

def is_prime(n):
    """判断是否是素数"""
    if n < 2:
        return False
    if n == 2:
        return True
    if n % 2 == 0:
        return False
    sqrt_n = int(math.floor(math.sqrt(n)))
    for i in range(3, sqrt_n + 1, 2):
        if n % i == 0:
            return False
    return True

def single_thread():
    for number in PRIMES:
        is_prime(number)

def multi_thread():
    with ThreadPoolExecutor() as pool:
        pool.map(is_prime, PRIMES)

def multi_process():
    with ProcessPoolExecutor() as pool:
        pool.map(is_prime, PRIMES)

if __name__ == "__main__":
    start = time.time()
    single_thread()
    end = time.time()
    print("single_thread, cost:", end - start, "seconds")

    start = time.time()
    multi_thread()
    end = time.time()
    print("multi_thread, cost:", end - start, "seconds")

    start = time.time()
    multi_process()
    end = time.time()
    print("multi_process, cost:", end - start, "seconds")

single_thread, cost: 48.56204795837402 seconds
multi_thread, cost: 49.71490502357483 seconds
multi_process, cost: 17.311036109924316 seconds

6.7 在Flask服务中使用进程池加速

import json
import math
from concurrent.futures import ProcessPoolExecutor

from flask import Flask

app = Flask(__name__)

def is_prime(n):
    """判断是否是素数"""
    if n < 2:
        return False
    if n == 2:
        return True
    if n % 2 == 0:
        return False
    sqrt_n = int(math.floor(math.sqrt(n)))
    for i in range(3, sqrt_n + 1, 2):
        if n % i == 0:
            return False
    return True

@app.route("/is_prime/")
def api_is_prime(numbers):
    number_list = [int(x) for x in numbers.split(",")]
    results = process_pool.map(is_prime, number_list)
    return json.dumps(dict(zip(number_list, results)))

if __name__ == "__main__":
    process_pool = ProcessPoolExecutor()
    app.run()

多进程的每一个进程之间的环境是完全隔离的，所以当我们定义这个pool的时候它所依赖的这些函数必须都已经声明完了，所以就暗含着创建进程池必须放在结尾。
放到结尾还不行，必须放在__main__里面。
对比多线程，多线程使用是非常灵活的，定义在哪里都可以，因为它们共享当前进程的所有的环境。

6.8 Python异步IO实现并发爬虫

注意：异步程序本来就是单线程的，但是用一个至尊超级循环 + IO多路复用原理，来提升效率

什么是协程

协程可以在单线程内实现并发。
整体上还是单线程执行的，但是原理就是超级循环，在CPU遇到IO的时候不会等待，而是切换到下一个任务继续执行，而执行完一遍所有的任务后，会回来继续执行一遍任务，挨个轮询的进行。
《the one loop》
至尊循环驭众生
至尊循环寻众生
至尊循环引众生
普照众生欣欣荣

Python 异步IO库介绍：asyncio

import asyncio

# 获取事件循环
loop = asyncio.get_event_loop()

# 定义协程
async def myfunc(url):
    await get_url(url)

# 创建task列表
tasks = [loop.create_task(myfunc(url)) for url in urls]

# 执行爬虫事件列表,即执行这些tasks列表并等待它们的完成
loop.run_until_complete(asyncio.wait(tasks))

async 说明这个函数是个协程，协程就是在异步IO里执行的函数，与普通函数的不同是需要用超级循环来调度的。
await 代表IO，即表示CPU遇到这个IO不进行阻塞，而是让超级循环直接进入下一个task的执行
注意：要用在异步IO编程中，依赖的库必须支持异步IO特性。
千万注意await的时候不能阻塞，不然的话单线程就不能并发的执行了。requests 不支持异步，需要用 aiohttp 、 httpx 等。

异步代码

注意所有的异步对象要加上 async 开头。

import asyncio
import time

import aiohttp

urls = [f"https://www.cnblogs.com/sitehome/p/{page}" for page in range(1, 50 + 1)]


# 定义协程函数，即可以在超级循环里跑的函数
async def async_craw(url: str):
    print("craw url:", url)
    async with aiohttp.ClientSession() as session:  # 创建一个异步的对象
        async with session.get(url) as resp:  # 请求url
            result = await resp.text()
            print(f"craw url: {url}, {len(result)}")


# 获取超级循环
loop = asyncio.get_event_loop()
# 创建task列表
tasks = [loop.create_task(async_craw(url)) for url in urls]
# 等待所有tasks的完成
start = time.time()
loop.run_until_complete(asyncio.wait(tasks))
end = time.time()
print("use time seconds:", end - start)

single thread cost: 9s
multi_thread cost: 0.6
use time seconds: 0.3962697982788086

大部分情况下，单线程异步爬虫是要快于多线程爬虫的，这是因为在多线程的时候需要经常的进行多线程的调度切换，这本身是耗费时间的，单线程异步是没有线程切换的开销。

6.9 在异步IO中使用信号量控制爬虫并发度

信号量（英语：Semaphore）又称为信号量、旗语，是一个同步对象，用于保持在0至最大值之间的一个计数值。
- 当线程完成一次对该semaphore对象的等待（wait）时，该计数值减一；
- 当线程完成一次对semaphore对象的释放（release）时，计数值加一。
- 当计数值为0，则线程等待该semaphore对象不再能成功直至该semaphore对象变成signaled状态
- semaphore对象的计数值大于0，为signaled状态；计数值等于0，为nonsignaled状态。

使用方式一

sem = asyncio.Semaphore(10)

# ... later
async with sem:
    # work with shared resource

使用方式二

sem = asyncio.Semaphore(10)

# ... later
await sem.acquire()
try:
    # work with shared resource
finally:
    sem.release()

在异步IO中加入并发度限制

import asyncio
import time

import aiohttp

urls = [f"https://www.cnblogs.com/sitehome/p/{page}" for page in range(1, 50 + 1)]

# 声明并发度为10
semaphore = asyncio.Semaphore(10)

# 定义协程函数，即可以在超级循环里跑的函数
async def async_craw(url: str):
    async with semaphore:  # 包裹的代码都在信号量的控制之内,即前10个爬取完才会进入到下10个爬取
        print("craw url:", url)
        async with aiohttp.ClientSession() as session:  # 创建一个异步的对象
            async with session.get(url) as resp:  # 请求url
                result = await resp.text()
                await asyncio.sleep(5)
                print(f"craw url: {url}, {len(result)}")

# 获取超级循环
loop = asyncio.get_event_loop()
# 创建task列表
tasks = [loop.create_task(async_craw(url)) for url in urls]
# 等待所有tasks的完成
start = time.time()
loop.run_until_complete(asyncio.wait(tasks))
end = time.time()
print("use time seconds:", end - start)

你可能感兴趣的:(Python,python,asyncio,await,多线程,多进程,协程,multiprocessing)

焊接性能分析代码（Python）骑蜗牛上月亮 python 开发语言
welding_performance_data.xls数据文件。welding_strengthtoughness5001052012480855015490953013510115401447075601690018600121500139111578115importpandasaspdimportmatplotlib.pyplotaspltimporttkinterastkfrommatp
从零实现B站视频下载器：Python自动化实战教程木觞清 #编程语言自动化运维
一、项目背景与实现原理1.1B站视频分发机制Bilibili的视频采用音视频分离技术，通过以下方式提升用户体验：动态码率适配（1080P/4K/HDR）分段加载技术（基于M4S格式）内容保护机制（防盗链/签名验证）1.2技术实现路线graphTDA[模拟浏览器请求]-->B[获取加密播放信息]B-->C[解析音视频地址]C-->D[多线程下载]D-->E[FFmpeg合并]二、代码逐层解析2.1请
java for循环内执行多线程 m0_74823434 面试学习路线阿里巴巴资料职业发展 java python 开发语言后端
目录一、java用多线程来加快循环效率（推荐第3种！！！！）?第一种：线程池搭配闭锁?第二种：分页概念执行线程?第三种：分页概念执行线程进阶版！！！！一、java用多线程来加快循环效率（推荐第3种！！！！）第一种：线程池搭配闭锁涉及知识：Executors（线程池）、CountDownLatch（闭锁）优点：代码简洁，方便阅读，性能稳定；缺点：Executors创建的线程池是公用的，如果多个地方使
chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
PTA天梯赛PYthon7-10 树的遍历胡同Alley 算法数据结构 python
给定一棵二叉树的后序遍历和中序遍历，请你输出其层序遍历的序列。这里假设键值都是互不相等的正整数。输入格式：输入第一行给出一个正整数N（≤30），是二叉树中结点的个数。第二行给出其后序遍历序列。第三行给出其中序遍历序列。数字间以空格分隔。输出格式：在一行中输出该树的层序遍历的序列。数字间以1个空格分隔，行首尾不得有多余空格。输入样例：723157641234567输出样例：4163572代码长度限制
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
多线程保证并发顺序执行的细节&3个线程轮流打印1-10 像云~ 求职 java jvm 面试
多线程保证并发顺序执行的细节背景一个公共类存储互斥资源(3方法，分别打印1，2，3)，基于同一个该类实例，创建三个并发线程t1，t2，t3，t1调用实例的printFirst()方法打印1，t2调用实例的printSecond()方法打印2，t3调用实例的printThird()方法打印3，如何保证三个并发线程顺序执行成功打印出1，2，3呢？实现这个问题思路很简单，在JUC当中属于入门级别
Python自动化运维开发系列—CICD项目 weixin_46240874
导语都忘记是什么时候知道python的了，我是搞linux运维的，早先只是知道搞运维必须会shell,要做一些运维自动化的工作，比如实现一些定时备份数据啊、批量执行某个操作啊、写写监控脚本什么的。后来发现工作量大的时候shell开始变慢，实现某个功能使用shell感觉力不从心，听人说python能实现shell能做的一切功能，而且开发效率高，速度快，慢慢的就认识了python,多多少少看点简单的东
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
基于 Python 将 PDF 转 Markdown 并拆解为 JSON，支持自定义标题处理 drebander python pdf json
在日常工作中，我们经常需要将PDF文件转换为可编辑、可结构化的数据格式，比如Markdown和JSON。但实际操作中，自动化工具往往会出现标题识别不准确的问题，尤其是PDF转换过程中，缺乏明确的标题标识。这篇文章将教你如何使用Python将PDF转换为Markdown，并通过自定义规则精准识别标题，最终将内容按标题结构拆解为JSON，方便后续快速检索与使用。1.实现目标将PDF文件转换为Markd
Python 项目自动化与 CI/CD 实践：让部署和发布像开挂一样简单全栈探索者chen python python 自动化 ci/cd 开发语言程序人生性能优化可用性测试
Python项目自动化与CI/CD实践：让部署和发布像开挂一样简单在软件开发的世界里，自动化和持续集成/持续部署（CI/CD）是超级英雄，它们不仅让我们的工作更加高效，还能避免那些令人头疼的手动操作。它们就像开发者的最佳伙伴，随时准备打击bug，拯救开发进度。那么，今天我们就来聊聊怎么在Python项目中玩转自动化和CI/CD，让你从繁琐的手动部署中解脱出来，飞速交付高质量的代码。文章目录什么是C
第十三章 Java多线程——阻塞队列龙少丶 java java 开发语言
13.1阻塞队列的由来我们假设一种场景，生产者一直生产资源，消费者一直消费资源，资源存储在一个缓存池中，生产者将生产的资源存进缓存池中，消费者从缓存池中拿到资源进行消费，这就是大名鼎鼎的生产者-消费者模式。该模式能够简化开发过程，一方面消除了生产者与消费者类之间的代码依赖性，另方面将生产数据的过程与使用数据的过程解耦简单化负载。我们⾃⼰coding实现这个模式的时候，因为需要让多个线程操作共享变量
Python列表与元组的深度剖析 jijihusong006 程序 python windows 开发语言
Python列表与元组的深度剖析：从底层实现到应用场景的全方位对比一、核心差异概览Python教程https://pan.quark.cn/s/7cefe3163f45传送代资料库https://link3.cc/aa99特性列表(List)元组(Tuple)可变性可变(Mutable)不可变(Immutable)语法表示方括号[]圆括号()内存占用较大(动态数组结构)较小(静态数组结构)哈希支持
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Python常用的库讲解（易懂版）不辉放弃 python 开发语言
NumPy：用于科学计算的基础库，提供多维数组对象、各种派生对象和对数组执行操作的工具。importnumpyasnp#创建一个numpy数组arr=np.array([1,2,3,4,5])print(arr)Pandas：数据处理库，提供数据结构和数据分析工具，特别适合处理结构化数据。importpandasaspd#创建一个Pandas数据帧df=pd.DataFrame({'A':[1,2
Python零基础通关教程（二）：列表、字典与函数详解（附生活化案例）中意可口可乐 python 开发语言 windows python列表
一、前情回顾与学习路线第一篇重点复习：✅变量与数据类型✅条件判断✅循环结构本篇新知识地图：graphLRA[基础语法]-->B[列表]A-->C[字典]B-->D[函数进阶]C-->D二、列表(List)：你的数据收纳盒1.列表是什么？现实比喻：像超市购物车，可以随时添加/取出商品代码定义：用方括号[]包裹，元素用逗号分隔#创建购物车列表cart=["苹果","牛奶","面包"]print("购物
ERROR: No matching distribution found for tf-estimator-nightly==2.8.0.dev2021122109 小九在学习 python 开发语言
ERROR:Ignoredthefollowingversionsthatrequireadifferentpythonversion:1.14.0Requires-Python>=3.10;1.14.0rc1Requires-Python>=3.10;1.14.0rc2Requires-Python>=3.10ERROR:Couldnotfindaversionthatsatisfiesther
Spring常见面试题风清扬，夏邑 Spring spring java 后端
1.Spring框架中的单例bean是线程安全的吗?不是线程安全的，当多用户同时请求一个服务时，容器会给每一个请求分配一个线程，这时多个线程会并发执行该请求对应的业务逻辑(成员方法)，如果该处理逻辑中有对该单列状态的修改(体现为该单例的成员属性)，则必须考虑线程同步问题。Spring框架并没有对单例bean进行任何多线程的封装处理。关于单例bean的线程安全和并发问题需要开发者自行去搞定。比如:我
PyArmor：一个超级厉害的 Python 库！一只蜗牛儿 python 开发语言
在Python的世界里，如何保护我们的代码不被轻易盗用或者破解，一直是开发者们关注的问题。尤其是在发布软件时，如何有效防止源代码泄漏或者被逆向工程分析，成为了一个重要课题。PyArmor作为一款强大的Python加密工具，能够帮助开发者对Python源代码进行加密保护，防止非法复制和破解。本文将全面介绍PyArmor，并通过代码示例展示如何使用它对Python脚本进行加密、打包和保护。1.PyAr
使用AI python实现将前端angularjs工程转换成vue工程案例银行金融科技前端人工智能 python
以下是一个结合Python和AI技术实现AngularJS到Vue工程迁移的完整案例，包含关键转换策略和代码实现：案例背景目标：将使用AngularJS1.x的电商后台管理系统转换为Vue3工程，主要转换以下部分：模板语法控制器逻辑服务依赖路由配置状态管理原始AngularJS代码片段：javascript//app.jsangular.module('app',['ui.router']).co
python反爬虫处理--处理验证码（Tesseract 库）的安装与使用范哥来了 python 爬虫开发语言
处理验证码是反爬虫策略中常见的挑战之一。在Python中，可以采用多种方法来解决这一问题，具体取决于验证码的类型（如文本、图像或滑块验证等）。以下是一些常用的解决方案：对于简单的文字或数字验证码：如果网站使用的是相对简单的验证码形式，您可以尝试使用OCR(OpticalCharacterRecognition,光学字符识别)技术来自动识别这些验证码。Python中有一个叫做Tesseract的库，
python爬虫 Selenium库安装与使用范哥来了 python 爬虫 selenium
Selenium是一个强大的自动化测试工具，它也可以用来进行网页抓取。与传统的请求库（如requests）不同，Selenium可以模拟真实用户的行为，比如点击按钮、填写表单等，这对于那些依赖于JavaScript动态加载内容的网站来说非常有用。安装Selenium首先确保你的环境中已经安装了Python和pip。然后通过pip安装Selenium：pipinstallselenium如果你使用的
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
【设计模式有哪些】 F_windy 设计模式
一、创建型模式（CreationPatterns）1.单例模式（Singleton）核心思想：保证一个类仅有一个实例，并提供全局访问点。实现方式：publicclassSingleton{//1.私有静态实例，volatile保证多线程可见性privatestaticvolatileSingletoninstance;//2.私有构造方法privateSingleton(){}//3.双重检查锁定
python 游戏开发cocos2d库安装与使用范哥来了 python cocos2d 开发语言
Cocos2d-x是一个广泛使用的开源游戏开发框架，支持多种编程语言，包括Python。对于Python开发者来说，通常使用的是Cocos2d-py或者更现代的Cocos2d-x的Python绑定版本。这里我将指导你如何安装和开始使用Cocos2d-py。安装步骤安装Python：确保你的系统上已经安装了Python3.x版本。你可以从Python官方网站下载最新版的Python。安装pip：pi
第十天-字符串：编程世界的文本基石大橙子房 ai python java
在编程的广阔领域中，字符串是极为重要的数据类型，它就像一座桥梁，连接着人类的自然语言和计算机能够理解与处理的数字信息。下面，让我们深入探索字符串的世界。一、字符串简介字符串是由零个或多个字符组成的有序序列，它在程序中用于表示文本信息。在Python语言环境下，创建字符串简洁直观，例如：str="HelloWorld"。这里，str作为字符串变量名，就如同给一个装着文本内容的盒子贴上了标签；Hell
鸿蒙Next，图片上传01（扩展02截图保存到相册）-组件截图另通过沙箱保存到相册 harmonyos
1.componentSnapShot组件截图的get方法，得到PixelMap像素图像数据@ohos.arkui.componentSnapshot(组件截图)-UI界面-ArkTSAPI-ArkUI（方舟UI框架）-应用框架-华为HarmonyOS开发者//进行截图constpixelMap=awaitcomponentSnapshot.get('share')2.ImagePacker打包P
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

Python并发编程实战，用多线程、多进程、多协程加速程序运行

文章目录

1. 并发 & 并行 、同步 & 异步

1.1 并发 & 并行

并发 Concurrency

并行 Parallelism

1.2 同步 & 异步

同步 Synchronous

异步 Asynchronous

2. CPU密集型计算 & IO密集型计算

2.1 CPU密集型（CPU-bound）

2.2 IO密集型（I/O-bound）

3. 单线程编程 & 多线程编程

3.1 (单线程)异步编程 Asynchronous Programming

3.2 多线程编程 Multi-threading

4. Python中并发编程

4.1 为什么要引入并发编程？

4.2 引入并发编程的意义

4.3 程序提速的方法

4.4 Python对并发编程的支持

4.5 Python并发编程的三种方式及使用场景

4.6 怎样根据任务选择对应技术？

5. GIL 全局解释器锁

5.1 Python速度慢的两大原因

5.2 GIL是什么？

5.3 为什么有GIL这个东西？

5.4 怎样规避GIL带来的限制？

6. Python中的代码实战

6.1 单线程 & 多线程

Python 创建多线程的方式

传统单线程版本

多线程版本

6.2 生产者 & 消费者

多组件的Pipeline技术架构

生产者消费者爬虫的架构

多线程数据通信的 queue.Queue

代码编写实现生产者消费者爬虫

单线程版本

多线程版本

6.3 Python线程安全问题以及解决方案

线程安全概念介绍

Lock用于解决线程安全问题

用法一：try-finally 模式

用法二：with 模式

实例代码演示问题以及解决方案

6.4 好用的线程池 - ThreadPoolExecutor

线程池的原理

使用线程池的好处

ThreadPoolExecutor的使用语法

使用线程池改造爬虫程序

6.5 在Web服务中使用线程池加速

Web服务的架构以及特点

使用线程池ThreadPoolExecutor加速

代码用Flask实现Web服务并实现加速

6.6 使用多进程 multiprocessing 加速程序的运行

有了多线程threading，为什么还要用多进程multiprocessing

多进程multiprocessing：知识梳理

代码实战：单线程、多线程、多进程对比CPU密集计算速度

6.7 在Flask服务中使用进程池加速

6.8 Python异步IO实现并发爬虫

什么是协程

Python 异步IO库介绍：asyncio

异步代码

6.9 在异步IO中使用信号量控制爬虫并发度

使用方式一

使用方式二

在异步IO中加入并发度限制

你可能感兴趣的:(Python,python,asyncio,await,多线程,多进程,协程,multiprocessing)

1. 并发 & 并行、同步 & 异步