python异步编程(1)——理论篇

1.理解多线程

当启动一个Python程序时,它会作为一个单独的进程运行在操作系统中。进程是操作系统分配资源(如内存和处理器时间)的基本单位。每个Python程序启动时,都会创建一个主线程。如果没有在代码中明确创建其他线程,那么程序中的所有操作都会在这个主线程中同步执行。

在单线程应用中,代码的执行是顺序和同步的。这意味着在任何给定时间点,程序中只有一部分代码在执行,直到它完成后,程序才会继续执行下一部分代码。

所以,如果需要同时执行多个任务,就可以通过创建额外的线程来实现。线程是进程内的执行单元,它们共享相同的内存空间,但可以并行执行不同的任务。在Python中,多线程通常用于I/O密集型任务,如文件操作、网络请求等。不过要注意的是,由于Python的全局解释器锁(GIL),在CPU密集型任务中使用多线程可能不会带来性能上的提升。在这种情况下,可以考虑使用多进程。

2.i/o密集 cpu密集和python多线程多进程

先明确它们是什么,有什么区别:

 I/O密集型(输入/输出密集型)任务是指那些主要时间花在I/O操作上的任务,如读写文件、网络通信、数据库操作等。在这类任务中,CPU的使用率通常不高,因为CPU大部分时间都在等待I/O操作的完成。

CPU密集型任务是指那些主要时间花在CPU计算上的任务,例如复杂的数学运算、图像处理等。这些任务需要大量的CPU时间来进行计算。

为什么CPU密集型的任务更适合多进程?为什么I/O密集型的任务更适合多线程?

答:

Python中有一个名为全局解释器锁(GIL)的机制,它阻止了多个线程同时执行Python字节码。因此,在多线程环境下,即使有多个CPU核心,也无法同时运行多个线程进行计算密集型任务。也就是说在CPU密集型任务的情况下,python的多线程是假的多线程。多进程可以在多核处理器上并行运行,每个进程运行在不同的CPU核上,从而实现真正的并行计算,避开了GIL的限制。

线程间共享内存和资源,切换线程的代价比切换进程低,这对于频繁的I/O操作来说非常有效率。当一个线程在等待I/O操作完成时,其他线程可以继续执行,从而更好地利用CPU。也就是说CPU是没有被用得很多(大部分情况下都是在等待),这也就不难解释python的多线程在I/O密集型任务的情况下,python的多线程是真的多线程。

3.并发和并行

并发是指多个任务在同一时间段内进行,但并不意味着它们在同一时刻执行。在单核处理器上,实际上并没有多个任务真正同时执行,而是通过任务间快速切换给人一种“同时运行”的错觉。这种情况适用于任务数多于CPU核心数的情况。

并行是指多个任务在同一时刻真正同时执行。这通常发生在多核处理器上,其中每个核心可以同时处理一个不同的任务。这种情况适用于当核心数多于或等于进程数时。

我们从多进程的角度来说明:电脑中如果你打开资源管理器,就能看到有几十个进程在运行,但是大多数电脑的核心都不会很多,所以多进程的本质是操作系统让得不同进程在核心上切换运行,在进程不活跃或者不需要进行计算的时候就切换出去来实现多进程

4.协程是什么?

协程(Coroutine)是一种计算机程序组件,它广泛用于实现异步编程。协程提供了一种比传统线程更轻量级的并发模型。

轻量级:协程比线程更轻量。它们不是由操作系统直接管理,而是在用户空间内进行调度,从而减少了上下文切换的开销。也就意味着创建和销毁协程的代价远低于线程。协程是在单个线程内调度的,因此不涉及线程切换的开销,也不会有多线程相关的锁竞争问题。

协程相比线程的优点:线程的创建需要占用大量的内存,也就是说当有成千上万的网络请求需要发送的时候,需要的线程数是相当大的,占用的内存也是相当大的;同时线程可能需要处理线程同步问题,如数据竞争和死锁,但是协程就不需要,它提供了更简洁的异步编程模型,尤其是在支持 async/await 语法的语言中(如python):

import asyncio
import aiohttp  # 需要安装 aiohttp 包

async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()

async def main():
    # 创建一个 aiohttp 的会话
    async with aiohttp.ClientSession() as session:
        urls = ["http://example.com", "http://example.org", "http://example.net"]
        tasks = []

        # 为每个 URL 创建一个任务
        for url in urls:
            task = asyncio.create_task(fetch(session, url))
            tasks.append(task)

        # 等待所有任务完成
        responses = await asyncio.gather(*tasks)

        # 输出结果
        for response in responses:
            print(response)

# 运行主协程
asyncio.run(main())

fetch 是一个异步函数,它使用 aiohttp 库异步地获取给定 URL 的内容。

main 是另一个异步函数,它首先创建一个 aiohttp.ClientSession,然后为每个 URL 创建一个 fetch 协程的任务。

使用 asyncio.gather 同时运行所有的 fetch 任务,并等待它们全部完成。

最后,使用 asyncio.run(main()) 来运行 main 协程。

协程相比于线程的缺点:协程可能使得错误处理和调试变得更加复杂。协程的异步性质意味着堆栈跟踪可能不如同步代码那样直观,而且错误可能在程序的不同部分之间传播,使得定位问题变得更加困难。处理能力显然不如线程强大。

你可能感兴趣的:(python脚本编程,python)