爬虫知识点(多进程,多线程 多协程)

Python进阶:聊聊IO密集型任务、计算密集型任务,以及多线程、多进程

笑虎 笑虎
10 个月前

IO密集型任务 VS 计算密集型任务

  • 所谓IO密集型任务,是指磁盘IO、网络IO占主要的任务,计算量很小。比如请求网页、读写文件等。当然我们在Python中可以利用sleep达到IO密集型任务的目的。
  • 所谓计算密集型任务,是指CPU计算占主要的任务,CPU一直处于满负荷状态。比如在一个很大的列表中查找元素(当然这不合理),复杂的加减乘除等。

多线程 VS 多进程

Python中比较常见的并发方式主要有两种:多线程和多进程。当然还有协程,这里不做介绍。

1、多线程

多线程即在一个进程中启动多个线程执行任务。一般来说使用多线程可以达到并行的目的,但由于Python中使用了全局解释锁GIL的概念,导致Python中的多线程并不是并行执行,而是“交替执行”。类似于下图:(图片转自网络,侵删)

爬虫知识点(多进程,多线程 多协程)_第1张图片所以Python中的多线程适合IO密集型任务,而不适合计算密集型任务。

Python提供两组多线程接口,一是thread模块_thread,提供低等级接口。二是threading模块,提供更容易使用的基于对象的接口,可以继承Thread对象来实现线程,此外其还提供了其它线程相关的对象,例如Timer,Lock等。

2、多进程

由于Python中GIL的原因,对于计算密集型任务,Python下比较好的并行方式是使用多进程,这样可以非常有效的使用CPU资源。当然同一时间执行的进程数量取决你电脑的CPU核心数。

Python中的进程模块为mutliprocess模块,提供了很多容易使用的基于对象的接口。另外它提供了封装好的管道和队列,可以方便的在进程间传递消息。Python还提供了进程池Pool对象,可以方便的管理和控制线程。


线程安全 导入GIL概念 全局解释器锁。

不同线程是共享内存空间的,当一个线程运行时,就会加锁,防止其他线程改变数据,即线程安全。

你可能感兴趣的:(爬虫)