GIL:又称全局解释器锁。作用就是限制多线程同时执行,保证同一时间内只有一个线程在执行。线程非独立的,所以同一进程里线程是数据共享,当各个线程访问数据资源时会出现“竞争”状态,即数据可能会同时被多个线程占用,造成数据混乱,这就是线程的不安全。所以引进了互斥锁,确保某段关键代码、共享数据只能由一个线程从头到尾完整地执行。
GIL并不是Python的特性,Python完全可以不依赖于GIL。
那么在这里就反映出一个问题:在我们的Python语言中多线程其实是假的多线程,它只会在一个CPU上运行。这又是为什么呢?因为在Python上开启多个线程,由于GIL的存在,每个单独线程都会在竞争到GIL后才运行,这样就干预OS内部的进程(线程)调度,结果在多核CPU上:Python的多线程实际是串行执行的,并不会同一时间多个线程分布在多个CPU上运行。
Python为了利用多核CPU,开始支持多线程。而解决多线程之间数据完整性和状态同步的最简单方法自然就是加锁,于是有了GIL这把超级大锁。因为有了GIL,所以我们的Python可以实现多进程,但是这是一个假的多进程,虽然它会利用多个CPU共同协作,但实则是利用一个CPU的资源。
但是这种GIL导致我们的多进程并不是真正的多进程,所以它的效率很低。但当大家试图去拆分和去除GIL的时候,发现大量库代码开发者已经重度依赖GIL而非常难以去除了。如果推到重来,多线程的问题依然还是要面对,但是至少会比目前GIL这种方式会更优雅。所以简单的说:GIL的存在更多的是历史原因。
Python的多线程在多核CPU上,只对于IO密集型计算产生正面效果;而当有至少有一个CPU密集型线程存在,那么多线程效率会由于GIL而大幅下降。正因为有了GIL的存在,我们Python的多线程效率才会比较低,毕竟它不是真正的多线程。那么此时,我们就可以考虑使用多进程去实现,因为多进程是可以利用多核的CPU资源的。但是又有一个问题?多进程需要的资源较大,明显不是最好的解决办法,那么如何高效的解决这一问题呢?
我们都知道Python它其实是一个“胶水”语言,它除了可以调用自己的模块。类库之外,还可以调用C、C++等语言的很多模块、类库。此时,我们只需加载动态库,把多进程这块,换成利用C语言去实现就可以了
描述Python GIL的概念, 以及它对Python多线程的影响?编写一个多线程抓取网页的程序,并阐明多线程抓取程序是否可比单线程性能有提升,并解释原因。
参考答案: