达西布鲁斯

Python并发之多进程multiprocessing(2)

1, 多进程 vs 多线程

Python中的常见的并发模型分为两种：

多线程threading并发，多用于IO密集型计算
多进程multiprocessing并发，多用于CPU密集型计算

（1）IO密集 vs CPU密集

IO密集：

I/O bound 指的是系统的CPU效能相对硬盘/内存的效能要好很多，此时，系统运作，大部分的状况是 CPU 在等 I/O (硬盘/内存) 的读/写，此时 CPU Loading 不高。

IO密集型，涉及到网络、磁盘IO的任务都是IO密集型任务，这类任务的特点是CPU消耗很少，任务的大部分时间都在等待IO操作完成（因为IO的速度远远低于CPU和内存的速度）。对于IO密集型任务，任务越多，CPU效率越高，但也有一个限度。常见的大部分任务都是IO密集型任务，比如Web应用。

CPU密集：

CPU bound 指的是系统的硬盘/内存效能相对 CPU 的效能要好很多，此时，系统运作，大部分的状况是 CPU Loading 100%，CPU 要读/写 I/O (硬盘/内存)，I/O在很短的时间就可以完成，而 CPU 还有许多运算要处理，CPU Loading 很高。

CPU bound密集型任务的特点是要进行大量的计算，消耗CPU资源，比如计算圆周率、对视频进行高清解码等等，全靠CPU的运算能力。这种计算密集型任务虽然也可以用多任务完成，但是任务越多，花在任务切换的时间就越多，CPU执行任务的效率就越低，所以，要最高效地利用CPU，计算密集型任务同时进行的数量应当等于CPU的核心数。

在多重程序系统中，大部份时间用来做计算、逻辑判断等CPU动作的程序称之CPU bound。例如一个计算圆周率至小数点一千位以下的程序，在执行的过程当中绝大部份时间用在三角函数和开根号的计算，便是属于CPU bound的程序。

（2）多进程 vs 多线程

首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。

如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。

如果用多线程实现Master-Worker，主线程就是Master，其他线程就是Worker。

多进程稳定性好，但是资源代价大

多进程模式最大的优点就是稳定性高，因为一个子进程崩溃了，不会影响主进程和其他子进程。（当然主进程挂了所有进程就全挂了，但是Master进程只负责分配任务，挂掉的概率低）著名的Apache最早就是采用多进程模式。

多进程模式的缺点是创建进程的代价大，在Unix/Linux系统下，用fork调用还行，在Windows下创建进程开销巨大。另外，操作系统能同时运行的进程数也是有限的，在内存和CPU的限制下，如果有几千个进程同时运行，操作系统连调度都会成问题。

多线程模式通常比多进程快一点，但是也快不到哪去，而且，多线程模式致命的缺点就是任何一个线程挂掉都可能直接造成整个进程崩溃，因为所有线程共享进程的内存。在Windows上，如果一个线程执行的代码出了问题，你经常可以看到这样的提示：“该程序执行了非法操作，即将关闭”，其实往往是某个线程出了问题，但是操作系统会强制结束整个进程。

在Windows下，多线程的效率比多进程要高，所以微软的IIS服务器默认采用多线程模式。由于多线程存在稳定性的问题，IIS的稳定性就不如Apache。为了缓解这个问题，IIS和Apache现在又有多进程+多线程的混合模式，真是把问题越搞越复杂。

多线程CPU切换频率高

操作系统在切换进程或者线程时，它需要先保存当前执行的现场环境（CPU寄存器状态、内存页等），然后，把新任务的执行环境准备好（恢复上次的寄存器状态，切换内存页等），才能开始执行。这个切换过程虽然很快，但是也需要耗费时间。如果有几千个任务同时进行，操作系统可能就主要忙着切换任务，根本没有多少时间去执行任务了，这种情况最常见的就是硬盘狂响，点窗口无反应，系统处于假死状态。所以，多任务一旦多到一个限度，就会消耗掉系统所有的资源，结果效率急剧下降，所有任务都做不好。

Python中多线程的伪多线程

由于GIL，是伪多线程。如果使用多线程，所有的计算只会在一个CPU核上，无法真正利用CPU多核。

想要充分利用多核CPU资源，Python中大部分情况下都需要使用多进程，Python中提供了multiprocessing这个包实现多进程。

2，多进程基本用法

Python中提供了multiprocessing这个包实现多进程。multiprocessing支持子进程、进程间的同步与通信，提供了Process、Queue、Pipe、Lock等组件。

Python的multiprocessing库通过以下几步创建进程：

创建进程对象
调用 start() 方法，开启进程的活动
调用 join() 方法，在进程结束之前一直等待

实例方法：

　　is_alive()：返回进程是否在运行。

　　join([timeout])：阻塞当前上下文环境的进程程，直到调用此方法的进程终止或到达指定的timeout（可选参数）。

　　start()：启动一个子进程。准备就绪，等待CPU调度

　　run()：不启动子进程，直接执行函数。如果实例进程时未制定传入target，这star执行t默认run()方法。

　　terminate()：不管任务是否完成，立即停止工作进程

属性：

　　authkey

　　daemon：和线程的setDeamon功能一样

　　exitcode(进程在运行时为None、如果为–N，表示被信号N结束）

　　name：进程名字。

　　pid：进程号。

和多线程一样，多线程multiprocessing模块也有两种基本办法创建子进程：

用法一：Process类来生成进程实例

from multiprocessing import Process
import os
def func(i):
    print("pid: {}, execute: {} * {} = {}".format(os.getpid(), i, i, i*i))

if __name__ == "__main__":
    data = [1, 2, 3, 4, 5]
    process_list = []
    for d in data:
        p = Process(target=func, args=(d,))
        process_list.append(p)

    for process in process_list:
        process.start()

    for process in process_list:
        process.join()

用法二：继承Process类，自定义进程子类，实现run方法

实现一个自定义的进程子类，需要以下三步：

1>定义 Process 的子类

2>覆盖 __init__(self [,args]) 方法来添加额外的参数

3>覆盖 run(self, [.args]) 方法来实现 Process 启动的时候执行的任务

from multiprocessing import Process
import os, time

class MyProcess(Process):
    def __init__(self, target=None, args=(), kwargs={}):
        super(MyProcess, self).__init__()
        self.target = target
        self.args = tuple(args)
        self.kwargs = dict(kwargs)

    def run(self):
        if self.target:
            print("func {} is running at {}".format(self.target.__name__, time.ctime()))
            return self.target(*self.args, **self.kwargs)

def func_test(i):
    name = multiprocessing.current_process().name
    print("{} pid: {}, execute: {} * {} = {}".format(name, os.getpid(), i, i, i * i))

if __name__ == "__main__":
    data = [1, 2, 3, 4, 5]
    process_list = []
    for d in data:
        p = MyProcess(target=func, args=(d,))
        process_list.append(p)

    for process in process_list:
        process.start()

    for process in process_list:
        process.join()

3，多进程数据同步原语

进程的同步原语和线程的库很类似：

Lock: 这个对象可以有两种装填：锁住的（locked）和没锁住的（unlocked）。一个Lock对象有两个方法， acquire() 和 release() ，来控制共享数据的读写权限。
Event: 实现了进程间的简单通讯，一个进程发事件的信号，另一个进程等待事件的信号。 Event 对象有两个方法， set() 和 clear() ，来管理自己内部的变量。
Condition: 此对象用来同步部分工作流程，在并行的进程中，有两个基本的方法： wait() 用来等待进程， notify_all() 用来通知所有等待此条件的进程。
Semaphore: 用来共享资源，例如，支持固定数量的共享连接。
Rlock: 递归锁对象。其用途和方法同 Threading 模块一样。
Barrier: 将程序分成几个阶段，适用于有些进程必须在某些特定进程之后执行。处于障碍（Barrier）之后的代码不能同处于障碍之前的代码并行。(Python 3.3以后版本支持)

Lock，Rlock，Event，Condition，Semaphore几个进程同步原语的用法和多线程基本完全一致，只需要将threading.Thread对象换成multiprocessing.Process对象即可。

请参考前一篇博客：https://blog.csdn.net/biheyu828/article/details/83019392

示例代码：

使用Barrier栅栏控制多进程并发执行

import multiprocessing
import  time
from multiprocessing import Process
from multiprocessing import Barrier, Lock

def run_with_barrier(barrier):
    proc_name = multiprocessing.current_process().name
    barrier.wait() ##当两个进程p都调用 wait() 方法的时候，它们会一起继续执行
    time.sleep(3)
    print("process {} ----> {}".format(proc_name, time.time()))

def run_without_barrier():
    proc_name = multiprocessing.current_process().name
    time.sleep(3)
    print("process {} ----> {}".format(proc_name, time.time()))

if __name__ == "__main__":
    barrier = Barrier(2) 
    lock = Lock()
    process_list = []
    pro_1 = Process(name="process_1_barrier",target=run_with_barrier, args=(barrier,))
    pro_2 = Process(name="process_2_barrier",target=run_with_barrier, args=(barrier,))
    pro_3 = Process(name="process_3_no_barrier",target=run_without_barrier)
    pro_4 = Process(name="process_4_no_barrier",target=run_without_barrier)
    process_list.append(pro_1)
    process_list.append(pro_2)
    process_list.append(pro_3)
    process_list.append(pro_4)
    for pro in process_list:
        pro.start()
    for pro in process_list:
        pro.join()

运行结果：

process process_3_no_barrier ----> 1540048781.565112
process process_1_barrier ----> 1540048781.565113
process process_2_barrier ----> 1540048781.565102
process process_4_no_barrier ----> 1540048781.5670989

从运行结果可以看出pro_1和pro_2到达了barrier几乎同时运行，但是pro_3和pro_4进程时间差别较大。

4，多进程交换数据（queue/ pipe）

不同进程之间内存是不共享的。在多进程中直接使用线程类似的方式共享数据，会出现报错，全局变量并不能在不同进程间共享。

import multiprocessing
from multiprocessing import Process
import random
import time

items = []
lock = multiprocessing.Lock()

class Consumer(Process):
    def __init__(self):
        super(Consumer, self).__init__()

    def run(self):
        global items
        global lock
        with lock:
            print("items in consumer is: {}".format(items))
            data = items.pop()
            print("consume data: {} at: {} ".format(data, time.ctime()))

class Producer(Process):
    def __init__(self):
        super(Producer, self).__init__()

    def run(self):
        global lock
        global items
        with lock:
            data = random.randrange(1, 1000)
            items.append(data)
            print("items in producer is: {}".format(items))
            print("produce data: {} at: {} ".format(data, time.ctime()))

if __name__ == "__main__":
    producer_pro = Producer()
    consumer_pro = Consumer()
    producer_pro.start()
    consumer_pro.start()
    producer_pro.join()
    consumer_pro.join()

输出如下：

Process Consumer-2:
items in producer is: [214]
produce data: 214 at: Wed Oct 17 22:26:54 2018 
items in consumer is: []   ##全局变量items并没有共享给consumer
Traceback (most recent call last):
  File "/Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/multiprocessing/process.py", line 249, in _bootstrap
    data = items.pop()
IndexError: pop from empty list

Multiprocessing库有两个Communication Channel可以交换对象：

队列(queue)：Queue 返回一个进程共享的队列，是线程安全的，也是进程安全的。任何可序列化的对象（Python通过 pickable 模块序列化对象）都可以通过它进行交换。
管道（pipe)：Pipe 方法返回(conn1, conn2)代表一个管道的两端。pipe方法有个duplex参数，如果duplex参数为True（默认值），那么这个管道是全双工模式，也就是说conn1和conn2均可收发。duplex为False，conn1只负责接收消息，conn2负责发送消息。

Queue和pipe的区别：

Queue：主要用于多对多数据交换，例如多生产者->多消费者模型
pipe：主要用于单对单数据交换，例如单生产者->单消费者模型。在数据交换效率上，pipe比queue要高。同样的数据量使用queue大约是pipe的3倍左右。

（1）多进程Queue用法

内置三种类型的队列：

Queue：FIFO(先进先出)；
LifoQueue：LIFO(后进先出)；
PriorityQueue：优先级最小的先出；

构造函数一样，都是只有一个maxsize=0，用于设置队列的容量，
如果设置的maxsize小于1，则表示队列的长度无限长。

两个异常：

Queue.Empty：当调用非堵塞的get()获取空队列元素时会引发；
Queue.Full：当调用非堵塞的put()满队列里添加元素时会引发；

相关函数

qsize()：返回队列的近似大小，注意：qsize()> 0不保证随后的get()不会
阻塞也不保证qsize() < maxsize后的put()不会堵塞；
empty()：判断队列是否为空，返回布尔值，如果返回True，不保证后续
调用put()不会阻塞，同理，返回False也不保证get()调用不会被阻塞；
full()：判断队列是否满，返回布尔值如果返回True，不保证后续
调用get()不会阻塞，同理，返回False也不保证put()调用不会被阻塞；
put(item, block=True, timeout=None)：往队列中放入元素，如果block
为True且timeout参数为None(默认)，为堵塞型put()，如果timeout是
正数，会堵塞timeout时间并引发Queue.Full异常，如果block为False则
为非堵塞put()
put_nowait(item)：等价于put(item, False)，非堵塞put()
get(block=True, timeout=None)：移除一个队列元素，并返回该元素，
如果block为True表示堵塞函数，block = False为非堵塞函数，如果设置
了timeout，堵塞时最多堵塞超过多少秒，如果这段时间内没有可用的
项，会引发Queue.Empty异常，如果为非堵塞状态，有数据可用返回数据
无数据立即抛出Queue.Empty异常；
get_nowait()：等价于get(False)，非堵塞get()
task_done()：完成一项工作后，调用该方法向队列发送一个完成信号，任务-1；
join()：等队列为空，再执行别的操作；

代码示例：

import random, time
import multiprocessing
from multiprocessing import Process

class Consumer(Process):
    def __init__(self, queue):
        super(Consumer, self).__init__()
        self._queue = queue

    def run(self):
        data = self._queue.get()
        print("consume data: {} at: {} ".format(data, time.ctime()))

class Producer(Process):
    def __init__(self, queue):
        super(Producer, self).__init__()
        self._queue = queue

    def run(self):
        data = random.randrange(11111, 999999)
        self._queue.put(data)
        print("produce data: {} at: {} ".format(data, time.ctime()))

if __name__ == "__main__":
    queue = multiprocessing.Queue()
    producer_pro = Producer(queue)
    consumer_pro = Consumer(queue)
    producer_pro.start()
    consumer_pro.start()
    producer_pro.join()
    consumer_pro.join()

（2）多进程Pipe用法

Pipe对象常用函数

Pipe()	Pipe 方法返回(conn1, conn2)代表一个管道的两端。PIPE方法有个deplex参数，如果deplex参数为True（默认值），那么这个管道是全双工模式，也就是说conn1和conn2均可收发。duplex为False，conn1只负责接收消息，conn2负责发送消息。
send()	向connection发数据
recv()	从connection接收数据
close()	关闭connection

代码示例：

from multiprocessing import Pipe, Process

def consumer(input_pipe):
    while True:
        try:
            data = input_pipe.recv()
            print("consume data: {}".format(data))
        except EOFError:
            break

def producer(output_pipe, sequence_data):
    for data in sequence_data:
        output_pipe.send(data)
        print("produce data: {}".format(data))

if __name__ == "__main__":
    (input_pipe, output_pipe) = Pipe(False)
    sequence_data = [1,2,3,4,5]
    consumer_pro = Process(target=consumer, args=(input_pipe,))
    producer_pro = Process(target=producer, args=(output_pipe,sequence_data))
    consumer_pro.start()
    producer_pro.start()
    consumer_pro.join()
    producer_pro.join()

5，进程池

进程池有两种实现方式：

使用multiprocessing自带的Pool类创建进程池
使用concurrent.futures模块中ProcessPoolExecutor类创建进程池

比较：

用futures的写法上更简洁一些，concurrent.futures的性能并没有更好，只是让编码变得更简单。考虑并发编程的时候，任何简化都是好事。从长远来看，concurrent.futures编写的代码更容易维护。
使用map时，future是逐个迭代提交，multiprocessing.Pool是批量提交jobs，因此对于大批量jobs的处理，multiprocessing.Pool效率会更高一些。对于需要长时间运行的作业，用future更佳，future提供了更多的功能（callback, check status, cancel）。
concurrent.futures.ProcessPoolExecutor是对multiprocessing的封装，在运行时需导入__main__，不能直接在交互窗口工作。

（1）使用multiprocessing自带的Pool类创建进程池

多进程库提供了 Pool 类来实现简单的多进程任务。 Pool 类有以下方法：

apply()	该函数用于传递不定参数，主进程会被阻塞直到函数执行结束，实际上这也就说所谓的同步执行。同步执行，按照加入进程池的顺序执行事件，每次执行完一个再执行另一个，可以获取事件返回值
apply_async()	与apply用法一样，但它是非阻塞且支持结果返回进行回调；实际上也就是异步执行。异步执行，同时启动进程池中多个进程执行事件，apply_async()可以获取事件返回进度（ApplyResult）对象。任务执行完成以后，使用ApplyResult对象的get()方法获取返回值。 apply_async方式提供了一写获取进程函数状态的函数：ready()、successful()、get()
map()	与内置map函数用法基本一致，它融合了map函数和apply_async()函数的功能；它会使进程阻塞直到返回结果。注意：虽然第二个参数是一个迭代器，但实际应用中，必须在整个队列就绪后，程序才会运行子进程。
map_async()	这是 `map()` 方法的一个变体，返回一个result对象。如果指定了回调函数，回调函数应该是callable的，并且只接受一个参数。当result准备好时会自动调用回调函数（除非调用失败）。回调函数应该立即完成，否则，持有result的进程将被阻塞。 map_async方式也提供了一写获取进程函数状态的函数：ready()、successful()、get()
close()	关闭进程池，阻止更多的任务提交到进程池Pool，待任务完成后，工作进程会退出
terminate()	结束工作进程，不再处理未完成的任务
join()	等待工作线程的退出，必须在close()或terminate()之后使用，因被终止的进程需要被父进程调用wait（join等价于wait）,否则进程会成为僵尸进程。

注意：

使用Pool创建进程池对象，同时进程池中进程已经启动
向进程池对象中添加事件，事件排队执行
如果主进程退出，则进程池中所有进程都退出

用法一：使用apply()添加进程

示例代码：

import time
import multiprocessing
from multiprocessing import Pool

def data_ready(data):
    time.sleep(1)
    print("{} execute {} at {}".format(multiprocessing.current_process().name, data, time.ctime()))
    return "value_"+str(data)

if __name__ == "__main__":
    data_list = [1, 2, 3, 4, 5]
    pool = Pool(processes=3)
    result_list = []
    for data in data_list:
        result = pool.apply(data_ready, args=(data,))
        print(result)
        result_list.append(result)
    pool.close() #关闭进程池，禁止添加新任务
    pool.join() #等待子进程全部结束之后, 再继续主进程
    print("main process finish")

运行结果：

ForkPoolWorker-1 execute 1 at Sun Oct 21 21:04:31 2018
value_1
ForkPoolWorker-2 execute 2 at Sun Oct 21 21:04:32 2018
value_2
ForkPoolWorker-3 execute 3 at Sun Oct 21 21:04:33 2018
value_3
ForkPoolWorker-1 execute 4 at Sun Oct 21 21:04:34 2018
value_4
ForkPoolWorker-2 execute 5 at Sun Oct 21 21:04:35 2018
value_5
main process finish

从执行结果可以看出，进程池中共有3个进程在串行逐个执行。每执行完一个进程，且返回结果后才执行下一个进程，相当于单线程。

用法二：使用apply_sync()添加进程

apply_sync()和 apply()方式方法基本一致，不同的是apply_sync()是异步执行。并且返回值不一样，apply_sync()不是直接返回执行结果，而是一个为进度对象（ApplyResult）对象

示例代码：

import time
import multiprocessing
from multiprocessing import Pool

def data_ready(data):
    time.sleep(1)
    print("{} execute {} at {}".format(multiprocessing.current_process().name, data, time.ctime()))
    return "value_"+str(data)

def callback():
    print("this is call back")

if __name__ == "__main__":
    data_list = [1, 2, 3, 4, 5]
    pool = Pool(processes=3)
    result_list = []
    for data in data_list:
        result = pool.apply_async(data_ready, args=(data,)) ##返回ApplyResult对象
        print(result)
        result_list.append(result)
    for res in result_list:
        print(res.get())
    pool.close() #关闭进程池，禁止添加新任务
    pool.join() #等待子进程全部结束之后, 再继续主进程
    print("main process finish")

执行结果：






ForkPoolWorker-2 execute 2 at Mon Oct 22 10:54:35 2018
ForkPoolWorker-1 execute 1 at Mon Oct 22 10:54:35 2018
ForkPoolWorker-3 execute 3 at Mon Oct 22 10:54:35 2018
value_1
value_2
value_3
ForkPoolWorker-2 execute 5 at Mon Oct 22 10:54:36 2018
ForkPoolWorker-1 execute 4 at Mon Oct 22 10:54:36 2018
value_4
value_5
main process finish

用法3: 使用map()启动进程

map(self, func, iterable, chunksize=None)接受一个可迭代对象作为参数，并且返回全部子进程的执行结果列表

示例代码：

import time
import multiprocessing
from multiprocessing import Pool

def data_ready(data):
    time.sleep(1)
    print("{} execute {} at {}".format(multiprocessing.current_process().name, data, time.ctime()))
    return "value_"+str(data)

if __name__ == "__main__":
    data_list = [1, 2, 3, 4, 5]
    pool = Pool(processes=3)
    result = pool.map(data_ready, data_list)
    print(result)

运行结果：

ForkPoolWorker-1 execute 1 at Mon Oct 22 11:43:12 2018
ForkPoolWorker-2 execute 2 at Mon Oct 22 11:43:12 2018
ForkPoolWorker-3 execute 3 at Mon Oct 22 11:43:12 2018
ForkPoolWorker-1 execute 4 at Mon Oct 22 11:43:13 2018
ForkPoolWorker-2 execute 5 at Mon Oct 22 11:43:13 2018
['value_1', 'value_2', 'value_3', 'value_4', 'value_5']

用法4:使用map_async()启动进程

与map()不同的是map_async()返回的是MapResult对象，使用该对象的get()方法可以获取执行结果。与apply_async类似，也可以使用callback函数返回子进程执行结果。当子进程执行结束之后自动调用回掉函数。

示例代码：

import time
import multiprocessing
from multiprocessing import Pool

def data_ready(data):
    time.sleep(1)
    print("{} execute {} at {}".format(multiprocessing.current_process().name, data, time.ctime()))
    return "value_"+str(data)

if __name__ == "__main__":
    data_list = [1, 2, 3, 4, 5]
    pool = Pool(processes=3)
    result = pool.map_async(data_ready, data_list)
    print(result) ##返回MapResult对象
    print(result.get())

运行结果：


ForkPoolWorker-1 execute 1 at Mon Oct 22 11:46:17 2018
ForkPoolWorker-2 execute 2 at Mon Oct 22 11:46:17 2018
ForkPoolWorker-3 execute 3 at Mon Oct 22 11:46:17 2018
ForkPoolWorker-3 execute 5 at Mon Oct 22 11:46:18 2018
ForkPoolWorker-1 execute 4 at Mon Oct 22 11:46:18 2018
['value_1', 'value_2', 'value_3', 'value_4', 'value_5']

callbak返回子进程执行结果示例：

import time
import multiprocessing
from multiprocessing import Pool

def data_ready(data):
    time.sleep(1)
    print("{} execute {} at {}".format(multiprocessing.current_process().name, data, time.ctime()))
    return "value_"+str(data)

def call_back(result):
    print("result is: {} finished at {}".format(result, time.ctime()))
    return result

if __name__ == "__main__":
    data_list = [1, 2, 3, 4, 5]
    pool = Pool(processes=3)
    pool.map_async(data_ready, data_list, callback=call_back) ##callback函数可以返回子进程的执行结果
    pool.close() #关闭进程池，禁止添加新任务
    pool.join() #等待子进程全部结束之后, 再继续主进程
    print("main process finish")

运行结果：

ForkPoolWorker-1 execute 1 at Mon Oct 22 11:57:57 2018
ForkPoolWorker-2 execute 2 at Mon Oct 22 11:57:57 2018
ForkPoolWorker-3 execute 3 at Mon Oct 22 11:57:57 2018
ForkPoolWorker-1 execute 4 at Mon Oct 22 11:57:58 2018
ForkPoolWorker-2 execute 5 at Mon Oct 22 11:57:58 2018
result is: ['value_1', 'value_2', 'value_3', 'value_4', 'value_5'] finished at Mon Oct 22 11:57:58 2018
main process finish

(2)使用concurrent.futures模块中ProcessPoolExecutor类创建进程池

使用方式和ThreadPoolExecutor一致。

示例代码：

import time
import multiprocessing
from concurrent.futures import ProcessPoolExecutor, wait

def data_ready(data):
    time.sleep(1)
    print("{} execute {} at {}".format(multiprocessing.current_process().name, data, time.ctime()))
    return "value_"+str(data)

if __name__ == "__main__":
    data_list = [1, 2, 3, 4, 5]
    pool = ProcessPoolExecutor(max_workers=3)
    with pool as executor:
        task_list = [executor.submit(data_ready, data) for data in data_list]
        wait(task_list)
        for task in task_list:
            print(task.result()) ##获取任务执行结果

    print("main process finish")

运行结果：

Process-2 execute 2 at Mon Oct 22 12:09:33 2018
Process-3 execute 3 at Mon Oct 22 12:09:33 2018
Process-1 execute 1 at Mon Oct 22 12:09:33 2018
Process-2 execute 4 at Mon Oct 22 12:09:34 2018
Process-1 execute 5 at Mon Oct 22 12:09:34 2018
value_1
value_2
value_3
value_4
value_5
main process finish

6, multiprocessing块中的多线程dummy

multiprocessing.dummy类实现了多线程功能，用法和multiprocessing多进程类似，api 都是通用的。可以很方便将代码在多线程和多进程之间切换。

multiprocessing.dummy除了多线程的基本功能外，也提供了线程池Pool功能。

线程池Pool的使用有四种方式：apply_async、apply、map_async、map。其中apply_async和map_async是异步的，也就是启动进程函数之后会继续执行后续的代码不用等待进程函数返回。apply_async和map_async方式提供了一写获取进程函数状态的函数：ready()、successful()、get()。

示例代码：

import time
import multiprocessing.dummy as dum
from multiprocessing.dummy import Pool

def data_ready(data):
    time.sleep(1)
    print("{} execute {} at {}".format(dum.current_process(), data, time.ctime()))
    return "value_"+str(data)

def call_back(result):
    print("result is: {} finished at {}".format(result, time.ctime()))
    return result

if __name__ == "__main__":
    data_list = [1, 2, 3, 4, 5]
    pool = Pool(processes=3)
    pool.map_async(data_ready, data_list, callback=call_back) ##callback函数可以返回执行结果
    pool.close() #关闭线程池，禁止添加新任务
    pool.join() #等待线程全部结束之后, 再继续主进程
    print("main process finish")

运行结果：

 execute 3 at Mon Oct 22 13:23:24 2018
 execute 1 at Mon Oct 22 13:23:24 2018
 execute 2 at Mon Oct 22 13:23:24 2018
 execute 4 at Mon Oct 22 13:23:25 2018
 execute 5 at Mon Oct 22 13:23:25 2018
result is: ['value_1', 'value_2', 'value_3', 'value_4', 'value_5'] finished at Mon Oct 22 13:23:25 2018
main process finish

7, 多进程数据共享

Python中多进程数据共享主要有两种方式：

内存共享
进程共享

用法一：内存共享

在多进程情况下，由于每个进程有自己独立的内存空间，怎样能实现内存共享呢？multiprocessing模块提供了Value, Array，这两个是函数，详细定义在sharedctypes.py里。ctypes是Python的一个外部函数库，它提供了和C语言兼任的数据类型，可以调用DLLs或者共享库的函数，能被用作在python中。

(1) Value

Value的初始化非常简单，直接类似Value('d', 0.0)即可，具体构造方法如下：

　　multiprocessing.Value(typecode_or_type, *args[,lock])

　　返回从共享内存中分配的一个ctypes 对象。其中typecode_or_type定义了返回的类型，它要么是一个ctypes类型，要么是一个代表ctypes类型的code。

*args是传递给ctypes的构造参数

比如整数1，可用Value('h',1)

对于共享整数或者单个字符，初始化比较简单，参照下图映射关系：

Type Code	C Type	Python Type
'c'	char	character
'b'	signed char	int
'B'	unsigned char	int
'u'	Py_UNICODE	unicode character
'h'	signed short	int
'H'	unsigned short	int
'i'	signed int	int
'I'	unsigned int	int
'l'	signed long	int
'L'	unsigned long	int
'f'	float	float
'd'	double	float

如果共享的是字符串，则在上表是找不到映射关系的，就是没有对应的Type code可用。所以我们需要使用原始的ctype类型。

比如上面的Value('h',1)也可以用Value(c_short,1)，字符串的话，可以用Value(c_char_p,"hello")，很好理解的。

它返回的是个对象，所以，它也有一些属性和方法：

value	获取值
get_lock()	获取锁对象
acquire()	获取锁
release()	释放锁

ctype类型对应关系如下：

ctypes type	C type	Python type
c_bool	_Bool	bool (1)
char	char	1-character string
c_wchar	wchar_t	1-character unicode string
c_byte	char	int/long
c_ubyte	unsigned char	int/long
c_short	short	int/long
c_ushort	unsigned short	int/long
c_int	int	int/long
c_uint	unsigned in	int/long
c_long	long	int/long
c_ulong	unsigned long	int/long
c_longlong	__int64 or long long	int/long
c_ulonglong	unsigned __int64 or unsigned long long	int/long
c_float	float	float
c_double	double	float
c_longdouble	long double	float
c_char_p	char * (NUL terminated)	string or None
c_wchar_p	wchar_t * (NUL terminated)	unicode or None
c_void_p	void *	int/long or None

(2)Array

它返回从共享内存分配的ctypes数组, 构造函数：

multiprocessing.Array(typecode_or_type, size_or_initializer, *,lock=True)

typecode_or_type确定返回数组的元素的类型：它是一个ctypes类型或一个字符类型代码类型的数组模块使用的类型。

size_or_initializer：如果它是一个整数，那么它确定数组的长度，并且数组将被初始化为零。否则，size_or_initializer是用于初始化数组的序列，其长度决定数组的长度。

如果关键字参数中有lock的话，lock为True，则会创建一个新的锁对象，以同步对该值的访问。如果lock是Lock或RLock对象，那么它将用于同步对该值的访问。如果lock是False，那么对返回的对象的访问不会被锁自动保护，因此它不一定是“进程安全的”。

示例代码：

import multiprocessing
from multiprocessing import Process, Value, Array, Lock

def worker_value(share_value, lock):
    with lock:
        share_value.value += 1
    print("current process: {} share_value is: {}".format(multiprocessing.current_process().name, share_value.value))

def work_array(share_array, lock):
    with lock:
        for i in range(len(share_array)):
            share_array[i] = share_value.value*i
            print("current process: {} share_array is: {}".format(multiprocessing.current_process().name, share_array[i]))

if __name__ == "__main__":
    share_value = Value('i', 1)  # 整型数字1
    share_array = Array('h', 10)  # 表示开辟3个空间,且均为整型，其实就是一个列表
    lock_1 = Lock()  #创建共享锁
    lock_2 = Lock()
    proc_list = []
    for i in range(3):
        proc_1 = Process(target=worker_value, args=(share_value, lock_1))
        proc_list.append(proc_1)

    proc_2 = Process(target=work_array, args=(share_array, lock_2))
    proc_list.append(proc_2)

    for proc in proc_list:
        proc.start()
    for proc in proc_list:
        proc.join()

    print("data in share_value: {}".format(share_value.value)) ##share_value.value返回共享Value的值
    print("share_array object: {}".format(share_array))  ##此处share_array是一个Array封装对象
    array_list = []
    for item in share_array:
        array_list.append(item)
    print("data in share_array: {}".format(array_list))

运行结果：

current process: Process-1 share_value is: 2
current process: Process-2 share_value is: 3
current process: Process-3 share_value is: 4
current process: Process-4 share_array is: 0
current process: Process-4 share_array is: 4
current process: Process-4 share_array is: 8
current process: Process-4 share_array is: 12
current process: Process-4 share_array is: 16
current process: Process-4 share_array is: 20
current process: Process-4 share_array is: 24
current process: Process-4 share_array is: 28
current process: Process-4 share_array is: 32
current process: Process-4 share_array is: 36
data in share_value: 4
share_array object: >
data in share_array: [0, 4, 8, 12, 16, 20, 24, 28, 32, 36]

从以上输出可以看出：

share_value.value()可以直接获取共享Value的返回值

share_array返回的是一个array对象，不能直接获取返回值。

用法二：进程共享

通过Manager()返回的一个manager对象控制一个服务器进程，它保持住Python对象并允许其它进程使用代理操作它们。同时它用起来很方便，而且支持本地和远程内存共享。

Manager模块管理的共享数据类型有：list, dict, Namespace, Lock, RLock, Semaphore, BoundedSemaphore, Condition, Event, Queue, Value和Array，同时还可以共享类的实例对象。

（1）共享简单的dict类型数据

示例代码：

import multiprocessing
from multiprocessing import Manager, Process

def worker(dic_data, key, value):
    dic_data[key] = str(key) + "_" + str(value)
    print('data in {} is: {}'.format(multiprocessing.current_process().name, dic_data))

if __name__ == "__main__":
    mgr = Manager()
    data = {"a": "hello", "b": "welcome", "c": "python"}
    dict_data = mgr.dict()
    task_list = []
    for k, v in data.items():
        task = Process(target=worker, args=(dict_data, k, v))
        task_list.append(task)

    for task in task_list:
        task.start()
    for task in task_list:
        task.join()
    print("result is: {}".format(dict_data))

运行结果：

data in Process-2 is: {'a': 'a_hello'}
data in Process-3 is: {'a': 'a_hello', 'b': 'b_welcome'}
data in Process-4 is: {'a': 'a_hello', 'b': 'b_welcome', 'c': 'c_python'}
result is: {'a': 'a_hello', 'b': 'b_welcome', 'c': 'c_python'}

以上输出可以看出字典对象dic_data在子进程中共享了同一份数据。

(2) 共享嵌套dict数据

注意：进程间共享嵌套dict数据时，必须每一层dict都需要实例化为Manager().dict()对象。

如下代码，只实例化外层dict为Manager().dict()对象

import multiprocessing
from multiprocessing import Manager, Process

def worker(dic_data, key, value):
    dic_data["china"][key] = str(key) + "_" + str(value)
    print('data in {} is: {}'.format(multiprocessing.current_process().name, dic_data))

if __name__ == "__main__":
    data = {"a": "hello", "b": "welcome", "c": "python"}
    mgr = Manager()
    dict_data = mgr.dict() ##仅仅设置外层为Manager().dict()对象
    dict_data["china"] = data
    task_list = []
    for k, v in data.items():
        task = Process(target=worker, args=(dict_data, k, v))
        task_list.append(task)

    for task in task_list:
        task.start()
    for task in task_list:
        task.join()
    print("result is: {}".format(dict_data))

运行结果：

data in Process-2 is: {'china': {'a': 'hello', 'b': 'welcome', 'c': 'python'}}
data in Process-3 is: {'china': {'a': 'hello', 'b': 'welcome', 'c': 'python'}}
data in Process-4 is: {'china': {'a': 'hello', 'b': 'welcome', 'c': 'python'}}
result is: {'china': {'a': 'hello', 'b': 'welcome', 'c': 'python'}}

仅仅实例化外层dict为Manager().dict()对象，没有得到我们预期的输出结果。

改进代码：

每层dict都实例化为Manager().dict()对象

import multiprocessing
from multiprocessing import Manager, Process

def worker(dic_data, key, value):
    dic_data["china"][key] = str(key) + "_" + str(value)
    print('data in {} is: {}'.format(multiprocessing.current_process().name, dic_data))

if __name__ == "__main__":
    data = {"a": "hello", "b": "welcome", "c": "python"}
    mgr = Manager()
    dict_data = mgr.dict()
    dict_data_inner = mgr.dict()
    dict_data["china"] = dict_data_inner
    task_list = []
    for k, v in data.items():
        task = Process(target=worker, args=(dict_data, k, v))
        task_list.append(task)

    for task in task_list:
        task.start()
    for task in task_list:
        task.join()
    print(dict_data)
    print("result is: {}".format(dict_data["china"]))

运行结果：

data in Process-2 is: {'china': }
data in Process-3 is: {'china': }
data in Process-4 is: {'china': }
{'china': }
result is: {'a': 'a_hello', 'b': 'b_welcome', 'c': 'c_python'}

（3）共享Value、Array、list、Lock等数据

示例代码：

from multiprocessing import Manager, Process

def worker(share_value, share_list, share_dict, lock):
    with lock:
        share_value.value += 1
        share_dict["a"] = "hello"
        for i in range(len(share_list)):
            share_list[i] *= 2

if __name__ == "__main__":
    mgr = Manager()
    share_value = mgr.Value('i', 1) #i为typecode
    share_list = mgr.list([1, 2, 3, 4])
    share_dict = mgr.dict()
    share_array = mgr.Array('i', range(10))
    lock=mgr.Lock()
    proc_list = []
    for i in range(3):
        proc = Process(target=worker, args=(share_value, share_list, share_dict, lock))
        proc_list.append(proc)
    for proc in proc_list:
        proc.start()
    for proc in proc_list:
        proc.join()
    print(share_value)
    print(share_list)
    print(share_dict)
    print(share_array)

运行结果：

Value('i', 4)
[8, 16, 24, 32]
{'a': 'hello'}
array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

注意：

typecode必须为指定的字符，否则会报错ValueError: bad typecode (must be b, B, u, h, H, i, I, l, L, q, Q, f or d)

参考文献：

https://www.cnblogs.com/gengyi/p/8620853.html

http://blog.51cto.com/11026142/1874807

你可能感兴趣的:(Python,并发)

guava loadingCache代码示例 IM 胡鹏飞 Java 工具类介绍
publicclassTest2{publicstaticvoidmain(String[]args)throwsException{LoadingCachecache=CacheBuilder.newBuilder()//设置并发级别为8，并发级别是指可以同时写缓存的线程数.concurrencyLevel(8)//设置缓存容器的初始容量为10.initialCapacity(10)//设置缓存
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地