IE06

运筹系列59：用python进行GPU编程总结

1. GPU硬件架构

简单理解，GPU就是很多很多非常弱的cpu在做并行计算。个人桌面电脑CPU只有2到8个CPU核心，GPU却有上千个核心。在英伟达的设计理念里，CPU和主存被称为Host，GPU被称为Device。Host和Device概念会贯穿整个英伟达GPU编程。

GPU核心在做计算时，只能直接从显存中读写数据，程序员需要在代码中指明哪些数据需要从内存和显存之间相互拷贝。这些数据传输都是在总线上，因此总线的传输速度和带宽成了部分计算任务的瓶颈。Intel的CPU目前不支持NVLink，只能使用PCI-E技术。
Turing 图灵：2018年发布，消费显卡：GeForce 2080 Ti
Volta 伏特：2017年末发布，专业显卡：Telsa V100 (16或32GB显存 5120个核心)
Pascal 帕斯卡：2016年发布，专业显卡：Telsa P100(12或16GB显存 3584个核心)

2. 核心编程原理

2.1 准备工作

首先要安装cudatoolkit：

$ conda install cudatoolkit

nvidia-smi命令查看显卡情况，比如这台机器上几张显卡，CUDA版本，显卡上运行的进程等。我这里是一台16GB显存版的Telsa P100机器。

在python中如下查看：

运行一个程序后，某个GPU就被锁定了，默认使用device 0，使用

CUDA_VISIBLE_DEVICES='1'

来切换GPU。如果没有GPU，可以使用下面的语句来模拟GPU

export NUMBA_ENABLE_CUDASIM=1

2.2 运行步骤

下面举个简单的打印例子：

from numba import cuda

def cpu_print():
    print("print by cpu.")

@cuda.jit
def gpu_print():
    # GPU核函数
    print("print by gpu.")

def main():
    gpu_print[1, 2]()
    cuda.synchronize()
    cpu_print()

if __name__ == "__main__":
    main()

运行CUDA_VISIBLE_DEVICES='0' python gpu_print.py运行扯断代码，得到：

print by gpu.
print by gpu.
print by cpu.

在GPU函数上添加@cuda.jit装饰符，表示该函数是一个在GPU设备上运行的函数，GPU函数又被称为核函数。
主函数调用GPU核函数时，需要添加如[1, 2]这样的执行配置，这个配置是在告知GPU以多大的并行粒度同时进行计算。gpu_print1, 2表示同时开启2个线程并行地执行gpu_print函数，函数将被并行地执行2次。
GPU核函数的启动方式是异步的：启动GPU函数后，CPU不会等待GPU函数执行完毕才执行下一行代码。必要时，需要调用cuda.synchronize()，告知CPU等待GPU执行完核函数后，再进行CPU端后续计算。这个过程被称为同步，也就是GPU执行流程图中的红线部分。如果不调用cuda.synchronize()函数，执行结果也将改变，"print by cpu.将先被打印。虽然GPU函数在前，但是程序并没有等待GPU函数执行完，而是继续执行后面的cpu_print函数，由于CPU调用GPU有一定的延迟，反而后面的cpu_print先被执行，因此cpu_print的结果先被打印了出来。

CUDA将核函数所定义的运算称为线程（Thread），多个线程组成一个块（Block），多个块组成网格（Grid）。这样一个grid可以定义成千上万个线程，也就解决了并行执行上万次操作的问题。例如，把前面的程序改为并行执行8次：可以用2个block，每个block中有4个thread。原来的代码可以改为gpu_print2, 4，其中方括号中第一个数字表示整个grid有多少个block，方括号中第二个数字表示一个block有多少个thread。
CUDA提供了一系列内置变量，以记录thread和block的大小及索引下标。以[2, 4]这样的配置为例：blockDim.x变量表示block的大小是4，即每个block有4个thread，threadIdx.x变量是一个从0到blockDim.x - 1（4-1=3）的索引下标，记录这是第几个thread；gridDim.x变量表示grid的大小是2，即每个grid有2个block，blockIdx.x变量是一个从0到gridDim.x - 1（2-1=1）的索引下标，记录这是第几个block。

某个thread在整个grid中的位置编号为：threadIdx.x + blockIdx.x * blockDim.x，这个公式在cuda编程里面经常能看到

下面这个例子可以展示cpu和gpu运行的差别：

from numba import cuda

def cpu_print(N):
    for i in range(0, N):
        print(i)

@cuda.jit
def gpu_print(N):
    idx = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x 
    if (idx < N):
        print(idx)

def main():
    print("gpu print:")
    gpu_print[2, 4](8)
    cuda.synchronize()
    print("cpu print:")
    cpu_print(8)

if __name__ == "__main__":
    main()

输出：

gpu print:
0
1
2
3
4
5
6
7
cpu print:
0
1
2
3
4
5
6
7

这份代码打印了8个数字，核函数有一个参数N，N = 8，假如我们只想打印5个数字呢？当前的执行配置共2 * 4 = 8个线程，线程数8与要执行的次数5不匹配，不过我们已经在代码里写好了if (idx < N)的判断语句，判断会帮我们过滤不需要的计算。我们只需要把N = 5传递给gpu_print函数中就好，CUDA仍然会启动8个thread，但是大于等于N的thread不进行计算。注意，当线程数与计算次数不一致时，一定要使用这样的判断语句，以保证某个线程的计算不会影响其他线程的数据。
上面我们讨论的并行，都是线程级别的，即CUDA开启多个线程，并行执行核函数内的代码。GPU最多就上千个核心，同一时间只能并行执行上千个任务。当我们处理千万级别的数据，整个大任务无法被GPU一次执行，所有的计算任务需要放在一个队列中，排队顺序执行。CUDA将放入队列顺序执行的一系列操作称为流（Stream）。如图所示，将数据拷贝和函数计算重叠起来的，形成流水线，能获得非常大的性能提升。实际上，流水线作业的思想被广泛应用于CPU和GPU等计算机芯片设计上，以加速程序。

默认情况下，CUDA使用0号流，又称默认流。不使用多流时，所有任务都在默认流中顺序执行，效率较低。在使用多流之前，必须先了解多流的一些规则：

给定流内的所有操作会按序执行。
非默认流之间的不同操作，无法保证其执行顺序。
所有非默认流执行完后，才能执行默认流；默认流执行完后，才能执行其他非默认流。
总之，某个流内的操作是顺序的，非默认流之间是异步的，默认流有阻塞作用。

2.3 参数配置

block运行在SM上，不同硬件架构（Turing、Volta、Pascal…）的CUDA核心数不同，一般需要根据当前硬件来设置block的大小blockDim（执行配置中第二个参数）。一个block中的thread数最好是32、128、256的倍数。注意，限于当前硬件的设计，CUDA的执行配置：[gridDim, blockDim]中,block大小不能超过1024,gridDim最大为一个32位整数的最大值，也就是2,147,483,648，大约二十亿。这个数字已经非常大了，足以应付绝大多数的计算。
grid的大小gridDim（执行配置中第一个参数），即一个grid中block的个数可以由总次数N除以blockDim，并向上取整。
例如，我们想并行启动1000个thread，可以将blockDim设置为128，1000 ÷ 128 = 7.8，向上取整为8。使用时，执行配置可以写成gpuWork8, 128，CUDA共启动8 * 128 = 1024个thread，实际计算时只使用前1000个thread，多余的24个thread不进行计算。

另一方面，如果启动的线程数不够，会导致后面的数据无法计算。以[2, 4]的执行配置为例，该执行配置中整个grid只能并行启动8个线程，假如我们要并行计算的数据是32，会发现后面8号至31号数据共计24个数据无法被计算。

这种情况下，需要再额外写一个for循环，每次能处理的数量叫做stride，计算公式为：gridStride = cuda.gridDim.x * cuda.blockDim.x

from numba import cuda

@cuda.jit
def gpu_print(N):
    idxWithinGrid = cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x 
    gridStride = cuda.gridDim.x * cuda.blockDim.x
    # 从 idxWithinGrid 开始
    # 每次以整个网格线程总数为跨步数
    for i in range(idxWithinGrid, N, gridStride):
        print(i)

def main():
    gpu_print[2, 4](32)
    cuda.synchronize()

if __name__ == "__main__":
    main()

for循环的步长是网格中线程总数，这也是为什么将这种方式称为网格跨步。在上面的例子中，网格总线程数为8，那么0号线程将计算第0、8、16…号的数据。这里我们也不用再明确使用if (idx < N) 来判断是否越界，因为for循环也有这个判断。

2.4 数据拷贝和流

Numba对Numpy的比较友好，编程中一定要使用Numpy的数据类型。用到的比较多的内存分配函数有：

cuda.device_array()：在设备上分配一个空向量，类似于numpy.empty()
cuda.to_device()：将主机的数据拷贝到设备

ary = np.arange(10)
device_ary = cuda.to_device(ary)

cuda.copy_to_host()：将设备的数据拷贝回主机

host_ary = device_ary.copy_to_host()

当需要反复拷贝数据时，可以考虑使用多流。如果想使用多流时，必须先定义流：

stream = numba.cuda.stream()
CUDA的数据拷贝以及核函数都有专门的stream参数来接收流，以告知该操作放入哪个流中执行：

numba.cuda.to_device(obj, stream=0, copy=True, to=None)
numba.cuda.copy_to_host(self, ary=None, stream=0)
核函数调用的地方除了要写清执行配置，还要加一项stream参数：

kernel[blocks_per_grid, threads_per_block, stream=0]
根据这些函数定义也可以知道，不指定stream参数时，这些函数都使用默认的0号流。

对于程序员来说，需要将数据和计算做拆分，分别放入不同的流里，构成一个流水线操作。

将之前的向量加法的例子改为多流处理，完整的代码为：

from numba import cuda
import numpy as np
import math
from time import time

@cuda.jit
def vector_add(a, b, result, n):
    idx = cuda.threadIdx.x + cuda.blockDim.x * cuda.blockIdx.x
    if idx < n :
        result[idx] = a[idx] + b[idx]

def main():
    n = 20000000
    x = np.random.uniform(10,20,n)
    y = np.random.uniform(10,20,n)
    # x = np.arange(n).astype(np.int32)
    # y = 2 * x

    start = time()
    # 使用默认流
    # Host To Device
    x_device = cuda.to_device(x)
    y_device = cuda.to_device(y)
    z_device = cuda.device_array(n)
    z_streams_device = cuda.device_array(n)

    threads_per_block = 1024
    blocks_per_grid = math.ceil(n / threads_per_block)

    # Kernel
    vector_add[blocks_per_grid, threads_per_block](x_device, y_device, z_device, n)
    
    # Device To Host
    default_stream_result = z_device.copy_to_host()
    cuda.synchronize()
    print("gpu vector add time " + str(time() - start))

    start = time()

    # 使用5个流
    number_of_streams = 5
    # 每个流处理的数据量为原来的 1/5
    # 符号//得到一个整数结果
    segment_size = n // number_of_streams

    # 创建5个cuda stream
    stream_list = list()
    for i in range (0, number_of_streams):
        stream = cuda.stream()
        stream_list.append(stream)

    threads_per_block = 1024
    # 每个stream的处理的数据变为原来的1/5
    blocks_per_grid = math.ceil(segment_size / threads_per_block)
    streams_result = np.empty(n)

    # 启动多个stream
    for i in range(0, number_of_streams):
        # 传入不同的参数，让函数在不同的流执行
        
        # Host To Device
        x_i_device = cuda.to_device(x[i * segment_size : (i + 1) * segment_size], stream=stream_list[i])
        y_i_device = cuda.to_device(y[i * segment_size : (i + 1) * segment_size], stream=stream_list[i])

        # Kernel
        vector_add[blocks_per_grid, threads_per_block, stream_list[i]](
                x_i_device,
                y_i_device,
                z_streams_device[i * segment_size : (i + 1) * segment_size],
                segment_size)

        # Device To Host
        streams_result[i * segment_size : (i + 1) * segment_size] = z_streams_device[i * segment_size : (i + 1) * segment_size].copy_to_host(stream=stream_list[i])

    cuda.synchronize()
    print("gpu streams vector add time " + str(time() - start))

    if (np.array_equal(default_stream_result, streams_result)):
        print("result correct")

if __name__ == "__main__":
    main()

2.5 共享内存

一个C = AB的矩阵乘法运算，需要我们把A的某一行与B的某一列的所有元素一一相乘，求和后，将结果存储到结果矩阵C的(row, col)上。在这种实现中，每个线程都要读取A的一整行和B的一整列，共计算M行*P列。以计算第row行为例，计算C[row, 0]、C[row, 1]…C[row, p-1]这些点时都需要从显存的Global Memory中把整个第row行读取一遍。可以算到，A矩阵中的每个点需要被读 B.width 次，B矩阵中的每个点需要被读 A.height 次。代码如下：

from numba import cuda
import numpy as np
import math
from time import time

@cuda.jit
def matmul(A, B, C):
    """  矩阵乘法 C = A * B
    """
    # Numba库提供了更简易的计算方法
    # x, y = cuda.grid(2)
    # 具体计算公式如下
    row = cuda.threadIdx.x + cuda.blockDim.x * cuda.blockIdx.x
    col = cuda.threadIdx.y + cuda.blockDim.y * cuda.blockIdx.y
    
    
    if row < C.shape[0] and col < C.shape[1]:
        tmp = 0.
        for k in range(A.shape[1]):
            tmp += A[row, k] * B[k, col]
        C[row, col] = tmp
        
def main():
    # 初始化矩阵
    M = 6000
    N = 4800
    P = 4000
    A = np.random.random((M, N)) # 随机生成的 [M x N] 矩阵
    B = np.random.random((N, P)) # 随机生成的 [N x P] 矩阵
    
    start = time()
    A = cuda.to_device(A)
    B = cuda.to_device(B)
    C_gpu = cuda.device_array((M, P))

    # 执行配置
    threads_per_block = (16, 16)
    blocks_per_grid_x = int(math.ceil(A.shape[0] / threads_per_block[0]))
    blocks_per_grid_y = int(math.ceil(B.shape[1] / threads_per_block[1]))
    blocksPerGrid = (blocks_per_grid_x, blocks_per_grid_y)
    
    # 启动核函数
    matmul[blocksPerGrid, threads_per_block](A, B, C_gpu)

    # 数据拷贝
    C = C_gpu.copy_to_host()
    cuda.synchronize()

    print("gpu matmul time :" + str(time() - start))

    start = time()
    C_cpu = np.empty((M, P), np.float)
    np.matmul(A, B, C_cpu)
    print("cpu matmul time :" + str(time() - start))

    # 验证正确性
    if np.allclose(C_cpu, C):
        print("gpu result correct")

if __name__ == "__main__":
    main()

可以将多次访问的数据放到Shared Memory中，减少重复读取的次数，并充分利用Shared Memory的延迟低的优势。接下来的程序利用了Shared Memory来做矩阵乘法。这个实现中，跟未做优化的版本相同的是，每个Thread计算结果矩阵中的一个元素，不同的是，每个CUDA Block会以一个 BLOCK_SIZE * BLOCK_SIZE 子矩阵为基本的计算单元。具体而言，需要声明Shared Memory区域，数据第一次会从Global Memory拷贝到Shared Memory上，接下来可多次重复利用Shared Memory上的数据。

from numba import cuda, float32
import numpy as np
import math
from time import time

# thread per block
# 每个block有 BLOCK_SIZE x BLOCK_SIZE 个元素
BLOCK_SIZE = 16

@cuda.jit
def matmul(A, B, C):
    """  矩阵乘法 C = A * B
    """
    row = cuda.threadIdx.x + cuda.blockDim.x * cuda.blockIdx.x
    col = cuda.threadIdx.y + cuda.blockDim.y * cuda.blockIdx.y
    
    if row < C.shape[0] and col < C.shape[1]:
        tmp = 0.
        for k in range(A.shape[1]):
            tmp += A[row, k] * B[k, col]
        C[row, col] = tmp

@cuda.jit
def matmul_shared_memory(A, B, C):
    """
    使用Shared Memory的矩阵乘法 C = A * B
    """
    # 在Shared Memory中定义向量
    # 向量可被整个Block的所有Thread共享
    # 必须声明向量大小和数据类型
    sA = cuda.shared.array(shape=(BLOCK_SIZE, BLOCK_SIZE), dtype=float32)
    sB = cuda.shared.array(shape=(BLOCK_SIZE, BLOCK_SIZE), dtype=float32)
    
    tx = cuda.threadIdx.x
    ty = cuda.threadIdx.y
    row = cuda.threadIdx.x + cuda.blockDim.x * cuda.blockIdx.x
    col = cuda.threadIdx.y + cuda.blockDim.y * cuda.blockIdx.y
    
    if row >= C.shape[0] and col >= C.shape[1]:
        # 当(x, y)越界时退出
        return

    tmp = 0.
    # 以一个 BLOCK_SIZE x BLOCK_SIZE 为单位
    for m in range(math.ceil(A.shape[1] / BLOCK_SIZE)):
        sA[tx, ty] = A[row, ty + m * BLOCK_SIZE]
        sB[tx, ty] = B[tx + m * BLOCK_SIZE, col]
        # 线程同步，等待Block中所有Thread预加载结束
        # 该函数会等待所有Thread执行完之后才执行下一步
        cuda.syncthreads()
        # 此时已经将A和B的子矩阵拷贝到了sA和sB

        # 计算Shared Memory中的向量点积
        # 直接从Shard Memory中读取数据的延迟很低
        for n in range(BLOCK_SIZE):
            tmp += sA[tx, n] * sB[n, ty]

        # 线程同步，等待Block中所有Thread计算结束
        cuda.syncthreads()

    # 循环后得到每个BLOCK的点积之和
    C[row, col] = tmp

def main():
    # 初始化矩阵
    M = 6000
    N = 4800
    P = 4000
    A = np.random.random((M, N)) # 随机生成的 [M x N] 矩阵
    B = np.random.random((N, P)) # 随机生成的 [N x P] 矩阵

    A_device = cuda.to_device(A)
    B_device = cuda.to_device(B)
    C_device = cuda.device_array((M, P)) # [M x P] 矩阵

    # 执行配置
    threads_per_block = (BLOCK_SIZE, BLOCK_SIZE)
    blocks_per_grid_x = int(math.ceil(A.shape[0] / BLOCK_SIZE))
    blocks_per_grid_y = int(math.ceil(B.shape[1] / BLOCK_SIZE))
    blocks_per_grid = (blocks_per_grid_x, blocks_per_grid_y)

    start = time()
    matmul[blocks_per_grid, threads_per_block](A_device, B_device, C_device)
    cuda.synchronize()
    print("matmul time :" + str(time() - start))

    start = time()
    matmul_shared_memory[blocks_per_grid, threads_per_block](A_device, B_device, C_device)
    cuda.synchronize()
    print("matmul with shared memory time :" + str(time() - start))
    C = C_device.copy_to_host()

if __name__ == "__main__":
    main()

3. numba要点

3.1 基本操作

使用@cuda.jit定义可以并行执行的核函数，传入包含并行数据的输入数据和结果（输出也可以是输入），执行时需要定义block数目和每个block中的thread数目，
kernelname[gridsize, blocksize](arguments)
下面是个简单例子：

@cuda.jit
def cudakernel0(array):
    for i in range(array.size):
        array[i] += 0.5

array = np.array([0, 1], np.float32)
print('Initial array:', array)

print('Kernel launch: cudakernel0[1, 1](array)')
cudakernel0[1, 1](array)

print('Updated array:',array)

Initial array: [0. 1.]
Kernel launch: cudakernel0[1, 1](array)
Updated array: [0.5 1.5]

这里只使用了一个thread，在这个thread里面用了for循环。
下面有几个常用的函数：
cuda.to_device(x)：从cpu转存到gpu
cuda.copy_to_host(x)：从gpu转存到cpu
cuda.device_array(shape=(n,), dtype=np.float32)创建gpu上的数组
注意cuda上面的数组一定是连续数组，比如下面的例子：

from numba import vectorize
import math
points = np.random.multivariate_normal([0,0], [[1.,0.9], [0.9,1.]], int(1e7)).astype(np.float32)
@vectorize(['float32(float32, float32)'],target='cuda')
def gpu_arctan2(y, x): 
    theta = math.atan2(y,x)
    return theta
x = points[:,0]
y = points[:,1]
%time theta = gpu_arctan2(y, x)

会报错，需要改成：

x = np.ascontiguousarray(points[:,0])
y = np.ascontiguousarray(points[:,1])
%time theta = gpu_arctan2(y, x)

3.2 控制threads总数

当GPU的threads数目大于1时，会并行执行操作：

array = np.array([0, 1], np.float32)
print('Initial array:', array)

gridsize = 1024
blocksize = 1024
print("Grid size: {}, Block size: {}".format(gridsize, blocksize))

print("Total number of threads:", gridsize * blocksize)

print('Kernel launch: cudakernel0[gridsize, blocksize](array)')
cudakernel0[gridsize, blocksize](array)

print('Updated array:',array)

结果非常奇怪，因为不同的thread在给同一个数据执行+0.5的操作。一般来说，我们需要在核函数中设置，当线程编号大于并行数目时，直接return

3.3 grid、block和thread

这3者是抽象的并行处理概念。在核函数中，对grid执行for，跨度为blockthread，在for循环中执行并行函数，一次处理blockthread个。在并行函数中，需要用cuda.grid函数来定位当前数据的位置。
下面的例子中，cuda.gird(1)表示数据是一维的。

@cuda.jit
def cudakernel1(array):
    thread_position = cuda.grid(1)
    array[thread_position] += 0.5

array = np.array([0, 1], np.float32)
print('Initial array:', array)

print('Kernel launch: cudakernel1[1, 2](array)')
cudakernel1[1, 2](array)

print('Updated array:',array)

结果为：

Initial array: [0. 1.]
Kernel launch: cudakernel1[1, 2](array)
Updated array: [0.5 1.5]

如果thread数目小于并行数的话，后面的数据会无法处理：

array = np.array([0, 1], np.float32)
print('Initial array:', array)

print('Kernel launch: cudakernel1[1, 1](array)')
cudakernel1[1, 1](array)

print('Updated array:',array)

返回的是：

Initial array: [0. 1.]
Kernel launch: cudakernel1[1, 1](array)
Updated array: [0.5 1. ]

3.4 并行度下标

首先定义blockDim = thread，gridDim = block，numba中可以通过cuda.blockDim.x和cuda.gridDim.x方式来获取位置。
注意dim可以设置三个维度，函数为 (cuda.blockDim.x, cuda.blockDim.y, cuda.blockDim.z) 和 (cuda.gridDim.x, cuda.gridDim.y, cuda.gridDim.z)，默认值都为1。

kernel_name[(griddimx, griddimy, griddimz), (blockdimx, blockdimy, blockdimz)](arguments)

注意前面说过，thread的最大数目为1024，因此blockdimxblockdimyblockdimz不能大于1024。
在这种情况下，并行度的下标为：

(cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.x, 
 cuda.blockIdx.y * cuda.blockDim.y + cuda.threadIdx.y,
 cuda.blockIdx.z * cuda.blockDim.z + cuda.threadIdx.z)

为了简写，可以用cuda.grid(3)代替上面的tuple，同理可以用 cuda.grid(2) 代替 (cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.x, cuda.blockIdx.y * cuda.blockDim.y + cuda.threadIdx.y)，用cuda.grid(1) 代替cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.x，因此之前的核函数展开为：

@cuda.jit
def cudakernel1b(array):
    thread_position = cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.x
    array[thread_position] += 0.5

3.5 一维例子：多项式计算

a = np.random.randn(2048 * 1024).astype(np.float32)  # our array
p = np.float32(range(1, 10))   # the coefficients of a polynomial in descending order

# Let's evaluate the polynomial X**8 + 2 X**7 + 3 X**6 + ... + 8 X + 9 on each cell of the array:
%timeit np.polyval(p, a)  # coefficients first, in descending order, array next

@cuda.jit
def cuda_polyval(result, array, coeffs):
    # Evaluate a polynomial function over an array with Horner's method.
    # The coefficients are given in descending order.
    i = cuda.grid(1) # equivalent to i = cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.x
    val = coeffs[0]
    for coeff in coeffs[1:]:
        val = val * array[i] + coeff
    result[i] = val

array = np.random.randn(2048 * 1024).astype(np.float32)
coeffs = np.float32(range(1, 10))
result = np.empty_like(array)
cuda_polyval[2048, 1024](result, array, coeffs)
numpy_result = np.polyval(coeffs, array)
print('Maximum relative error compared to numpy.polyval:', np.max(np.abs(numpy_result - result) / np.abs(numpy_result)))

如果我们把数据拷贝剥离，可以发现计算只用了359us：

d_array = cuda.to_device(array)
d_coeffs = cuda.to_device(coeffs)
d_result = cuda.to_device(result)
%timeit cuda_polyval[2048, 1024](d_result, d_array, d_coeffs)

3.6 二维例子：图像卷积

在下面的例子中，image是需要并行处理的数据，result是输出数据

from numba import cuda
import numpy as np

@cuda.jit
def convolve(result, mask, image):
    # expects a 2D grid and 2D blocks,
    # a mask with odd numbers of rows and columns, (-1-) 
    # a grayscale image
    
    # (-2-) 2D coordinates of the current thread:
    i, j = cuda.grid(2) 
    
    # (-3-) if the thread coordinates are outside of the image, we ignore the thread:
    image_rows, image_cols = image.shape
    if (i >= image_rows) or (j >= image_cols): 
        return
    
    # To compute the result at coordinates (i, j), we need to use delta_rows rows of the image 
    # before and after the i_th row, 
    # as well as delta_cols columns of the image before and after the j_th column:
    delta_rows = mask.shape[0] // 2 
    delta_cols = mask.shape[1] // 2
    
    # The result at coordinates (i, j) is equal to 
    # sum_{k, l} mask[k, l] * image[i - k + delta_rows, j - l + delta_cols]
    # with k and l going through the whole mask array:
    s = 0
    for k in range(mask.shape[0]):
        for l in range(mask.shape[1]):
            i_k = i - k + delta_rows
            j_l = j - l + delta_cols
            # (-4-) Check if (i_k, j_k) coordinates are inside the image: 
            if (i_k >= 0) and (i_k < image_rows) and (j_l >= 0) and (j_l < image_cols):  
                s += mask[k, l] * image[i_k, j_l]
    result[i, j] = s

import skimage.data
from skimage.color import rgb2gray

%matplotlib inline
import matplotlib.pyplot as plt

full_image = rgb2gray(skimage.data.coffee()).astype(np.float32) / 255
plt.figure()
plt.imshow(full_image, cmap='gray')
plt.title("Full size image:")
image = full_image[150:350, 200:400].copy() # We don't want a view but an array and therefore use copy()
plt.figure()
plt.imshow(image, cmap='gray')
plt.title("Part of the image we use:")
plt.show()
# We preallocate the result array:
result = np.empty_like(image)

# We choose a random mask:
mask = np.random.rand(13, 13).astype(np.float32) 
mask /= mask.sum()  # We normalize the mask
print('Mask shape:', mask.shape)
print('Mask first (3, 3) elements:\n', mask[:3, :3])

# We use blocks of 32x32 pixels:
blockdim = (32, 32)
print('Blocks dimensions:', blockdim)

# We compute grid dimensions big enough to cover the whole image:
griddim = (image.shape[0] // blockdim[0] + 1, image.shape[1] // blockdim[1] + 1)
print('Grid dimensions:', griddim)

# We apply our convolution to our image:
convolve[griddim, blockdim](result, mask, image)

# We plot the result:
plt.figure()
plt.imshow(image, cmap='gray')
plt.title("Before convolution:")
plt.figure()
plt.imshow(result, cmap='gray')
plt.title("After convolution:")
plt.show()

注意：
Blocks dimensions: (32, 32)
Grid dimensions: (7, 7)
因此可以处理的数据数量为773232>图片尺寸200200

3.7 block的用处：share memory

在同一个block内可以共享同一个share memory，数据传输速度远高于全局显存。不过share memory的size并不大，存不了太多东西，比如一个gtx1070的共享内存仅仅为48kB。
我们用卷积的例子来展示share memory的用法，在上面的例子中，每一个block处理32×32尺寸的图像，卷积核为13×13，因此需要44×44的共享内存保存result，同时13×13的卷积核也保存在共享内存中。
使用cuda.syncthreads()保证在share memory填满之前不进行计算，下面只展示核心代码：

……
shared_image_rows = blockdim[0] + mask_rows - 1
shared_image_cols = blockdim[1] + mask_cols - 1
shared_image_size = shared_image_rows * shared_image_cols
@cuda.jit
def smem_convolve(result, mask, image):
    i, j = cuda.grid(2)
    shared_image = cuda.shared.array(shared_image_size, float32)
    shared_mask = cuda.shared.array(mask_size, float32)

    # Fill shared mask
    if (cuda.threadIdx.x < mask_rows) and (cuda.threadIdx.y < mask_cols):
        shared_mask[cuda.threadIdx.x + cuda.threadIdx.y * mask_rows] = mask[cuda.threadIdx.x, cuda.threadIdx.y]

    # Fill shared image
    # Each thread fills four cells of the array
    row_corner = cuda.blockDim.x * cuda.blockIdx.x - delta_rows
    col_corner = cuda.blockDim.y * cuda.blockIdx.y - delta_cols
    even_idx_x = 2 * cuda.threadIdx.x
    even_idx_y = 2 * cuda.threadIdx.y
    odd_idx_x = even_idx_x + 1
    odd_idx_y = even_idx_y + 1
    for idx_x in (even_idx_x, odd_idx_x):
        if idx_x < shared_image_rows:
            for idx_y in (even_idx_y, odd_idx_y):
                if idx_y < shared_image_cols:
                    point = (row_corner + idx_x, col_corner + idx_y)
                    if (point[0] >= 0) and (point[1] >= 0) and (point[0] < image_rows) and (point[1] < image_cols):
                        shared_image[idx_x + idx_y * shared_image_rows] = image[point]
                    else:
                        shared_image[idx_x + idx_y * shared_image_rows] = float32(0)
    cuda.syncthreads()

    # The result at coordinates (i, j) is equal to
    # sum_{k, l} mask[k, l] * image[threadIdx.x - k + 2 * delta_rows,
    #                               threadIdx.y - l + 2 * delta_cols]
    # with k and l going through the whole mask array:
    s = float32(0)
    for k in range(mask_rows):
        for l in range(mask_cols):
            i_k = cuda.threadIdx.x - k + mask_rows - 1
            j_l = cuda.threadIdx.y - l + mask_cols - 1
            s += shared_mask[k + l * mask_rows] * shared_image[i_k + j_l * shared_image_rows]

    if (i < image_rows) and (j < image_cols):
        result[i, j] = s

3.8 共享内存例子：矩阵乘法

首先是普通版的矩阵乘法：

@cuda.jit
def matmul(A, B, C):
    row, col = cuda.grid(2)
    if row < C.shape[0] and col < C.shape[1]:
        tmp = 0.
        for k in range(A.shape[1]):
            tmp += A[row, k] * B[k, col]
        C[row, col] = tmp

调用部分为：

import math
# Initialize the data arrays
A = np.full((24, 12), 3, np.float) # matrix containing all 3's
B = np.full((12, 22), 4, np.float) # matrix containing all 4's

# Copy the arrays to the device
A_global_mem = cuda.to_device(A)
B_global_mem = cuda.to_device(B)

# Allocate memory on the device for the result
C_global_mem = cuda.device_array((24, 22))

# Configure the blocks
threadsperblock = (16, 16)
blockspergrid_x = int(math.ceil(A.shape[0] / threadsperblock[0]))
blockspergrid_y = int(math.ceil(B.shape[1] / threadsperblock[1]))
blockspergrid = (blockspergrid_x, blockspergrid_y)

# Start the kernel 
matmul[blockspergrid, threadsperblock](A_global_mem, B_global_mem, C_global_mem)

# Copy the result back to the host
C = C_global_mem.copy_to_host()

print(C)

耗时为：

CPU times: user 288 ms, sys: 0 ns, total: 288 ms
Wall time: 288 ms

这段代码里面，A_global_mem和B_global_mem都是全局显存，而代码中调用次数非常多（比如说，A_global_mem的每一行被调用了B.shape[1]次）
使用共享内存的原理图如下。每一个thread负责计算一小块C，为了简单起见，我们设置B的宽度为TPB(threads per block)

下面是使用共享内存的代码：

# Controls threads per block and shared memory usage.
# The computation will be done on blocks of TPBxTPB elements.
TPB = 16

@cuda.jit
def fast_matmul(A, B, C):
    """
    Perform matrix multiplication of C = A * B
    Each thread computes one element of the result matrix C
    """

    # Define an array in the shared memory
    # The size and type of the arrays must be known at compile time
    sA = cuda.shared.array(shape=(TPB, TPB), dtype=float32)
    sB = cuda.shared.array(shape=(TPB, TPB), dtype=float32)

    x, y = cuda.grid(2) # 这里是并行部分
    
    # 这里的下标用来加载共享内存
    tx = cuda.threadIdx.x
    ty = cuda.threadIdx.y
    
    if x >= C.shape[0] and y >= C.shape[1]:
        # Quit if (x, y) is outside of valid C boundary
        return

    # Each thread computes one element in the result matrix.
    # The dot product is chunked into dot products of TPB-long vectors.
    tmp = 0.
    # 从一个个计算变为i个块计算
    for i in range(int(A.shape[1] / TPB)):
        # Preload data into shared memory
        # 加载第i块的共享内存
        sA[tx, ty] = A[x, ty + i * TPB]
        sB[tx, ty] = B[tx + i * TPB, y]

        # Wait until all threads finish preloading
        cuda.syncthreads()

        # Computes partial product on the shared memory
        # 第i块内部进行计算
        for j in range(TPB):
            tmp += sA[tx, j] * sB[j, ty]

        # Wait until all threads finish computing
        cuda.syncthreads()

    C[x, y] = tmp

# The data array
A = numpy.full((TPB*2, TPB*3), 3, numpy.float) # [32 x 48] matrix containing all 3's
B = numpy.full((TPB*3, TPB*1), 4, numpy.float) # [48 x 16] matrix containing all 4's

A_global_mem = cuda.to_device(mat1)
B_global_mem = cuda.to_device(mat2)
C_global_mem = cuda.device_array((TPB*2, TPB*1)) # [32 x 16] matrix result

# Configure the blocks
threadsperblock = (TPB, TPB)
blockspergrid_x = int(math.ceil(A.shape[0] / threadsperblock[1]))
blockspergrid_y = int(math.ceil(B.shape[1] / threadsperblock[0]))
blockspergrid = (blockspergrid_x, blockspergrid_y)

# Start the kernel 
fast_matmul[blockspergrid, threadsperblock](A_global_mem, B_global_mem, C_global_mem)
res = C_global_mem.copy_to_host()

print(res)

耗时为

CPU times: user 184 ms, sys: 0 ns, total: 184 ms
Wall time: 185 ms

3.9 编译

用numba.pycc，下面是个例子：

import numpy
from math import sqrt
from numba.pycc import CC
from numba import njit

cc = CC('my_module') #my_module就是我们编译之后的pyd文件的名字，也是我们后续import mu_module的库名

# Uncomment the following line to print out the compilation steps
#cc.verbose = True


@cc.export('multf', 'f8(f8, f8)') #这里支类似与c中的多态，根据输入数据的数据类型设置不同的函数名
@cc.export('multi', 'i4(i4, i4)')#我们在调用的时候，根据输入数据的数据类型分开调用my_module.multi和my_module.multf
@njit
def mult(a, b):
    for i in range(1000):
        a*b
    return a * b

@cc.export('square', 'f8(f8)') #意义同上
@njit
def square(a):
    return a ** 2

if __name__ == "__main__":
    cc.compile() #通过cc.compile进行编译

接下来就可以愉快的调用了。

import my_module
%timeit my_module.multi(500,500)

@njit
def mult(a, b):

    return a * b

%timeit mult(500,500)

4. Array加速

4.1 numpy的ufunc介绍

Array加速的关键是使用ufunc

import math
x = np.arange(int(1e6))
%timeit np.sqrt(x)
%timeit [math.sqrt(xx) for xx in x]

结果为：

100 loops, best of 3: 2.73 ms per loop
10 loops, best of 3: 178 ms per loop

在cpu下，使用ufunc就比逐个计算要快了100倍左右。

4.2 numba的ufunc

用numba可以实现numpy的ufunc功能：

from numba import vectorize
@vectorize
def cpu_sqrt(x):
    return math.sqrt(x)

%timeit cpu_sqrt(x)

2.44 ms ± 534 ns per loop (mean ± std. dev. of 7 runs, 100 loops each)

同样可以转移到GPU上进行计算

@vectorize(['float32(float32)'],target='cuda')
def gpu_sqrt(x):
    return math.sqrt(x)

x_gpu = cuda.to_device(x.astype(np.float32))
%timeit gpu_sqrt(x_gpu)

结果如下：

996 µs ± 1.02 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

也可以设置多组参数数据类型，这样当你输入错误的数据类型的时候会自动给你报错：

@vectorize([‘int32(int32, int32)’,
‘int64(int64, int64)’,
‘float32(float32, float32)’,
‘float64(float64, float64)’])

4.3 numba的guvectorize

如果我们的输入参数不是数字而是一个数组类型的数据怎么办?"vectorize"只能支持单元素的函数，这个时候我们可以使用“guvectorize”.

@guvectorize('int64[:], int64, int64[:]', '(n),()->(n)')
def g(x, y, result):
    for i in range(x.shape[0]):
        result[i] = x[i] + y

相对于vectorize来说可以支持数组的输入不过有一个坑就是，函数不能用return，函数类型类型与c中的“void”函数不能返回值，所以这里的输入输出通过参数中的 ‘(n),()->(n)’ 这一项来指定，其中(n)表示1维切样本数为n的，‘（）’表示无维则为单元素，“-》”左边代表输入，右边代表输出。
下面是复杂例子：

@guvectorize('float64[:,:], float64[:,:], float64[:,:]', 
            '(m,n),(n,p)->(m,p)',target = 'cuda')
def matmul_gpu(A, B, C):
    m, n = A.shape
    n, p = B.shape
    for i in range(m):
        for j in range(p):
            C[i, j] = 0
            for k in range(n):
                C[i, j] += A[i, k] * B[k, j]

%time matmul_gpu(A_global_mem, B_global_mem, C_global_mem)

结果为：

CPU times: user 0 ns, sys: 0 ns, total: 0 ns
Wall time: 997 µs

速度巨快无比，比自己写kernel快多了。

4.4 其他

下面的库也可以为array加速：
mars
CuPy
PyTorch
PyArrow
mpi4py
ArrayViews
JAX
The RAPIDS stack: cuDF，cuML，cuSignal，RMM

在cpu上也有一些加速技巧：英特尔提供了一个简短的矢量数学库（SVML），其中包含大量优化的超越函数，可用作编译器内在函数。如果环境中存在icc_rt包（或者SVML库只是可定位的！），那么Numba会自动配置LLVM后端以尽可能使用SVML内部函数。 SVML提供每个内在函数的高精度版本和低精度版本，并且使用的版本通过使用fastmath关键字来确定。默认使用精度高于1 ULP的高精度，但如果fastmath设置为True，则使用内在函数的低精度版本（4个ULP内的）。

大概的意思就是SVML针对LLVM背后的一些函数做了进一步的优化以提高LLVM编译后的程序运行的性能。
conda install -c numba icc_rt
下面是对比测试结果

使用nogil可以去除python的gil锁，只有当Numba可以在nopython模式下编译函数时才会释放GIL，否则将打印编译警告。
cache 启用基于文件的高速缓存，以便在以前的调用中编译该函数时缩短编译时间。缓存保存在__pycache__包含源文件的目录的子目录中。
fastmath允许使用LLVM文档中描述的其他不安全的浮点变换。此外，如果安装英特尔SVML更快，但使用一些数学内在函数的不太准确的版本（内部的答案）。
parallel 自动并行化许多常见的Numpy构造以及相邻并行操作的融合，以最大化缓存局部性。
error_model 控制除以零行为。将它设置为’python’会导致被零除以引发像CPython这样的异常。将其设置为’numpy’会导致被零除以将结果设置为+/- inf或nan。
numpy也可以定义简单的数据类型，比用class快很多：

particle_dtype = numpy.dtype({'names':['x','y','z','m','phi'], 
                             'formats':[numpy.double, 
                                        numpy.double, 
                                        numpy.double, 
                                        numpy.double, 
                                        numpy.double]})

5 随机数生成

5.1 cpu上并行化生成随机数，然后送入到gpu

from numba import prange,njit
@njit
def getRandos(n):
    for i in prange(n):
        a = np.random.rand()
%timeit getRandos(1000000000)
%timeit np.random.rand(1000000000)

结果为：

1.87 s ± 2.45 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
11.9 s ± 1.63 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

10亿个随机数并行也就不到2秒，还行。

5.2 使用cuda的库函数

这里使用mars库来进行一下对比，首先是并行化：

cuda和mars的功能类似，注意cuda安装需要用conda install -c conda-forge cupy
转移到GPU上速度变慢了。

5.3 使用numba的随机数发生器

库为numba.cuda.random。目前有4个：
numba.cuda.random.xoroshiro128p_uniform_float32
numba.cuda.random.xoroshiro128p_uniform_float64
numba.cuda.random.xoroshiro128p_normal_float32
numba.cuda.random.xoroshiro128p_normal_float64

使用方法也很简单，首先需要给每个thread新建一个state：

rng_states = create_xoroshiro128p_states(threads_per_block * blocks, seed=1)

然后就可以在线程中调用：

x = xoroshiro128p_uniform_float32(rng_states, thread_id)

下面是两个例子，分别与第1节和第2节对应：

@cuda.jit
def generate_random(rng_states,out):
    thread_id = cuda.grid(1)
   out[thread_id]=xoroshiro128p_uniform_float32(rng_states,thread_id)

会报错显存溢出。
所以要加上stride，写for循环处理：

@cuda.jit
def generate_random(rng_states,out):
    thread_id = cuda.grid(1)
    for i in range(1000):
        out[thread_id*64+i]=xoroshiro128p_uniform_float32(rng_states,thread_id)
N = 1000000000
threads_per_block = 64
blocks = 15625
rng_states = create_xoroshiro128p_states(1000000, seed=1)
out = np.zeros(N, dtype=np.float32)
rng_states = cuda.to_device(rng_states)
out = cuda.to_device(out)
%time generate_random[blocks, threads_per_block](rng_states,out)

第二个例子如下

from numba import cuda
from numba.cuda.random import create_xoroshiro128p_states, xoroshiro128p_uniform_float32
import numpy as np

@cuda.jit
def compute_pi(rng_states, iterations, out):
    """Find the maximum value in values and store in result[0]"""
    thread_id = cuda.grid(1)

    # Compute pi by drawing random (x, y) points and finding what
    # fraction lie inside a unit circle
    inside = 0
    for i in range(iterations):
        x = xoroshiro128p_uniform_float32(rng_states, thread_id)
        y = xoroshiro128p_uniform_float32(rng_states, thread_id)
        if x**2 + y**2 <= 1.0:
            inside += 1

    out[thread_id] = 4.0 * inside / iterations

threads_per_block = 64
blocks = 625
rng_states = create_xoroshiro128p_states(threads_per_block * blocks, seed=1)
out = np.zeros(threads_per_block * blocks, dtype=np.float32)
%time compute_pi[blocks, threads_per_block](rng_states, 5000, out)
print('pi:', out.mean())

结果为：

CPU times: user 212 ms, sys: 0 ns, total: 212 ms
Wall time: 211 ms
pi: 3.141532

或者用stride，这种方式对随机数发生器的利用率有点低：

from numba import cuda
from numba.cuda.random import create_xoroshiro128p_states, xoroshiro128p_uniform_float32
import numpy as np
@cuda.jit
def generate_random2(rng_states,out):
    thread_id = cuda.grid(1)
    stride=cuda.gridsize(1)
    if thread_id > out.shape[0]:
        return
    for i in range(thread_id,out.shape[0],stride):
        out[i]=xoroshiro128p_uniform_float32(rng_states,i)
N = 100000000
threads_per_block = 64
blocks = N//threads_per_block+1
rng_states = create_xoroshiro128p_states(N, seed=1)
out = np.zeros(N, dtype=np.float32)
%time generate_random2[blocks, threads_per_block](rng_states,out)

结果为：

CPU times: user 352 ms, sys: 324 ms, total: 676 ms
Wall time: 678 ms

N为1000000000时报显存溢出了。

你可能感兴趣的:(运筹学)

如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
数学建模、运筹学之非线性规划 AgentSmart 算法学习算法动态规划线性代数线性规划
数学建模、运筹学之非线性规划一、最优化问题理论体系二、梯度下降法——无约束非线性规划三、牛顿法——无约束非线性规划四、只包含等值约束的拉格朗日乘子法五、不等值约束非线性规划与KKT条件一、最优化问题理论体系最优化问题旨在寻找全局最优值（或为最大值，或为最小值）。最优化问题一般可以分为两个部分：目标函数与约束条件。该问题的进一步细分也是根据这两部分的差异。最优化问题根据变量的取值范围不同可以划分为一
运筹学——图论与最短距离（Python实现）(2)，2024年最新Python高级面试framework m0_60575487 2024年程序员学习图论 python 面试
适用于wij≥0，给出了从vs到任意一个点vj的最短路。Dijkstra算法是在1959年提出来的。目前公认，在所有的权wij≥0时，这个算法是寻求最短路问题最好的算法。并且，这个算法实际上也给出了寻求从一个始定点vs到任意一个点vj的最短路。2案例1——贪心算法实现==============2.1旅行商问题（TSP）**旅行商问题(TravelingSalesmanProblem，TSP)**
数学建模笔记——动态规划 liangbm3 数学建模笔记数学建模笔记动态规划 python 背包问题算法优化问题
数学建模笔记——动态规划动态规划1.模型原理2.典型例题2.1例1凑硬币2.2例2背包问题3.python代码实现3.1例13.2例2动态规划1.模型原理动态规划是运筹学的一个分支，通常用来解决多阶段决策过程最优化问题。动态规划的基本想法就是将原问题转换为一系列相互联系的子问题，然后通过逐层地推来求得最后的解。目前，动态规划常常出现在各类计算机算法竞赛或者程序员笔试面试中，在数学建模中出现的相对较
数学建模笔记—— 非线性规划 liangbm3 数学建模笔记数学建模笔记 python matlab 非线性规划算法学习优化问题
数学建模笔记——非线性规划非线性规划1.模型原理1.1非线性规划的标准型1.2非线性规划求解的Matlab函数2.典型例题3.matlab代码求解3.1例1一个简单示例3.2例2选址问题1.第一问线性规划2.第二问非线性规划非线性规划非线性规划是一种求解目标函数或约束条件中有一个或几个非线性函数的最优化问题的方法。运筹学的一个重要分支。20世纪50年代初,库哈(H.W.Kuhn)和托克(A.W.T
[01] 动态规划解题套路框架 _魔佃_
本文解决几个问题：动态规划是什么？解决动态规划问题有什么技巧？如何学习动态规划？刷题刷多了就会发现，算法技巧就那几个套路。所以本文放在第一章，来扒一扒动态规划的裤子，形成一套解决这类问题的思维框架，希望能够成为解决动态规划问题的一部指导方针。本文就来讲解该算法的基本套路框架，下面上干货。labuladong的算法小抄首先，动态规划问题的一般形式就是求最值。动态规划其实是运筹学的一种最优化方法，只不
非理工科院校怎么打好数学建模比赛 | 南川笔记南川笔记
Proposition1非理工科院校最好不要打数学建模比赛。虽说“一次建模，终身受益”，但毕竟数学建模既要数学理论的支撑（不仅仅是大学里的微积分、线性代数和概率论与统计，更多的是基于微积分的常偏微分方程、基于线性代数的运筹学和基于概率论与统计的统计分析内容），还要编程的支撑（不是常规的C语言或者Java程序，也不是这几年很火的Python编程，而是基于数值运算的Matlab和基于统计的R），这在一
11.4 看不懂就慢慢看啊反复练习的阿离很笨吧
记得组合数学正交拉丁方从0开始！突然觉得老师说得很有道理，演化计算里活得最好的，不是最优秀的但也不是最差的，是最能适应环境的，别人怎么做，他就怎么做。动态规划，运筹学贝叶斯是生成学习算法，生成一个概率模型判别学习算法高斯判别分析/**NB.java*Copyright2005LiangxiaoJiang*/packageweka.classifiers.gla;importweka.core.*;
2024年高教社杯数学建模国赛赛题浅析——助攻快速选题 BZD数模社数学建模
一图流——一张图读懂国赛总体概述：A题偏几何与运动学模型，适合有几何与物理背景的队伍，数据处理复杂性中等。B题侧重统计和优化，适合有运筹学和经济学背景的队伍，数据处理较为直接但涉及多步骤的决策优化。C题属于优化类问题，涉及复杂的多变量优化与不确定性分析，数据处理难度大。D题涉及概率和优化，特别是几何概率模型的推导，理论难度较高。E题数据量较大，重点在于大规模交通数据的分析与优化，适合擅长交通工程和
浅谈【数据结构】图-最短路径问题超级飞侠12138 基础数据结构数据结构链表 c语言 c++算法
目录1、最短路径问题2、迪杰斯特拉算法3、算法的步骤谢谢帅气美丽且优秀的你看完我的文章还要点赞、收藏加关注没错，说的就是你，不用再怀疑！！！希望我的文章内容能对你有帮助，一起努力吧！！！1、最短路径问题最短路径问题：是指在图中找到两个顶点，求两个顶点之间最短路径的一个问题。“最短”：通常来说是指路径上面总权值最小，权值（边/弧的长度、成本、时间...）。最短路径问题计算机科学、运筹学、网络理论等多
【算法】动态规划小匠码农数据结构与算法算法动态规划
文章目录一、动态规划概念二、算法思想三、算法步骤四、应用场景五、动态规划优缺点一、动态规划概念动态规划（DynamicProgramming，简称DP）是一种广泛应用于数学、计算机科学和经济学等领域的方法论。其核心思想是通过将复杂问题分解为相对简单的子问题，并存储子问题的解以避免冗余计算，从而显著提高计算效率。动态规划作为运筹学的一个分支，专注于解决决策过程的最优化问题。20世纪50年代初
2024SCD与2023SCD目录 m0_55576290 论文笔记
2024SCD目录序号刊名ISSNCN是否新增1数学通报0583-145811-2254/O12大学数学1672-145434-1221/O13数学建模及其应用2095-307037-1485/O14运筹学学报1007-609331-1732/O15数学的实践与认识1000-098411-2018/O16应用数学和力学1000-088750-1060/O37中国科学：数学1674-721611-5
【MATLAB源码-第141期】基于matlab的免疫优化算法在物流配送中心选址应用仿真，输出选址图以及算法适应度曲线。 Matlab程序猿 MATLAB 路径规划选址 matlab 算法开发语言
操作环境：MATLAB2022a1、算法描述免疫优化算法在物流配送中心选址中的应用是一个集成了信息科学、生物学原理和运筹学的跨学科研究领域。本文旨在探讨免疫优化算法在物流配送中心选址问题中的应用，包括算法的基本原理、模型构建、算法实现及其在实际物流配送中心选址问题中的应用案例分析。一、免疫系统原理及其启发意义免疫系统是生物体防御外来入侵者的复杂网络，具有识别自身与非自身、记忆以前的入侵者以及在再次
2020-3-30睡前日记半瓢清
今天是什么日子起床：8:00就寝：21:00天气:上午晒的我脸疼，把窗帘拉上了，结果下午晚上有点冷，不……是太冷了，现在脚都冰凉的。心情：一般纪念日：无任务清单昨日完成的任务，最重要的三件事：①给大虞海棠还有乃万还有好几个人，投票了。②写作业了③不记得了……哪有每天完成那么多任务的……改进：无习惯养成：无周目标·完成进度自控作业写完了，明天写运筹学！学习·信息·阅读没得健康·饮食·锻炼今儿搭配三根
运筹学的第一课：单纯形法 ordinary_brony 研究生课堂学习笔记算法经验分享其他
文章目录导读单纯形法简介单纯形法的步骤简介单纯形法的一些说明决策变量基变量工艺常数右端常数空白处θ\thetaθ检验数把其中的一些部分组合起来约束方程典则形式计算步骤判断条件（一）出基和进基矩阵变换判断条件（二）写出结果总结导读运筹学第一课会给你讲线性规划，也就是从初中以来我们拿多元一次方程组做的“旅游叫车问题”、“投资问题”等等。相信在这个时候，每个人的第一印象是：我感觉我行了。然后老师就开始讲
Python 和 Java 代码实现：黄金分割法求解一维最优化问题 twinkle 222 运筹优化学习专栏 python java 开发语言
Python和Java代码实现：黄金分割法求解一维最优化问题问题描述区间消去法黄金分割法代码实现Python代码Java代码求解实例开启一个新系列的学习，这位大佬的文章写的很通透，且有代码实践，个人觉得只有自己把代码写出来了才是真的会了，我对自己的算法学习要求也是这样的，所以推荐！问题描述我不是运筹学科班出身，工作之前只做过梯度优化算法和智能优化算法在航天场景中的改进和应用。毕业后虽然选择了运筹优
服务运营 | 摘要：POMS 1月医疗文章合集运筹OR帷幄 java 数据库人工智能
编者按这一系列文章旨在给读者提供运筹学在医疗应用领域的概览。本文整理了ProductionandOperationsManagement在2024年1月刊中发布的医疗相关文章合集。1.顾客订货行为对医疗产品分发效率的影响文章名：Howmuchdocustomerorderingpracticesdrivemedicalsuppliesdistribution(in)efficiencyforpri
2 月 5 日算法练习- 动态规划小蒋的学习笔记算法算法动态规划深度优先
DP（动态规划）全称DynamicProgramming，是运筹学的一个分支，是一种将复杂问题分解成很多重叠的子问题、并通过子问题的解得到整个问题的解的算法。在动态规划中有一些概念：nusingnamespacestd;constintN=1e2+5;intn,a[N][N],dp[N][N][N];intmain(){memset(dp,-0x3f,sizeof(dp));cin>>n;for(
【数模百科】一文快速讲清楚层次分析法AHP（附python代码和参考美赛论文）小树modelwiki python 开发语言数学建模算法
本文摘录自层次分析法原理-数模百科，如果你想了解更多关于层次分析法的知识，请移步数模百科。层次分析法（AnalyticHierarchyProcess，简称AHP）是一种解决复杂决策问题的方法。这个方法是由美国运筹学家托马斯·萨蒂（ThomasL.Saaty）在上世纪70年代发明的。那时候，萨蒂教授想要找到一个既科学又实用的方法，帮助人们在面对很多难以直接比较的选择项时，能够做出最合适的决策。比如
Stata收敛性分析（含详细代码说明和样例数据） m0_71334485 数据 #stata代码收敛性分析 stata代码
Stata收敛性分析（含详细代码说明和样例数据）收敛性分析是管理科学和运筹学中重要的概念，是一种解决决策者对他们的管理策略的反馈的方式和手段。它的最终目的是帮助管理者从复杂的环境中筛选最优的解决方案。收敛性分析一般情况下会结合一些概念，例如实验研究，不确定性的分析，以及特定的决策环境，来解决特定问题。收敛性分析旨在帮助决策者认识和理解给定决策情境内的系统性知识组合。它由一系列步骤组成，从分析现有系
套材下料决策变量matlab,线材下料问题——目标函数的一个注记 weixin_39609822 套材下料决策变量matlab
一、问题的提出“线材下料问题”是运筹学在实际应用中比较经典的问题,特别在建筑生产活动中,涉及大量的线材下料问题。因此,确定既节省原材料,又可行的线材下料的方法,在实际应用中有着重要的意义。该问题的一般提法:要做n套产品,需要用规格不同的m种线材,各种规格的长度分别为:l1,l2…lm,每一套产品需用不同规格的原料分别为:m1,m2…mm根,己知原材料的长度为l,问应如何下料,使所用的原材料最省?二
c语言程序ising算法,算法及编程语言 - 声振论坛 - 振动,动力学,声学,信号处理,故障诊断 - Powered by Discuz!... 什么斯坦 c语言程序ising算法
给一下该书的详细信息吧《运筹学基础》作者：张莹出版社：清华大学出版社出版日期：版次：ISBN：730201669页数：311开本：16开包装：平装原价：￥24.0本书包括运筹学中最基本、应用最广泛的七个部分：线性规划、整数规划、目标规划、非线性规划、动态规划、图与网络分析、决策分析。其中以线性规划、非线性规划为重点。全书七部分共详细介绍了50余种实用算法，配有近百个不同类型、不同解法的例题，还有结
运筹学——线性规划枠成运筹学数学建模其他
仅供自学使用，各位观众自行参考Reference：中国大学mooc管理运筹学韩伯棠https://wenku.baidu.com/view/2e7891961a37f111f1855b46.html#https://zhuanlan.zhihu.com/p/104697552目录线性规划步骤：主要应用：单纯性法求目标函数值最小的线性规划问题解的最终结果情况单纯形法的灵敏度分析python求解线性规
运筹学代码基础（python） CCC_bi 程序题解法 python 开发语言
运筹学基础python基础操作字典线性规划问题求解例题建模问题的矩阵表示决策变量取值受限0和1最小生成树问题最小路径问题python基础操作加减法和输出0p1=987654321p2=123456789print(p1+
【运筹学】第4讲线性代数基础冰岛看极光_92655 运筹学线性代数数学建模
【运筹学】第4讲线性代数基础一、研究线性代数目的1、目的：解线性方程（未知数次数为1的方程）2、n元方程组的推广过程3、n元方程组研究步骤二、关于方程的经典想法（几何）三、方法论四、怎么看待矩阵1、秩是矩阵的本质属性2、一个矩阵的秩是唯一的3、引入运筹学中`【基】`的概念4、矩阵的逆五、行列式1、行列式2、几何意义3、行列式回归成矩阵笔记来源：b站王树尧SJTU本节主要对线性代数整体的研究思路（矩
排队论 | Python实现M/M/1/N 算法如诗排队论（Queuing Theory）M/M/1/N
文章目录概述代码概述排队论（Queueingtheory）是研究排队系统的数学理论，用于描述和分析顾客到达、排队、服务和离开等过程。它是运筹学和应用概率论的重要分支，广泛应用于交通、通信、计算机网络、制造业、客户服务等领域。在排队论中，常用的术语包括以下几个方面ÿ
优化｜运筹学应用之顶刊Operations Research论文综述(68(6)期) 「已注销」优化人工智能计算机视觉深度学习
作者：陈宇文（牛津大学在读博士）翁欣（清华大学在读博士）SimpleBayesianAlgorithmsforBest-ArmIdentificationIn“SimpleBayesianAlgorithmsforBest-ArmIdentification,”Russoconsiderstheoptimaladaptiveallocationofmeasurementeffortforident
AHP层次分析法亦旧sea 人工智能算法机器学习
AHP层次分析法（AnalyticHierarchyProcess）是一种用于多准则决策的数学模型和过程。它被广泛应用于管理科学和运筹学领域，用于处理复杂的决策问题。AHP层次分析法通过将决策问题分解为多个层次结构，并对每个层次的准则和选择进行比较和评价。它基于人们在处理决策问题时的直觉和判断，通过对准则和选择进行定量和定性的比较，最终得出最优的决策。AHP层次分析法包括以下步骤：1.构建层次结构
层次分析法（内含python完整代码）者半算法
背景：（评价决策类）日常生活中有很多的决策问题。决策是指在面临多种方案时需要依据一定的标准选择某一种方案买衣服,一般要依据质量、颜色、价格、款式等方面的因素选择概念：层次分析法(AnalyticHierarchyProcess,简称AHP)是对一些较为复杂、较为模糊的问题作出决策的简易方法,它特别适用于那些难于完全定量分析的问题。它是美国运筹学家T.L.Saaty教授于上世纪70年代初期提出的一种
DP（动态规划）是什么？ YoungGeeker 算法 #C/C++后端动态规划算法数据结构
目录DP是什么？DP的原理概念引入基本思想基本概念动态规划问题中的术语基本结构适用条件最优化原理（最优子结构性质）无后效性子问题的重叠性DP是什么？动态规划（DynamicProgramming，DP）是运筹学的一个分支，是求解决策过程最优化的过程。20世纪50年代初，美国数学家贝尔曼（R.Bellman）等人在研究多阶段决策过程的优化问题时，提出了著名的最优化原理，从而创立了动态规划。动态规划的
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p