deephub

从头开始进行CUDA编程：Numba并行编程的基本概念

GPU（图形处理单元）最初是为计算机图形开发的，但是现在它们几乎在所有需要高计算吞吐量的领域无处不在。这一发展是由GPGPU(通用GPU)接口的开发实现的，它允许我们使用GPU进行通用计算编程。这些接口中最常见的是CUDA，其次是OpenCL和最近刚出现的HIP。

Python中使用CUDA

CUDA最初被设计为与C兼容后来的版本将其扩展到c++和Fortran。在Python中使用CUDA的一种方法是通过Numba，这是一种针对Python的即时(JIT)编译器，可以针对gpu(它也针对cpu，但这不在我们讨论的范围内)。Numba为我们提供了一个可以直接使用Python子集，Numba将动态编译Python代码并运行它。虽然它没有实现完整的CUDA API，但与cpu相比它支持的特性已经可以帮助我们进行并行计算的加速。

Numba并不是唯一的选择。CuPy 提供了通过基于CUDA的并且兼容Numpy的高级函数，PyCUDA提供了对CUDA API更细粒度的控制，英伟达也发布了官方CUDA Python。

本文不是 CUDA 或 Numba 的综合指南，本文的目标是通过用Numba和CUDA编写一些简单的示例，这样可以让你了解更多GPU相关的知识，无论是是不是使用Python，甚至C编写代码，它都是一个很好的入门资源。

GPU 的并行编程简介

GPU 相对于 CPU 的最大优势是它们能够并行执行相同的指令。单个 CPU 内核将一个接一个地串行运行指令。在 CPU 上进行并行化需要同时使用其多个内核（物理或虚拟）。例如一般的计算机有 4-8 个内核，而GPU 拥有数千个计算核心。有关这两者的比较，请参见下面的图 1。GPU 内核通常速度较慢，且只能执行简单的指令，但它们的数量通常可以弥补这些缺点。

GPU 编程有四个主要方面问题：

1、理解如何思考和设计并行的算法。因为一些算法是串行设计的，把这些算法并行化可能是很困难的。

2、学习如何将CPU上的结构（例如向量和图像）映射到 GPU 上例如线程和块。循环模式和辅助函数可以帮助我们解决这个问题。

3、理解驱动 GPU 编程的异步执行模型。不仅 GPU 和 CPU 相互独立地执行指令，GPU的流还允许多个处理流在同一个GPU上运行，这种异步性在设计最佳处理流时非常重要。

4、抽象概念和具体代码之间的关系：这是通过学习 API 及其细微差别来实现的。

上图为简化的CPU架构(左)和GPU架构(右)。计算发生在ALU(算术逻辑单元)中，DRAM保存数据，缓存保存的数据可以更快地访问，但通常容量更小。

开始编写代码

这里的环境要求是:Numba版本> 0.55和一个GPU。

 import numpy as np
 import numba
 from numba import cuda
 
 print(np.__version__)
 print(numba.__version__)
 
 cuda.detect()
 
 # 1.21.6
 # 0.55.2
 #
 # Found 1 CUDA devices
 # id 0             b'Tesla T4'                              [SUPPORTED]
 #                       Compute Capability: 7.5
 #                            PCI Device ID: 4
 #                               PCI Bus ID: 0
 #                                     UUID: GPU-e0b8547a-62e9-2ea2-44f6-9cd43bf7472d
 #                                 Watchdog: Disabled
 #              FP32/FP64 Performance Ratio: 32
 # Summary:
 # 1/1 devices are supported

Numba CUDA的主要操作时是CUDA.jit的装饰器，它定义函数将在GPU中运行。

我们首先写一个简单的函数，它接受两个数字相加然后将它们存储在第三个参数的第一个元素上。

 # Example 1.1: Add scalars
 @cuda.jit
 def add_scalars(a, b, c):
     c[0] = a + b
 
 dev_c = cuda.device_array((1,), np.float32)
 
 add_scalars[1, 1](2.0, 7.0, dev_c)
 
 c = dev_c.copy_to_host()
 print(f"2.0 + 7.0 = {c[0]}")
 #  2.0 + 7.0 = 9.0

因为GPU只能处理简单的工作，所以我们的内核只运行一个函数，后面会将这个函数称之为内核。

第一个需要注意的是内核(启动线程的GPU函数)不能返回值。所以需要通过传递输入和输出来解决这个问题。这是C中常见的模式，但在Python中并不常见。

在调用内核之前，需要首先在设备上创建一个数组。如果想要显示返回值则需要将它复制回CPU。这里就有一个隐形的问题：为什么选择float32(单精度浮点数)？这是因为虽然大多数GPU都支持双精度运算，但双精度运算的时间可能是单精度运算的4倍甚至更长。所以最好习惯使用np.float32和np.complex64而不是float / np.float64和complex / np.complex128

我们的函数定义与普通的函数定定义相同，但调用却略有不同。它在参数之前有方括号:add_scalars[1, 1](2.0, 7.0, dev_c)

这些方括号分别表示网格中的块数和块中的线程数，下面使用CUDA进行并行化时，会进一步讨论。

使用CUDA进行并行化编程

CUDA网格

当内核启动时它会得到一个与之关联的网格，网格由块组成;块由线程组成。下图2显示了一维CUDA网格。图中的网格有4个块。网格中的块数保存在一个特殊的变量中，该变量可以在内核中通过gridDim.x直接访问，这里x是指网格的第一维度(在本例中是唯一的维度)。二维网格也有通过y还有三维网格z变量来访问。到目前2022年，还没有四维网格或更高的网格。在内核内部可以通过使用 blockIdx.x 找出正在执行的块，例如我们这个例子它将从 0 运行到 3。

每个块都有一定数量的线程，保存在变量blockDim.x中。线程索引保存在变量 threadIdx.x 中，在这个示例中变量将从 0 运行到 7。

不同块中的线程被安排以不同的方式运行，访问不同的内存区域并在其他一些方面有所不同，本文主要介绍简单的入门所以我们将跳过这些细节。

当我们在第一个示例中使用参数[1,1]启动内核时，我们告诉CUDA用一个线程运行一个块。通过修改这两个值可以使用多个块和多现线程多次运行内核。 threadIdx.x 和 blockIdx.x 每个线程的唯一标识。

下面我们对两个数组求和，这比对两个数字求和复杂：假设每个数组都有20个元素。如上图所示，我们可以用每个块8个线程启动内核。如果我们希望每个线程只处理一个数组元素，那么我们至少需要4个块。启动4个块，每个块8个线程，我们的网格将启动32个线程。

对于多线程处理，最需要弄清楚是如何将线程下标映射到数组下标（因为每个线程要独立处理部分数据）。threadIdx.x 从 0 运行到 7，因此它们自己无法索引我们的数组，不同的块也具有相同的threadIdx.x。但是他们有不同的blockIdx.x。为了获得每个线程的唯一索引，我们需要组合这些变量：

 i = threadIdx.x + blockDim.x * blockIdx.x

对于第一个块，blockIdx.x = 0，i 将从 0 运行到 7。对于第二个块，blockIdx.x = 1。由于 blockDim.x = 8，将得到 8 运行到 15。类似地，对于 blockIdx. x = 2，将从 16 跑到 23。在第四个也是最后一个区块中，将从 24 跑到 31。见下表 1。

这样虽然将每个线程映射到数组中的每个元素……但是现在我们遇到了一些线程会溢出数组的问题，因为数组有 20 个元素，而 i 的最大值是 32-1。解决方案很简单：对于那些溢出线程，不要做任何事情！

 # Example 1.2: Add arrays
 @cuda.jit
 def add_array(a, b, c):
     i = cuda.threadIdx.x + cuda.blockDim.x * cuda.blockIdx.x
     if i < a.size:
         c[i] = a[i] + b[i]
 
 N = 20
 a = np.arange(N, dtype=np.float32)
 b = np.arange(N, dtype=np.float32)
 dev_c = cuda.device_array_like(a)
 
 add_array[4, 8](a, b, dev_c)
 
 c = dev_c.copy_to_host()
 print(c)
 #  [ 0.  2.  4.  6.  8. 10. 12. 14. 16. 18. 20. 22. 24. 26. 28. 30. 32. 34. 36. 38.]

在较新版本的 Numba 中可能会会收到一条警告，指出我们使用内核使用了非设备上的数据。这条警告的产生的原因是将数据从主机移动到设备非常慢，我们应该在所有参数中使用设备数组调用内核。所以我们需要预先将数组从主机移动到设备：

 dev_a = cuda.to_device(a)
 dev_b = cuda.to_device(b)

每个线程唯一索引的计算可能很快就会过期， Numba 提供了非常简单的包装器 cuda.grid，它以网格维度作为唯一参数调用。所以我们新的内核将如下：

 # Example 1.3: Add arrays with cuda.grid
 @cuda.jit
 def add_array(a, b, c):
     i = cuda.grid(1)
     if i < a.size:
         c[i] = a[i] + b[i]
 
 add_array[4, 8](dev_a, dev_b, dev_c)
 
 c = dev_c.copy_to_host()
 print(c)
 
 #  [ 0.  2.  4.  6.  8. 10. 12. 14. 16. 18. 20. 22. 24. 26. 28. 30. 32. 34. 36. 38.]

如果我们改变数组的大小时会发生什么？我们这里不改变函数而更改网格参数（块数和每个块的线程数），这样就相当于启动至少与数组中的元素一样多的线程。

设置这些参数有一些”科学“和一些”艺术“。对于“科学”：（a）它们应该是 2 的倍数，通常在 32 到 1024 之间，并且（b）它们应该都被使用以最大化占用率（有多少线程同时处于活动状态）。所以Nvidia 提供了一个可以帮助计算这些的电子表格。（https://docs.nvidia.com/cuda/cuda-occupancy-calculator/index.html）对于“艺术”而言，没有什么可以预测内核的行为，因此如果真的想优化这些参数，需要根据不同的输入来分析代码。但是根据经验一般GPU 的“合理”线程数是 256。

 N = 1_000_000
 a = np.arange(N, dtype=np.float32)
 b = np.arange(N, dtype=np.float32)
 
 dev_a = cuda.to_device(a)
 dev_b = cuda.to_device(b)
 dev_c = cuda.device_array_like(a)
 
 threads_per_block = 256
 blocks_per_grid = (N + (threads_per_block - 1)) // threads_per_block
 # Note that
 #     blocks_per_grid == ceil(N / threads_per_block)
 # ensures that blocks_per_grid * threads_per_block >= N
 
 add_array[blocks_per_grid, threads_per_block](dev_a, dev_b, dev_c)
 
 c = dev_c.copy_to_host()
 np.allclose(a + b, c)
 
 #  True

代码方面是没有问题了，但是因为硬件限制GPU 不能运行任意数量的线程和块。通常每个块不能超过 1024 个线程，一个网格不能超过 2¹⁶ - 1 = 65535 个块。但是这并不是说可以启动 1024 × 65535 个线程……因为还需要根据寄存器占用的内存量以及其他的因素考虑。还有一点就是处理不适合 GPU RAM 的大型数组（也就是OOM）。在这些情况下，可以使用多个 GPU 分段处理数组（单机多卡）。

在 Python 中，硬件限制可以通过 Nvidia 的 cuda-python 库的函数 cuDeviceGetAttribute 获得，具体请查看该函数说明。

Grid-stride循环

在每个网格的块数超过硬件限制但显存中可以容纳完整数组的情况下，可以使用一个线程来处理数组中的多个元素，这种方法被称为Grid-stride。除了克服硬件限制之外，Grid-stride还受益于重用线程，这样可以将线程创建/销毁开销降到最低。Mark Harris 的文章 CUDA Pro Tip: Write Flexible Kernels with Grid-Stride Loops 详细介绍这个方法，这里就不再介绍了。

在 CUDA 内核中添加一个循环来处理多个输入元素，这个循环的步幅等于网格中的线程数。这样如果网格中的线程总数 (threads_per_grid = blockDim.x * gridDim.x) 小于数组的元素数，则内核处理完索引 cuda.grid(1)它将处理索引 cuda.grid(1) + threads_per_grid，直到处理完所有数组元素，我们来看代码。

 # Example 1.4: Add arrays with grid striding
 @cuda.jit
 def add_array_gs(a, b, c):
     i_start = cuda.grid(1)
     threads_per_grid = cuda.blockDim.x * cuda.gridDim.x
     for i in range(i_start, a.size, threads_per_grid):
         c[i] = a[i] + b[i]
 
 threads_per_block = 256
 blocks_per_grid_gs = 32 * 80  # Use 32 * multiple of streaming multiprocessors
 # 32 * 80 * 256 < 1_000_000 so one thread will process more than one array element
 
 add_array_gs[blocks_per_grid_gs, threads_per_block](dev_a, dev_b, dev_c)
 c = dev_c.copy_to_host()
 np.allclose(a + b, c)
 
 #  True

这段代码与上面的代码非常相似，不同之处在于从cuda.grid(1)开始，但是执行更多的元素，每个threads_per_grid执行一个元素，直到到达数组的末尾。

那么那种方式更快呢?

CUDA 内核的计算时间

GPU 编程的目标就是提高速度。因此准确测量代码执行时间非常重要。

CUDA内核是由主机(CPU)启动的设备函数但它们是在GPU上执行的，GPU和CPU不通信（除非我们让它们通信）。因此当GPU内核被启动时，CPU将简单地继续运行后续指令，不管它们是启动更多的内核还是执行其他CPU函数。所以如果在内核启动前后分别调用time.time()，则只获得了内核启动所需的时间，而不是计算运行所需的时间。

所以这里就需要进行同步，也就是调用 cuda.synchronize()函数，这个函数将停止主机执行任何其他代码，直到 GPU 完成已在其中启动的每个内核的执行。

为了计算内核执行时间，可以简单地计算内核运行然后同步所需的时间，但是需要使用 time.perf_counter() 或 time.perf_counter_ns() 而不是 time.time()。

在使用 Numba 时，我们还有一个细节需要注意：Numba 是一个 Just-In-Time 编译器，这意味着函数只有在被调用时才会被编译。因此计时函数的第一次调用也会计时编译步骤，这通常要慢得多。所以必须首先通过启动内核然后对其进行同步来编译代码，确保了下一个内核无需编译即可立即运行，这样得到的时间才是准确的。

 from time import perf_counter_ns
 
 # Compile and then clear GPU from tasks
 add_array[blocks_per_grid, threads_per_block](dev_a, dev_b, dev_c)
 cuda.synchronize()
 
 timing = np.empty(101)
 for i in range(timing.size):
     tic = perf_counter_ns()
     add_array[blocks_per_grid, threads_per_block](dev_a, dev_b, dev_c)
     cuda.synchronize()
     toc = perf_counter_ns()
     timing[i] = toc - tic
 timing *= 1e-3  # convert to μs
 
 print(f"Elapsed time: {timing.mean():.0f} ± {timing.std():.0f} μs")
 
 #  Elapsed time: 201 ± 109 μs
 
 # Compile and then clear GPU from tasks
 add_array_gs[blocks_per_grid_gs, threads_per_block](dev_a, dev_b, dev_c)
 cuda.synchronize()
 
 timing_gs = np.empty(101)
 for i in range(timing_gs.size):
     tic = perf_counter_ns()
     add_array_gs[blocks_per_grid_gs, threads_per_block](dev_a, dev_b, dev_c)
     cuda.synchronize()
     toc = perf_counter_ns()
     timing_gs[i] = toc - tic
 timing_gs *= 1e-3  # convert to μs
 
 print(f"Elapsed time: {timing_gs.mean():.0f} ± {timing_gs.std():.0f} μs")
 
 #  Elapsed time: 178 ± 141 μs

对于简单的内核，还可以测量算法的整个过程获得每秒浮点运算的数量。通常以GFLOP/s (giga-FLOP /s)为度量单位。加法操作只包含一个触发器:加法。因此，吞吐量由:

 #              G * FLOP       / timing in s
 gflops    = 1e-9 * dev_a.size * 1e6 / timing.mean()
 gflops_gs = 1e-9 * dev_a.size * 1e6 / timing_gs.mean()
 
 print(f"GFLOP/s (algo 1): {gflops:.2f}")
 print(f"GFLOP/s (algo 2): {gflops_gs:.2f}")
 
 #  GFLOP/s (algo 1): 4.99
 #  GFLOP/s (algo 2): 5.63

一个二维的例子

下面使用一个更复杂的例子，我们创建一个2D内核来对图像应用对数校正。

给定一个值在0到1之间的图像I(x, y)，对数校正图像由

Iᵪ(x, y) = γ log₂(1 + I(x, y))

首先让我们获取一些数据!

 import matplotlib.pyplot as plt
 from skimage import data
 
 moon = data.moon().astype(np.float32) / 255.
 
 fig, ax = plt.subplots()
 im = ax.imshow(moon, cmap="gist_earth")
 ax.set_xticks([])
 ax.set_yticks([])
 ax.set_xticklabels([])
 ax.set_yticklabels([])
 fig.colorbar(im)
 fig.tight_layout()

数据在较低端饱和了。几乎没有高于0.6的值。

现在编写核函数。

 import math
 
 # Example 1.5: 2D kernel
 @cuda.jit
 def adjust_log(inp, gain, out):
     ix, iy = cuda.grid(2) # The first index is the fastest dimension
     threads_per_grid_x, threads_per_grid_y = cuda.gridsize(2) #  threads per grid dimension
     
     n0, n1 = inp.shape # The last index is the fastest dimension
     # Stride each dimension independently
     for i0 in range(iy, n0, threads_per_grid_y):
         for i1 in range(ix, n1, threads_per_grid_x):
             out[i0, i1] = gain * math.log2(1 + inp[i0, i1])
 
 threads_per_block_2d = (16, 16)  #  256 threads total
 blocks_per_grid_2d = (64, 64)
 
 moon_gpu = cuda.to_device(moon)
 moon_corr_gpu = cuda.device_array_like(moon_gpu)
 
 adjust_log[blocks_per_grid_2d, threads_per_block_2d](moon_gpu, 1.0, moon_corr_gpu)
 moon_corr = moon_corr_gpu.copy_to_host()
 
 fig, (ax1, ax2) = plt.subplots(1, 2)
 ax1.imshow(moon, cmap="gist_earth")
 ax2.imshow(moon_corr, cmap="gist_earth")
 ax1.set(title="Original image")
 ax2.set(title="Log-corrected image")
 for ax in (ax1, ax2):
     ax.set_xticks([])
     ax.set_yticks([])
     ax.set_xticklabels([])
     ax.set_yticklabels([])
 fig.tight_layout()

第一个for循环从iy开始，第二个最里面的循环从ix开始。为什么选择这个顺序呢?这种选择的内存访问模式更有效。因为第一个网格索引是最快的，所以我们想让它匹配最快的维度:最后一个维度。

结果如下:

总结

本文中介绍了Numba和CUDA的基础知识，我们可以创建简单的CUDA内核，并将其从内存移动到GPU的显存来使用它们。还介绍了如何使用Grid-stride技术在1D和2D数组上迭代。

附录:使用Nvidia的cuda-python来查看设备属性

要对GPU的确切属性进行细粒度控制，可以使用Nvidia提供的较低级别的官方CUDA Python包，代码如下：

 # Need to: pip install --upgrade cuda-python
 
 from cuda.cuda import CUdevice_attribute, cuDeviceGetAttribute, cuDeviceGetName, cuInit
 
 # Initialize CUDA Driver API
 (err,) = cuInit(0)
 
 # Get attributes
 err, DEVICE_NAME = cuDeviceGetName(128, 0)
 DEVICE_NAME = DEVICE_NAME.decode("ascii").replace("\x00", "")
 
 err, MAX_THREADS_PER_BLOCK = cuDeviceGetAttribute(
     CUdevice_attribute.CU_DEVICE_ATTRIBUTE_MAX_THREADS_PER_BLOCK, 0
 )
 err, MAX_BLOCK_DIM_X = cuDeviceGetAttribute(
     CUdevice_attribute.CU_DEVICE_ATTRIBUTE_MAX_BLOCK_DIM_X, 0
 )
 err, MAX_GRID_DIM_X = cuDeviceGetAttribute(
     CUdevice_attribute.CU_DEVICE_ATTRIBUTE_MAX_GRID_DIM_X, 0
 )
 err, SMs = cuDeviceGetAttribute(
     CUdevice_attribute.CU_DEVICE_ATTRIBUTE_MULTIPROCESSOR_COUNT, 0
 )
 
 print(f"Device Name: {DEVICE_NAME}")
 print(f"Maximum number of multiprocessors: {SMs}")
 print(f"Maximum number of threads per block: {MAX_THREADS_PER_BLOCK:10}")
 print(f"Maximum number of blocks per grid:   {MAX_BLOCK_DIM_X:10}")
 print(f"Maximum number of threads per grid:  {MAX_GRID_DIM_X:10}")
 
 #  Device Name: Tesla T4                                                                
 #  Maximum number of multiprocessors: 40
 #  Maximum number of threads per block:       1024
 #  Maximum number of blocks per grid:         1024
 #  Maximum number of threads per grid:  2147483647

https://avoid.overfit.cn/post/9c18d13573384744934f52ad9361f55c
作者：Carlos Costa

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

从头开始进行CUDA编程：Numba并行编程的基本概念

Python中使用CUDA

GPU 的并行编程简介

开始编写代码

使用CUDA进行并行化编程

总结

你可能感兴趣的:(python,CUDA,Numba,深度学习)