布林组-？

第八章 CUDA共享内存的合理使用

前一章讨论了全局内存的合理使用，本章接着讨论共享内存的合理使用。共享内存是一种可直接被程序员直接操控的缓存，主要作用有两个：一个是一个是减少核函数中对全局内存的访问次数，实现高效的线程块内部的通信；另一个是提高全局内存访问的合并度。本章将通过具体的例子阐明共享内存的合理使用，包括一个数组规约的例子和矩阵转置的例子。其中在CUDA中数组规约是一个非常适合学习CUDA编程的例子，通过他可以了解到CUDA编程的很多方面，如后两章的原子函数和后三章的线程束内的函数和协作组。

8.1 例子:数组规约的计算

考虑一个有N个元素的数组x，假如我们需要计算该数组中所有元素的和即sum=x[0]+x[1]+...+x[N-1],下列代码给出一个C++函数。

real reduce(const real *x,const int N)
{
    real sum=0.0;
    for(int n=0;n

 
  在这个例子中考虑一个长度为1e8的一维数组，在主函数中，将数组元素初始化为1.23调用reduce()使用双精度浮点数时，该程序输出
         sum = 123000000.110771.
 结果表示前9位有效数字都正确，从第十位开始出现错误，在使用单精度浮点型时
         sum = 33554432.000000.该结果完全错误，这是因为在累加的过程中出现了所谓的“大数吃小数”的现象。单精度浮点数只有7位有效数字，在上面的函数中，将变量累加到3000多万之后，在将其与1.23相加，其值就不会增加了。现在已经发展出更为安全的求和算法，如Kahan等。在后续学习过程中CUDA算法要比C++实现要稳健的多，使用单精度浮点数时结果也相当准确。 
  8.1.1 仅使用全局内存 
          数组规约的并行计算显然比数组相加的问题更为复杂一些。对于数组相加的并行计算问题，只需要定义和数组元素一样多的线程，让一个线程去对两个数进行求和即可。对于数组规约的并行计算问题，需要从一个数组出发，最终得到一个数。所以必须使用某种迭代方案。假设数组元素个数是2的整数次方(稍后会去掉这个假定)，可以把后半部分的各个元素与前半部分对应的数组元素相加。如此重复这个过程，最后得到的第一个数组元素就是最初的数组中各个元素的和。这就是所谓的折半规约(binary reduction)法。假设使用一维网格和线程块，并将核函数的网格大小与线程块大小的乘积取为N，可能会写出如下的程序 
  void __global__ reduce(real *d_x,int N)
{
    int n=threadIdx.x+blockDim.x*blockIdx.x;
    for(int offset=N/2;offset>0;offset/=2)
    {
        if(n
 
  
   
  并认为核函数执行完之后d_x的和就保存在d_x[0]中了。然而，用该核函数并不能得到正确的结果。这是因为这是对于多线程的程序，两个不同线程中指令的执行次序可能和代码中所展现的次序不同。为了方便分析,将上述核函数中循环的前两次迭代明显的写出来 
  if(n
 
  考察对数组元素d_x[N/4]的操作。第一个迭代中，会向数组元素d_x[N/4]写入数据(由线程n=N/4执行)；在第二次迭代中，会从d_x[N/4]取出数据的操作，由线程0执行。有一种可能的情况：在线程n=0开始执行第二行语句时，线程n=N/4还没执行完第一行的语句，如果这种情况发生了，就有可能得到意外的结果。
         要保证核函数中语句的执行顺序与出现顺序一致，就必须使用某种同步机制，在CUDA中，提供了一个同步函数__syncthreads()。该函数只能用在核函数中，其最贱的用法就是不带任何参数。__syncthreads();该函数可以保证一个线程块中的所有线程(或者说是线程束)在执行该语句后面的语句的时候都完全执行了该语句前面的语句。然而，该函数只是针对同一个线程块中的线程，不同线程块中线程的执行次序依然是不确定的。
         既然函数__syncthreads()能够同步单个线程块中的线程，那么我们就利用该功能让每个线程块对其中的数组元素进行规约，以下代码给出了规约核函数。
   
  __global__ void reduce_global(real *d_x,real *d_y)
{
    const int tid=threadIdx.x;
    real *x=d_x+blockDim.x*blockIdx.x;
    
for(int offset=blockDim.x>>1;offset>0;offset>>=1)
{
    if(tid
 
  下面是该核函数值得注意的地方：
         (1)核函数的第四行定义了一个指针x。赋值符号的右边(动态)数组d_x中的第blockDim.x*blockIdx.x个元素的地址。所以第四行也可以写成
         real *x=&d_x[blockDim.x*blockIdx.x];
 这样定义的x在不同的线程块中指向全局内存中不同的地址，使得我们可以在不同的线程块中对数组d_x中的不同部分进行规约。具体得说，每一个线程块处理blockDim.x个数据，这里不再假设N/2的整数次方，但假设N能被blockDim.x整除，并且假设bclokDim.x是2的整数次方(作者采用最常用的线程块大小128)。
         (2)第6-13行就是在各个线程块内对其中的数据独立地进行规约，第12行的同步语句确保了同一个线程块中的线程按照代码出现的顺序执行指令。至于两个不同线程块中的线程，则不一定按照代码出现的顺序执行指令，但这不影响程序的正确性，这是因为，在核函数中，每个线程块都处理不同的数据，相互之间没有依赖。总结来说就是说，一个线程块内的线程需要合作，所以需要同步；两个线程块之间不需要合作，所以不需要同步。
         (3)核函数的第6行也值得注意。这里将blockDim.x/2写成了blockDim.x>>1,并将offset/2写成了offset>>=1。这是利用了位操作。以上不同写法在结果上的等价要求blockDim.x和offset都是2的整数次方。在核函数中，位操作比对应的整数操作高效。当所涉及的变量在编译期间就知道其可能的取值时，编译器会自动用位操作取代响应的整数操作，但明显的使用位操作也是不错的做法。
         (4)该核函数仅仅将一个长度为1e8的数组规约成一个长度为1e8/128的数组d_y。为了计算整个数组的长度，将把数组d_y从设备复制到主机，并继续在主机中对d_y继续进行规约，得到最终的计算结果，这样做不是很高效，但目前先这样做。
         用如下命令编译(其中的-O3是针对主机代码的)
         nvcc -O3 -arch=sm_75 reduce2gpu.cu
         全部计算包括核函数的执行、将数组d_y从设备中复制到主机及在主机中对数组d_y进行规约，所花时间为6ms，计算速度大致为CPU版本的20倍。  
  8.1.2 使用共享内存 
           在前一个版本的核函数中，对全局内存地访问是很频繁的。前面介绍过全局内存的访问速度是所有内存中最低的，应该减少对他的使用。所有设备内存中，寄存器是最高效的，但在需要线程合作的问题中，用仅对单个线程可见的寄存器是不够的的，需要定义对整个线程块可见的共享内存。
         在核函数中，要将一个变量定义为共享内存变量，就要在定义语句中加上一个限定符__shared__。一般情况下，需要一个长度等于线程块大小的数组，在当前问题中，可以定义以下共享内存数组：
         __shared__ real s_y[128];
 如果没有限定符__shared__,极有可能定义一个长度为128的局部数组，常用s_给共享内存变量进行赋值，而用d_给全局变量进行赋值。需要强调的是，在一个核函数中定义一个共享内存变量，相当于在每一个线程块中有了一个该变量的一个副本。每个副本都不一样，虽然他们共用一个变量名。呵呵那函数中对共享内存的操作都是同时作用在所有副本上的，这种并行的特征在使用共享内存时需要牢记在心。
         以下函数给出了静态个in小GIANG内存的规约核函数：
   
  void __global__ reduce_shared(real *d_x,real *d_y)
{
    const int tid=threadIdx.x;
    const int bid=blockIdx.x;
    const int n=bid*blockDim.x+tid;
    __shared__ real s_y[128];
    s_[tid]=(n>1;offset>0;offset>>=1)
{

    if(tid
 
          (1)第6行定义了共享内存数组s_y[128].
         (2)第7行将全局内存中的数据复制到共享内存中去，这里用到了前面所说的共享内存的特征：每个线程都有一个共享内存变量的副本。第七行的语句所实现的功能可以展开如下：
                 1)当bid等于0的时候，将内存中第0到blockDim.x-1个数组元素复制给第0个线程块的共享内存变量副本。
                 2) 当bid等于1的时候，将全局变量中的第blockDim.x到第2*blockDim.x-1个数组元素复制给第一个线程块的共享内存变量副本。
                 3)因为这里有n=N对应的共享内存数组元素将被赋值为0，不对规约结果产生影响。
          (3)在第八行调用函数__syncthreads()进行线程块内的同步。在使用共享内存进行线程块之间的合作和通信的时候，都要进行同步，以确保共享内存中的数据对线程块内的所有线程都准备就绪。
         (4)第10-18行的规约计算用共享内存变量替换了原来的全局内存变量。这里也要记住：每个线程块都对其中的共享内存副本进行了操作。在规约过程结束后，每一个线程块中的s_y[0]副本保存了若干数组元素的和。
         (5)因为共享内存的生命周期仅仅在核函数中，多以必须将之前的共享内存中的某些结果保存到全局变量中，如20-23行所示，这里的判断if(tid==0)可保证在一个线程块中只执行一次，该语句的作用可以展开如下：
         1)当bid等于0时，将第0个线程块中的s_y[0]的副本复制给d_y[0];
         2)当bid等于1时，将第1个线程块中的s_y[0]赋值给d_y[1];
                用装有GeForce MX450的计算机进行测试，使用单精度浮点数时，全部计算(包括核函数的执行、将数组d_y从设备复制到主机以及在主机中对数组d_y进行归纳)所花时间大致为6ms，和不用共享内存的版本的所用时间相当。一般来说使用共享内存减少全局内存的访问一般会带来性能的提升。但也不是绝对，一般来说，共享内存地访问次数越多，使用共享内存带来的加速效果越明显。在我们的数组规约的问题中，使用共享内存相对于仅使用全局内存有两个好处：一个是不再要求全局内存数组的长度N是线程块大小的整数倍，另一个是在规约的过程中不会改变全局内存中的数据。 
  8.1.3 使用动态共享内存 
          在前面的核函数中，定义了共享内存数组时指定了一个固定的长度(128).程序假定了长度与核函数的执行配置block_size(与核函数中的blockDim.x)是一样的。如果在定义共享内存变量时不小心把数组长度写错了，可能引起错误或降低核函数性能。
         有一种方法可以减少这种错误的发生，那就是使用动态的共享内存，将上一个版本中的静态共享内存改成动态共享内存，只需要做以下两处修改。
         (1)调用核函数的执行配置中写下第三个参数：
         <<>>
 前两个参数分别为网格大小和线程块大小，第三个参数就是核函数中的每个线程块需要定义的动态共享内存的字节数。在我们的以前所有的配置过程中，这个参数没有出现，实质上是被定义为了0.
         (2)要使用动态共享内存，需要改变共享内存变量的声明方式，例如：
         extern __shared__ real s_y[];
 它与之前静态共享内存变量声明方式：
         __shared__ real s_y[];
 有两点的不同，第一必须加上限定词__shared__；第二不能指定数组的大小，但不能变成指针，
         __shared__ real *s_y;但这是错的，因为数组并不代表为指针。
         无论用什么GPU 使用动态共享内存__shared real s_y[]或者__shared__ real s_y[128]执行并无太大区别。 
  8.2 使用共享数据类型进行矩阵转置 
          在前一章中，讨论了矩阵转置的计算，重点考察了全局内存的访问模式对于核函数的影响，在矩阵转置问题中，对全局内存的读或写操作总有一个是非合并的。本节可以看到共享内存可以改善全局内存的访问模式，使得对于全局内存的读和写都是合并的。以下代码为使用共享内存进行矩阵转置的函数：
   
  const int MatrixDim=124;
const int block_size=32;
void __global__ transpose1(const real *A,real*B)
{
    __shared__ real S[block_size][block_size];
    int bx=blockIdx.x*block_size;
    int by=blockIdx.y*block_size;
    
    int nx1=bx+threadIdx.x;
    int ny1=by+threadIdx.y;
    if(nx1
 
  下面对该函数详细的解释：
         (1)在矩阵转置的核函数中，其中心思想是用一个线程块处理一片1片(tile)矩阵。这里一片矩阵的行数和列数都是32.为了利用共享内存全局内存的访问方式，在第三列定义了一个两维的静态共享内存数组S，其行数和列数与一片矩阵的行数和列数相同。
         (2)第11行，将一片矩阵从全局内存中数组A中读取出来，存放在共享内存数组中。这里对全局内存的访问是合并的，因为相邻的threadIdx.x与全局内存中相邻的数据对应。
         (3)第13行，将共享内存中的数据写入全局内存数组B之前，进行一次线程块内的同步操作，一般来说，利用共享内存中的数据之前，都要进行线程块内的同步操作，以确保共享内存数组中的所有元素都已经更新完毕。
         (4)接下来几行尤为关键，为了更好的理解代码，将第15-20行改写成以下形式：
         int nx2=bx+threadIdx.x;
         int ny2=by+threadIdx.y;
         if(nx2 {
         B[nx2*N+ny2]=S[threadIdx.y][threadIdx.x];
 }
 这样改写后的核函数与第七章的核函数相比，唯一的区别就是将全局内存转移到了共享内存，然后由原封不动的转移到了全局内存，并没有改变对全局内存的访问方式。要改变对全局内存的访问方式很简单：只要调换这几行代码的threadIdx.x和threadIdx.y即可，其中对于内存数组B的访问也是合并的，因为相邻threadIdx.x与内存数组B中相邻的数据对应。 
  8.3 避免共享内存的bank冲突 
          关于共享内存，有一个内存bank的概念值得注意。为了获得高的内存带宽，共享内存在物理上被分为了32个(刚好等于一个线程束中的线程数目)。可以将32个bank从0-31编号。在每一个bank中，又可以对其中的内存地址从0开始编号。为方便起见，我们将所有bank中编号为0的内存称为第一层内存，将所有bank中编号为1的内存称为第二层内存。在开普勒架构中，每个bank的宽度为8字节，在所有其他架构中，每个bank的宽度为4字节。这里不管住开普勒架构。
         对于bank宽度为四字节的架构，共享内存数组是按照如下方式线性地映射到内存bank中的：共享内存数组中连续的128个字节的内容分摊到32个bank的某一层中，每个bank负责4字节的内容。例如：对一个长度为128单精度浮点数变量的共享内存数组而言，第0-31个数组元素依次对应到32个bank的第一层；第32-63个数组元素依次对应到32个bank的第二层；第64-95个数组元素依次对应到32个bank的第三层；第96-127个数组元素依次对应到32个bank的第四层，也就是说每个bank分摊四个在低智商相差128字节的数据
 
          只要同一线程束内的多个线程不同时访问同一个bank不同层的数据，该线程束对共享内存的访问就只需要依次内存事务。当同一线程束的多个线程试图访问同一个bank不同层的数据时，就会发生bank冲突。在一个线程束内对同一个bank的n层数据同时访问将导致n次内存事务，称为发生了n路bank冲突。最坏的情况是线程束内32个线程同时访问同一个bank中32个不同层的地址，这将导致32路bank冲突。这种n很大的bank冲突要尽量避免。
         在8.2节中的核函数transpose1()中，定义了一个长度为32*32=1024的单精度浮点型变量的共享内存数组。其中每个共享内存bank(非开普勒架构而言)对应32个连续的数组元素；每个bank有32层数据，8.2节中transpose1()函数可以看出，同一个线程束中的32个线程(连续的32个threadIdx.x的值) 将对应共享内存数组S中跨度为32的线程。也就是说，这32个线程将刚好访问同一个bank中的32个数据，这将导致32路bank冲突，但第11行没有bank冲突。
         通常可以改变共享内存数组大小的方式来消除或减轻共享内存的bank冲突。例如见上述函数中的共享内存定义修改如下：
         __shared__ real S[32][32+1]
 这样就可以完全消除19行中读取共享内存时的bank冲突。这是因为，这样改变共享内存的数组大小之后，同一个线程束中的32个线程(连续的32个threadIdx.x的值)将对应共享内存数组S中跨度为33的数据，如果第一个线程访问第一个bank的第一层；第二个线程会访问第二个bank的第二层，于是这32个线程将分别访问32个不同的bank中的数据，所以没有bank冲突。

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
有必要获得WHQL测试认证吗，有什么好处？
什么是WHQL认证？WHQL是MicrosoftWindowsHardwareQualityLab的缩写，中文意思是Windows硬件设备质量实验室，主要是对Windows操作系统的兼容性测试，检验硬件产品和驱动程序在windows系统下的兼容性和稳定性。当某一硬件或软件通过WHQL测试时，制造商可以在其产品包装和广告上使用“DesignedforWindows”标志。该标志可以证明硬件或软件已经
驱动程序为什么要做 WHQL 认证? GDCA SSL证书网络协议网络
驱动程序进行WHQL（WindowsHardwareQualityLabs）认证的核心价值在于解决兼容性、安全性和市场准入三大关键问题，具体必要性如下：️‌一、规避系统拦截，保障驱动可用性‌消除安装警告‌未认证的驱动在安装时会触发Windows的‌红色安全警告‌（如“无法验证发布者”），甚至被系统强制拦截。通过WHQL认证的驱动获得微软数字签名，用户可无阻安装‌。满足系统强制要求‌Windows1
WHQL签名怎么申请 GDCA SSL证书 windows
WHQL（WindowsHardwareQualityLabs）签名是微软对硬件和驱动程序进行认证的一种方式，以确保它们与Windows操作系统的兼容性和稳定性。以下是申请WHQL签名的基本步骤，供您参考：1.准备阶段准备硬件设备和驱动程序：确保您的硬件设备已经准备好，并且对应的驱动程序已经经过充分的测试，能够在各种配置和环境下正常工作。获取EV代码签名证书：根据微软的要求，驱动程序进行WHQL认
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
上位机知识篇---SD卡&U盘镜像
常用的镜像烧录软件balenaEtcherbalenaEtcher是一个开源的、跨平台的工具，用于将操作系统镜像文件（如ISO和IMG文件）烧录到SD卡和USB驱动器中。以下是其使用方法、使用场景和使用注意事项的介绍：使用方法下载安装：根据自己的操作系统，从官方网站下载对应的安装包。Windows系统下载.exe文件后双击安装；Linux系统若下载的是.deb文件，可在终端执行“sudodpkg-
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
嵌入式系统LCD显示模块编程实践
本文还有配套的精品资源，点击获取简介：本文档提供了一个具有800x480分辨率的3.5英寸液晶显示模块LW350AC9001的驱动程序代码，以及嵌入式系统中使用C/C++语言进行硬件编程的实践指南。该模块的2mm厚度使其适用于空间受限的便携式设备。内容包括驱动程序源代码、硬件控制接口使用方法，以及如何在嵌入式系统中进行图形处理、电源管理与性能优化。1.嵌入式系统原理1.1嵌入式系统概念嵌入式系统是
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
【超硬核】JVM源码解读：Java方法main在虚拟机上解释执行 HeapDump性能社区 java 开发语言后端 jvm
本文由HeapDump性能社区首席讲师鸠摩（马智）授权整理发布第1篇-关于Java虚拟机HotSpot，开篇说的简单点开讲Java运行时，这一篇讲一些简单的内容。我们写的主类中的main()方法是如何被Java虚拟机调用到的？在Java类中的一些方法会被由C/C++编写的HotSpot虚拟机的C/C++函数调用，不过由于Java方法与C/C++函数的调用约定不同，所以并不能直接调用，需要JavaC
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
C++ 设计模式：抽象工厂（Abstract Factory）冀晓武 C++设计模式 c++设计模式抽象工厂模式
链接：C++设计模式链接：C++设计模式-工厂方法链接：C++设计模式-原型模式链接：C++设计模式-建造者模式抽象工厂（AbstractFactory）是一种创建型设计模式，它提供一个接口，用于创建一系列相关或相互依赖的对象，而无需指定它们的具体类。抽象工厂模式通常用于创建一组相关的产品对象，例如不同类型的机器人和它们的配件。1.问题分析在某些情况下，我们需要创建一组相关或相互依赖的对象，但我们
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
C++设计模式：简单工厂、工厂方法、抽象工厂起个别名 C++算法 c++
1.工厂模式的特点在我们现实生活中，买馒头和自己蒸馒头、去饭店点一份大盘鸡和自己养鸡，杀鸡，做大盘鸡，这是全然不同的两种体验：自己做麻烦，而且有失败的风险，需要自己承担后果。买现成的，可以忽略制作细节，方便快捷并且无风险，得到的肯定是美味的食物。对于后者，就相当于是一个加工厂，通过这个工厂我们就可以得到想要的东西，在程序设计中，这种模式就叫做工厂模式，工厂生成出的产品就是某个类的实例，也就是对象。
windows安装pnpm后报错：pnpm : 无法将“pnpm”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。 Ithao2 Vue npm 前端 node.js
使用npm方式安装pnpm,命令如下：npminstall-gpnpm安装完以后，执行pnpm-v查看版本号：pnpm-v执行完发现报错：pnpm:无法将“pnpm”项识别为cmdlet、函数、脚本文件或可运行程序的名称。尝试配置环境变量，重启后均不生效。解决方案：使用PowerShell进行安装1.以管理员用户打开PowerShell，执行如下命令：iwrhttps://get.pnpm.io/
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
Mac自定义右键功能东东旭huster macos
mac右键相对于Windows来说功能少很多，市场里也有一些好用的拓展软件，比如赤友，但是用一段时间又要收费了，作为一个白嫖党当然是自己做了。打开自动操作这个应用选择快速操作打开，再从实用工具中选择运行shell脚本这里我们添加一个用vscode打开的功能有几个点需要注意下1、工作流程选择文件或文件夹2、位于访达3、传递输入选择作为自变量编辑好后可以点运行试下，没问题command+S保存一下。在
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

第八章 CUDA共享内存的合理使用

8.1 例子:数组规约的计算

8.1.1 仅使用全局内存

8.1.2 使用共享内存

8.1.3 使用动态共享内存

8.2 使用共享数据类型进行矩阵转置

8.3 避免共享内存的bank冲突

你可能感兴趣的:(CUDA从入门到实践,算法,数据结构,windows,c++,人工智能)