我来了！！！

CUDA学习笔记（十三） Shared Memory

CUDA SHARED MEMORY

shared memory在之前的博文有些介绍，这部分会专门讲解其内容。在global Memory部分，数据对齐和连续是很重要的话题，当使用L1的时候，对齐问题可以忽略，但是非连续的获取内存依然会降低性能。依赖于算法本质，某些情况下，非连续访问是不可避免的。使用shared memory是另一种提高性能的方式。

GPU上的memory有两种：

· On-board memory

· On-chip memory

global memory就是一块很大的on-board memory，并且有很高的latency。而shared memory正好相反，是一块很小，低延迟的on-chip memory，比global memory拥有高得多的带宽。我们可以把他当做可编程的cache，其主要作用有：

· An intra-block thread communication channel 线程间交流通道

· A program-managed cache for global memory data可编程cache

· Scratch pad memory for transforming data to improve global memory access patterns

本文主要涉及两个例子作解释：reduction kernel，matrix transpose kernel。

shared memory（SMEM）是GPU的重要组成之一。物理上，每个SM包含一个当前正在执行的block中所有thread共享的低延迟的内存池。SMEM使得同一个block中的thread能够相互合作，重用on-chip数据，并且能够显著减少kernel需要的global memory带宽。由于APP可以直接显式的操作SMEM的内容，所以又被称为可编程缓存。

由于shared memory和L1要比L2和global memory更接近SM，shared memory的延迟比global memory低20到30倍，带宽大约高10倍。

当一个block开始执行时，GPU会分配其一定数量的shared memory，这个shared memory的地址空间会由block中的所有thread 共享。shared memory是划分给SM中驻留的所有block的，也是GPU的稀缺资源。所以，使用越多的shared memory，能够并行的active就越少。

关于Program-Managed Cache：在C语言编程里，循环（loop transformation）一般都使用cache来优化。在循环遍历的时候使用重新排列的迭代顺序可以很好利用cache局部性。在算法层面上，我们需要手动调节循环来达到令人满意的空间局部性，同时还要考虑cache size。cache对于程序员来说是透明的，编译器会处理所有的数据移动，我们没有能力控制cache的行为。shared memory则是一个可编程可操作的cache，程序员可以完全控制其行为。

Shared Memory Allocation

我们可以动态或者静态的分配shared Memory，其声明即可以在kernel内部也可以作为全局变量。

其标识符为：__shared__。

下面这句话静态的声明了一个2D的浮点型数组：

__shared__ float tile[size_y][size_x];

如果在kernel中声明的话，其作用域就是kernel内，否则是对所有kernel有效。如果shared Memory的大小在编译器未知的话，可以使用extern关键字修饰，例如下面声明一个未知大小的1D数组：

extern __shared__ int tile[];

由于其大小在编译器未知，我们需要在每个kernel调用时，动态的分配其shared memory，也就是最开始提及的第三个参数：

kernel<<>>(...)

应该注意到，只有1D数组才能这样动态使用。

Shared Memory Banks and Access Mode

之前博文对latency和bandwidth有了充足的研究，而shared memory能够用来隐藏由于latency和bandwidth对性能的影响。下面将解释shared memory的组织方式，以便研究其对性能的影响。

Memory Banks

为了获得高带宽，shared Memory被分成32（对应warp中的thread）个相等大小的内存块，他们可以被同时访问。不同的CC版本，shared memory以不同的模式映射到不同的块（稍后详解）。如果warp访问shared Memory，对于每个bank只访问不多于一个内存地址，那么只需要一次内存传输就可以了，否则需要多次传输，因此会降低内存带宽的使用。

Bank Conflict

当多个地址请求落在同一个bank中就会发生bank conflict，从而导致请求多次执行。硬件会把这类请求分散到尽可能多的没有conflict的那些传输操作里面，降低有效带宽的因素是被分散到的传输操作个数。

warp有三种典型的获取shared memory的模式：

· Parallel access：多个地址分散在多个bank。

· Serial access：多个地址落在同一个bank。

· Broadcast access：一个地址读操作落在一个bank。

Parallel access是最通常的模式，这个模式一般暗示，一些（也可能是全部）地址请求能够被一次传输解决。理想情况是，获取无conflict的shared memory的时，每个地址都在落在不同的bank中。

Serial access是最坏的模式，如果warp中的32个thread都访问了同一个bank中的不同位置，那就是32次单独的请求，而不是同时访问了。

Broadcast access也是只执行一次传输，然后传输结果会广播给所有发出请求的thread。这样的话就会导致带宽利用率低。

下图是最优情况的访问图示：

下图一种随机访问，同样没有conflict：

下图则是某些thread访问到同一个bank的情况，这种情况有两种行为：

· Conflict-free broadcast access if threads access the same address within a bank

· Bank conflict access if threads access different addresses within a bank

Access Mode

根据不同的CC版本，bank的配置也不同，具体为：

· 4 bytes for devices of CC 2.x

· 8 bytes for devices of CC3.x

对于Fermi，一个bank是4bytes。每个bank的带宽是32bits每两个cycle。连续的32位字映射到连续的bank中，也就是说，bank的索引和shared memory地址的映射关系如下：

bank index = (byte address ÷ 4 bytes/bank) % 32 banks

下图是Fermi的地址映射关系，注意到，bank中每个地址相差32，相邻的word分到不同的bank中以便使warp能够获得更多的并行获取内存操作（获取连续内存时，连续地址分配到了不同bank中）。

当同一个warp的两个thread要获取同一个地址（注意是同一个地址还是同一个bank）的时候并不发生bank conflict。对于读操作，会用一次transaction获得结果后广播给所有请求，当写操作时，只有一个thread会真正去写，但是哪个thread执行了写是无法知道的（undefined）。

在8bytes模式中，同理4bytes，连续的64-bits字会映射到连续的bank。每个bank带宽是64bite/1个clock。其映射关系公式：

bank index = (byte address ÷ 8 bytes/bank) % 32 banks

这里，如果两个thread访问同一个64-bit中的任意一个两个相邻word（1byte）也不会导致bank conflict，因为一次64-bit（bank带宽64bit/cycle）的读就可以满足请求了。也就是说，同等情况下，64-bit模式一般比32-bit模式更少碰到bank conflict。

下图是64-bit的关系图。尽管word0和word32都在bank0中，同时读这两个word也不会导致bank conflict（64-bit/cycle）：

下图是64-bit模式下，conflict-free的情况，每个thread获取不同的bank：

下图是另一种conflict-free情况，两个thread或获取同一个bank中的word：

下图红色箭头是bank conflict发生的情况：

Memory Padding

memory padding是一种避免bank conflict的方法，如下图所示，所有的thread分别访问了bank0的五个不同的word，这时就会导致bank conflict，我们采取的方法就是在每N（bank数目）个word后面加一个word，这样就如下面右图那样，原本bank0的每个word转移到了不同的bank中，从而避免了bank conflict。

增加的这写word不会用来存储数据，其唯一的作用就是移动原始bank中的word，使用memory padding会导致block可获得shared memory中有用的数量减少。还有就是，要重新计算数组索引来获取正确的数据元素。

Access Mode Configuration

对Kepler来说，默认情况是4-byte模式，可以用下面的API来查看：

cudaError_t cudaDeviceGetSharedMemConfig(cudaSharedMemConfig *pConfig);

返回结果放在pConfig中，其结果可以是下面两种：

cudaSharedMemBankSizeFourByte

cudaSharedMemBankSizeEightByte

可以使用下面的API来设置bank的大小：

cudaError_t cudaDeviceSetSharedMemConfig(cudaSharedMemConfig config);

bank的配置参数如下三种：

cudaSharedMemBankSizeDefault

cudaSharedMemBankSizeFourByte

cudaSharedMemBankSizeEightByte

在其启动不同的kernel之间修改bank配置会有一个隐式的device同步。修改shared memory的bank大小不会增加shared memory的利用或者影响kernel的Occupancy，但是对性能是一个主要的影响因素。一个大的bank会产生较高的带宽，但是鉴于不同的access pattern，可能导致更多的bank conflict。

Synchronization

因为shared Memory可以被同一个block中的不同的thread同时访问，当同一个地址的值被多个thread修改就导致了inter-thread conflict，所以我们需要同步操作。CUDA提供了两类block内部的同步操作，即：

· Barriers

· Memory fences

对于barrier，所有thread会等待其他thread到达barrier point；对于Memory fence，所有thread会阻塞到所有修改Memory的操作对其他thread可见，下面解释下CUDA需要同步的主要原因：weakly-ordered。

Weakly-Ordered Memory Model

现代内存架构有非常宽松的内存模式，也就是意味着，Memory的获取不必按照程序中的顺序来执行。CUDA采用了一种叫做weakly-ordered Memory model来获取更激进的编译器优化。

GPU thread写数据到不同的Memory的顺序（比如shared Memory，global Memory，page-locked host memory或者另一个device上的Memory）同样没必要跟程序里面顺序呢相同。一个thread的读操作的顺序对其他thread可见时也可能与实际上执行写操作的thread顺序不一致。

为了显式的强制程序以一个确切的顺序运行，就需要用到fence和barrier。他们也是唯一能保证kernel对Memory有正确的行为的操作。

Explicit Barrier

同步操作在我们之前的文章中也提到过不少，比如下面这个：

void __syncthreads();

__syncthreads就是作为一个barrier point起作用，block中的thread必须等待所有thread都到达这个point后才能继续下一步。这也保证了所有在这个point之前获取global Memory和shared Memory的操作对同一个block中所有thread可见。__syncthreads被用来协作同一个block中的thread。当一些thread获取Memory相同的地址时，就会导致潜在的问题（读后写，写后读，写后写）从而引起未定义行为状态，此时就可以使用__syncthreads来避免这种情况。

使用__syncthreads要相当小心，只有在所有thread都会到达这个point时才可以调用这个同步，显而易见，如果同一个block中的某些thread永远都到达该点，那么程序将一直等下去，下面代码就是一种错误的使用方式：

if (threadID % 2 == 0) {
    __syncthreads();
    } else {
        __syncthreads();
}

Memory Fence

这种方式保证了任何在fence之前的Memory写操作对fence之后thread都可见，也就是，fence之前写完了，fence之后其它thread就都知道这块Memory写后的值了。fence的设置范围比较广，分为：block，grid和system。

可以通过下面的API来设置fence：

void __threadfence_block();

看名字就知道，这个函数是对应的block范围，也就是保证同一个block中thread在fence之前写完的值对block中其它的thread可见，不同于barrier，该function不需要所有的thread都执行。

下面是grid范围的API，作用同理block范围，把上面的block换成grid就是了：

void __threadfence();

下面是system的，其范围针对整个系统，包括device和host：

void __threadfence_system();

Volatile Oualifier

声明一个使用global Memory或者shared Memory的变量，用volatile修饰符来修饰该变量的话，会组织编译器做一个该变量的cache的优化，使用该修饰符后，编译器就会认为该变量可能在某一时刻被别的thread改变，如果使用cache优化的话，得到的值就缺乏时效，因此使用volatile强制每次都到global 或者shared Memory中去读取其绝对有效值。

CHECKING THE DATA LAYOUT OF SHARED MEMORY

该部分会试验一些使用shared Memory的例子，包括以下几个方面：

· 方阵vs矩阵数组

· Row-major vs column-major access

· 静态vs动态shared Memory声明

· 全局vs局部shared Memory

· Memory padding vs no Memory padding

我们在设计使用shared Memory的时候应该关注下面的信息：

· Mapping data elements across Memory banks

· Mapping from thread index to shared Memory offset

搞明白这两点，就可以掌握shared Memory的使用了，从而构建出牛逼的代码。

Square Shared Memory

下图展示了一个每一维度有32个元素并以row-major存储在shared Memory，图的最上方是该矩阵实际的一维存储图示，下方的逻辑的二维shared Memory：

我们可以使用下面的语句静态声明一个2D的shared Memory变量：

__shared__ int tile[N][N];

可以使用下面的方式来数据，相邻的thread获取相邻的word：

tile[threadIdx.y][threadIdx.x]

tile[threadIdx.x][threadIdx.y]

上面两种方式哪个更好呢？这就需要注意thread和bank的映射关系了，我们最希望看到的是，同一个warp中的thread获取的是不同的bank。同一个warp中的thread可以使用连续的threadIdx.x来确定。不同bank中的元素同样是连续存储的，以word大小作为偏移。因此次，最好是让连续的thread（由连续的threadIdx.x确定）获取shared Memory中连续的地址，由此得知，

tile[threadIdx.y][threadIdx.x]应该展现出更好的性能以及更少的bank conflict。

Accessing Row-Major versus Column-Major

假设我们的grid有2D的block（32,32），定义如下：

#define BDIMX 32
#define BDIMY 32
dim3 block(BDIMX,BDIMY);
dim3 grid(1,1);

我们对这个kernel有如下两个操作：

· 将thread索引以row-major写到2D的shared Memory数组中。

· 从shared Memory中读取这些值并写入到global Memory中。

kernel代码：

__global__ void setRowReadRow(int *out) {
    // static shared memory
    __shared__ int tile[BDIMY][BDIMX];
    // 因为block只有一个
    unsigned int idx = threadIdx.y * blockDim.x + threadIdx.x;
    // shared memory store operation
    tile[threadIdx.y][threadIdx.x] = idx;
    // 这里同步是为了使下面shared Memory的获取以row-major执行
    //若有的线程未完成，而其他线程已经在读shared Memory。。。
    __syncthreads();
    // shared memory load operation
    out[idx] = tile[threadIdx.y][threadIdx.x] ;
}

观察代码可知，我们有三个内存操作：

· 向shared Memory存数据

· 从shared Memor取数据

· 向global Memory存数据

因为在同一个warp中的thread使用连续的threadIdx.x来检索title，该kernel是没有bank conflict的。如果交换上述代码threadIdx.y和threadIdx.x的位置，就变成了column-major的顺序。每个shared Memory的读写都会导致Fermi上32-way的bank conflict或者在Kepler上16-way的bank conflict。

__global__ void setColReadCol(int *out) {
    // static shared memor
    __shared__ int tile[BDIMX][BDIMY];
    // mapping from thread index to global memory index
    unsigned int idx = threadIdx.y * blockDim.x + threadIdx.x;
    // shared memory store operation
    tile[threadIdx.x][threadIdx.y] = idx;
    // wait for all threads to complete
    __syncthreads();
    // shared memory load operation
    out[idx] = tile[threadIdx.x][threadIdx.y];
}

编译运行：

$ nvcc checkSmemSquare.cu –o smemSquare
$ nvprof ./smemSquare

在Tesla K40c（4-byte模式）上的结果如下，正如我们所想的，row-major表现要出色：

./smemSquare at device 0 of Tesla K40c with Bank Mode:4-byte
<<< grid (1,1) block (32,32)>>
Time(%) Time Calls Avg Min Max Name
13.25% 2.6880us 1 2.6880us 2.6880us 2.6880us setColReadCol(int*)
11.36% 2.3040us 1 2.3040us 2.3040us 2.3040us setRowReadRow(int*)

然后使用nvprof的下面的两个参数来衡量相应的bank-conflict：

shared_load_transactions_per_request

shared_store_transactions_per_request

结果如下（8 bytes模式，4 bytes应该是32），row-major只有一次transaction：

Kernel:setColReadCol (int*)
1 shared_load_transactions_per_request 16.000000
1 shared_store_transactions_per_request 16.000000
Kernel:setRowReadRow(int*)
1 shared_load_transactions_per_request 1.000000
1 shared_store_transactions_per_request 1.000000
Writing Row-Major and Reading Column-Major

本节的kernel实现以row-major写shared Memory，以Column-major读shared Memory，下图指明了这两种操作的实现：

kernel代码：

__global__ void setRowReadCol(int *out) {
    // static shared memory
    __shared__ int tile[BDIMY][BDIMX];
    // mapping from thread index to global memory index
    unsigned int idx = threadIdx.y * blockDim.x + threadIdx.x;
    // shared memory store operation
    tile[threadIdx.y][threadIdx.x] = idx;
    // wait for all threads to complete
    __syncthreads();
    // shared memory load operation
    out[idx] = tile[threadIdx.x][threadIdx.y];
}

查看nvprof结果：

Kernel:setRowReadCol (int*)
1 shared_load_transactions_per_request 16.000000
1 shared_store_transactions_per_request 1.000000

写操作是没有conflict的，读操作则引起了一个16次的transaction。

Dynamic Shared Memory

正如前文所说，我们可以全局范围的动态声明shared Memory，也可以在kernel内部动态声明一个局部范围的shared Memory。注意，动态声明必须是未确定大小一维数组，因此，我们就需要重新计算索引。因为我们将要以row-major写，以colu-major读，所以就需要保持下面两个索引值：

· row_idx：1D row-major 内存的偏移

· col_idx：1D column-major内存偏移

kernel代码：

__global__ void setRowReadColDyn(int *out) {
    // dynamic shared memory
    extern __shared__ int tile[];
    // mapping from thread index to global memory index
    unsigned int row_idx = threadIdx.y * blockDim.x + threadIdx.x;
    unsigned int col_idx = threadIdx.x * blockDim.y + threadIdx.y;
    // shared memory store operation
    tile[row_idx] = row_idx;
    // wait for all threads to complete
    __syncthreads();
    // shared memory load operation
    out[row_idx] = tile[col_idx];
}

kernel调用时配置的shared Memory：

setRowReadColDyn<<>>(d_C);

查看transaction：

Kernel: setRowReadColDyn(int*)
1 shared_load_transactions_per_request 16.000000
1 shared_store_transactions_per_request 1.000000

该结果和之前的例子相同，不过这里使用的是动态声明。

Padding Statically Declared Shared Memory

直接看kernel代码：

__global__ void setRowReadColPad(int *out) {
    // static shared memory
    __shared__ int tile[BDIMY][BDIMX+IPAD];
    // mapping from thread index to global memory offset
    unsigned int idx = threadIdx.y * blockDim.x + threadIdx.x;
    // shared memory store operation
    tile[threadIdx.y][threadIdx.x] = idx;
    // wait for all threads to complete
    __syncthreads();
    // shared memory load operation
    out[idx] = tile[threadIdx.x][threadIdx.y];
}

改代码是setRowReadCol的翻版，查看结果：

Kernel: setRowReadColPad(int*)
1 shared_load_transactions_per_request 1.000000
1 shared_store_transactions_per_request 1.000000

正如期望的那样，load的bank_conflict已经消失。在Fermi上，只需要加上一列就可以解决bank-conflict，但是在Kepler上却不一定，这取决于2D shared Memory的大小，因此对于8-byte模式，可能需要多次试验才能得到正确结果。

你可能感兴趣的:(学习,笔记,spring)

逃避南星南
逃避是我们遇到问题的第一反应，遇到什么事能逃就逃。因为逃避是最轻松的方式。行为上是轻松了，但是心里压力却更重了。没有什么问题是可以因为逃避而解决的。小孩子是最喜欢逃避的。朋友家的孩子，因为心算没学好，不想去学习。却说自己想让妈妈陪着，只是想妈妈。跟他聊了半个小时，他才说出了不想学习，因为太难。可是，小时候不学，你是想把困难留给以后的自己吗？
我的自学中医笔记 hbxncjs 中医其他经验分享
藏象之心系统形态描述古代的形态描述跟现代差不多心居肺管之下，隔膜之上，心象尖圆形，如莲蕊，外有赤黄裹脂，是为心包络——【类经图骥·经络】心与内外环境的联系不讲心的主要生理功能心主血脉心气推动和调控血液在脉中运行，流注全身，发挥营养和滋润的作用要素：血、脉、心气主血：营养、心生血（心生血这个概念用的不多）肉桂可补心阳，补阳来促进化气主脉：心气推动与调控心脏的搏动和脉管的舒缩，使脉道通利。血正常运行的
SFT：大型语言模型专业化定制的核心技术体系——原理、创新与应用全景大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理深度学习机器学习微调 SFT
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！以下基于权威期刊、会议论文及技术报告，对监督微调（SupervisedFine-Tuning,SFT）的技术框架、创新方法与实际应用进行系统梳理：一、核心定义与技术原理基本概念SFT是在预训练语言模型（如GPT、BERT）基础上，利用标注数据集对模型进
nodeJs笔记（五） a_xiaotaotao nodeJs 笔记
os操作系统模块主要作用导入模块常用方法1.系统信息与标识os.platform()作用:返回值:用途:os.arch()作用:返回值:用途:os.type()作用:返回值:用途:os.release()作用:返回值:用途:os.version()(Node.jsv13.0.0+)作用:返回值:用途:os.hostname()作用:返回值:用途:os.uptime()作用:返回值:用途:2.用户信
nodeJs笔记（一） a_xiaotaotao nodeJs 笔记前端
nodeJs笔记（一）基础知识什么是nodejs？nodejs的生态系统结构nodejs的工作原理V8JavaScript引擎：libuv：异步I/O与事件循环引擎：事件循环(EventLoop)的详细阶段：非阻塞I/O的工作流程(以fs.readFile为例)：单线程与高并发：核心依赖库：工作原理全景图关键点：node.js的优缺点核心优势(优点)高性能与高并发(I/O密集型场景)：核心原理：结
220717 一日三省康永盛
220717一日三省1）今天要感恩的人与事：周日，晚起补觉，下午开空调休息，乒乓球，傍晚一江宴请。感恩一江。2）今天做的还好及欠妥的地方：平淡而过。3）今天学习或强化的学识、思维与灵感：儿子太粗糙，得晓之以理。
2021-01-02 困境怕什么往前走才是出路 YiYiDuo
早上看《阿里铁军》。成长的初期，即便现在大如阿里巴巴，也面对了很多的困境。1因为当时还是一个不太知名的公司，招不到本科生，选择销售的标准是手脚健全能说话的就行。经历3个月的培训，培训价值观念和一些销售技巧，这是很多企业没有的。经过这种密集的培训和学习，人与人之间的联结会更深刻。2早起因为想做国际化的大公司，在美国、香港和各地开办公室，给员工开十几万美元的薪水，当时的普通员工才两三千一个月，烧了几个
100天（57）||知识的边界真的很远，它真的有边界吗？慕子清蒸
昨天也是我试工的第1天，是一个韩国的品牌。中文名名字霹雳霸，英文名字Rapido然后发现了两个问题：第1个是WPS必须好好学起来，还有英文必须学起来。好多介绍都是英文的。还发现rapido的设计师是非常非常有名气，英文名字叫wrong，这个名字叫李长荣。它其中涉及的一个系列是根据中国的敦煌石窟，结合韩国的进口面料元素设计的几款衣服。01那个品牌，是一个工作还是一个学习的机会我并不知道我有没有设计方
【自然语言处理】文本规范化 2401_84149564 自然语言处理自然语言处理人工智能文本规范化 python 分词词的规范化分句
目录一、引言二、分词三、词规范化四、分句五、文本规范化的Python代码实战六、总结一、引言在自然语言处理的许多任务中，第一步都离不开文本规范化。文本规范化的作用是将使用字符串表示的文本转化为更易于计算机处理的规范形式。文本规范化一般包括3个步骤：分词、词的规范化、分句。本文将分别介绍这3个步骤及Python代码实战。二、分词词是语言的基本单元，人类学习语言的过程也是从理解词开始的。显而易见，自然
第 13 题：谈谈你对 CSS 选择器以及优先级的理解？ Noxus丶SJ
常用的CSS选择器ID选择器、类选择器、标签选择器、属性选择器、伪类选择器、后代选择器权重划分在同一层级下!important>内联样式>ID选择器>类选择器>（标签选择器、伪类选择器、属性选择器）不同层级下正常来说权重值越高的优先级越高，但是一直以来没有具体的权重值划分，所以目前大多数开发中层级越深的优先级越高文章的内容/灵感都从下方内容中借鉴【持续维护/更新500+前端面试题/笔记】https
人生没有起跑线星悦传奇
张东辉，讲师七期坚持原创分享第700天（2019.8.3）家长问我们学哪些东西时，我对家长说，让孩子接受超前教育，并不能让他们长久地保持学习上的优势，反而会给孩子的社会性发展造成不可逆的损害。对一个人来说，暂时在成绩上的领先并不会给他带来什么巨大的改变，真正影响他、陪伴他一生的，是知识以外的东西。小学的时候我们都学习过“偃苗助长”的寓言，其实孩子和禾苗一样，他们的成长需要遵循自然发展的规律，如果对
综合学习的思考杨小芹
“综合学习”这是一个特别不容易理解的词语。不光是我国，世界范围内应该都对这个词都有不同的理解。佐藤先生认为日本的杂志教育在对综合学习课程大多都停留在了观念层面。那么按照佐藤先生的理解，什么是“综合学习”呢？作者提到：学科学习的重要性也许今后也不会改变，但在进行学科学习的同时，也应该把处理人生征途中谁都会面临的现实课题、现代社会所要求的的现实问题的直接学习和学科学习并行起来加以组织。综合学习就是在想
什么是 WebClient？
WebClient是SpringWebFlux提供的一个非阻塞、响应式的HTTP客户端，可以在异步和同步场景下发起HTTP请求，支持RESTfulAPI调用，适用于微服务间通信、第三方接口访问等。属于SpringFramework5之后的标准组件可以用于响应式应用（WebFlux），也可以用在普通SpringBoot项目支持GET、POST、PUT、DELETE等全套HTTP操作支持同步/异步、流
你活着可能已经死了-《得到》“武志红的心理学课”学习笔记28 大庆思考笔记
人生由几百、几千乃至几万个大大小小的选择构成，等你老了，回顾一生的时候，你发现最亏待的，恰恰是你自己，那你这一生，就白活了。我们来做一个调查，很简单，然而也许很“致命”：你能不能想起五件事，你特别想做的，但却一直没有去做的，就按照自由联想的顺序，把这五件事写出来。现在，你可以做你自己的“父母”，试试带着点偏执劲，去追逐一些你特别想追逐的事物，以此来滋养你的本我。分享一段鲁米的诗给你：有一颗光的种子
【ruoyi-vue】前后端分离项目分析
【ruoyi-vue】前后端分离项目分析【一】介绍【1】简介【2】主要特性【3】内置功能【4】后端文件结构【二】基础功能【1】上传下载【2】事务管理【3】异常处理【4】自定义注解校验：Xxs注解【5】数据脱敏【三】后台扩展【一】介绍【1】简介RuoYi-Vue是一个JavaEE企业级快速开发平台，基于经典技术组合（SpringBoot、SpringSecurity、MyBatis、Jwt、Vue）
springboot+swagger2文档从swagger-bootstrap-ui更换为knife4j及文档接口参数不显示问题 DN金猿 springboot组件专题 spring boot bootstrap ui swagger
背景已有springboot项目，且使用的是swagger2+swagger-bootstrap-ui的版本1.pom依赖如下io.springfoxspringfox-swagger22.9.2io.swaggerswagger-modelsio.swaggerswagger-annotationsio.springfo
给孩子做敬重长辈的典范趣口才
孩子们是以我们作为学习典范的。假如要孩子培育起对你们真正的尊崇，他们得明白尊崇的详细含义。孩子们不只会听你讲话，也会察看你和配偶是如何看待本人父母的。在犹太教神学中，行为的重量比信条还要重。平民施穆尔的故事也精辟地表达了这个道理，他年老的父亲由于手指哆嗦，老是把汤汁洒落在桌布上。有一天晚上，老人掉落了一只精致的茶杯，摔碎在地板上。施穆尔说：“爸，从如今以后，你本人在房间吃饭，这个木碗给你用。用这个
写给自己的一封信莯希
亲爱的希：你好！恭喜你完成了“”日更30天，接下来的日子，要继续加油，把书写变成你的习惯。现在是2021年12月，又一年即将过去，对于新的一年有什么计划呢？2022年9月，小宝就要读小学，届时你也完成对自己的承诺，在小学前，全身心陪伴着他们。他们进入新的阶段，你也一样，在此要做好充分的准备。一、坚持学习瑜伽。二、幼师资格证。三、营养师证。不管到时从事哪个行业，机会都是留给有准备的人。加油！不管怎样
ReactiveCocoa 学习笔记七（RACCommand）那夜的星空分外清澈 ReactiveCocoa ReactiveCocoa
RACCommandRACCommand关键的两个方法如下，理解了他们便能理解RACCommand的作用。-(instancetype)initWithEnabled:(nullableRACSignal*)enabledSignalsignalBlock:(RACSignal*(^)(InputType_Nullableinput))signalBlock;-(RACSignal*)execut
C语言学习笔记：do..while循环、goto语句女巫和她的乌鸦 C语言 c语言学习
do…while（）循环，do语句的语法：do循环语句；while（表达式）；例：intmain(){inti=1;do{printf("%d",i);i++;}while(i#include#includevoidmenu(){printf("1.play\n");printf("0.exit\n");}voidgame(){//猜数字游戏的实现:先生成随机数-->猜数字。rand函数返回了一个
【DW11月-深度学习】Task03前馈神经网络沫2021
参考链接：https://datawhalechina.github.io/unusual-deep-learning/#/4.%E5%89%8D%E9%A6%88%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C一、神经元模型2.1神经元1943年，美国神经生理学家沃伦·麦卡洛克(WarrenMcCulloch)和数学家沃尔特·皮茨(WalterPitts)对生物神经元进行
记录一次使用crontab未执行的排错过程
目录一、过程复现1.命令有效性排查2.查看日志3.扩展测试4.问题解决二、总结一、过程复现我在学习使用crontab计划任务时，想实现每一分钟格式化输出一次当前日期和时间的效果，于是尝试：crontab-e*****date"+%F%T"#写入crontab-l*****date"+%F%T"#查看，确实写入了1.命令有效性排查然而我等了几分钟，屏幕上却没有任何输出，于是我在命令行手动执行一下这个
【python学习】使用魔塔社区的模型
前言魔塔社区有很多模型，但是怎么使用呢？刚开始学习python，简单的摸索一下一、新建项目1、创建虚拟环境condacreate-npaddlepython=3.102、激活虚拟环境condaactivatepaddle3、新建项目PyCharn新建一个项目，选择已创建的虚拟环境paddle项目新增models目录二、下载模型打开PyCharm的Terminal，命令行前面有一个(paddle)，
C语言学习（4）-- 循环语句（for、while、do...while）、goto 贪睡脑子 C语言学习 c语言学习算法
第一章while循环和do...while循环第一节while语句while(整型表达式){...}，如果整型表达式为真，即可进入循环体。举例说明：其中需要注意的是1.break和continue都只有在循环体中才可以使用。2.break是结束循环，continue是不执行后面语句，重新进入循环，继续循环。//该现象会进入死循环，因为到了i==5时，下面语句不执行，i始终为5——所以输出1234i
高效能人士的学习法，期待对你有所帮助廖斋笔谈
学习美国物理学费曼(RichardDFeynman)在大学教授物理学时，他总是能够深入浅出地将复杂的专业理论讲得通俗易懂，无论多么抽象、晦涩的概念，都能用非常生活化的例子表达出来，非常风趣幽默。后来，越来越多的人便采用他的这种方法学习，最终形成了人们众所周知的「费曼学习法」。具体步骤「费曼学习法」可以用四个关键词来概括：概念(Concept)、以教代学(Teach)、评价(Review)、简化(S
2019-11-13晨间日记 ZYHJ
今天是什么日子起床：清晨6::00就寝：夜晚：22:30天气：风和日丽心情：愉快纪念日：任务清单昨日完成的任务，最重要的三件事：改进：习惯养成：生活规律周目标·完成进度学习·信息·阅读早读英语健康·饮食·锻炼晚餐散步人际·家人·朋友陪伴家人工作·思考继续努力最美好的三件事1.每天都有小进步2.3.思考·创意·未来保持原有节奏，继续努力
2020-03-31 眸若含秋水丶
今天学习冒泡排序，通过双重for循环来实现数组有序排列。定义变量名要求：1数字字母下划线组成。2不能以关键字命名（int，printf，if，else等）。3不能以数字开头。作业1#includeintmain(){inti;intb;inta[8]={1,2,3,4,5,6,7,8};for(i=1;iintmain(){floata[10]={1,2,3,4,5,6,7,8,9,10};int
主流编程语言全景图：从Python到Rust的深度解析万能小贤哥 python rust 开发语言
2024年编程语言生态报告显示，全球开发者使用的语言数量已达260+，但真正主导行业的不到20种。本文带你穿透技术迷雾，掌握8大核心语言的本质差异。一、选择编程语言的黄金标准图表代码二、八大主流语言对比解析1.Python-通用胶水语言特性：动态类型+缩进语法丰富的库生态（20万+包）GIL全局锁限制并发适用场景：python#机器学习示例（TensorFlow）importtensorflowa
边缘智能革命：嵌入式机器学习如何让万物“思考” 万能小贤哥机器学习人工智能
当智能手表精准识别你的健身动作，工业传感器预测设备故障于毫秒之间，农业传感器自动调节灌溉水量——这些并非科幻场景，而是嵌入式机器学习（EmbeddedMachineLearning,或TinyML）正在悄然重塑的现实。这场发生在设备边缘的智能革命，正将AI从云端的数据中心拉近到我们指尖的每一台设备中。一、嵌入式机器学习：定义与核心价值嵌入式机器学习是指在资源极端受限的微控制器（MCU）、微处理器（
感恩日记2021/02/28总1591 喜羊羊_43e1
感恩爱人早起煮饺子。感恩营养美味的早餐对我身体的滋养。随喜爱人种下健康、时间、满愿、和谐的种子。感恩和爱人一起看望婆婆。感恩婆婆在弟弟弟媳的精心照顾下状态良好，看到婆婆早上吃了一碗多的米粥非常开心。感恩金钱宝宝支持我们夫妇支付弟媳照顾婆婆的费用。1月份、2月份是由小侄女照顾的，小侄女作为一个大学生，作为家族里的第三代，能够尽心尽力照顾奶奶两个月，实属难得。小侄女是我们这些长辈学习的榜样。多少的语言
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置