CUDA ---- Warp解析

Warp

逻辑上，所有thread是并行的，但是，从硬件的角度来说，实际上并不是所有的thread能够在同一时刻执行，接下来我们将解释有关warp的一些本质。

Warps and Thread Blocks

warp是SM的基本执行单元。一个warp包含32个并行thread，这32个thread执行于SMIT模式。也就是说所有thread执行同一条指令，并且每个thread会使用各自的data执行该指令。

block可以是一维二维或者三维的，但是，从硬件角度看，所有的thread都被组织成一维，每个thread都有个唯一的ID(ID的计算可以在之前的博文查看)。

每个block的warp数量可以由下面的公式计算获得：

CUDA ---- Warp解析

一个warp中的线程必然在同一个block中，如果block所含线程数目不是warp大小的整数倍，那么多出的那些thread所在的warp中，会剩余一些inactive的thread，也就是说，即使凑不够warp整数倍的thread，硬件也会为warp凑足，只不过那些thread是inactive状态，需要注意的是，即使这部分thread是inactive的，也会消耗SM资源。

CUDA ---- Warp解析

Warp Divergence

控制流语句普遍存在于各种编程语言中，GPU支持传统的，C-style，显式控制流结构，例如if…else,for,while等等。

CPU有复杂的硬件设计可以很好的做分支预测，即预测应用程序会走哪个path。如果预测正确，那么CPU只会有很小的消耗。和CPU对比来说，GPU就没那么复杂的分支预测了（CPU和GPU这方面的差异的原因不是我们关心的，了解就好，我们关心的是由这差异引起的问题）。

这样我们的问题就来了，因为所有同一个warp中的thread必须执行相同的指令，那么如果这些线程在遇到控制流语句时，如果进入不同的分支，那么同一时刻除了正在执行的分之外，其余分支都被阻塞了，十分影响性能。这类问题就是warp divergence。

请注意，warp divergence问题只会发生在同一个warp中。

下图展示了warp divergence问题：

CUDA ---- Warp解析

为了获得最好的性能，就需要避免同一个warp存在不同的执行路径。避免该问题的方法很多，比如这样一个情形，假设有两个分支，分支的决定条件是thread的唯一ID的奇偶性：

__global__ void mathKernel1(float *c) {

    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    float a, b;

    a = b = 0.0f;

    if (tid % 2 == 0) {

        a = 100.0f;

    } else {

        b = 200.0f;

    }

    c[tid] = a + b;

}

一种方法是，将条件改为以warp大小为步调，然后取奇偶，如下：

__global__ void mathKernel2(void) {

    int tid = blockIdx.x * blockDim.x + threadIdx.x;

    float a, b;

    a = b = 0.0f;

    if ((tid / warpSize) % 2 == 0) {

        a = 100.0f;

    } else {

        b = 200.0f;

    }

    c[tid] = a + b;

}

代码：

int main(int argc, char **argv) {

// set up device

int dev = 0;

cudaDeviceProp deviceProp;

cudaGetDeviceProperties(&deviceProp, dev);

printf("%s using Device %d: %s\n", argv[0],dev, deviceProp.name);

// set up data size

int size = 64;

int blocksize = 64;

if(argc > 1) blocksize = atoi(argv[1]);

if(argc > 2) size = atoi(argv[2]);

printf("Data size %d ", size);

// set up execution configuration

dim3 block (blocksize,1);

dim3 grid ((size+block.x-1)/block.x,1);

printf("Execution Configure (block %d grid %d)\n",block.x, grid.x);

// allocate gpu memory

float *d_C;

size_t nBytes = size * sizeof(float);

cudaMalloc((float**)&d_C, nBytes);

// run a warmup kernel to remove overhead

size_t iStart,iElaps;

cudaDeviceSynchronize();

iStart = seconds();

warmingup<<<grid, block>>> (d_C);

cudaDeviceSynchronize();

iElaps = seconds() - iStart;

printf("warmup <<< %4d %4d >>> elapsed %d sec \n",grid.x,block.x, iElaps );

// run kernel 1

iStart = seconds();

mathKernel1<<<grid, block>>>(d_C);

cudaDeviceSynchronize();

iElaps = seconds() - iStart;

printf("mathKernel1 <<< %4d %4d >>> elapsed %d sec \n",grid.x,block.x,iElaps );

// run kernel 3

iStart = seconds();

mathKernel2<<<grid, block>>>(d_C);

cudaDeviceSynchronize();

iElaps = seconds () - iStart;

printf("mathKernel2 <<< %4d %4d >>> elapsed %d sec \n",grid.x,block.x,iElaps );

// run kernel 3

iStart = seconds ();

mathKernel3<<<grid, block>>>(d_C);

cudaDeviceSynchronize();

iElaps = seconds () - iStart;

printf("mathKernel3 <<< %4d %4d >>> elapsed %d sec \n",grid.x,block.x,iElaps);

// run kernel 4

iStart = seconds ();

mathKernel4<<<grid, block>>>(d_C);

cudaDeviceSynchronize();

iElaps = seconds () - iStart;

printf("mathKernel4 <<< %4d %4d >>> elapsed %d sec \n",grid.x,block.x,iElaps);

// free gpu memory and reset divece

cudaFree(d_C);

cudaDeviceReset();

return EXIT_SUCCESS;

}

View Code

编译运行：

$ nvcc -O3 -arch=sm_20 simpleDivergence.cu -o simpleDivergence

$./simpleDivergence

输出：

$ ./simpleDivergence using Device 0: Tesla M2070

Data size 64 Execution Configuration (block 64 grid 1)

Warmingup elapsed 0.000040 sec

mathKernel1 elapsed 0.000016 sec

mathKernel2 elapsed 0.000014 sec

我们也可以直接使用nvprof（之后会详细介绍）这个工具来度量性能：

$ nvprof --metrics branch_efficiency ./simpleDivergence

输出为：

Kernel: mathKernel1(void)

1 branch_efficiency Branch Efficiency 100.00% 100.00% 100.00%

Kernel: mathKernel2(void)

1 branch_efficiency Branch Efficiency 100.00% 100.00% 100.00%

Branch Efficiency的定义如下：

CUDA ---- Warp解析

到这里你应该在奇怪为什么二者表现相同呢，实际上当我们的代码很简单，可以被预测时，CUDA的编译器会自动帮助优化我们的代码。稍微提一下GPU分支预测（理解的有点晕，不过了解下就好），这里，一个被称为预测变量的东西会被设置成1或者0，所有分支都会得到执行，但是只有预测值为1时，才会得到执行。当条件状态少于某一个阈值时，编译器会将一个分支指令替换为预测指令，因此，现在回到自动优化问题，一份较长的代码就会导致warp divergence了。

可以使用下面的命令强制编译器不优化（貌似不怎么管用）：

$ nvcc -g -G -arch=sm_20 simpleDivergence.cu -o simpleDivergence

Resource Partitioning

一个warp的context包括以下三部分：

Program counter
Register
Shared memory

再次重申，在同一个执行context中切换是没有消耗的，因为在整个warp的生命期内，SM处理的每个warp的执行context都是on-chip的。

每个SM有一个32位register集合放在register file中，还有固定数量的shared memory，这些资源都被thread瓜分了，由于资源是有限的，所以，如果thread比较多，那么每个thread占用资源就叫少，thread较少，占用资源就较多，这需要根据自己的要求作出一个平衡。

资源限制了驻留在SM中blcok的数量，不同的device，register和shared memory的数量也不同，就像之前介绍的Fermi和Kepler的差别。如果没有足够的资源，kernel的启动就会失败。

CUDA ---- Warp解析

当一个block或得到足够的资源时，就成为active block。block中的warp就称为active warp。active warp又可以被分为下面三类：

Selected warp
Stalled warp
Eligible warp

SM中warp调度器每个cycle会挑选active warp送去执行，一个被选中的warp称为selected warp，没被选中，但是已经做好准备被执行的称为Eligible warp，没准备好要执行的称为Stalled warp。warp适合执行需要满足下面两个条件：

32个CUDA core有空
所有当前指令的参数都准备就绪

例如，Kepler任何时刻的active warp数目必须少于或等于64个（GPU架构篇有介绍）。selected warp数目必须小于或等于4个（因为scheduler有4个？不确定，至于4个是不是太少则不用担心，kernel启动前，会有一个warmup操作，可以使用cudaFree()来实现）。如果一个warp阻塞了，调度器会挑选一个Eligible warp准备去执行。

CUDA编程中应该重视对计算资源的分配：这些资源限制了active warp的数量。因此，我们必须掌握硬件的一些限制，为了最大化GPU利用率，我们必须最大化active warp的数目。

Latency Hiding

指令从开始到结束消耗的clock cycle称为指令的latency。当每个cycle都有eligible warp被调度时，计算资源就会得到充分利用，基于此，我们就可以将每个指令的latency隐藏于issue其它warp的指令的过程中。

和CPU编程相比，latency hiding对GPU非常重要。CPU cores被设计成可以最小化一到两个thread的latency，但是GPU的thread数目可不是一个两个那么简单。

当涉及到指令latency时，指令可以被区分为下面两种：

Arithmetic instruction
Memory instruction

顾名思义，Arithmetic instruction latency是一个算数操作的始末间隔。另一个则是指load或store的始末间隔。二者的latency大约为：

10-20 cycle for arithmetic operations
400-800 cycles for global memory accesses

下图是一个简单的执行流程，当warp0阻塞时，执行其他的warp，当warp变为eligible时从新执行。

CUDA ---- Warp解析

你可能想要知道怎样评估active warps 的数量来hide latency。Little’s Law可以提供一个合理的估计：

CUDA ---- Warp解析

对于Arithmetic operations来说，并行性可以表达为用来hide Arithmetic latency的操作的数目。下表显示了Fermi和Kepler相关数据，这里是以（a + b * c）作为操作的例子。不同的算数指令，throughput（吞吐）也是不同的。

CUDA ---- Warp解析

这里的throughput定义为每个SM每个cycle的操作数目。由于每个warp执行同一种指令，因此每个warp对应32个操作。所以，对于Fermi来说，每个SM需要640/32=20个warp来保持计算资源的充分利用。这也就意味着，arithmetic operations的并行性可以表达为操作的数目或者warp的数目。二者的关系也对应了两种方式来增加并行性：

Instruction-level Parallelism（ILP）：同一个thread中更多的独立指令
Thread-level Parallelism （TLP）：更多并发的eligible threads

对于Memory operations，并行性可以表达为每个cycle的byte数目。

CUDA ---- Warp解析

因为memory throughput总是以GB/Sec为单位，我们需要先作相应的转化。可以通过下面的指令来查看device的memory frequency：

$ nvidia-smi -a -q -d CLOCK | fgrep -A 3 "Max Clocks" | fgrep "Memory"

以Fermi为例，其memory frequency可能是1.566GHz，Kepler的是1.6GHz。那么转化过程为：

CUDA ---- Warp解析

乘上这个92可以得到上图中的74，这里的数字是针对整个device的，而不是每个SM。

有了这些数据，我们可以做一些计算了，以Fermi为例，假设每个thread的任务是将一个float（4 bytes）类型的数据从global memory移至SM用来计算，你应该需要大约18500个thread，也就是579个warp来隐藏所有的memory latency。

CUDA ---- Warp解析

Fermi有16个SM，所以每个SM需要579/16=36个warp来隐藏memory latency。

Occupancy

当一个warp阻塞了，SM会执行另一个eligible warp。理想情况是，每时每刻到保证cores被占用。Occupancy就是每个SM的active warp占最大warp数目的比例：

CUDA ---- Warp解析

我们可以使用的device篇提到的方法来获取warp最大数目：

cudaError_t cudaGetDeviceProperties(struct cudaDeviceProp *prop, int device);

然后用maxThreadsPerMultiProcessor来获取具体数值。

grid和block的配置准则：

保证block中thrad数目是32的倍数。
避免block太小：每个blcok最少128或256个thread。
根据kernel需要的资源调整block。
保证block的数目远大于SM的数目。
多做实验来挖掘出最好的配置。

Occupancy专注于每个SM中可以并行的thread或者warp的数目。不管怎样，Occupancy不是唯一的性能指标，Occupancy达到当某个值是，再做优化就可能不在有效果了，还有许多其它的指标需要调节，我们会在之后的博文继续探讨。

Synchronize

同步是并行编程的一个普遍的问题。在CUDA的世界里，有两种方式实现同步：

System-level：等待所有host和device的工作完成
Block-level：等待device中block的所有thread执行到某个点

因为CUDA API和host代码是异步的，cudaDeviceSynchronize可以用来停住CUP等待CUDA中的操作完成：

cudaError_t cudaDeviceSynchronize(void);

因为block中的thread执行顺序不定，CUDA提供了一个function来同步block中的thread。

__device__ void __syncthreads(void);

当该函数被调用，block中的每个thread都会等待所有其他thread执行到某个点来实现同步。

C# GDI+编程（二） Bczheng1 #c#桌面编程 c#开发语言
常用的绘图函数DrawArc绘制一个弧形示例：graphics.DrawArc(pen,0,0,200,200,90,120)倒数第二个参数，表示起始度数，最后一个参数是弧形的跨越度数。比如起始度数是90，跨越度数是120的弧形如下图：红色的是弧形。类似的方法还有DrawPie绘制一个扇形和FillPie填充一个扇形。都有起始度数，跨越度数。DrawPolygon绘制多边形示例：Point[]pt
字符函数和字符串函数很会做人算法
一、字符分类函数头文件是#include下面是函数的使用条件，有x的就代表只要符合体条件就返回真我们以islower为例写一段代码实现一下功能:将小写字符改成大写字符#define_CRT_SECURE_NO_WARNINGS#include#includeintmain(){inti=0;chararr[20]={"aJsfjsJsfH"};while(arr[i]!='\0'){if(islo
GitHub 超火的开源终端工具——Warp 魔王阿卡纳兹 IT杂谈开源项目观察 warp 终端 iterm2
Warp作为近年来GitHub上备受瞩目的开源终端工具，以其智能化、高性能和协作能力重新定义了命令行操作体验。以下从多个维度深入解析其核心特性、技术架构、用户评价及生态影响力：一、背景与核心团队Warp由前GitHubCTOJasonWarner和Google前首席技术官ZachLloyd领衔开发，团队成员包括来自Figma、GoogleDocs等知名项目的技术专家。其目标是解决传统终端工具（如i
Rocky Linux安装部署Elasticsearch（ELK日志服务器）_rockylinux elk 2401_83739411 程序员服务器 linux elasticsearch
一、Elasticsearch的简介Elasticsearch是一个强大的开源搜索和分析引擎，可用于实时处理和查询大量数据。它具有高性能、可扩展性和分布式特性，支持全文搜索、聚合分析、地理空间搜索等功能，是构建实时应用和大规模数据分析平台的首选工具。二、RockyLinux系统安装链接：VMwareWorkstation下载安装（含秘钥）链接：VMwareWorkstation创建虚拟机链接：Ro
2025实战指南：基于VMware 17与Linux的Dify私有化部署——从零构建企业级AI开发平台 Tec_Bit 人工智能 centos linux 人工智能 chatgpt
一、环境准备与系统配置1.1VMware17虚拟机创建‌新建虚拟机‌：选择“典型”安装模式，指定CentOS7镜像文件（建议使用阿里云镜像源获取最新稳定版）‌1‌硬件资源配置‌：内存：≥4GB（推荐8GB）处理器：2核以上磁盘空间：≥40GB（选择“将虚拟磁盘存储为单个文件”）安装完系统使用远程工具连接centos，我这里使用的是华为的远程工具codearts,纯属个人习惯！！！其他工具也可以使用
Centos7 Jenkins的部署 shgh_2004 配置管理 jenkins linux 运维
1.下载rpm安装包wgethttps://mirrors.tuna.tsinghua.edu.cn/jenkins/redhat/jenkins-2.275-1.1.noarch.rpm--no-check-certificate2.yum安装rpm-ivhjenkins-2.275-1.1.noarch.rpm安装完以后重要的目录说明：/usr/lib/jenkins/jenkins.war
React学习笔记20 充气大锤 React学习笔记学习笔记 javascript 前端算法开发语言 react.js
一、React.forward1.1、作用通过ref暴露子组件的DOM1.2、场景说明1.3、语法实现//子组件constInput=forwardRef((props,ref)=>{return})//父组件functionfather_component(){constinputRef=useRef(null)constfocus=(ref)=>{ref.current.focus()}ret
react加antd封装表格单、多选组件，支持跨页选择缓存 Cirrod react.js 缓存 javascript
页面效果子组件importReact,{useState,useEffect,forwardRef,useImperativeHandle}from'react';import{Modal,Input,Table,Pagination,Avatar,Select}from'antd';import{UserOutlined}from'@ant-design/icons';importtype{Ta
【Hinton论文精读】The Forward-Forward Algorithm: Some Preliminary Investigations-202212 tyhj_sf 论文研读笔记 ML理论系列人工智能深度学习 FF算法
博文导航0引言1论文摘要2反向传播有什么问题呢？3Forward-Forward算法3.1使用逐层优化函数学习多层表示4Forward-Forward算法的实验4.1反向传播baseline4.2FF算法的一个简单的无监督的例子4.3FF算法的一个简单的监督例子4.4使用FF算法来模拟感知中自上而下的效应4.5作为教师使用空间环境的预测4.6CIFAR-10实验5睡眠6FF算法与其他对比性学习技术
哇！5.2秒进入应用界面！Linux快速启动方案分享，基于全志T113-i国产平台 Tronlong创龙工业级核心板全志T113 嵌入式开发国产ARM 工业核心板
本文主要介绍基于创龙科技TLT113-EVM评估板（基于全志T113-i）的系统快速启动显示Qt界面、LVGL界面案例，适用开发环境如下。Windows开发环境：Windows764bit、Windows1064bit虚拟机：VMware15.5.5Linux开发环境：Ubuntu18.04.464bitU-Boot：U-Boot-2018.07Kernel：Linux-5.4.61、Linux-
GEE下载REMA strip和mosaic数据的python脚本 WiIsonEdwards python windows linux
EarthEngineDataCatalog：https://developers.google.com/earth-engine/datasets/catalog搜索REMA：importeeimportgeemapimportosimportwarnings#忽略所有警告warnings.filterwarnings("ignore")#下载REMAStrips数据（2m和8m）defdown
【网络爬虫】(2) requests模块，案例：网络图片爬取，附Python代码立Sir 网络爬虫爬虫 python
1.基本原理1.1requests模块requests是Python中一个非常流行的HTTP客户端库，用于发送所有的HTTP请求类型。它基于urllib，但比urllib更易用。中文文档地址：Requests:让HTTP服务人类—Requests2.18.1文档（1）requests.get(url,**kwargs)requests.get()函数是requests库中用于发送HTTPGET请求
Gymnasium学习笔记 songyuc gymnasium
1.Customwrapper[doc]1.1reset()方法重写说明重写函数模板：defreset(self,**kwargs):obs=super().reset(**kwargs)...returnobs1.1.1签名解释Deepseek-r1-Cursor:reset()方法的定义如下：defreset(self,*,seed=None,options=None):...注意参数前的星号
VMware ESXi 8.0U3d 发布下载 - 领先的裸机 Hypervisor esxi
VMwareESXi8.0U3d-领先的裸机Hypervisor同步发布Dell(戴尔)、HPE(慧与)、Lenovo(联想)、IEITSYSTEMS(浪潮信息)、Cisco(思科)、Fujitsu(富士通)、Hitachi(日立)、NEC(日电)、Huawei(华为)、xFusion(超聚变)OEM定制版请访问原文链接：https://sysin.org/blog/vmware-esxi-8-u
VMware ESXi 8.0U3c macOS Unlocke OEM BIOS 标准版和厂商定制版，已适配主流品牌服务器 esxi
VMwareESXi8.0U3cmacOSUnlocker&OEMBIOS标准版和厂商定制版ESXi8.0U3c标准版，Dell(戴尔)、HPE(慧与)、Lenovo(联想)、Inspur(浪潮)、Cisco(思科)、Hitachi(日立)、Fujitsu(富士通)、NEC(日电)定制版、Huawei(华为)OEM定制版请访问原文链接：https://sysin.org/blog/vmware-e
VMware ESXi 8.0U3d macOS Unlocker & OEM BIOS 标准版和厂商定制版，已适配主流品牌服务器 sysinside VMware ESXi OEM
VMwareESXi8.0U3dmacOSUnlocker&OEMBIOS标准版和厂商定制版ESXi8.0U3d标准版，Dell(戴尔)、HPE(慧与)、Lenovo(联想)、Inspur(浪潮)、Cisco(思科)、Hitachi(日立)、Fujitsu(富士通)、NEC(日电)定制版、Huawei(华为)OEM定制版请访问原文链接：https://sysin.org/blog/vmware-e
QT中的宏 m0_55576290 qt qt 开发语言
Q_UNUSED(event);是Qt提供的一个宏，用于标记某个变量或参数在当前作用域中未被使用。它的主要作用是避免编译器发出“未使用变量”的警告。背景在C++中，如果一个函数参数或变量在代码中没有被使用，编译器会发出警告，例如：voidsomeFunction(intunusedParam){//参数unusedParam没有被使用}编译器可能会报出类似以下警告：warning:unusedpa
Lec01-什么是安全？蛋蛋deべ忧桑安全
本文使用人工智能协助翻译，内容仅供参考，可能有错误或遗漏。如果你对内容或超链接有疑问，可以查看原文。参考资料地址：https://github.com/PKUFlyingPig/MIT6.16006.1600课程团队：HenryCorrigan-Gibbs,YaelKalai,BenKettle(TA),NickolaiZeldovich2022年秋季[!warning]免责声明本套笔记为正在进行
深入GPU渲染流水管线：从顶点到像素的微观世界晴空了无痕图形学 GPU渲染管线
现代图形硬件的架构解密与优化实践一、渲染流水线全景解析1.经典渲染管线阶段划分应用阶段几何阶段光栅化阶段像素处理阶段输出合并阶段2.现代GPU架构演进SIMT架构特性：NVIDIASM(StreamingMultiprocessor)vsAMDCU(ComputeUnit)硬件管线并行度：顶点着色器：32线程/Warp像素着色器：8x8像素/Quad延迟渲染革命：Tile-BasedDeferre
如何用deepseek快速生成思维导图和流程图？ ProcessOn官方账号流程图
一起来看看md格式和mermaid格式，与deepseek的碰撞会产生怎样的魔法吧！1、md格式+deepseek，快速生成思维导图Markdown是一种轻量级的标记语言，旨在以易读易写的纯文本格式编写文档，并能够轻松转换为结构化的HTML（超文本标记语言）或其他格式。它最初由JohnGruber和AaronSwartz于2004年创建，因其简洁性和可读性而广受欢迎。操作方法：Step1：给dee
JAVA中List数组与泛型 Yeauty java 泛型
去除ArrayList中重复字符串元素方式A:案例演示需求：ArrayList去除集合中字符串的重复值(字符串的内容相同)思路：创建新集合方式/***A:案例演示*需求：ArrayList去除集合中字符串的重复值(字符串的内容相同)*思路：创建新集合方式*/publicstaticvoidmain(String[]args){ArrayListlist=newArrayList();list.ad
### 深入解析：如何构建三角形并求解自顶向下的最小路径和的基础—（构建三角形）小学仔 leetcode 动态规划 java 算法
####一、问题分析给定一个三角形`triangle`，要求找出自顶向下的最小路径和。每次移动只能到下一行相邻的节点（当前下标`i`或`i+1`）。例如，三角形如下时：```2346574183```####二、代码框架搭建#####1.输入处理与三角形构建```javaScannersc=newScanner(System.in);List>triangle=newArrayListrow=ne
Oracle GoldenGate技术 LingDong Jey 数据库技术 oracle
1、概述GoldenGate现在是业内成熟的数据容灾与复制产品，被广泛地应用到金融行业及要求数据复制高效、健壮的各个行业。目前隶属于Oracle公司融合中间件（FusionMiddleware）产品线。2、产品组合OracleGoldenGate最为常见的家族成员包括GoldenGate、GoldenGateDirector（现名GoldenGateManagementPack）、GoldenGa
如何计算一个7B的模型训练需要的参数量以及训练时需要的计算资源 yxx122345 算法
计算理论过程见：transformer中多头注意力机制的参数量是多少？1.模型参数量的计算7B参数模型的总参数量是70亿（7billion）。这些参数主要分布在以下几个部分：Transformer层：多头注意力机制（Multi-HeadAttention）前馈神经网络（Feed-ForwardNetwork）嵌入层（EmbeddingLayer）：词嵌入（TokenEmbeddings）位置编码（
STL——排序算法（merge、sort、random_shuffle、reverse） Soaring丶 STL 排序算法 c++算法
#define_CRT_SECURE_NO_WARNINGS#include#include#include#include#include#includeusingnamespacestd;//merge算法容器元素合并，并存储到另一容器中voidtest01(){vectorv1;vectorv2;for(inti=5;i>=0;i--){v1.push_back(i+1);v2.push_b
centos7安装时采用的默认分区（比如：/dev/sda3的对应挂载点是/），如何对系统扩容？ 1 Byte Linux 运维 centos Linux系统扩容方案
‌非LVM分区扩容方案‌若/dev/sda3是‌非LVM分区‌且存储重要数据，可通过‌直接扩展分区容量‌+‌调整文件系统‌实现扩容，无需重建LVM或格式化分区‌。以下是具体步骤：‌1.扩展物理磁盘（虚拟机场景）‌‌关闭虚拟机‌→在VMware/VirtualBox中扩展磁盘容量（如从20G扩容至30G）‌。‌重启系统‌→确保虚拟机识别到新磁盘空间。2.扩展分区容量（无需创建新分区）‌安装分区扩容工
《AI医疗系统开发实战录》第4期——医疗数据安全合规实战指南骆驼_代码狂魔程序员的法宝人工智能
核心主题：如何构建符合HIPAA/GDPR标准的医疗数据安全体系？最大痛点：90%的医疗AI项目因数据合规问题无法通过临床验收！一、合规框架设计（ISO27001+HIPAA/GDPR融合方案）python示例：Django中间件实现HIPAA合规审计日志fromdjango.utils.deprecationimportMiddlewareMixinimportloggingfromdateti
海思 HI 35xx u-boot+kernel+rootfs移植晓鹏-King ARM uboot Linux linux 海思 uboot kernel rootfs
PC端开发环境安装：sudo./sdk.unpack报如下错误：./sdk.unpack:7:./sdk.unpack:WARN:notfound./sdk.unpack:8:./sdk.unpack:ECHO:notfound./sdk.unpack:20:./sdk.unpack:ECHO:notfound./sdk.unpack:22:./sdk.unpack:run_command_pro
揭秘MANUS ：多代理架构如何碾压竞争对手，人类必读的深度剖析爱吃青菜的大力水手架构人工智能
MANUS技术架构与竞品对比深度解析一、技术架构图与核心模块对比根据资料中提到的多代理架构，Manus的技术架构可概括为“三层智能体协同+虚拟机沙盒”的闭环系统。以下是其与亚信科技AISWareMaaS平台及DeepSeek的架构对比：架构层级ManusDeepSeekAISWareMaaS核心模块规划代理（任务拆解）、执行代理（工具调用）、验证代理（结果审查）单一大语言模型（LLM）平台层（数据
STM32 - 在机器人领域，LL库相比HAL优势明显 Wallace Zhang STM32 stm32 机器人嵌入式硬件
在机器人控制器、电机控制器等领域的开发，需要高实时性、精细化控制或者对代码执行效率、占用空间有较高要求。所以，大家常用的HAL库明显不符合要求。再加上，我们学习一门技术，一定要学会掌握底层的原理。MCU开发的底层就是寄存器。总的来说，多于开发嵌入式多年的人来说，HAL库的优势基本都可以忽略了。一、LL(Low-Layer)优势LL(Low-Layer)库相比于HAL(HardwareAbstrac
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

CUDA ---- Warp解析

Warp

Warps and Thread Blocks

Warp Divergence

Resource Partitioning

Latency Hiding

Occupancy

Synchronize

你可能感兴趣的:(war)