FishSeeker

CUDA PTX ISA阅读笔记（二）

8. 第八章指令集

这一章占了整个手册的一大半(百十来页吧)，主要介绍各种指令，虽然页数很多，但是大多数指令都很简单。

8.1. 指令的形式和语义描述

这章就是主要描述每个PTX指令。除了指令的形式和语义之外还有一些例子来描述这些指令的使用场景。

8.2. PTX 指令

PTX指令一般有0-4个操作数，外加一个可选的判断标志，一般第一个都是目的地址，后面的是源地址，也可以有两个目的地址，比如：
setp.lt.s32 p|q, a, b; // p = (a < b); q = !(a < b);

8.3. 判断操作

就和C语言的判断是一样的，会返回一个true or false：

if (i < n) 
    j = j + 1;
setp.lt.s32 p, i, n; // p = (i < n) 
@p add.s32 j, j, 1;  // if i < n, add 1 to j

还可以有分支：

    setp.lt.s32 p, i, n; // compare i to n 
@!p bra L1;              // if False, branch over 
    add.s32 j, j, 1;    
L1:     ...

8.3.1. 比较

8.3.1.1. 整数比较

8.3.1.2. 浮点数比较

下面这个NaN就是不是个数的玩意。

这是另外的一种比较：

8.3.2. 对于判断值的操作

判断值(也就是true of false)，可以使用or, xor, not, 和mov操作。并没有在整数和判断值的转换操作，但是setp可以从一个整数产生一个判断值：
selp.u32 %r1,1,0,%p; // convert predicate to 32-bit value

8.4. 指令操作数的类型

指令必须得带操作数的大小定义，而且一些操作需要多个类型定义：

.reg .u16 a; 
.reg .f32 d; 
cvt.f32.u16 d, a; // convert 16-bit unsigned to 32-bit floatFacebook

通常，操作数和操作定义的长度可以相互转化，但是有一定规则：

8.4.1. 操作数超过指令要求的长度

就是当操作数的长度和操作指令长度要求不一致的时候的转换方法：
这是源操作数：

这是目的操作数：

8.5. 在控制结构中线程的分支

一个CTA里的线程都是一起执行的，除非它们遇到了一些判断语句之类的，我们叫这种分开执行为分歧(divergent)，称一块执行为统一(uniform)，这两种情况都很常见。分支使得程序运行低效，应该尽可能快得使得线程统一。因此PTX提供了一个.uni语句用于在确定没有分支的时候，手动统一线程，以提高程序的运行效率。

8.6. 语义

就是使用C语言对PTX进行描述，除非C语言不能充分描述。

8.6.1. 十六位代码

GPU使用16位或者32位数据传输，如果在32位的情况下，16位的寄存器要被映射到32位的寄存器上，这会导致计算的不同(32位有高位和低位之分)。解决这个有两种办法，一个是转换到32位一种是机器无关的在哪都用16位。

8.7. 指令

8.7.1. 整数运算指令

8.7.1.1. 整数运算指令: add

加法：d = a + b;

//具体使用方法如下
add.type d, a, b; 
add{.sat}.s32 d, a, b; // .sat applies only to .s32 
//其中.type可以换成下面的这些
.type = { .u16, .u32, .u64, 
        .s16, .s32, .s64 };

.sat的意思是限制结果的范围在MININT..MAXINT之间不要溢出，只适合于.s32类型

8.7.1.2. 整数运算指令: sub

减法：d = a - b;

sub.type d, a, b; 
sub{.sat}.s32 d, a, b; // .sat applies only to 

.s32 .type = { .u16, .u32, .u64, 
            .s16, .s32, .s64 };

都和.add一样

8.7.1.3. 整数运算指令: mul

乘法：这里好像还区分高位低位

t = a * b; 
n = bitwidth of type; 
d = t; // for .wide 
d = t<2n-1..n>; // for .hi variant 
d = t1..0>; // for .lo variant

具体例子：

mul.wide.s16 fa,fxs,fys;    // 16*16 bits yields 32 bits 
mul.lo.s16 fa,fxs,fys;      // 16*16 bits, save only the low 16 bits 
mul.wide.s32 z,x,y;         // 32*32 bits, creates 64 bit result

8.7.1.4. 整数运算指令: mad

乘加：

t = a * b; 
n = bitwidth of type; 
d = t + c; // for .wide 
d = t<2n-1..n> + c; // for .hi variant 
d = t1..0> + c; // for .lo variant

这里也是有lo,hi之分。

//这里这个@p就是条件语句
@p  mad.lo.s32 d,a,b,c;
    mad.lo.s32 r,p,q,r;

8.7.1.5. 整数运算指令: mul24

24位整数值的乘法：不太知道这有啥用

t = a * b;
d = t<47..16>; // for .hi variant 
d = t<31..0>; // for .lo variant

语法：

mul24{.hi,.lo}.type d, a, b; 
.type = { .u32, .s32 };

8.7.1.6. 整数运算指令: mad24

24位整数乘法：

t = a * b; 
d = t<47..16> + c; // for .hi variant 
d = t<31..0> + c; // for .lo vari

基本和加法没啥区别：

mad24.lo.s32 d,a,b,c; // low 32-bits of 24x24-bit signed multiply.

8.7.1.7. 整数运算指令: sad

最悲伤指令：d = c + ((a

 
  sad.type d, a, b, c;
.type = { .u16, .u32, .u64,
        .s16, .s32, .s64 }; 
  8.7.1.8. 整数运算指令: div 
  除法：d = a/b。 
  div.type d, a, b;
.type = { .u16, .u32, .u64,
        .s16, .s32, .s64 }; 
  8.7.1.9. 整数运算指令: rem 
  取余：d = a % b; 
  rem.type d, a, b; 
.type = { .u16, .u32, .u64, 
        .s16, .s32, .s64 }; 
  8.7.1.10. 整数运算指令: abs 
  取绝对值：d = |a|; 
  abs.type d, a; 
.type = { .s16, .s32, .s64 }; 
  8.7.1.11. 整数运算指令: neg 
  负数：d = -a; 
  neg.type d, a; 
.type = { .s16, .s32, .s64 }; 
  8.7.1.12. 整数运算指令: min 
  最小值：d = (a < b) ? a : b; // Integer (signed and unsigned) 
  min.type d, a, b; 
.type = { .u16, .u32, .u64, 
        .s16, .s32, .s64 }; 
  8.7.1.13. 整数运算指令: max 
  最大值：d = (a > b) ? a : b; // Integer (signed and unsigned) 
  max.type d, a, b; 
.type = { .u16, .u32, .u64, 
        .s16, .s32, .s64 }; 
  8.7.1.14. 整数运算指令: popc 
  算一个数的二进制表示里有多少个1(这有啥用。。。) 
  .u32 d = 0;
while (a != 0) { 
    if (a & 0x1) d++; 
    a = a >> 1; 
}  
  用起来倒是很简单： 
  popc.type d, a; 
.type = { .b32, .b64 }; 
  8.7.1.15. 整数运算指令: clz 
  计算一个数的二进制开头有多少零(嗯。。。): 
  .u32 d = 0; 
if (.type == .b32) { 
    max = 32; mask = 0x80000000; 
}
else { 
    max = 64; mask = 0x8000000000000000; 
} 
while (d < max && (a&mask == 0) ) {
    d++; 
    a = a << 1; 
} 
  语法： 
  clz.type  d, a;
.type = { .b32, .b64 }; 
  8.7.1.16. 整数运算指令: bfind 
  这个是返回最高有效位的位置： 
  //讲真，每太看懂这解释
msb = (.type==.u32 || .type==.s32) ? 31:63；
// negate negative signed inputs
if ( (.type==.s32 || .type==.s64) && ( a & (1<u32 d = 0xffffffff;
for (.s32 i=msb; i>=0; i--) {
    if (a & (1<break;}
}
if (.shiftamt && d != 0xffffffff) {d = msb - d; } 
  使用方法如下： 
  bfind.u32 d, a;
bfind.shiftamt.s64 cnt, X; // cnt is .u32 
  8.7.1.17. 整数运算指令: brev 
  这个比较好理解就是把每一位反转： 
  msb = (.type==.b32) ? 31 : 63;
for (i=0; i<=msb; i++) {
    d[i] = a[msb-i];
} 
  语法： 
  brev.type d, a;
.type = { .b32, .b64 }; 
  8.7.1.18. 整数运算指令: bfe 
  提取一个数的某一段二进制： 
  msb = (.type==.u32 || .type==.s32) ? 31 : 63;
pos = b & 0xff; // pos restricted to 0..255 range
len = c & 0xff; // len restricted to 0..255 range
if (.type==.u32 || .type==.u64 || len==0)
    sbit = 0;
else
    sbit = a[min(pos+len-1,msb)];
d = 0;
for (i=0; i<=msb; i++) {
    d[i] = (i<len && pos+i<=msb) ? a[pos+i] : sbit;
} 
  反正，参数的意思是这样的： 
 bfe.b32 d,a,start,len;从start开始取a的len位的数，赋值给d。 
  8.7.1.19. 整数运算指令: bfi 
  这个和上面那个异曲同工啊，是把某个数插入到另外一个数里： 
  msb = (.type==.b32) ? 31 : 63;
pos = c & 0xff; // pos restricted to 0..255 range
len = d & 0xff; // len restricted to 0..255 range
f = b;
for (i=0; i<len && pos+i<=msb; i++) {
    f[pos+i] = a[i];
} 
  语法： 
 bfi.b32 d,a,b,start,len;是把a插入到b的从start开始的len位，然后赋值给d。 
  8.7.1.20. 整数运算指令: dp4a 
  四路点积和： 
  d = c;
//Extract 4 bytes from a 32bit input and sign or zero extend based on input type.
Va = extractAndSignOrZeroExt_4(a, .atype);
Vb = extractAndSignOrZeroExt_4(b, .btype);
for (i = 0; i < 4; ++i) {
    d += Va[i] * Vb[i];
} 
  不太明白这和普通点积是啥子区别： 
 dp4a.u32.s32 d1, a1, b1, c1;另外主要这个只能在计算能力6.1或以上的机器上使用。 
  8.7.1.21. 整数运算指令: dp2a 
  和上面那个差不多，不过还是不太明白是搞啥的： 
  d = c;
// Extract two 16-bit values from a 32-bit input and sign or zero extend based on input type.
Va = extractAndSignOrZeroExt_2(a, .atype);
// Extract four 8-bit values from a 32-bit input and sign or zer extend
// based on input type.
Vb = extractAndSignOrZeroExt_4(b, .btype);
b_select = (.mode == .lo) ? 0 : 2;
for (i = 0; i < 2; ++i) {
    d += Va[i] * Vb[b_select + i];
} 
  举例： 
  dp2a.lo.u32.u32 d0, a0, b0, c0;
dp2a.hi.u32.s32 d1, a1, b1, c1; 
  8.7.2. 长精度整数运算指令 
  8.7.2.1. 长精度运算指令: add.cc 
  这种是可以获得进位的加法，进位被写到CC.CF（这大概是个寄存器吧）。 
 语法： 
  add.cc.type d, a, b;
.type = { .u32, .s32, .u64, .s64 }; 
  8.7.2.2. 长精度运算指令: addc 
  这个是将进位加上：d = a + b + CC.CF; 
 语法： 
  addc{.cc}.type d, a, b;
.type = { .u32, .s32, .u64, .s64 }; 
  8.7.2.3. 长精度运算指令: sub.cc 
  这种是可以获得借位的减法，借位被写到CC.CF（这大概是个寄存器吧）。 
 语法： 
  sub.cc.type d, a, b;
.type = { .u32, .s32, .u64, .s64 }; 
  8.7.2.4. 长精度运算指令: subc 
  这个是将进位加上：d = a - (b + CC.CF); 
 语法： 
  subc{.cc}.type d, a, b;
.type = { .u32, .s32, .u64, .s64 }; 
  8.7.2.5. 长精度运算指令: mad.cc 
  分高低位的乘加运算： 
  t = a * b;
d = t<63..32> + c;  // for .hi variant
d = t<31..0> + c;   // for .lo variant 
  语法： 
  mad{.hi,.lo}.cc.type d, a, b, c;
.type = { .u32, .s32, .u64, .s64 }; 
  8.7.2.6. 长精度运算指令: madc 
  带精度的高地位运算： 
  t = a * b;
d = t<63..32> + c + CC.CF;  // for .hi variant
d = t<31..0> + c + CC.CF;   // for .lo variant 
  语法： 
  madc{.hi,.lo}{.cc}.type d, a, b, c;
.type = { .u32, .s32, .u64, .s64 }; 
  8.7.3. 浮点数运算指令 
  .ftz通过把非格式化浮点数的输入和结果冲洗成设备无关的保号零来保证后向兼容sm_1x设备。（所以到底是个蛇。。。） 
  8.7.3.1. 浮点数运算指令: testp 
  检测浮点数的性质： 
  testp.op.type p, a;     // result is .pred 
.op = { .finite, .infinite, 
        .number, .notanumber, 
        .normal, .subnormal }; 
.type = { .f32, .f64 }; 
  附上NaN的wiki解释 
 具体解释： 
 testp检测浮点数的设置，会返回true of false 
   
   testp.finite 
 如果输入不是无穷大或者NaN返回true.  
   testp.infinite 
 如果是正负无穷返回true 
   testp.number 
 输入不是NaN返回true 
   testp.notanumber 
 输入是NaN返回true 
   testp.normal、 
 输入是个格式化浮点数(不是NaN,不是无限大) 
   testp.subnormal 
 输入是个非格式化浮点数(subnormal number)(不是NaN,不是无限大) 
   
  8.7.3.2. 浮点数运算指令: copysign 
  把一个输入数的符号拷贝给另一个： 
  //把a的符号拷贝给b然后用d返回
copysign.type d, a, b; 
.type = { .f32, .f64 }; 
  8.7.3.3. 浮点数运算指令: add 
  加法： 
  add{.rnd}{.ftz}{.sat}.f32 d, a, b; 
add{.rnd}.f64 d, a, b;

.rnd = { .rn, .rz, .rm, .rp }; 
  这其中，舍入规则为： 
 - .rn 
 mantissa LSB rounds to nearest even 
 - .rz 
 最低有效位变成0 
 - .rm 
 最低有效位变成负无穷 
 - .rp 
 最低有效位变成正无穷 
  8.7.3.4. 浮点数运算指令: sub 
  减法： 
  sub{.rnd}{.ftz}{.sat}.f32 d, a, b;
sub{.rnd}.f64 d, a, b;
.rnd = { .rn, .rz, .rm, .rp }; 
  8.7.3.5. 浮点数运算指令: mul 
  乘法： 
  mul{.rnd}{.ftz}{.sat}.f32 d, a, b;
mul{.rnd}.f64 d, a, b;

.rnd = { .rn, .rz, .rm, .rp }; 
  8.7.3.6. 浮点数运算指令: fma 
  乘加运算（人家有个很强的名字叫积和熔加运算）： 
  fma.rnd{.ftz}{.sat}.f32 d, a, b, c;
fma.rnd.f64 d, a, b, c;

.rnd = { .rn, .rz, .rm, .rp }; 
  就是d = a*b + c; 
  8.7.3.7. 浮点数运算指令: mad 
  这个和上边那个是一样的，不知为啥搞出俩来： 
  mad{.ftz}{.sat}.f32 d, a, b, c;     // .target sm_1x
mad.rnd{.ftz}{.sat}.f32 d, a, b, c; // .target sm_20
mad.rnd.f64 d, a, b, c;             // .target sm_13 and higher

.rnd = { .rn, .rz, .rm, .rp }; 
  8.7.3.8. 浮点数运算指令: div 
  除法： 
  div.approx{.ftz}.f32 d, a, b;       // fast, approximate divide 
div.full{.ftz}.f32 d, a, b;         // full-range approximate 
divide div.rnd{.ftz}.f32 d, a, b;   // IEEE 754 compliant 
rounding div.rnd.f64 d, a, b;       // IEEE 754 compliant rounding 

.rnd = { .rn, .rz, .rm, .rp }; 
  8.7.3.9. 浮点数运算指令: abs 
  绝对值： 
  abs{.ftz}.f32 d, a;
abs.f64 d, a; 
  8.7.3.10. 浮点数运算指令: neg 
  相反数： 
  neg{.ftz}.f32 d, a;
neg.f64 d, a; 
  语义：d = -a; 
  8.7.3.11. 浮点数运算指令: min 
  取两个数的最小值： 
  min{.ftz}.f32 d, a, b;
min.f64 d, a, b; 
  语义： 
  if (isNaN(a) && isNaN(b))   d = NaN; 
else if (isNaN(a))          d = b; 
else if (isNaN(b))          d = a; 
else                        d = (a < b) ? a : b; 
  8.7.3.12. 浮点数运算指令: max 
  取最大： 
  max{.ftz}.f32 d, a, b;
max.f64 d, a, b; 
  语义： 
  if (isNaN(a) && isNaN(b))   d = NaN; 
else if (isNaN(a))          d = b; 
else if (isNaN(b))          d = a; 
else                        d = (a > b) ? a : b; 
  8.7.3.13. 浮点数运算指令: rcp 
  取倒数： 
  rcp.approx{.ftz}.f32 d, a;  // fast, approximate reciprocal 
rcp.rnd{.ftz}.f32 d, a;     // IEEE 754 compliant rounding 
rcp.rnd.f64 d, a;           // IEEE 754 compliant rounding 

.rnd = { .rn, .rz, .rm, .rp }; 
  下图是关于倒数的规则： 
  
  8.7.3.14. 浮点数运算指令: rcp.approx.ftz.f6 
  这个就是算倒数：rcp.approx.ftz.f64 d, a; 
 然后下面是倒数表： 
  
  8.7.3.15. 浮点数运算指令: sqrt 
  开平方： 
  sqrt.approx{.ftz}.f32 d, a; // fast, approximate square root 
sqrt.rnd{.ftz}.f32 d, a;    // IEEE 754 compliant rounding 
sqrt.rnd.f64 d, a;          // IEEE 754 compliant rounding 

.rnd = { .rn, .rz, .rm, .rp }; 
  还有开平方表： 
  
  8.7.3.16. 浮点数运算指令: rsqrt 
  开平方的倒数： 
  rsqrt.approx{.ftz}.f32  d, a;
rsqrt.approx.f64        d, a; 
  8.7.3.17. 浮点数运算指令: rsqrt.approx.ftz.f64 
  双精度开平方的倒数(真-精确)：rsqrt.approx.ftz.f64 d, a; 
  8.7.3.18. 浮点数运算指令: sin 
  8.7.3.19. 浮点数运算指令: cos 
  8.7.3.20. 浮点数运算指令: lg2 
  8.7.3.21. 浮点数运算指令: ex2 
  上面四个就是数学函数： 
  sin.approx{.ftz}.f32  d, a;
cos.approx{.ftz}.f32  d, a;
lg2.approx{.ftz}.f32  d, a;
ex2.approx{.ftz}.f32  d, a; 
  8.7.4. 半精度 浮点数运算指令 
  这种半精度的就是把一个数拆成hi和lo运算 
  8.7.4.1. 半精度 浮点数运算指令: add 
  加法： 
  add{.rnd}{.ftz}{.sat}.f16 d, a, b; // d, a, b are 16 bits in size 
add{.rnd}{.ftz}{.sat}.f16x2 d, a, b; // d, a, b are 32 bits in size. 
.rnd = { .rn }; 
  它的描述是这样的，和下面那些也差不多： 
  if (type == f16) { 
    d = a + b; 
} else if (type == f16x2) { 
    fA[0] = a[0:15]; 
    fA[1] = a[16:31]; 
    fB[0] = b[0:15]; 
    fB[1] = b[16:31]; 
    for (i = 0; i < 2; i++) { 
        d[i] = fA[i] + fB[i]; 
    } 
} 
  8.7.4.2. 半精度 浮点数运算指令: sub 
  减法： 
  sub{.rnd}{.ftz}{.sat}.f16 d, a, b; // d, a, b are 16 bits in size
sub{.rnd}{.ftz}{.sat}.f16x2 d, a, b; // d, a, b are 32 bits in size. 

.rnd = { .rn }; 
  8.7.4.3. 半精度 浮点数运算指令: mul 
  乘法： 
  mul{.rnd}{.ftz}{.sat}.f16 d, a, b; // d, a, b are 16 bits in size 
mul{.rnd}{.ftz}{.sat}.f16x2 d, a, b; // d, a, b are 32 bits in size. 

.rnd = { .rn }; 
  8.7.4.4. 半精度 浮点数运算指令: fma 
  熔石为甲命令。。。： 
  fma.rnd{.ftz}{.sat}.f16 d, a, b, c; // d, a, b, c are 16 bits in size
fma.rnd{.ftz}{.sat}.f16x2 d, a, b, c; // d, a, b, c are 32 bits in size. 

.rnd = { .rn }; 
  8.7.5. 比较与选择指令 
  8.7.5.1. 比较与选择指令: set 
  就各种比较，然后返回一个bool值 
  //没c的时候就直接做运算
set.CmpOp{.ftz}.dtype.stype d, a, b;
//有c的时候要将结果和c比较之后返回
set.CmpOp.BoolOp{.ftz}.dtype.stype d, a, b, {!}c; 

.CmpOp = { eq, ne, lt, gt, ge, lo, ls, hi, hs, equ, neu, ltu, leu, gtu, geu, num, nan }; 
.BoolOp = { and, or, xor }; 
.dtype = { .u32, .s32, .f32 }; 
.stype = { .b16, .b32, .b64, .u16, .u32, .u64, .s16, .s32, .s64, .f32, .f64 }; 
  这里的具体解释(代码比文字好看+1)： 
  t = (a CmpOp b) ? 1 : 0; 
if (isFloat(dtype)) 
    d = BoolOp(t, c) ? 1.0f : 0x00000000; 
else 
    d = BoolOp(t, c) ? 0xffffffff : 0x00000000; 
  8.7.5.2. 比较与选择指令: setp 
  比较： 
  setp.CmpOp{.ftz}.type p[|q], a, b; 
setp.CmpOp.BoolOp{.ftz}.type p[|q], a, b, {!}c;

.CmpOp = { eq, ne, lt, gt, ge, lo, ls, hi, hs, equ, neu, ltu, leu, gtu, geu, num, nan }; 
.BoolOp = { and, or, xor }; 
.type = { .b16, .b32, .b64, .u16, .u32, .u64, .s16, .s32, .s64, .f32, .f64 }; 
  主要的意思就是： 
  t = (a CmpOp b) ? 1 : 0; 
p = BoolOp(t, c); 
q = BoolOp(!t, c);
//examples
    setp.lt.and.s32  p|q,a,b,r;
@q  setp.eq.u32      p,i,n; 
  8.7.5.3. 比较与选择指令: selp 
  语法： 
  selp.type d, a, b, c; 
.type = { .b16, .b32, .b64, .u16, .u32, .u64, .s16, .s32, .s64, .f32, .f64 }; 
  语义：d = (c == 1) ? a : b; 
  8.7.5.4. 比较与选择指令: slct 
  和上边那个差不多： 
  slct.dtype.s32 d, a, b, c; 
slct{.ftz}.dtype.f32 d, a, b, c; 

.dtype = { .b16, .b32, .b64, .u16, .u32, .u64, .s16, .s32, .s64, .f32, .f64 }; 
  语义：d = (c >= 0) ? a : b; 
  8.7.6. 半精度比较指令 
  8.7.6.1 半精度比较指令: set 
  这个和全精度的区别就是，人家是按照一半一半比的： 
  set.CmpOp{.ftz}.f16.stype d, a, b; 
set.CmpOp.BoolOp{.ftz}.f16.stype d, a, b, {!}c; 
set.CmpOp{.ftz}.f16x2.f16x2 d, a, b; 
set.CmpOp.BoolOp{.ftz}.f16x2.f16x2 d, a, b, {!}c; 
//各种骚操作
.CmpOp = { eq, ne, lt, le, gt, ge, equ, neu, ltu, leu, gtu, geu, num, nan }; .BoolOp = { and, or, xor }; 
.stype = { .b16, .b32, .b64, .u16, .u32, .u64, .s16, .s32, .s64, .f32, .f64 }; 
  具体使用方法如下： 
  if (type == .f16) { 
    t = (a CmpOp b) ? 1 : 0; 
    d = BoolOp(t, c) ? 1.0 : 0.0; 
} else if (type == .f16x2) { 
    fA[0] = a[0:15]; 
    fA[1] = a[16:31]; 
    fB[0] = b[0:15]; 
    fB[1] = b[16:31]; 
    t[0] = (fA[0] CmpOp fB[0]) ? 1 : 0; 
    t[1] = (fA[1] CmpOp fB[1]) ? 1 : 0; 
for (i = 0; i < 2; i++) { 
    d[i] = BoolOp(t[i], c) ? 1.0 : 0.0; 
    } 
} 
  8.7.6.2 半精度比较指令: setp 
  和上边那个差不多，就是这里的返回值是整数bool类型上面是浮点数。就是比较之后的返回值再和另外一个bool值(ptx这里叫predicate值)比较 
  setp.CmpOp{.ftz}.f16 p, a, b; 
setp.CmpOp.BoolOp{.ftz}.f16 p, a, b, {!}c; 
setp.CmpOp{.ftz}.f16x2 p|q, a, b; 
setp.CmpOp.BoolOp{.ftz}.f16x2 p|q, a, b, {!}c;

.CmpOp = { eq, ne, lt, le, gt, ge, equ, neu, ltu, leu, gtu, geu, num, nan };
.BoolOp = { and, or, xor }; 
  语法： 
  if (type == .f16) { 
    t = (a CmpOp b) ? 1 : 0; 
    p = BoolOp(t, c); 
} else if (type == .f16x2) { 
    fA[0] = a[0:15]; 
    fA[1] = a[16:31]; 
    fB[0] = b[0:15]; 
    fB[1] = b[16:31]; 
    t[0] = (fA[0] CmpOp fB[0]) ? 1 : 0; 
    t[1] = (fA[1] CmpOp fB[1]) ? 1 : 0; 
    p = BoolOp(t[0], c); 
    q = BoolOp(t[1], c); 
} 
  8.7.7. 逻辑与转化指令 
  8.7.7.1. 逻辑与转化指令: and 
  按位与：d = a & b; 
 语法：and.type d, a, b; .type = { .pred, .b16, .b32, .b64 }; 
  8.7.7.2. 逻辑与转化指令: or 
  按位或：d = a | b; 
 语法：or.type d, a, b; .type = { .pred, .b16, .b32, .b64 }; 
  8.7.7.3. 逻辑与转化指令: xor 
  按位异或：d = a ^ b; 
 语法：xor.type d, a, b; .type = { .pred, .b16, .b32, .b64 }; 
  8.7.7.4. 逻辑与转化指令: not 
  非：d = ~a; 
 语法：not.type d, a, b; .type = { .pred, .b16, .b32, .b64 }; 
  8.7.7.5. 逻辑与转化指令: cnot 
  那啥：d = (a==0) ? 1 : 0; 
 语法：cnot.type d, a, b; .type = { .b16, .b32, .b64 }; 
  8.7.7.6. 逻辑与转化指令: lop3 
  这个稍微有点复杂，是对三个数进行逻辑操作，命令的格式是这样的：lop3.b32 d, a, b, c, immLut;使用这个要召唤一个函数，这个函数比如是这样的F(a & b & c)，就会对a,b,c进行运算，然后得到的结果赋值给immLut，再返回给d就好了。 
 使用方法： 
  F = GetFunctionFromTable(immLut); // returns the function corresponding to immLut value 
d = F(a, b, c); 
  8.7.7.7. 逻辑与转化指令: shf 
  这个命令就是莫名其妙地移位，不知道实际有什么作用： 
  shf.l.mode.b32 d, a, b, c; // left shift 
shf.r.mode.b32 d, a, b, c; // right shift 

.mode = { .clamp, .wrap }; 
  具体的实现就是这样的，首先这个模式不知道是啥意思，然后就是取个移位的位数n，然后移位： 
  //根据模式和来确定要移动的位数
u32 n = (.mode == .clamp) ? min(c, 32) : c & 0x1f; 
switch (shf.dir) {  // shift concatenation of [b, a] 
    case shf.l: // extract 32 msbs 
        u32 d = (b << n) | (a >> (32-n)); 
    case shf.r:     // extract 32 lsbs 
        u32 d = (b << (32-n)) | (a >> n); 
}
 
  8.7.7.8. 逻辑与转化指令: shl 
  左移：d = a << b; 
 用法：shl.type d, a, b; .type = { .b16, .b32, .b64 }; 
  8.7.7.9. 逻辑与转化指令: shr 
  右移：d = a >> b; 
 用法：shr.type d, a, b; .type = { .b16, .b32, .b64 }; 
  8.7.8. 数据移动和转化指令 
  8.7.8.1. 缓存操作数 
  Load指令可以把内存中的一个单位的数据读取出来并装载到目标地址中 
 Store指令可以把一个目标地址中的数据读取出来并存储到内存中 
 1. load指令下的操作 
 - .ca 这个是把数据加载到所有的cache中，但是会造成coherent问题。要做的是将grid中的L1 cache设置为不可见 
 - .cg 只用L2 cache 
 - .cs cache stream中的操作 
 - .lu 最后一次使用 
 - .cv 不再cache 
 2. store指令下的操作 
 - .wb 回写模式。L1 L2都写。 
 - .cg cache到global 
 - .cs cache流 
 - .wt 直写模式。写回global和L2 cache。 
   
   Write-through（直写模式）在数据更新时，同时写入缓存Cache和后端存储。此模式的优点是操作简单；缺点是因为数据修改需要同时写入存储，数据写入速度较慢。 
 Write-back（回写模式）在数据更新时只写入缓存Cache。只在数据被替换出缓存时，被修改的缓存数据才会被写到后端存储。此模式的优点是数据写入速度快，因为不需要写存储；缺点是一旦更新后的数据未被写入存储时出现系统掉电的情况，数据将无法找回。

如何在 Linux 上安装 RTX 5090 / 5080 /5070 Ti / 5070 驱动程序 — 详细指南知识大胖 NVIDIA GPU和大语言模型开发教程 linux 运维服务器
简介为了获得最佳性能，您需要在Linux上运行5090/5080/5070Ti/5070或其他50系列GPU（或Windows上的WSL）。这篇文章将包含有关如何操作的详细指南。主线内核和驱动程序怪癖之旅Nvidia50系列GPU拥有最新的Nvidia技术。但是，新硬件需要一些新软件或更新，这需要一些耐心。如果您在这里，您可能会遇到Ubuntu默认设置的障碍。不要害怕！我最近自己摸索了这个迷宫，结
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战汀、人工智能 LLM技术汇总人工智能自然语言处理 LLM Agent vLLM AI大模型大模型部署
LLM大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战1.环境准备GPU设备:A10,3090,V100,A100均可.#设置pip全局镜像(加速下载)pipconfigsetglobal.index-urlhttps://mirrors.aliyun.com/pypi/simple/#安装ms-swiftpipinstall'ms-swift[llm]'-U#vllm与
8卡RTX 5090D服务器部署Qwen3-32B-AWQ模型执行性能测试
一、背景最近得了一台8卡5090D服务器进行测试评估。GPU拓扑情况如下(test)root@ubuntu:/opt/models#nvidia-smitopo-mGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7CPUAffinityNUMAAffinityGPUNUMAIDGPU0XNODENODENODESYSSYSSYSSYS0-31,64-950N/AGPU1NODEXNO
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
怎么强制macOS上的某个应用不使用独立显卡
背景之前碰到过企业微信更新之后强制使用独立GPU，后面找到了快捷指令的方式禁止企业微信使用独立GPU启动，后面某个版本更新好了。最近最近微信更新到了4.0.3.93版本，也出现了这个问题，不想再在快捷指令里启动了，因为占用菜单栏空间，所以找了一下，发现苹果官方DeveloperDocumentation给出了修改Info.plist文件禁止应用使用独立GPU的方法，具体参考方法二。一、快捷指令.a
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
数据不Ready，一切AI Ready都是伪命题
2025年随着DeepSeekR1通用大模型的爆火，企业级AI应用元年正式来临。“AIReady”这个词随之火了起来，但什么是AIReady？是有了大模型接口，就是Ready？是买了GPU服务器，就能跑出结果？显然不是。在袋鼠云看来，AIReady不等于模型Ready，而是数据Ready。没有可用、可控、可理解的数据，AI只能是空中楼阁。AIReady，首先是DataReady。别让AIReady
显卡GPU的架构和工作原理 InnoLink_1024 芯片人工智能 AGI 架构硬件架构人工智能
显卡GPU（图形处理单元）是专为并行计算和图形处理设计的芯片，广泛应用于游戏、科学计算、人工智能和数据中心等领域。以下详细介绍GPU的架构和工作原理，涵盖核心组件、计算流程和关键技术，尽量简洁清晰。一、GPU架构概述GPU架构与CPU不同，专注于高并行计算，适合处理大量简单、重复的任务。其核心设计目标是最大化吞吐量，而非单任务的低延迟。主流GPU厂商（如NVIDIA、AMD、Intel）架构虽有差
【零基础学AI】第36讲：GPT模型原理 1989 0基础学AI 人工智能 gpt lstm rnn YOLO 目标检测
本节课你将学到理解GPT模型的基本原理掌握Transformer解码器的工作机制实现一个简单的文本生成应用开始之前环境要求Python3.8+安装包：pipinstalltransformerstorch硬件：CPU即可运行（GPU可加速）前置知识了解基本的神经网络概念（第23讲内容）熟悉Python编程基础核心概念什么是GPT？GPT（GenerativePre-trainedTransform
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
【亲测免费】 CatBoost 教程项目使用指南
CatBoost教程项目使用指南tutorials项目地址:https://gitcode.com/gh_mirrors/tutorials1/tutorials1.项目介绍CatBoost是一个高效、灵活且易于使用的梯度提升库，特别适用于处理分类特征。它由Yandex开发，广泛应用于机器学习和数据科学领域。CatBoost提供了丰富的功能，包括自动处理分类特征、支持GPU训练、内置的交叉验证和模
英伟达 Isaac ROS产品体验芝麻香儿 Roads to deep learning.AI 英伟达 Isaac ROS
这里写自定义目录标题英伟达IsaacROS产品体验运行的商品名称运行过程记录GPU加速仿真总结英伟达IsaacROS产品体验NVIDIAIsaacROS是一套为自主移动机器人（AMR）开发的硬件加速软件包，专为在NVIDIAGPU和Jetson平台上优化ROS（RobotOperatingSystem）应用程序而设计。它通过提供一系列模块化的ROS包和完整的处理管道，帮助开发者加速AI感知、图像处
双轮驱动：政策激励与外部制约下的国产服务器市场演进科智咨询服务器运维 gpu算力
2025年6月，科智咨询正式发布《中国国产服务器市场研究报告（2025）》，报告从国产服务器产业概述、政策环境分析、市场现状与竞争格局、面临挑战与市场机遇等维度，深入剖析国产服务器市场现状及未来发展趋势。2022年10月，美国首次将A100和H100等高端GPU列入对华出口管制清单，标志着对中国服务器芯片的针对性限制正式拉开序幕。与此同时，国内相关支持政策持续落地，从“国产替代”专项资金到鼓励核心
RapidRAW RAW 图像编辑器罗光记百度数据库 facebook segmentfault 经验分享
RapidRAW是一款现代化的高性能AdobeLightroom替代品。它体积轻巧（不足30MB），适用于Windows、macOS和Linux，提供功能丰富、美观的编辑体验。一款美观、无损且GPU加速的RAW图像编辑器，在构建时充分考虑了性能。主要特点核心编辑引擎GPU加速处理：所有图像调整均使用自定义WGSL着色器在GPU上处理，以获得快速反馈。蒙版：利用AI主体和前景检测功能，即时创建精准蒙
Chromium 引擎启用 Skia Graphite后性能飙升罗光记百度 facebook 数据库经验分享 oneapi
在一项被许多开发者关注的性能优化进展中，Chromium项目正逐步将其图形渲染后台从经典的Ganesh迁移至Skia新一代图形后端Graphite，而最新测试结果显示，这一举措带来了显著的性能提升。Skia是谷歌主导的跨平台2D图形库，长期以来一直是Chromium浏览器的核心组成部分。Ganesh是Skia的传统渲染后端，而Graphite是为现代GPU和图形API（如Vulkan和Metal）
在Ubuntu系统下使用Docker部署ollama并使用英伟达gpu加速 longze_7 docker 容器运维
下载安装英伟达Nvidiacontainertoolkit：curl-fsSLhttps://nvidia.github.io/libnvidia-container/gpgkey|sudogpg--dearmor-o/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg\&&curl-s-Lhttps://nvidia.github.io
多租户场景下的资源配额管理，如何实现公平分配与优先级调度？百态老人人工智能数据库大数据
多租户场景下的资源配额管理与调度策略体系（2025技术视角）一、资源配额管理的核心机制资源配额是多租户环境下实现资源隔离与共享的基石，其核心在于建立动态可扩展的约束规则与智能化的执行框架。当前主流技术体系包含以下核心组件：1.分层配额模型物理层配额：基于硬件资源的绝对限制（如CPU核数、内存容量、GPU算力），通过Linuxcgroups或WindowsJobObjects实现资源硬性隔离。例如，
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析观熵大模型高阶优化技术专题算法人工智能
异构推理系统动态负载调度与资源分配实战：多节点协同、任务绑定与智能分发策略全解析关键词异构调度、Kubernetes调度器、GPU任务绑定、MIG分配、推理流量调度、服务亲和性、任务隔离、资源优先级、边缘协同、动态算力管理摘要在AI推理系统的生产级部署中，单一自动扩缩容机制已无法满足实际复杂环境中对资源利用率、任务延迟与系统稳定性的多重要求。特别是在GPU/NPU/CPU并存的异构计算集群中，运行
跨集群异构推理系统协同调度实战：边缘-中心联合部署与多租户算力调度架构解析观熵大模型高阶优化技术专题架构人工智能
跨集群异构推理系统协同调度实战：边缘-中心联合部署与多租户算力调度架构解析关键词跨集群调度、边缘推理、GPU-NPU协同、KubeFed、资源分域、任务下发、多租户隔离、MLOps联邦调度、推理闭环、负载均衡摘要在AI推理系统进入产业级部署阶段后，模型服务逐步从中心化集群向边缘设备、跨地理分布式节点延伸，形成典型的“中心+边缘”异构多集群形态。为实现高效资源利用与低时延响应，推理系统需要支持节点异
冷冻电镜重构的GPU加速破局：从Relion到CryoSPARC的并行重构算法九章云极AladdinEdu 人工智能 pytorch 架构 gpu算力机器学习自然语言处理深度学习
点击“AladdinEdu，同学们用得起的【H卡】算力平台”，H卡级别算力，按量计费，灵活弹性，顶级配置，学生专属优惠。一、冷冻电镜重构的算力困局随着单粒子冷冻电镜（cryo-EM）分辨率突破原子级别（<3Å），重构算法计算复杂度呈指数级增长。传统CPU集群处理百万级粒子数据集需数周时间，成为结构生物学研究的关键瓶颈。本文重点分析Relion和CryoSPARC两大主流软件在GPU并行化方面的技术
jetson orin nano安装GPU版本的pytorch过程小鲈鱼- pytorch 人工智能 python
一、安装jetpack组件和安装CUDA/cuDNN可以参考下面这个博客「解析」JetsonOrinNX安装CUDA/cuDNN_jetsoncuda-CSDN博客二、安装Pytorch和torchaudio可以直接看官方给的步骤https://pytorch.org/audio/main/build.jetson.html
TensorBase开发者快速入门指南宗隆裙
TensorBase开发者快速入门指南tensorbasetensorbase/tensorbase:是一个现代的GPU加速的张量数据库。适合用于大规模数据分析和机器学习。项目地址:https://gitcode.com/gh_mirrors/te/tensorbase前言TensorBase是一个基于Rust构建的高性能时序数据库，专为大规模数据分析场景设计。本文将详细介绍如何搭建TensorB
鸿蒙next开发：性能测试工具SmartPerf Editor 代码与思维鸿蒙 harmonyos 华为嵌入式硬件鸿蒙驱动开发
SmartPerfEditor是一款PC端桌面应用，通过监测、采集应用运行时FPS、CPU、GPU、Memory、Battery、Network等性能数据，帮助开发者了解应用的性能状况。SmartPerfEditor还集成了DrawingDoc功能，可录制RenderService绘制指令，回放并生成不同图形库文件。通过逐帧逐绘制指令回放，来识别是否存在冗余绘制、是否可以优化绘制指令的数量，从而提
开源人工神经网络库（OpenANN） deepdata_cn 人工智能神经网络
OpenANN（OpenANN，OpenArtificialNeuralNetworkLibrary）是一个开源的人工神经网络库，基于C++编写，依赖Eigen3库进行高效的矩阵运算，使用CMake进行项目构建，支持多种神经网络架构，包括前馈神经网络、卷积神经网络和循环神经网络等，适用于图像识别、自然语言处理、时间序列预测等多种场景。提供数据预处理、模型保存和加载、超参数优化等功能。支持GPU加速
NCCL 核心集体通信操作深度解析：从原理到优化实践清风 001 AI大模型底层建设 gpu算力 ai
目录引言：NCCL——分布式训练的通信引擎一、NCCL基础：GPU通信的“加速器”1.1NCCL与MPI的协同1.2集体通信的价值二、NCCL核心操作深度解析2.1AllGather：全局数据聚合2.1.1定义与目标2.1.2算法原理2.1.3性能影响因素2.1.4测试方法（nccl-tests）2.2AllReduce：梯度聚合的核心2.2.1定义与目标2.2.2算法原理2.2.3性能影响因素2
【零基础学AI】第30讲：生成对抗网络(GAN)实战 - 手写数字生成 1989 0基础学AI 人工智能生成对抗网络神经网络 python 机器学习近邻算法深度学习
本节课你将学到GAN的基本原理和工作机制使用PyTorch构建生成器和判别器DCGAN架构实现技巧训练GAN模型的实用技巧开始之前环境要求Python3.8+需要安装的包：pipinstalltorchtorchvisionmatplotlibnumpyGPU推荐（可大幅加速训练）前置知识第21讲TensorFlow基础第23讲神经网络原理基本PyTorch使用经验核心概念什么是GAN？GAN就像
Windows Subsystem for Linux (WSL)：现代开发的终极跨平台方案止观止 Windows windows linux WSL 开发环境
引言WindowsSubsystemforLinux(WSL)是微软革命性的技术突破，它彻底改变了Windows平台的开发体验。通过实现在Windows内核中无缝运行原生Linux二进制文件，WSL弥合了Windows与Linux之间的鸿沟。本文将从架构原理、实操指南到高阶应用进行全面剖析，您将掌握：WSL1与WSL2的架构差异与性能对比文件系统互通与跨平台开发的最佳实践GPU加速支持与容器化集成
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

CUDA PTX ISA阅读笔记（二）

8. 第八章 指令集

8.1. 指令的形式和语义描述

8.2. PTX 指令

8.3. 判断操作

8.3.1. 比较

8.3.1.1. 整数比较

8.3.1.2. 浮点数比较

8.3.2. 对于判断值的操作

8.4. 指令操作数的类型

8.4.1. 操作数超过指令要求的长度

8.5. 在控制结构中线程的分支

8.6. 语义

8.6.1. 十六位代码

8.7. 指令

8.7.1. 整数运算指令

8.7.1.1. 整数运算指令: add

8.7.1.2. 整数运算指令: sub

8.7.1.3. 整数运算指令: mul

8.7.1.4. 整数运算指令: mad

8.7.1.5. 整数运算指令: mul24

8.7.1.6. 整数运算指令: mad24

8.7.1.7. 整数运算指令: sad

8.7.1.8. 整数运算指令: div

8.7.1.9. 整数运算指令: rem

8.7.1.10. 整数运算指令: abs

8.7.1.11. 整数运算指令: neg

8.7.1.12. 整数运算指令: min

8.7.1.13. 整数运算指令: max

8.7.1.14. 整数运算指令: popc

8.7.1.15. 整数运算指令: clz

8.7.1.16. 整数运算指令: bfind

8.7.1.17. 整数运算指令: brev

8.7.1.18. 整数运算指令: bfe

8.7.1.19. 整数运算指令: bfi

8.7.1.20. 整数运算指令: dp4a

8.7.1.21. 整数运算指令: dp2a

8.7.2. 长精度整数运算指令

8.7.2.1. 长精度运算指令: add.cc

8.7.2.2. 长精度运算指令: addc

8.7.2.3. 长精度运算指令: sub.cc

8.7.2.4. 长精度运算指令: subc

8.7.2.5. 长精度运算指令: mad.cc

8.7.2.6. 长精度运算指令: madc

8.7.3. 浮点数运算指令

8.7.3.1. 浮点数运算指令: testp

8.7.3.2. 浮点数运算指令: copysign

8.7.3.3. 浮点数运算指令: add

8.7.3.4. 浮点数运算指令: sub

8.7.3.5. 浮点数运算指令: mul

8.7.3.6. 浮点数运算指令: fma

8.7.3.7. 浮点数运算指令: mad

8.7.3.8. 浮点数运算指令: div

8.7.3.9. 浮点数运算指令: abs

8.7.3.10. 浮点数运算指令: neg

8.7.3.11. 浮点数运算指令: min

8.7.3.12. 浮点数运算指令: max

8.7.3.13. 浮点数运算指令: rcp

8.7.3.14. 浮点数运算指令: rcp.approx.ftz.f6

8.7.3.15. 浮点数运算指令: sqrt

8.7.3.16. 浮点数运算指令: rsqrt

8.7.3.17. 浮点数运算指令: rsqrt.approx.ftz.f64

8.7.3.18. 浮点数运算指令: sin

8.7.3.19. 浮点数运算指令: cos

8.7.3.20. 浮点数运算指令: lg2

8.7.3.21. 浮点数运算指令: ex2

8.7.4. 半精度 浮点数运算指令

8.7.4.1. 半精度 浮点数运算指令: add

8.7.4.2. 半精度 浮点数运算指令: sub

8.7.4.3. 半精度 浮点数运算指令: mul

8.7.4.4. 半精度 浮点数运算指令: fma

8.7.5. 比较与选择指令

8.7.5.1. 比较与选择指令: set

8.7.5.2. 比较与选择指令: setp

8.7.5.3. 比较与选择指令: selp

8.7.5.4. 比较与选择指令: slct

8.7.6. 半精度比较指令

8.7.6.1 半精度比较指令: set

8.7.6.2 半精度比较指令: setp

8.7.7. 逻辑与转化指令

8. 第八章指令集

8.7.4. 半精度浮点数运算指令

8.7.4.1. 半精度浮点数运算指令: add

8.7.4.2. 半精度浮点数运算指令: sub

8.7.4.3. 半精度浮点数运算指令: mul

8.7.4.4. 半精度浮点数运算指令: fma