Yi Xiao[旺柴]

通用矩阵乘法（GEMM）优化——基于arm neon

GEMM 优化报告

实验任务

实现矩阵乘法 $C = A * B$ ，其中， $A$ , $B$ , $C$ 是 $N * N$ 的单精度稠密矩阵。本实验中矩阵均为column major。

实验环境

华为鲲鹏920：aarch64架构，64核CPU，CPU最高工作频率2600MHz。

L1d cache：64KB

L1i cache：64KB

L2 cache：512KB

L3 cache：32768KB

Page size：65536Byte

测试用例

测试用例中我们选取的矩阵规模为 $\in \{32*k\pm1, 32|1\le k\le 32\}$ 。

优化流程

Step 0: naive

最简单粗暴的算法就是先按行遍历再按列遍历，分别计算 $C_{ij}$ 。在编译过程中，我们设置编译器不做任何优化。

void square_gemm (int n, float* A, float* B, float* C)
{
  /* For each row i of A */
  for (int i = 0; i < n; ++i)
    /* For each column j of B */
    for (int j = 0; j < n; ++j) 
    {
      /* Compute C(i,j) */
      float cij = C[i+j*n];
      for( int k = 0; k < n; k++ )
	      cij += A[i+k*n] * B[k+j*n];
      C[i+j*n] = cij;
    }
}

该程序的性能如下图所示，其平均性能为0.33Gflops/s。

Step 1: 加入编译器优化

在Step 0的基础上加上了O3优化，以及-fomit-frame-pointer -march=armv8-a -ffast-math -mtune=tsv110编译选项。在编译器对代码进行自动优化后，程序的性能有了明显提升，如下图所示，平均浮点运算速度为2.47Gflops/s。但是程序的性能不太稳定，尤其是在矩阵规模是32的倍数的时候，性能反而下降明显。

Step 2: 利用neon intrinsic

在ARM-v8中有32个128位定长寄存器，每个寄存器可以存4个单精度浮点数，支持SIMD向量化操作。利用这一特性，我们可以四个四个地计算矩阵 $C$ 中的元素。

#include "arm_neon.h"

#define A(i,j) a[ (j)*n + (i) ]
#define B(i,j) b[ (j)*n + (i) ]
#define C(i,j) c[ (j)*n + (i) ]

void solution_1 (int n, float* a, float* b, float* c){
  int i, j;
  for (j = 0; j < n; j++){
    for (i = 0; i < ((n) & (~3)); i+=4){
      float32x4_t buf = vld1q_f32(&C(i, j));
      for (int k = 0; k < n; k++){
        float32x4_t va = vld1q_f32(&A(i, k));
        register float vb = B(k, j);
        buf = vmlaq_n_f32(buf, va, vb);
      }
      vst1q_f32(&C(i, j), buf);
    }
    for (; i < n; i++){//deal with boundaries
      register float temp = C(i, j);
      for (int k = 0; k < n; k++){
        temp += A(i, k) * B(k, j);
      }
      C(i, j) = temp;
    }
  }  
}

加入SIMD向量化操作之后，程序的性能如下图所示，平均浮点运算速度达到3.68Gflops/s。

Step 3: 对矩阵B同时4列访问

在Step2中，矩阵 $B$ 中的每个元素在被load后只被使用了一次，为了提高矩阵B中元素的使用率，我们可以每次load矩阵 $B$ 中相邻4列的元素，进而通过对矩阵 $A$ 中的 $4\times k$ 的子矩阵和矩阵 $B$ 中的 $k\times 4$ 的子矩阵进行相乘，得到矩阵 $C$ 中的大小为 $4\times 4$ 的子矩阵。

#include "arm_neon.h"

#define A(i,j) a[ (j)*n + (i) ]
#define B(i,j) b[ (j)*n + (i) ]
#define C(i,j) c[ (j)*n + (i) ]

//computing (4xk)x(kx4) dot product
void add_dot_4x4 (int n, int k, float* a, float* b, float* c){
  float *b_ptr_0, *b_ptr_1, *b_ptr_2, *b_ptr_3;

  b_ptr_0 = &B(0, 0);
  b_ptr_1 = &B(0, 1);
  b_ptr_2 = &B(0, 2);
  b_ptr_3 = &B(0, 3);

  float32x4_t c_sum_0 = {0};
  float32x4_t c_sum_1 = {0};
  float32x4_t c_sum_2 = {0};
  float32x4_t c_sum_3 = {0};

  register float b_reg_0, b_reg_1, b_reg_2, b_reg_3;

  for (int p = 0; p < k; p++){
    float32x4_t a_reg = vld1q_f32(&A(0, p));

    b_reg_0 = *(b_ptr_0++);
    b_reg_1 = *(b_ptr_1++);
    b_reg_2 = *(b_ptr_2++);
    b_reg_3 = *(b_ptr_3++);

    c_sum_0 = vmlaq_n_f32(c_sum_0, a_reg, b_reg_0);
    c_sum_1 = vmlaq_n_f32(c_sum_1, a_reg, b_reg_1);
    c_sum_2 = vmlaq_n_f32(c_sum_2, a_reg, b_reg_2);
    c_sum_3 = vmlaq_n_f32(c_sum_3, a_reg, b_reg_3);
  }

  float *c_ptr = 0;
  c_ptr = &C(0, 0);
  float32x4_t c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_0);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 1);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_1);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 2);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_2);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 3);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_3);
  vst1q_f32(c_ptr, c_reg);
}

void solution_2 (int n, float* a, float* b, float* c){
  int i, j, k;
  for (j = 0; j < ((n) & (~3)); j+=4){
    for (i = 0; i < ((n) & (~3)); i+=4){
      add_dot_4x4(n, n, &A(i, 0), &B(0, j), &C(i, j));
    }
    for (; i < n; i++){
      register float c_0, c_1, c_2, c_3;
      c_0 = C(i, j);
      c_1 = C(i, j + 1);
      c_2 = C(i, j + 2);
      c_3 = C(i, j + 3);
      for (int k = 0; k < n; k++){
        c_0 += A(i, k) * B(k, j);
        c_1 += A(i, k) * B(k, j + 1);    
        c_2 += A(i, k) * B(k, j + 2);    
        c_3 += A(i, k) * B(k, j + 3);  
      }
      C(i, j) = c_0;
      C(i, j + 1) = c_1;
      C(i, j + 2) = c_2;
      C(i, j + 3) = c_3;
    }
  }  
  for (; j < n; j++){
    for (i = 0; i < ((n) & (~3)); i+=4){
      float32x4_t buf = vld1q_f32(&C(i, j));
      for (int k = 0; k < n; k++){
        float32x4_t va = vld1q_f32(&A(i, k));
        register float vb = B(k, j);
        buf = vmlaq_n_f32(buf, va, vb);
      }
      vst1q_f32(&C(i, j), buf);
    }
    for (; i < n; i++){
      float temp = C(i, j);
      for (int k = 0; k < n; k++){
        temp += A(i, k) * B(k, j);
      }
      C(i, j) = temp;
    }
  }  
}

在提高了矩阵 $B$ 元素的访问效率后，程序的性能再一次得到大幅度的提升，平均浮点运算速度达到7.72Gflops/s。

Step 4: 在k维度进行unrolling

将add_dot_4x4函数中对 $k$ 的循环四个四个进行展开，改进后的程序性能变化不明显，平均浮点运算速度为7.84Gflops/s。

Step 5: 将4x4的子模块增大为8x8

考虑到如果每次计算 $C$ 中 $4\times 4$ 大小的子矩阵，那么只需要用到 $4 + 1 = 5$ 个128bit定长寄存器，这对于定长128bit寄存器而言是一种浪费。为了能用上更多的寄存器，我们改为每次计算 $8\times 8$ 大小的子矩阵，这样就需要使用 $16 + 2 = 18$ 个128bit定长寄存器。

其核心部分代码如下：

#include "arm_neon.h"

#define A(i,j) a[ (j)*n + (i) ]
#define B(i,j) b[ (j)*n + (i) ]
#define C(i,j) c[ (j)*n + (i) ]

void add_dot_8x8 (int n, int k, float* a, float* b, float* c){
  float *b_ptr_0, *b_ptr_1, *b_ptr_2, *b_ptr_3;
  float *b_ptr_4, *b_ptr_5, *b_ptr_6, *b_ptr_7;

  b_ptr_0 = &B(0, 0);
  b_ptr_1 = &B(0, 1);
  b_ptr_2 = &B(0, 2);
  b_ptr_3 = &B(0, 3);
  b_ptr_4 = &B(0, 4);
  b_ptr_5 = &B(0, 5);
  b_ptr_6 = &B(0, 6);
  b_ptr_7 = &B(0, 7);

  float32x4_t c_sum_00 = {0};
  float32x4_t c_sum_01 = {0};
  float32x4_t c_sum_02 = {0};
  float32x4_t c_sum_03 = {0};
  float32x4_t c_sum_04 = {0};
  float32x4_t c_sum_05 = {0};
  float32x4_t c_sum_06 = {0};
  float32x4_t c_sum_07 = {0};
  float32x4_t c_sum_40 = {0};
  float32x4_t c_sum_41 = {0};
  float32x4_t c_sum_42 = {0};
  float32x4_t c_sum_43 = {0};
  float32x4_t c_sum_44 = {0};
  float32x4_t c_sum_45 = {0};
  float32x4_t c_sum_46 = {0};
  float32x4_t c_sum_47 = {0};

  register float b_reg_0, b_reg_1, b_reg_2, b_reg_3;
  register float b_reg_4, b_reg_5, b_reg_6, b_reg_7;

  for (int p = 0; p < k; p++){
    float32x4_t a_reg_0, a_reg_4;
    a_reg_0 = vld1q_f32(&A(0, p));
    a_reg_4 = vld1q_f32(&A(4, p));

    b_reg_0 = *(b_ptr_0++);
    b_reg_1 = *(b_ptr_1++);
    b_reg_2 = *(b_ptr_2++);
    b_reg_3 = *(b_ptr_3++);
    b_reg_4 = *(b_ptr_4++);
    b_reg_5 = *(b_ptr_5++);
    b_reg_6 = *(b_ptr_6++);
    b_reg_7 = *(b_ptr_7++);

    c_sum_00 = vmlaq_n_f32(c_sum_00, a_reg_0, b_reg_0);
    c_sum_01 = vmlaq_n_f32(c_sum_01, a_reg_0, b_reg_1);
    c_sum_02 = vmlaq_n_f32(c_sum_02, a_reg_0, b_reg_2);
    c_sum_03 = vmlaq_n_f32(c_sum_03, a_reg_0, b_reg_3);
    c_sum_04 = vmlaq_n_f32(c_sum_04, a_reg_0, b_reg_4);
    c_sum_05 = vmlaq_n_f32(c_sum_05, a_reg_0, b_reg_5);
    c_sum_06 = vmlaq_n_f32(c_sum_06, a_reg_0, b_reg_6);
    c_sum_07 = vmlaq_n_f32(c_sum_07, a_reg_0, b_reg_7);
    c_sum_40 = vmlaq_n_f32(c_sum_40, a_reg_4, b_reg_0);
    c_sum_41 = vmlaq_n_f32(c_sum_41, a_reg_4, b_reg_1);
    c_sum_42 = vmlaq_n_f32(c_sum_42, a_reg_4, b_reg_2);
    c_sum_43 = vmlaq_n_f32(c_sum_43, a_reg_4, b_reg_3);
    c_sum_44 = vmlaq_n_f32(c_sum_44, a_reg_4, b_reg_4);
    c_sum_45 = vmlaq_n_f32(c_sum_45, a_reg_4, b_reg_5);
    c_sum_46 = vmlaq_n_f32(c_sum_46, a_reg_4, b_reg_6);
    c_sum_47 = vmlaq_n_f32(c_sum_47, a_reg_4, b_reg_7);
  }

  float *c_ptr = 0;
  c_ptr = &C(0, 0);
  float32x4_t c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_00);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 1);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_01);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 2);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_02);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 3);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_03);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 4);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_04);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 5);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_05);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 6);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_06);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(0, 7);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_07);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(4, 0);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_40);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(4, 1);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_41);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(4, 2);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_42);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(4, 3);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_43);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(4, 4);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_44);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(4, 5);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_45);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(4, 6);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_46);
  vst1q_f32(c_ptr, c_reg);

  c_ptr = &C(4, 7);
  c_reg = vld1q_f32(c_ptr);
  c_reg = vaddq_f32(c_reg, c_sum_47);
  vst1q_f32(c_ptr, c_reg);
}

改进后的程序平均浮点运算速度为10.44Gflops/s。虽然性能相较之前有较大提升，但是随着矩阵规模的增大，程序的性能下降明显。这是由于在对矩阵 $C$ 的同一行不同列的子矩阵进行计算时，矩阵 $A$ 中相同的 $8\times k$ 大小的block会被加载两次，并且 $8\times k$ 大小的block在内存中是不连续的，因此每一次加载都会造成一定数量的cache miss，这一现象随着矩阵规模的增大越来越明显，降低了程序运行的效率。对于矩阵 $B$ 也存在类似的问题，不过由于矩阵 $B$ 中 $k\times 8$ 大小的block在内存中是连续的，因此问题会小很多。

Step 6: Packing

为了解决上述问题，我们在首次访问矩阵 $A$ 中 $8\times k$ 大小的block以及矩阵 $B$ 中 $k\times 8$ 大小的block时，会将其packing至某片连续的内存区域，这样在下次访问的时候，访问的就是一片连续的内存，理论上可以降低cache miss的次数。核心代码如下（只对矩阵 $A$ 进行了packing）：

#include "arm_neon.h"

#define A(i,j) a[ (j)*n + (i) ]
#define B(i,j) b[ (j)*n + (i) ]
#define C(i,j) c[ (j)*n + (i) ]

void PackMatrixA_8x8( int k, float *a, int n, float *a_to ){
  int j;

  for(j = 0; j < k; j++){  /* loop over columns of A */
    float *a_ij_pntr = &A(0, j);

    *a_to++ = *a_ij_pntr;
    *a_to++ = *(a_ij_pntr + 1);
    *a_to++ = *(a_ij_pntr + 2);
    *a_to++ = *(a_ij_pntr + 3);
    *a_to++ = *(a_ij_pntr + 4);
    *a_to++ = *(a_ij_pntr + 5);
    *a_to++ = *(a_ij_pntr + 6);
    *a_to++ = *(a_ij_pntr + 7);
  }
}

void solution_3_packed (int n, float* a, float* b, float* c){
  int i, j;
  float packedA[((n) & (~7)) * n];

  for (j = 0; j < ((n) & (~7)); j+=8){
    for (i = 0; i < ((n) & (~7)); i+=8){
      if (j == 0)
        PackMatrixA_8x8(n, &A(i, 0), n, &packedA[i * n]);
      add_dot_8x8_packed(n, K, &packedA[i * n], &B(0, j), &C(i, j));
    }

    for (; i < n; i++){
      register float c_0, c_1, c_2, c_3, c_4, c_5, c_6, c_7;
      c_0 = C(i, j);
      c_1 = C(i, j + 1);
      c_2 = C(i, j + 2);
      c_3 = C(i, j + 3);
      c_4 = C(i, j + 4);
      c_5 = C(i, j + 5);
      c_6 = C(i, j + 6);
      c_7 = C(i, j + 7);
      for (int k = 0; k < K; k++){
        c_0 += A(i, k) * B(k, j);
        c_1 += A(i, k) * B(k, j + 1);    
        c_2 += A(i, k) * B(k, j + 2);    
        c_3 += A(i, k) * B(k, j + 3);  
        c_4 += A(i, k) * B(k, j + 4);
        c_5 += A(i, k) * B(k, j + 5);    
        c_6 += A(i, k) * B(k, j + 6);    
        c_7 += A(i, k) * B(k, j + 7); 
      }
      C(i, j) = c_0;
      C(i, j + 1) = c_1;
      C(i, j + 2) = c_2;
      C(i, j + 3) = c_3;
      C(i, j + 4) = c_4;
      C(i, j + 5) = c_5;
      C(i, j + 6) = c_6;
      C(i, j + 7) = c_7;
    }
  for (; j < n; j++){
    for (i = 0; i < ((n) & (~7)); i+=8){
      float32x4_t buf_0, buf_1;
      buf_0 = vld1q_f32(&C(i, j));
      buf_1 = vld1q_f32(&C(i + 4, j));
      for (int k = 0; k < n; k++){
        float32x4_t va_0, va_1;
        va_0 = vld1q_f32(&A(i, k));
        va_1 = vld1q_f32(&A(i + 4, k));
        register float vb = B(k, j);
        buf_0 = vmlaq_n_f32(buf_0, va_0, vb);
        buf_1 = vmlaq_n_f32(buf_1, va_1, vb);
      }
      vst1q_f32(&C(i, j), buf_0);
      vst1q_f32(&C(i + 4, j), buf_1);
    }
    for (; i < n; i++){
      float temp = C(i, j);
      for (int k = 0; k < n; k++){
        temp += A(i, k) * B(k, j);
      }
      C(i, j) = temp;
    }
  }  
}

packing后的性能如下图所示。第一，程序的总性能得到了提高，达到了12.55Gflops/s。第二，由于对不连续的区域进行了packing使其连续，因此程序对于矩阵规模的敏感度下降了，不会出现由于矩阵规模的细微变化造成cache miss显著增加，进而严重影响性能的情况。第三，当矩阵规模较小时，程序的性能有细微下降，这是由于packing的开销造成的；而当矩阵规模增大时，packing的好处显现出来，矩阵规模增大，程序性能不降反增。

Step 7: Blocking以及其他细节优化

为了方便叙述，我们把之前的计算矩阵相乘的过程称为macro kernel，把其中计算 $\times 4$ 或 $8\times 8$ 的子矩阵的过程称为micro kernel。当求解的矩阵规模很大时，直接对原矩阵采用macro kernel会造成比较差的程序局域性，因此需要对矩阵先进行blocking，即将矩阵 $C$ 划分成若干个大小为 $M_C\times N_C$ 的子矩阵，将矩阵 $A$ 划分成若干个大小为 $M_C\times K_C$ 的子矩阵，将矩阵 $B$ 划分成若干个大小为 $K_C\times N_C$ 的子矩阵。在子矩阵上用macro kernel进行计算，然后进行累加拼接，得到完整的 $C$ 矩阵。算法示意图如下所示：

除此以外，对于packing的方法我们也进行了优化：如果遇到矩阵规模不能被8或者4整除的情况，我们会通过补0点方式进行padding，以保证内存地址是对齐的。在整体代码架构上我也进行了一些修改，以增强其可读性和可复用性，完整代码见文件。在代码中分块矩阵的大小十分关键，经过一些简单的调参后发现当 $K C = 384$ ,$ MC=NC=256$时，程序的性能达到最优，平均浮点运算速度为13.07Gflops/s。程序性能相较于没有使用block提升不是很明显，这主要是因为测试用例规模不够大所致。

实验总结

下图是naive版本的GEMM，本文加速后实现的GEMM以及OpenBLAS中GEMM的性能对比图。本文通过向量化，提高cache利用率等方法对naive版本的GEMM进行加速，使性能提升了接近40倍，但是相较于BLAS的31.27Gflops/s的运算速度还有较大的差距。差距的主要来源应当在于micro kernel的实现部分。本实验仅仅采用了neon intrinsic对micro kernel进行了比较粗糙的优化，经过编译后micro kernel的实现效率远远未达到极限。如果要进行更细致的优化，还需要用内联汇编代码编写micro kernel，更加仔细地操作内存的读写，prefetch，以及寄存器的读写运算。

后记

在与同学交流的过程中发现neon intrinsic函数可以做进一步优化，完整的代码可见https://github.com/xiaoyi-jason/simple_gemm。优化后的性能可以达到接近85%BLAS的水平。接下来我还将从并行计算的角度对GEMM进行进一步的优化，可以期待之后的博客哦。

参考资料

Goto, K. & Geijn, R. A. v. d. (2008), ‘Anatomy of high-performance matrix multiplication’, ACM Transactions on Mathematical Software (TOMS) 34(3), 1–25.
https://zhuanlan.zhihu.com/p/65436463
https://zhuanlan.zhihu.com/p/66958390
https://github.com/flame/how-to-optimize-gemm
http://apfel.mathematik.uni-ulm.de/~lehn/ulmBLAS/#toc3

学习c语言的第十天流川飞学习 c语言
今天学习的是一维数组和二维数组，我对二维数组的理解是：在进行使用时理解为矩阵，在进行储存时和一维数组一样按顺序依次存放，所以要注意的是，定义二维数组时不能缺少列数的定义，因为列数可以区分出哪些数组为一行。今日学习时长：2h
YOLOv5的Conv是什么，Conv就是卷积吗（1） hjs314159 YOLO 深度学习人工智能
不论是看YOLOv5还是最新的YOLOv12的网络结构，里面都有一个看起来雷打不动的部分，ConvConvolutionConvolution是卷积的意思，我们看一张图来简单理解一下神经网络里面的卷积的过程是什么样的。卷积一定是一个输入矩阵（特征）和一个卷积核矩阵做图中这样的计算。我们可以想象输入的就是一张单通道的黑白图像，特征矩阵的每一个数字代表了颜色的深浅（简单理解）。卷积核就相当于一个特征提
[自动驾驶-传感器融合] 多激光雷达的外参标定 simba丶小小程序猿自动驾驶自动驾驶人工智能机器学习
文章目录引言外参标定原理ICP匹配示例参考文献引言多激光雷达系统通常用于自动驾驶或机器人，每个雷达的位置和姿态不同，需要将它们的数据统一到同一个坐标系下。多激光雷达外参标定的核心目标是通过计算不同雷达坐标系之间的刚性变换关系（旋转矩阵RRR和平移向量ttt），将多个雷达的点云数据统一到同一坐标系下。具体需求包括：数据融合：消除多雷达间的位姿差异，生成全局一致的点云。减少累积误差：避免多传感器数据因
Python 机器学习基础之模型评估与改进【评估指标与评分】的简单说明仙魁XAN Python 机器学习基础+实战案例 python 机器学习模型评估与改进评估指标与评分召回率
Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明目录Python机器学习基础之模型评估与改进【评估指标与评分】的简单说明一、简单介绍二、评估指标与评分1、牢记最终目标2、二分类指标1）错误类型2）不平衡数据集3）混淆矩阵4）考虑不确定性5）准确率-召回率曲线6）受试者工作特征（ROC）与AUC3、多分类指标4、回归指标5、在模型选择中使用评估指标附录一、参考文献一、简单介绍Py
T31ZC 君正SOC芯片应用于智能家居、工业控制等满足各种嵌入式应用的需求提供样品测试+软硬件资料 li15817260414 君正智能家居嵌入式硬件音视频
君正（Ingenic）T31ZC是一款基于MIPS架构的低功耗系统级芯片（SoC），集成了512Mbit的DDR2内存，主要用于嵌入式系统和物联网设备。以下是其详细的技术资料：1.处理器（CPU）：架构：MIPS架构内存：集成512Mbit（64MB）DDR2内存操作系统：运行Linux操作系统2.内存分布：T31ZC的64MB物理内存被划分为两部分：4.内存优化方向：在内存资源紧张的情况下，可以
敏捷开发之自动化流水线舒旻敏捷项目管理 devops 敏捷流程 scrum 软件工程敏捷开发
自动化流水线就像给软件交付装上了「智能检测仪」，每个环节自动过滤风险，确保最终交付物既安全又高质量。以下是一个在线教育平台支付系统升级的实战案例，完整展示从开发到上线的全流程。以下是「在线教育平台支付系统升级」案例的完整责任矩阵：责任分工框架环节主要责任人协作角色关键交付物协作工具1.代码开发与提交后端开发工程师技术负责人、产品经理功能代码、单元测试GitLab、JIRA2.代码安全审查安全工程师
行业首个AI课上线！粉笔战略布局加速技术商业化进程量子位教育
继推出AI老师后，粉笔AI产品矩阵进一步扩充。粉笔宣布，将于3月17日上线基于自研垂域大模型打造的“AI刷题系统班”，为用户提供行测、申论全科目覆盖的一站式高效备考支持。粉笔介绍，AI刷题系统班以AI为主导，采用“名师+AI数字人老师”双师结合模式，资深教师直播授课，AI教师启发式教学，具备DeepSeek同款深度思考能力，由数字人老师全程伴学，提供交互式学习体验，依托AI算法实现用户全周期学习管
华为OD机试 - 反射计数 - 矩阵（Java 2024 D卷 200分）哪吒华为od 矩阵 java
一、题目描述给定一个包含0和1的二维矩阵,给定一个初始位置和速度。一个物体从给定的初始位置出发,在给定的速度下进行移动,遇到矩阵的边缘则发生镜面反射无论物体经过0还是1，都不影响其速度。请计算并给出经过t时间单位后,物体经过1点的次数。矩阵以左上角位置为0,0,例如坐标为2,1。001000010000001000010000001000010000001000010000001000010000
华为OD机试 - 最大矩阵和、最大子矩阵（Java题解）算法大师华为od 矩阵 java
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述输入描述输出描述示例1输入输出说明示例2输入输出示例3输入输出说明
为AI聊天工具添加一个知识系统之135 详细设计之76 通用编程语言之6 一水鉴天人工智能开发语言架构
本文要点要点通用编程语言设计本设计通过三级符号系统的动态映射与静态验证的有机结合，实现了从文化表达到硬件优化的全链路支持。每个设计决策均可在[用户原始讨论]中找到对应依据，包括：三级冒号语法→提升文化符号可读性圣灵三角形验证→确保逻辑正确性神经符号优化→实现硬件级性能提升本项目的需求设计本文还给出本项目“为AI聊天工具添加一个知识系统”的完整需求设计。需求覆盖：知识动态管理：通过记忆矩阵和自更新流
华为OD-E卷 - 最大矩阵和 100分（java）敲击Time 华为od 矩阵线性代数
题目给定一个二维整数矩阵，要在这个矩阵中选出一个子矩阵，使得这个子矩阵内所有的数字和尽量大，我们把这个子矩阵称为和最大子矩阵，子矩阵的选取原则是原矩阵中一块相互连续的矩形区域输入描述输入的第一行包含2个整数n,m(1maxList=newArrayList(){@Overridepublicintcompare(Integerarg0,Integerarg1){returnarg1-arg0;}}
AIGC在影视、广告、游戏行业的协同创作报告嘉图明 AIGC 游戏人工智能
AIGC在影视、广告、游戏行业的协同创作报告1.协作效能矩阵分析概述：生成式AI（AIGC）已经在影视、广告、游戏等创意行业的特定环节展现出协同增效作用。以下重点分析剧本生成和角色原画两个环节的人机协同效能，包括时间、质量和成本优化情况，并评估相关AI工具（ChatGPT、Runway、Midjourney、StableDiffusion）的应用案例。1.1剧本生成的AI协同效能时间优化：相较传
【无标题】大模型智能涌现的数学本质与底层机制调皮的芋头 AI编程神经网络人工智能机器学习 AIGC
大模型智能涌现的数学本质与底层机制一、语言建模的数学基础大模型的核心任务是基于概率链式法则建模语言序列：P(w1,...,wn)=∏t=1nP(wt∣w10^{11})时出现能力相变相变示例：参数量级涌现能力数学机制10^9基础语法低维流形建模10^11多步推理高维空间路径积分10^13跨模态类比抽象概念解纠缠五、知识压缩的代数结构张量分解视角：模型权重矩阵(W\in\mathbb{R}^{d×d
计算一个矩阵的逆矩阵的方法彬彬侠机器学习(笔记)数学基础机器学习矩阵线性代数人工智能
计算一个矩阵的逆矩阵，主要适用于方阵（行数与列数相同的矩阵），且只有非奇异矩阵（行列式不为零的矩阵）才有逆矩阵。逆矩阵A−1A^{-1}A−1满足以下条件：A×A−1=A−1×A=IA\timesA^{-1}=A^{-1}\timesA=IA×A−1=A−1×A=I其中III是单位矩阵。计算逆矩阵的方法有多种，常见的方法包括以下几种：一、2×2矩阵的逆矩阵对于一个2×2矩阵AAA：A=(abcd)
七、Redis 内存管理详解：模型、优化策略（LRU/LFU、对象共享）伯牙碎琴 #Redis redis
Redis内存管理详解：模型、优化策略（LRU/LFU、对象共享）Redis以高性能和低延迟著称，但作为基于内存的数据库，内存管理是其核心问题之一。本文将深入解析Redis的内存模型、内存优化策略（包括LRU/LFU机制、对象共享等），帮助开发者提高Redis的存储效率和性能。1.Redis内存模型1.1内存分配Redis主要使用jemalloc作为内存分配器，该分配器比malloc更高效，适合小
物理竞赛中的线性代数 yh2021SYXMZ 线性代数
线性代数1行列式1.1nnn阶行列式定义1.1.1：称以下的式子为一个nnn阶行列式：∣A∣=∣a11a12⋯a1na21a22⋯a2n⋮⋮⋱⋮an1an2⋯ann∣\begin{vmatrix}\mathbfA\end{vmatrix}=\begin{vmatrix}a_{11}&a_{12}&\cdots&a_{1n}\\a_{21}&a_{22}&\cdots&a_{2n}\\\vdots&
费曼学习法11 - NumPy 的 “线性代数” 之力：矩阵运算与应用 (应用篇) 修昔底德 Python费曼学习法线性代数学习 numpy python 人工智能深度学习
第六篇：NumPy的“线性代数”之力：矩阵运算与应用(应用篇)开篇提问：考虑一个实际问题：图像的旋转。当你使用图像编辑软件旋转照片时，背后是什么在驱动图像像素的精确移动？答案是线性代数。图像可以表示为数值矩阵，而旋转、缩放、剪切等图像变换，都可以通过矩阵运算来实现。线性代数不仅是图像处理的基石，也在机器学习、物理模拟、工程计算等众多领域扮演着核心角色。它提供了一套强大的数学工具，用于描述和解决多维
人工智能之数学基础：矩阵的秩每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵机器学习深度学习线性代数秩
本文重点矩阵的秩，作为矩阵理论中的一个核心概念，是连接矩阵性质与应用的重要桥梁。本文我们将学习矩阵秩的概念，通过矩阵的秩可以判断矩阵是否可逆等等，所以矩阵的秩是非常重要的一个概念。矩阵秩的概念秩定义为矩阵A的线性独立的行（或列）的最大数目。也就是说，如果把矩阵看成由行向量或列向量组成，那么矩阵的秩就是这些向量中极大线性无关组所含向量的个数。矩阵的秩定义为矩阵线性无关的行向量或者列向量的最大数量，表
华为OD机试 - 寻找最大价值的矿堆 - 矩阵，通过栈优化（Python/JS/C/C++ 2023 B卷 200分）哪吒华为od 矩阵 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述给你一个由’0’(空地)、‘1’(银矿)、‘2’(金矿)组成的地
通往 AI 之路：Python 机器学习入门-线性代数一小路一从0开始学习机器学习机器学习人工智能 python 后端开发语言线性代数
2.1线性代数（机器学习的核心）线性代数是机器学习的基础之一，许多核心算法都依赖矩阵运算。本章将介绍线性代数中的基本概念，包括标量、向量、矩阵、矩阵运算、特征值与特征向量，以及奇异值分解（SVD）。2.1.1标量、向量、矩阵1.标量（Scalar）标量是一个单独的数，例如：a=5在Python中：a=5#标量2.向量（Vector）向量是由多个数值组成的一维数组，例如：v=[2,3,5]Pytho
从专利数据中提取IPC代码，构建共现矩阵（IPC共同出现在同一专利为1，否则为0），利用GCN提取特征，并进行链路预测以评估IPC之间的相似度概率 pk_xz123456 算法深度学习矩阵线性代数
要完成这个任务，你可以按照以下步骤进行：数据预处理：从专利数据中提取IPC代码，并构建共现矩阵。图卷积网络（GCN）：使用GCN提取特征。链路预测：评估IPC之间的相似度概率。以下是一个Python示例代码，展示了如何完成上述任务：importnumpyasnpimportnetworkxasnximporttorchimporttorch.nnasnnimporttorch.nn.functio
c语言基础之二维数组 Wangawf c语言二维数组
声明：本文主要用作技术分享，所有内容仅供参考。任何使用或依赖于本文信息所造成的法律后果均与本人无关。请读者自行判断风险，并遵循相关法律法规。二维数组是一种数据结构，它可以被看作是一个由行和列组成的表格。从概念上讲，可以将二维数组想象成一个有行有列的矩阵。比如一个intarr[3][4]这样的二维数组，就好像是一个3行4列的表格，总共能存放12个整数。在内存中，二维数组的存储是线性的，也就是说，虽然
【python数据挖掘之numpy】-数组及对象属性和数据转换 sc.溯琛 python 数据挖掘 numpy
Numpy是一个Python库，用于处理多维数组和矩阵，以及针对这些数组执行数学运算的函数。它提供了高效的数组对象和相关的操作，可以用于快速处理大量数据。Numpy的主要功能包括：创建数组、数组运算、数组索引和切片、线性代数、随机数生成等。Numpy在科学计算、数据分析、机器学习等领域都广泛应用。tips：（本博文在jupyter中实训）目录一、创建数组对象1.array（）函数来创建数组的对象2
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！ ai大模型应用开发人工智能 pdf 机器学习面试 AI
在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进行学习。一、前置阶段数学：线性代数、高等数学自然语言处理：Word2Vec、Seq2SeqPython：Pyotch、Tensorflow二、基
[自然语言处理基础]NumPy基本操作 Steve lu 自然语言处理NLP 自然语言处理 numpy python conda 人工智能机器学习深度学习
什么是NumPyNumPy是Python中科学计算的基本包。它是一个Python库，提供多维数组对象、各种派生对象（如掩码数组和矩阵）以及用于对数组进行快速操作的各种例程，包括数学、逻辑、形状操作、排序、选择、I/O、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。NumPy数组在创建时具有固定大小，这与Python列表（可以动态增长）不同。更改数组的大小ndarray将创建新数组并删除
为AI聊天工具添加一个知识系统之133 详细设计之74通用编程语言之4 架构及其核心一水鉴天人工语言智能制造软件智能架构人工智能开发语言
本篇继续讨论通用编程语言。说明：本阶段的所有讨论都是围绕这一主题展开的，但前面的讨论分成了三个大部分（后面列出了这一段的讨论题目的归属关系）-区别distinguish（各别）：文化和习俗。知识表征,思维导图及观察者效应，Chance：偶然和适配，符号学芭比等逻辑和平台。视觉及其工作原理，圣灵三角形和Checker，数据及其意义等实体和神经元。智能语义网络，记忆矩阵等。只有“核心技术：Cognit
Rust编程基础教程：Web开发入门 AI天才研究院 AI实战 DeepSeek R1 &大数据AI人工智能大模型 Python实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术1.背景介绍由于Rust语言的出生地广泛流行于各个领域，有许多公司、组织都在用Rust进行开发，包括微软、Facebook、阿里巴巴、GitHub等。在移动端领域，包括华为、苹果、OPPO、vivo等都在大力推动Rust的应用。同时，Rust也越来越受欢迎，成为云计算、区块链、高性能计算等领域的主流编程语言。因此，对于新手而言，理解Rust编程语言的基本概念及特性，掌握
第十三届蓝桥杯模拟赛（第四期）试题与题解 C++ 小球同学. 蓝桥杯模拟赛蓝桥杯
目录试题A试题B试题C试题D试题E试题F试题G试题H试题I试题J试题A【问题描述】以下是一个25行25列的字母矩阵，全部由字母A和B组成。AAAAAAABABBAABABABAAAAAAAABBBBBABBAABBBBBABABBBBBAABAAABABBBABAABBBBABAAABAABAAABABBBBBAABAABABAAABAABAAABABBABABBABABABAAABAABBB
Leetcode54:Spiral Matrix 螺旋矩阵 icodebugs 算法 Leetcode
54:SpiralMatrix螺旋矩阵Givenamatrixofmxnelements(mrows,ncolumns),returnallelementsofthematrixinspiralorder.给定一个包含mxn个元素的矩阵（m行,n列），请按照顺时针螺旋顺序，返回矩阵中的所有元素。Example1:Input:[[1,2,3],[4,5,6],[7,8,9]]Output:[1,2,
LeetCode 59：螺旋矩阵Ⅱ python（边界收缩）地塞米米松 Leetcode刷题 leetcode 矩阵 python
LeetCode59：螺旋矩阵Ⅱpython（边界收缩）这个题目真的是把自己卡死，中间尝试了好多方法都不完美，看了很多大神的讲解，也迷迷糊糊，终于啃了两天之后，彻彻底底搞明白了！！一、题目题目传送门—https://leetcode-cn.com/problems/spiral-matrix-ii/二、解析这个题目有点绕，从定义变量，定义二维列表，到一圈一圈向内旋转填充数字，再到最后的边界确定每一
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D