weixin_30689307

记一次CUDA编程任务

　　这个月6号开始，着手解决一个具有实际意义的计算任务。任务数据有9879896条，每条包含30个整数，任务是计算每两条数据之间的斯皮尔相关系数及其P值。原始数据只有500+MB，因此我并不认为这是个多么大的计算任务。随后稍加计算，我还是很惊呆的，要计算(9879896×9879895)÷2≈4.88亿亿组数据，但此时这还只是个数字概念，我也没意识到时间复杂度和空间复杂度的问题。

1. 计算规模初体验

数据格式：9879896行，30列，每列之间以空格符隔开，例如：

0 2 0 2 0 0 0 0 0 0 0 40 0 0 35 0 0 53 0 44 0 0 0 0 0 0 0 0 0 0
0 0 1 148 0 0 0 0 0 0 0 0 0 0 1133 0 1 0 0 1820 0 0 0 2 0 0 0 1 0 0
0 0 0 33 1 0 0 0 0 0 0 0 0 0 231 0 0 0 0 402 0 0 0 0 0 0 0 0 0 0
0 0 6 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 6 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
... ...
... ...

空间复杂度：单纯计算下结果大概有多大吧，每组计算结果包含相关系数和P值，若都以float（占4字节）精度存储，需要占用内存：4.88亿亿×8B≈400TB，当然，我们不具备这么大内存，因此无论以何种方式计算，都需要一批批地重复将数据载入内存、计算、存入硬盘这个过程，直到运算完成。那么，存入硬盘的结果会有400TB吗？不然，P值小于或等于0.05的结果才会需要输出，因此实际上会远远小于这个值，具体会小多少，先运行一批数据后才能做出估算。

时间复杂度：计算的组数规模是(n×(n-1))÷2，那么就看程序能跑多快了。我想先看看MATLAB多线程、Python多线程、Spark分布式计算能跑多快，是否能在最快时间内解决问题。

2. MATLAB多线程

　　MATLAB写起来最简单，计算相关系数和P值都不用操心，一行自带的函数调用就完成。打开MATLAB左下角的并行池，MATLAB将会自动寻找到机子上有的物理核心，并分配与物理核心数相同的worker。比如我的电脑是4核8线程，它只能开4个worker，不识别虚拟核心。

　　代码如下：

t1 = clock;
disp('>> loading ...');
A = importdata('D:/MASTER2016/5.CUDA/data-ID-top30-kv3.txt');
b = A'; %由于MATLAB只计算列与列之间的相关系数，因此需要转置操作
disp(etime(clock,t1));

num = size(b, 2);
disp('>> calculating ...');
fid = fopen('D:/MASTER2016/5.CUDA/result-matlab.txt', 'wt');

for i = 1 : num
    for j = i+1 : num
        [m, n] = corr(b(:, i), b(:, j), 'type', 'Spearman', 'tail', 'both');
        if isnan(n) || n>0.05
            continue;
        end
		
        fprintf(fid, 'X%d\tX%d\t%d\t%d\n', i, j, m, n);
    end
end
fclose(fid);
disp('>> OK!');

　　这里我并没有考虑内存空间不够的问题，因为我只是想说明MATLAB的计算速度。开了多颗核心的情况下，MATLAB并没能完全压榨出所有的CPU性能，计算速度缓慢无比，更要命的是，它会越算越慢。据我估算，即使空间复杂度足够，MATLAB也要用超过20年的时间才能算完，这还是不考虑越算越慢的情况。

　　好了，此方案仅是打酱油。

3. Python多线程

　　Python语言由于本身的体质问题，Cython下不能调用多核，只能用多线程。理论上是这样，但还是有很多扩展包能够充分压榨出多核CPU性能，例如multiprocessing是其中的佼佼者。multiprocessing用起来也非常简单，考虑到CPU的多核运算下，每颗核心的算力还是很可观的，所有不能把每个计算组都拆成并行线程，那样内存的读写开销反而会使CPU一直在等待状态，不能一直满负载工作。鉴于此，我设计9879895组线程，每组代表某个特定行与剩下的各个数据行形成的数据组。这样每组线程下的运算量还是比较大的，能使CPU尽可能全在满负载状态。

　　代码如下：

# coding=utf-8

import math
import multiprocessing
import time

import scipy.stats as stats


def calculate2(i, X, all_glb, data_array_glb):
    all = all_glb.value
    result = []
    for j in range(i + 1, all):
        x = X
        y = data_array_glb[j]
        if math.fsum(x) == 0 or math.fsum(y) == 0:
            continue
        corr, p = stats.spearmanr(x, y)
        if p > 0.05:
            continue
        result.append([i + 1, j + 1, corr, p])
    return result


if __name__ == "__main__":

    multiprocessing.freeze_support()

    input_file = 'D:/MASTER2016/5.CUDA/data-ID-top30-kv3.txt'
    output_file = 'D:/MASTER2016/5.CUDA/result-python.txt'

    print '>> loading ...'
    start = time.clock()
    data = open(input_file)
    data_array = []
    for line in data:
        data_array.append(map(int, line.strip().split(' ')))
    data.close()
    print time.clock()-start, 's'

    print '>> calculating ...'
    results = []
    pool_size = 8
    pool = multiprocessing.Pool(processes=pool_size)
    all = len(data_array)
    manager = multiprocessing.Manager()
    all_share = manager.Value('i', int(all))
    data_array_share = manager.list(data_array)
    for i in range(all):
        data_X = data_array[i]
        results.append(pool.apply_async(calculate2, args=(i, data_X, all_share, data_array_share)))
    pool.close()
    pool.join()
    print time.clock() - start, 's'
    data_array = None

    print '>> saving ...'
    data2 = open(output_file, 'w')
    for res in results:
        temp_list = res.get()
        for temp in temp_list:
            data2.write('X'+str(temp[0])+'\t'+'X'+str(temp[1])+'\t'+str(temp[2])+'\t'+str(temp[3])+'\n')
    print time.clock()-start, 's'
    data2.close()

这里，我依然没有考虑空间复杂度问题，因为要先看看计算能力是否能满足任务要求。Python的这个多线程下，确实能充分榨干CPU性能，风扇呼呼响，要命的是也存在越算越慢的问题。但是，即使CPU一直这么满负载运算，我粗略估算了下，也得要个14年+才能算完，也不算越算越慢的情况。

　　所以，此方案是打酱油2号。

4. Spark方案

　　Spark方案我并没有写完，因为写着写着就感觉到。。。肯定还是不行，CPU的算力也就那样了。就算调12台机器一起跑，也不适合用CPU下的线程模型解决问题了。

这种高并行的计算，要想取得最快计算速度，非GPU莫属。

5. CUDA方案

　　CUDA方案下，首先必须清晰地设计好线程模型，即：我需要用到几块GPU？我需要在每块GPU上设计多少个block？每个block设计多少个线程？每个线程分配多少运算量？这四个问题基本决定了CUDA程序的性能和复杂度。

　　CUDA是一种异构并行解决方案，即CPU用于控制，GPU用于主运算的方案。一个GPU有一个grid，每个grid里有大量block，每个block里有大量thread。在运算时，每个thread都是完全独立并行地运算，每个线程里的运算靠内核函数控制，这也是CUDA编程的核心，目前只能用CUDA C编写。因此JCUDA和PyCUDA做的只是内存分配这些CPU端控制的事情，还不能代替GPU端的CUDA C代码。

　　如上图，左边列是Host端，即CPU上执行的控制端，用于分配GPU内存空间，拷贝内存数据到GPU显存等等操作。右边列是Device端，即GPU上的并行模型，由grid，block，thread三者构成。不同型号GPU的最大block数和每个block中的最大thread不同，但是可以查询。在安装好CUDA Toolkit后，windows用户可以进入C:\ProgramData\NVIDIA Corporation\CUDA Samples\v8.0\1_Utilities\deviceQuery目录，打开相应版本的项目，执行运行查询。

　　比如我的机器：

　　基于此，我设计的线程模型是：比如数据是ROWS行，COLS列，那么有((ROWS-1)×ROWS)÷2组计算，每一行都要与从这行开始后面的每一行进行计算。开辟(ROWS-1)个block，编号0~(ROWS-1)对应着数据的行号。所以，对于第一行，行号是0，要与1~(ROWS-1)的每一行进行计算，一共有(ROWS-1)组，这些计算任务分配给第一块block的1024个线程上计算。依此类推。这样做并不是最佳的任务分配方案，因为不是公平分配，编号越靠后的block分配的任务越少。但是，这样做的好处是便于利用共享内存，加速每一个block内的计算。

　　比如第一行，将数据第一行存入共享内存，那么它在与其他行分别计算的时候，直接从每个block内的共享内存读取数据，远远比从显存上的全局内存读取速度快得多。需要注意的是，每块block内的共享内存的大小也有硬件限制，上面截图中可以看到，GTX 950M的共享内存是49152B。

　　Talk is cheap. Show me the code:

  1 #include 
  2 #include 
  3 #include 
  4 #include 
  5 #include 
  6 #include "cuda_runtime.h"
  7 #include "device_launch_parameters.h"
  8 
  9 // 定义总数据矩阵的行数和列数
 10 #define ROWS 15000
 11 #define COLS 30
 12 
 13 // 定义每一块内的线程个数，GT720最多是1024（必须大于总矩阵的列数：30）
 14 #define NUM_THREADS 1024
 15 
 16 
 17 bool InitCUDA()
 18 {
 19     int count;
 20     cudaGetDeviceCount(&count);
 21     if (count == 0) {
 22         fprintf(stderr, "There is no device.\n");
 23         return false;
 24     }
 25     int i;
 26     for (i = 0; i < count; i++) {
 27         cudaDeviceProp prop;
 28         if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
 29             if (prop.major >= 1) {
 30                 break;
 31             }
 32         }
 33     }
 34     if (i == count) {
 35         fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
 36         return false;
 37     }
 38     cudaSetDevice(i);
 39     return true;
 40 }
 41 
 42 __device__ float meanForRankCUDA(int num)
 43 {
 44     float sum = 0;
 45     for (int i = 0; i <= num; i++) {
 46         sum += i;
 47     }
 48     return sum / (num + 1);
 49 }
 50 
 51 
 52 __device__ float meanForArrayCUDA(float array[], int len)
 53 {
 54     float sum = 0;
 55     for (int i = 0; i < len; i++) {
 56         sum += array[i];
 57     }
 58     return sum / len;
 59 }
 60 
 61 
 62 __device__ float spearmanKernel(int Xarray[], int Yarray[])
 63 {
 64     //1，对原先的数据进行排序，相同的值取平均值
 65     float Xrank[30];
 66     float Yrank[30];
 67     int col = 30;
 68 
 69     for (int i = 0; i < col; i++) {
 70         int bigger = 1;
 71         int equaer = -1;
 72         for (int j = 0; j < col; j++) {
 73             if (Xarray[i] < Xarray[j]) {
 74                 bigger = bigger + 1;
 75             }
 76             else if (Xarray[i] == Xarray[j]) {
 77                 equaer = equaer + 1;
 78             }
 79         }
 80         Xrank[i] = bigger + meanForRankCUDA(equaer);
 81     }
 82     for (int i = 0; i < col; i++) {
 83         int bigger = 1;
 84         int equaer = -1;
 85         for (int j = 0; j < col; j++) {
 86             if (Yarray[i] < Yarray[j]) {
 87                 bigger = bigger + 1;
 88             }
 89             else if (Yarray[i] == Yarray[j]) {
 90                 equaer = equaer + 1;
 91             }
 92         }
 93         Yrank[i] = bigger + meanForRankCUDA(equaer);
 94     }
 95 
 96     //2，计算斯皮尔曼相关性系数
 97     float numerator = 0;
 98     float denominatorLeft = 0;
 99     float denominatorRight = 0;
100     float meanXrank = meanForArrayCUDA(Xrank, col);
101     float meanYrank = meanForArrayCUDA(Yrank, col);
102     for (int i = 0; i < col; i++) {
103         numerator += (Xrank[i] - meanXrank) * (Yrank[i] - meanYrank);
104         denominatorLeft += powf(Xrank[i] - meanXrank, 2);
105         denominatorRight += powf(Yrank[i] - meanYrank, 2);
106     }
107     float corr = 0;
108     if ((denominatorLeft != 0) && (denominatorRight != 0)) {
109         corr = numerator / sqrtf(denominatorLeft * denominatorRight);
110     }
111     return corr;
112 }
113 
114 
115 __global__ static void spearCUDAShared(const int* a, size_t lda, float* c, size_t ldc, float* d, size_t ldd)
116 {
117     extern __shared__ int data[];
118     const int tid = threadIdx.x;
119     const int row = blockIdx.x;
120     int i, j;
121     // 同步第1行~倒数第二行到共享内存，行数由block个数（总数据矩阵的行数-1）控制，每个block共享一行数据
122     if (tid < 30) {
123         data[tid] = a[row * lda + tid];
124     }
125     __syncthreads();
126 
127     int cal_per_block = gridDim.x - row; // 每个块分担的计算量
128     int cal_per_thread = cal_per_block / blockDim.x + 1; // 每个线程分担的计算量
129     // 分配各线程计算任务，通过for循环控制在一个线程需要计算的组数
130     for (i = row + cal_per_thread * tid; i < (row + cal_per_thread * (tid + 1)) && i < gridDim.x; i++) {
131         int j_row[30]; // 存放总数据矩阵的第j行
132         for (j = 0; j < 30; j++) {
133             j_row[j] = a[(i + 1)*lda + j];
134         }
135         float corr = spearmanKernel(data, j_row);
136         c[row * ldc + (i + 1)] = corr;
137         float t_test = 0;
138         if (corr != 0) t_test = corr*(sqrtf((30 - 2) / (1 - powf(corr, 2))));
139         d[row * ldd + (i + 1)] = t_test;
140         //printf("block号：%d, 线程号：%d, 计算组：%d-%d, id号：%d, block个数：%d, 每块线程个数：%d, 该块总计算量：%d, 该块中每个线程计算量：%d, corr: %lf, %d, %d, %d - %d, %d, %d\n", row, tid, row, i + 1, (row*blockDim.x + tid), gridDim.x, blockDim.x, cal_per_block, cal_per_thread, corr, data[0], data[1], data[29], j_row[0], j_row[1], j_row[29]);
141     }
142 }
143 
144 
145 clock_t matmultCUDA(const int* a, float* c, float* d)
146 {
147     int *ac;
148     float *cc, *dc;
149     clock_t start, end;
150     start = clock();
151 
152     size_t pitch_a, pitch_c, pitch_d;
153     // 开辟a、c、d在GPU中的内存
154     cudaMallocPitch((void**)&ac, &pitch_a, sizeof(int)* COLS, ROWS);
155     cudaMallocPitch((void**)&cc, &pitch_c, sizeof(float)* ROWS, ROWS);
156     cudaMallocPitch((void**)&dc, &pitch_d, sizeof(float)* ROWS, ROWS);
157     // 复制a从CPU内存到GPU内存
158     cudaMemcpy2D(ac, pitch_a, a, sizeof(int)* COLS, sizeof(int)* COLS, ROWS, cudaMemcpyHostToDevice);
159 
160     spearCUDAShared << 1, NUM_THREADS, sizeof(int)* COLS >> > (ac, pitch_a / sizeof(int), cc, pitch_c / sizeof(float), dc, pitch_d / sizeof(float));
161 
162     cudaMemcpy2D(c, sizeof(float)* ROWS, cc, pitch_c, sizeof(float)* ROWS, ROWS, cudaMemcpyDeviceToHost);
163     cudaMemcpy2D(d, sizeof(float)* ROWS, dc, pitch_d, sizeof(float)* ROWS, ROWS, cudaMemcpyDeviceToHost);
164     cudaFree(ac);
165     cudaFree(cc);
166 
167     end = clock();
168     return end - start;
169 }
170 
171 
172 void print_int_matrix(int* a, int row, int col) {
173     for (int i = 0; i < row; i++) {
174         for (int j = 0; j < col; j++) {
175             printf("%d\t", a[i * col + j]);
176         }
177         printf("\n");
178     }
179 }
180 
181 
182 void print_float_matrix(float* c, int row, int col) {
183     for (int i = 0; i < row; i++) {
184         for (int j = 0; j < col; j++) {
185             printf("%f\t", c[i * col + j]);
186         }
187         printf("\n");
188     }
189 }
190 
191 void read_ints(int* a) {
192     FILE* file = fopen("D:\\MASTER2016\\5.CUDA\\data-ID-top30-kv.txt", "r");
193     int i = 0;
194     int count = 0;
195 
196     fscanf(file, "%d", &i);
197     while (!feof(file))
198     {
199         a[count] = i;
200         count++;
201         if (count == ROWS*COLS) break;
202         fscanf(file, "%d", &i);
203     }
204     fclose(file);
205 }
206 
207 
208 int main()
209 {
210     int *a; // CPU内存中的总数据矩阵，ROWS行，COLS列
211     float *c; // CPU内存中的相关系数结果矩阵，ROWS行，ROWS列
212     float *d; // CPU内存中的T值结果矩阵，ROWS行，ROWS列
213     a = (int*)malloc(sizeof(int)* COLS * ROWS);
214     c = (float*)malloc(sizeof(float)* ROWS * ROWS);
215     d = (float*)malloc(sizeof(float)* ROWS * ROWS);
216 
217     clock_t start = clock();
218     printf(">> loading ... rows: %d, cols: %d", ROWS, COLS);
219     read_ints(a);
220     clock_t end = clock() - start;
221     printf("\nTime used: %.2f s\n", (double)(end) / CLOCKS_PER_SEC);
222 
223     //print_int_matrix(a, ROWS, COLS);
224     //printf("\n");
225 
226     printf(">> calculating ... ");
227     printf("\n---------------------------------------");
228     printf("\ntotal groups: %lld", (long long)ROWS*(ROWS - 1) / 2);
229     printf("\ntotal threads: %d (blocks) * 1024 = %d", (ROWS - 1), (ROWS - 1) * 1024);
230     printf("\ntotal space complexity: %lld MB", (long long)((ROWS / 1024) * (ROWS / 1024) * 8));
231     printf("\n---------------------------------------");
232     if (!InitCUDA()) return 0;
233     clock_t time = matmultCUDA(a, c, d);
234     double sec = (double)(time + end) / CLOCKS_PER_SEC;
235     printf("\nTime used: %.2f s\n", sec);
236 
237     printf(">> saving ... ");
238     FILE *f = fopen("D:\\MASTER2016\\5.CUDA\\result-c-2.txt", "w");
239     for (int i = 0; i < ROWS; i++) {
240         for (int j = i + 1; j < ROWS; j++) {
241             float t_test = d[i * ROWS + j];
242             if (t_test >= 2.042) {
243                 fprintf(f, "X%d\tX%d\t%f\t%lf\n", i + 1, j + 1, c[i * ROWS + j], t_test);
244             }
245         }
246     }
247     fclose(f);
248     end = clock() - start;
249     printf("OK\nTime used: %.2f s\n", (double)(end) / CLOCKS_PER_SEC);
250 
251     //printf(">> 相关系数结果矩阵: \n");
252     //print_float_matrix(c, ROWS, ROWS);
253     //printf(">> T值结果矩阵: \n");
254     //print_float_matrix(d, ROWS, ROWS);
255 
256     getchar();
257     return 0;
258 }

CUDA第一版

　　需要指出的是，上面程序保存为filename.cu文件，执行nvcc -o filename filename.cu编译，执行filename即可运行。其中ROWS是从总数据文件中读取的行数，用于控制数据规模调试程序，如果ROWS大于或等于总数据行数，那么就是读取整个文件了。

　　由于空间复杂度太高，也就是最开始提到的，那么下面做些调整，加个控制参数，每次只计算一定的行数，使显存满载但不超出即可。相应地，内核函数中的索引号，保存文件的函数都需要做些微调，代码如下：

  1 #include 
  2 #include 
  3 #include 
  4 #include 
  5 #include 
  6 #include "cuda_runtime.h"  
  7 #include "device_launch_parameters.h"
  8 
  9 // 定义总数据矩阵的行数和列数
 10 #define ROWS 1000
 11 #define COLS 30
 12 
 13 // 控制一次计算占用显存的大小：CONTROL_ROWS*ROWS*8（字节）< 显存
 14 #define CONTROL_ROWS 45
 15 
 16 // 定义每一块内的线程个数，GT720最多是1024
 17 #define NUM_THREADS 1024
 18 
 19 
 20 bool InitCUDA()
 21 {
 22     int count;
 23     cudaGetDeviceCount(&count);
 24     if (count == 0) {
 25         fprintf(stderr, "There is no device.\n");
 26         return false;
 27     }
 28     int i;
 29     for (i = 0; i < count; i++) {
 30         cudaDeviceProp prop;
 31         if (cudaGetDeviceProperties(&prop, i) == cudaSuccess) {
 32             if (prop.major >= 1) {
 33                 break;
 34             }
 35         }
 36     }
 37     if (i == count) {
 38         fprintf(stderr, "There is no device supporting CUDA 1.x.\n");
 39         return false;
 40     }
 41     cudaSetDevice(i);
 42     return true;
 43 }
 44 
 45 __device__ float meanForRankCUDA(int num)
 46 {
 47     float sum = 0;
 48     for (int i = 0; i <= num; i++) {
 49         sum += i;
 50     }
 51     return sum / (num + 1);
 52 }
 53 
 54 
 55 __device__ float meanForArrayCUDA(float array[], int len)
 56 {
 57     float sum = 0;
 58     for (int i = 0; i < len; i++) {
 59         sum += array[i];
 60     }
 61     return sum / len;
 62 }
 63 
 64 
 65 __device__ float spearmanKernel(int Xarray[], int Yarray[])
 66 {
 67     //1，对原先的数据进行排序，相同的值取平均值
 68     float Xrank[30];
 69     float Yrank[30];
 70     int col = 30;
 71 
 72     for (int i = 0; i < col; i++) {
 73         int bigger = 1;
 74         int equaer = -1;
 75         for (int j = 0; j < col; j++) {
 76             if (Xarray[i] < Xarray[j]) {
 77                 bigger = bigger + 1;
 78             }
 79             else if (Xarray[i] == Xarray[j]) {
 80                 equaer = equaer + 1;
 81             }
 82         }
 83         Xrank[i] = bigger + meanForRankCUDA(equaer);
 84     }
 85     for (int i = 0; i < col; i++) {
 86         int bigger = 1;
 87         int equaer = -1;
 88         for (int j = 0; j < col; j++) {
 89             if (Yarray[i] < Yarray[j]) {
 90                 bigger = bigger + 1;
 91             }
 92             else if (Yarray[i] == Yarray[j]) {
 93                 equaer = equaer + 1;
 94             }
 95         }
 96         Yrank[i] = bigger + meanForRankCUDA(equaer);
 97     }
 98 
 99     //2，计算斯皮尔曼相关性系数
100     float numerator = 0;
101     float denominatorLeft = 0;
102     float denominatorRight = 0;
103     float meanXrank = meanForArrayCUDA(Xrank, col);
104     float meanYrank = meanForArrayCUDA(Yrank, col);
105     for (int i = 0; i < col; i++) {
106         numerator += (Xrank[i] - meanXrank) * (Yrank[i] - meanYrank);
107         denominatorLeft += powf(Xrank[i] - meanXrank, 2);
108         denominatorRight += powf(Yrank[i] - meanYrank, 2);
109     }
110     float corr = 0;
111     if ((denominatorLeft != 0) && (denominatorRight != 0)) {
112         corr = numerator / sqrtf(denominatorLeft * denominatorRight);
113     }
114     return corr;
115 }
116 
117 
118 __global__ static void spearCUDAShared(const int* a, size_t lda, float* c, size_t ldc, float* d, size_t ldd, int cols, int start)
119 {
120     extern __shared__ int data[];
121     const int tid = threadIdx.x;
122     const int row = blockIdx.x;
123 
124     int i, j;
125     // 同步第1行~倒数第二行到共享内存，行数由block个数控制，每个block共享一行数据
126     if (tid < 30) {
127         data[tid] = a[(start + row) * lda + tid];
128     }
129     __syncthreads();
130 
131     int cal_per_block = cols - (start + row); // 每个块分担的计算量
132     int cal_per_thread = cal_per_block / blockDim.x + 1; // 每个线程分担的计算量
133     // 分配各线程计算任务，通过for循环控制在一个线程需要计算的组数
134     for (i = row + cal_per_thread * tid; i < (row + cal_per_thread * (tid + 1)) && i < cols; i++) {
135         int j_row[30]; // 存放总数据矩阵的第j行
136         for (j = 0; j < 30; j++) {
137             j_row[j] = a[(start + i + 1)*lda + j];
138         }
139         float corr = spearmanKernel(data, j_row);
140         c[row * ldc + (start + i + 1)] = corr;
141         float t_test = 0;
142         if (corr != 0) t_test = corr*(sqrtf((30 - 2) / (1 - powf(corr, 2))));
143         d[row * ldd + (start + i + 1)] = t_test;
144         //printf("block号：%d, 线程号：%d, 计算组：%d-%d, id号：%d, block个数：%d, 每块线程个数：%d, 该块总计算量：%d, 该块中每个线程计算量：%d, corr: %lf, %d, %d, %d - %d, %d, %d\n", row, tid, row, i + 1, (row*blockDim.x + tid), gridDim.x, blockDim.x, cal_per_block, cal_per_thread, corr, data[0], data[1], data[29], j_row[0], j_row[1], j_row[29]);
145     }
146 }
147 
148 
149 clock_t matmultCUDA(const int* a, float* c, float* d, int start_index, int control_rows)
150 {
151     int *ac;
152     float *cc, *dc;
153     clock_t start, end;
154     start = clock();
155 
156     size_t pitch_a, pitch_c, pitch_d;
157     // 开辟a、c、d在GPU中的内存
158     cudaMallocPitch((void**)&ac, &pitch_a, sizeof(int)* COLS, ROWS);
159     cudaMallocPitch((void**)&cc, &pitch_c, sizeof(float)* ROWS, control_rows);
160     cudaMallocPitch((void**)&dc, &pitch_d, sizeof(float)* ROWS, control_rows);
161     // 复制a从CPU内存到GPU内存
162     cudaMemcpy2D(ac, pitch_a, a, sizeof(int)* COLS, sizeof(int)* COLS, ROWS, cudaMemcpyHostToDevice);
163 
164     spearCUDAShared << sizeof(int)* COLS >> > (ac, pitch_a / sizeof(int), cc, pitch_c / sizeof(float), dc, pitch_d / sizeof(float), ROWS - 1, start_index);
165     
166     cudaMemcpy2D(c, sizeof(float)* ROWS, cc, pitch_c, sizeof(float)* ROWS, control_rows, cudaMemcpyDeviceToHost);
167     cudaMemcpy2D(d, sizeof(float)* ROWS, dc, pitch_d, sizeof(float)* ROWS, control_rows, cudaMemcpyDeviceToHost);
168     cudaFree(ac);
169     cudaFree(cc);
170     cudaFree(dc);
171 
172     end = clock();
173     return end - start;
174 }
175 
176 
177 void print_int_matrix(int* a, int row, int col) {
178     for (int i = 0; i < row; i++) {
179         for (int j = 0; j < col; j++) {
180             printf("%d\t", a[i * col + j]);
181         }
182         printf("\n");
183     }
184 }
185 
186 
187 void print_float_matrix(float* c, int row, int col) {
188     for (int i = 0; i < row; i++) {
189         for (int j = 0; j < col; j++) {
190             printf("%f\t", c[i * col + j]);
191         }
192         printf("\n");
193     }
194 }
195 
196 void read_ints(int* a, char *input_file) {
197     FILE* file = fopen(input_file, "r");
198     int i = 0;
199     int count = 0;
200 
201     fscanf(file, "%d", &i);
202     while (!feof(file))
203     {
204         a[count] = i;
205         count++;
206         if (count == ROWS*COLS) break;
207         fscanf(file, "%d", &i);
208     }
209     fclose(file);
210 }
211 
212 void clear_ints(char * out_file) {
213     FILE *f = fopen(out_file, "w");
214     fclose(f);
215 }
216 
217 void cal_and_save(int i, int *a, char *out_file, int control_rows) {
218     float *c; // CPU内存中的相关系数结果矩阵，ROWS行，ROWS列
219     float *d; // CPU内存中的T值结果矩阵，ROWS行，ROWS列
220     c = (float*)malloc(sizeof(float)* control_rows * ROWS);
221     d = (float*)malloc(sizeof(float)* control_rows * ROWS);
222 
223     clock_t time = matmultCUDA(a, c, d, i, control_rows);
224 
225     FILE *f = fopen(out_file, "a");
226     for (int m = 0; m < control_rows; m++) {
227         for (int n = i + m + 1; n < ROWS; n++) {
228             float t_test = d[m * ROWS + n];
229             if (t_test >= 2.042) {
230                 fprintf(f, "X%d\tX%d\t%f\t%lf\n", i + m + 1, n + 1, c[m * ROWS + n], t_test);
231             }
232         }
233     }
234     fclose(f);
235 
236     //printf(">> 相关系数结果矩阵: \n");
237     //print_float_matrix(c, CONTROL_ROWS, ROWS);
238     //printf(">> T值结果矩阵: \n");
239     //print_float_matrix(d, CONTROL_ROWS, ROWS);
240 
241     free(c);
242     free(d);
243 }
244 
245 int main()
246 {
247     int *a; // CPU内存中的总数据矩阵，ROWS行，COLS列
248     a = (int*)malloc(sizeof(int)* COLS * ROWS);
249 
250     char *input_file = "D:\\MASTER2016\\5.CUDA\\data-ID-top30-kv.txt";
251     char *out_file = "D:\\MASTER2016\\5.CUDA\\result-c.txt";
252 
253     clock_t start = clock();
254     printf(">> loading ... rows: %d, cols: %d", ROWS, COLS);
255     read_ints(a, input_file);
256     clear_ints(out_file);
257     clock_t end = clock() - start;
258     printf("\nTime used: %.2f s\n", (double)(end) / CLOCKS_PER_SEC);
259 
260     //print_int_matrix(a, ROWS, COLS);
261     //printf("\n");
262 
263     printf(">> calculating ... ");
264     printf("\n---------------------------------------");
265     printf("\ntotal groups: %lld", (long long)ROWS*(ROWS - 1) / 2);
266     printf("\ntotal threads: %d (blocks) * 1024 = %d", (ROWS - 1), (ROWS - 1) * 1024);
267     printf("\ntotal space complexity: %lld MB", (long long)((CONTROL_ROWS / 1024) * (ROWS / 1024) * 8));
268     printf("\n---------------------------------------");
269 
270     if (!InitCUDA()) return 0;
271 
272     int i;
273     for (i = 0; i < ROWS - 1; i += CONTROL_ROWS) {
274         printf("\n>> calculating and saving ... id: %d ... ", i);
275         cal_and_save(i, a, out_file, CONTROL_ROWS);
276         end = clock() - start;
277         printf("Time used: %.2f s", (double)(end) / CLOCKS_PER_SEC);
278     }
279 
280     // 不能整除的非整数部分需要计算
281     //i -= CONTROL_ROWS;
282     //int control_rows = ROWS - 1 - i;
283     //printf("\n%d", control_rows);
284     //if (control_rows > 0) {
285     //    printf("\n>> calculating and saving ... id: %d ... ", i);
286     //    cal_and_save(i, a, out_file, control_rows);
287     //    end = clock() - start;
288     //    printf("Time used: %.2f s", (double)(end) / CLOCKS_PER_SEC);
289     //}
290 
291     printf("\nFinished.\n");
292 
293     getchar();
294     return 0;
295 }

CUDA第二版

　　到现在，由于空间复杂度过高而显存不够的问题通过增加时间复杂度的方法基本解决了。当然在显存足够的情况下，还是一次性算完是最快的，实测CUDA提速100+倍，数据量越大提速越明显。原因一是你必须被逼着按照CUDA的并行模型来写程序，二是GPU的架构设计确实更适合超大并行程序的加速。游戏画面渲染就是这样，你可以想成一个block控制一块屏幕的渲染，每块block的每个线程控制几个像素格的渲染，而这些图像渲染完全可以是独立并行的，GPU的设计初衷，即是增加核心数，不玩命升频率，增加显存带宽，使成百上千的核心数的并行计算能力得到充分释放。

　　但是目前的程序当然也不是完美的，我没有考虑如何隐藏内存与显存之间数据的传输延迟，没有考虑多块GPU如何联动运算。后面我会思考这些。

　　并行计算是计算的未来。异构并行计算，也将是所有架构师必须增加的学习库。

转载于:https://www.cnblogs.com/shixiangwan/p/6403705.html

你可能感兴趣的:(记一次CUDA编程任务)

Guava LoadingCache sqyaa. java并发编程 Java知识 jvm 缓存 guava
LoadingCache是GoogleGuava库提供的一个高级缓存实现，它通过自动加载机制简化了缓存使用模式。核心特性自动加载机制当缓存未命中时，自动调用指定的CacheLoader加载数据线程安全：并发请求下，相同key只会加载一次灵活的过期策略支持基于写入时间(expireAfterWrite)和访问时间(expireAfterAccess)的过期可设置最大缓存大小，基于LRU策略淘汰丰富的
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
react-native android 环境搭建
环境：macjava版本：Java11最重要：一定要一定要一定要react涉及到很多的依赖下载，gradle和react相关的，第一次安装环境时有外网环境会快速很多。安装nodejs安装react-nativenpminstallreact-native-clinpminstallreact-native创建一个新项目react-nativeinitfirstReact替换gradle下载源rep
android查看so路径
之前遇到过一个问题，apk中有一个so无法确定其路径，是由哪个依赖引入的，网上查询一番后这里记录一下。build.gradle中添加如下任务//列出所有包含有so文件的库信息tasks.whenTaskAdded{task->if(task.name=='mergeDebugNativeLibs'){//如果是有多个flavor，则用mergeFlavorDebugNativeLibs的形式tas
rocketmq的重试队列和死信队列还不够 MQ
原文：https://www.jianshu.com/p/1281f7fee69c消费端，一直不回传消费的结果。rocketmq认为消息没收到，consumer下一次拉取，broker依然会发送该消息。所以，任何异常都要捕获返回ConsumeConcurrentlyStatus.RECONSUME_LATERrocketmq会放到重试队列。这个重试TOPIC的名字是%RETRY%+consumer
零信任落地难题：安全性与用户体验如何两全？粤海科技君安全零信任终端安全网络安全 iOA
在零信任架构的实施过程中，平衡安全性与用户体验是企业数字化转型的核心命题。这一挑战的本质在于：既要通过「永不信任，持续验证」的安全机制抵御新型攻击，又要避免过度验证导致的效率损耗。一、矛盾根源：安全与体验的天然张力零信任的“永不信任”原则，本质上要求对每一次访问都进行动态评估，但这与用户对“便捷、流畅”的诉求存在天然冲突。例如：频繁的身份验证（如每次登录都需短信验证码）会打断工作节奏，某制造企业统
Kimi Chat 1.5 与 2.0 架构升级对比 charles666666 人工智能 transformer 深度学习产品经理 chatgpt
1.5版的MoE架构优化KimiChat1.5采用了优化后的MoE架构，其核心在于“专家网络动态路由”。这一机制类似于快递系统智能选择最优路径，能够根据输入数据的特性动态分配计算资源。这种优化显著提升了模型的计算效率，同时降低了硬件资源的浪费。在实际应用中，这意味着开发者可以在相同的硬件配置下处理更复杂的任务，或者在有限的资源下实现更高的性能。2.0的混合专家系统创新点与1.5版相比，KimiCh
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
flutter知识点 ZhDan91 flutter
#时隔4年了#4年前用flutter开发海外项目和医疗项目。绘制界面的语法与html还是较类似的。把这些封印的记忆和技术回顾一下，最开始是开发Android出身的，所以开发起flutter来依旧是用的androidstudio开发工具。整理下用到的知识点：整理来源：flutter面试题——基础篇（1）-CSDN博客1、Dart是单线程的。在单线程中以消息循环来运行的。其中敖汉两个任务队列。一个是微
什么是RFM模型走过冬季学习笔记大数据数据分析
RFM模型是客户价值分析中一种经典且实用的量化模型，它通过三个关键维度评估用户价值，帮助企业识别最有价值的客户群体。名称RFM由三个核心指标的英文首字母组成：R（Recency）-最近一次消费时间定义：用户上一次发生交易行为距今的时间长度（如多少天前）。意义：衡量用户的活跃度和流失风险。R值越小（最近有消费），说明用户越活跃，流失风险越低；R值越大（很久没消费），用户流失风险越高。母婴场景示例：一
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
Java Web 之 Session 详解艾伦~耶格尔 java 开发语言后端前端 session
在JavaWeb开发中，Session就像网站的专属记忆管家，为每个用户保管着重要的信息和状态，确保用户在网站的旅程顺畅无阻。场景一：想象你去一家大型超市购物，推着购物车挑选商品。这个购物车就如同Session，它记录了你的购物信息，方便你在结账时一次性结算。场景二：你在玩一个在线游戏，登录账号后，你的游戏进度、等级、装备等信息都会被保存在Session中，即使你中途关闭游戏，下次登录时依然可以继
第一次在CSDN 使用Markdown编辑页，就看到了完美的语法，在此处，我记录一下撰卢编辑器笔记
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导入导出导入欢迎使用Mark
Vue框架之模板语法全面解析 AA-代码批发V哥 Vue vue.js
Vue框架之模板语法全面解析一、模板语法的核心思想二、插值表达式：数据渲染的基础2.1基本用法：渲染文本2.2纯HTML渲染：`v-html`指令2.3一次性插值：`v-once`指令三、指令系统：控制DOM的行为3.1条件渲染：`v-if`与`v-show`3.1.1`v-if`：动态创建/销毁元素3.1.2`v-else`与`v-else-if`：条件分支3.1.3`v-show`：动态显示/
解码服务细节，以专业暗访驱动汽车门店市场突围湖南群狼调研汽车市场调查神秘顾客汽车暗访调查问卷调查公司汽车神秘顾客长沙市场调研
汽车消费市场的竞争，（湖南消费者调查公司）（汽车神秘顾客调查）（长沙市场调查）早已从“产品力”延伸至“服务力”。一次流畅的试驾引导、一句真诚的价格说明、一项贴心的售后承诺，都可能成为客户选择品牌的关键。湖南群狼市场调查深耕行业17年，以专业暗访为笔，为汽车门店绘制服务升级蓝图，让每一份服务细节都经得起市场检验。一、17年行业积淀，铸就服务洞察利器从燃油车主导市场到新能源全面崛起，群狼始终紧跟行业脉
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
spring揭秘31-spring任务调度02-spring集成任务执行与调度-spring官方文档
文章目录【README】【1】spring任务执行器（TaskExecutor）抽象【1.1】TaskExecutor实现类（执行器）【1.2】使用TaskExecutor代码实践【2】spring任务调度抽象(TaskScheduler)【2.1】Trigger触发器接口【2.1.1】Trigger实现类【2.2】任务调度器(TaskScheduler)实现【3】任务调度与任务异步执行的注解支持
7. TCP 和 UDP 的区别 yqcoder 前端面试-服务协议网络网络协议 http
总结TCP面向连接，需要三次握手建立连接，UDP无连接，不需要握手，直接发送数据。UDP有较好的实时性，效率比TCP高。TCP面向字节流，实际上是TCP把数据看成一连串无结构的字节流，UDP是面向报文的，一次交付一个完整的报文，报文不可分割，报文是UDP数据报处理的最小单位。每一条TCP连接时一对一的，UDP可以一对多，多对一，多对多。UDP分组首部开销小，八个字节，TCP首部开销大约20字节。U
让电机转起来--基于STM32F1控制两相步进电机转动-新手小白入（完整代码）梦想是成为甜妹儿 stm32 嵌入式硬件单片机
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、基础内容1、步进电机2、电机驱动器3、接线方法二、最简单控制电机转动程序1.定时器的输出比较功能生成PWM波2.电机方向控制3.主函数三、进阶版电机控制程序1.加入按键控制2.motor.c中添加一个函数3.主函数总结前言本帖分享步进电机与驱动器的接线方式、速度计算与代码分析。第一次接触电机的小白可能会面对无数的代码分
浏览器的事件循环中的任务队列（消息队列）小吴在摸渝前端
在浏览器的事件循环中，任务队列是有优先级的。这些优先级决定了在一次事件循环中，哪些任务会被优先执行。以下是一些主要的任务队列及其优先级：微任务队列（优先级最高）：这个队列用于存放需要最快执行的任务。添加任务到微任务队列的主要方式是使用Promise和MutationObserver1。交互队列（优先级高）：这个队列用于存放用户操作后产生的事件处理任务，例如鼠标点击、页面滚动等。延时队列（优先级中）
浏览器的消息队列和事件循环机制（宏任务和微任务） jieyucx 前端性能优化前端浏览器消息队列 event loop 宏任务微任务
引言在当今互联网时代，我们常常使用浏览器来访问各种网页和应用程序。然而，你是否有想过浏览器是如何处理和执行我们在网页中触发的各种事件和任务的呢？这就涉及到浏览器的消息队列和事件循环机制。浏览器作为一个复杂的软件系统，需要高效地管理和执行各种任务，以保证用户能够流畅地使用网页和应用程序。而消息队列和事件循环机制就是浏览器用来处理这些任务的核心机制。在本文中，我们将深入探讨浏览器的消息队列和事件循环机
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
Java实习模拟面试之安徽九德 —— 面向对象编程、Spring框架与数据库技术详解培风图南以星河揽胜 java面试 java 面试 spring
关键词：Java实习生、模拟面试、安徽九德、SpringBoot、MySQL、Redis、面向对象编程、团队协作一、前言作为一名计算机相关专业的学生，想要顺利进入一家互联网公司或软件开发企业实习，技术面试是必须面对的一道门槛。本文将带你走进一场真实的Java实习生模拟面试场景，以“安徽九德”公司为背景，围绕其发布的招聘岗位要求，进行一次全方位的技术面试演练。本次模拟面试涵盖以下核心知识点：Java
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
K8s 1.24在node节点上手动部署etcd 喝醉酒的小白 K8s kubernetes etcd 容器
目录标题第一次操作一、生成证书并拷贝到新增节点~~~~方案1~~缺少了SAN（SubjectAlternativeNames）~~方案2关键改进：使用说明：二、在已有节点（181）上添加etcd集群成员三、在180上部署静态Pod四、更新旧节点（181）的静态Pod配置-可选五、验证集群状态第一次操作下面给出在节点 172.30.30.180（下简称“180”）上新增etcd成员的完整操作步骤。假
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
深入理解 Linux 中的 stat 函数与文件属性操作
在Linux系统编程中，获取和操作文件属性是一项基础且重要的任务。stat函数作为获取文件状态信息的核心接口，为我们提供了丰富的文件元数据。本文将详细解析stat函数的用法、结构体成员含义，以及与文件时间戳、权限相关的实用操作。一、stat函数：文件信息的"万能查询器"stat函数的原型非常简洁：intstat(constchar*pathname,structstat*statbuf)功能：通过
搜广推校招面经九十三 Y1nhl 搜广推面经机器学习人工智能 python 算法推荐算法 pytorch 搜索算法
字节懂车帝一面一、NDCG（NormalizedDiscountedCumulativeGain）的计算NDCG是信息检索和排序任务中常用的评价指标，用于衡量模型预测的排序质量与真实相关性排序的一致程度。1.1.DCG@k（DiscountedCumulativeGain）DCG@k=∑i=1krelilog⁡2(i+1)\text{DCG@k}=\sum_{i=1}^{k}\frac{rel_i
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
矩阵求逆（JAVA）利用伴随矩阵 qiuwanchi 利用伴随矩阵求逆矩阵
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(利用伴随矩阵) * @author 邱万迟
单例（Singleton）模式 aoyouzi 单例模式 Singleton
3.1 概述如果要保证系统里一个类最多只能存在一个实例时，我们就需要单例模式。这种情况在我们应用中经常碰到，例如缓存池，数据库连接池，线程池，一些应用服务实例等。在多线程环境中，为了保证实例的唯一性其实并不简单，这章将和读者一起探讨如何实现单例模式。 3.2
[开源与自主研发]就算可以轻易获得外部技术支持,自己也必须研发 comsci 开源
现在国内有大量的信息技术产品，都是通过盗版，免费下载，开源，附送等方式从国外的开发者那里获得的。。。。。。虽然这种情况带来了国内信息产业的短暂繁荣，也促进了电子商务和互联网产业的快速发展，但是实际上，我们应该清醒的看到，这些产业的核心力量是被国外的
页面有两个frame,怎样点击一个的链接改变另一个的内容 Array_06 UI XHTML
<a src="地址" targets="这里写你要操作的Frame的名字" />搜索然后你点击连接以后你的新页面就会显示在你设置的Frame名字的框那里 targerts="",就是你要填写目标的显示页面位置 ===================== 例如： <frame src=&
Struts2实现单个/多个文件上传和下载 oloz 文件上传 struts
struts2单文件上传：步骤01:jsp页面  　　<form action="fileUplo
推荐10个在线logo设计网站 362217990 logo
在线设计Logo网站。 1、http://flickr.nosv.org（这个太简单） 2、http://www.logomaker.com/?source=1.5770.1 3、http://www.simwebsol.com/ImageTool 4、http://www.logogenerator.com/logo.php?nal=1&tpl_catlist[]=2 5、ht
jsp上传文件香水浓 jsp fileupload
1. jsp上传 Notice： 1. form表单 method 属性必须设置为 POST 方法，不能使用 GET 方法 2. form表单 enctype 属性需要设置为 multipart/form-data 3. form表单 action 属性需要设置为提交到后台处理文件上传的jsp文件地址或者servlet地址。例如 uploadFile.jsp 程序文件用来处理上传的文
我的架构经验系列文章 - 前端架构 agevs JavaScript Web 框架 UI jQuer
框架层面：近几年前端发展很快，前端之所以叫前端因为前端是已经可以独立成为一种职业了，js也不再是十年前的玩具了，以前富客户端RIA的应用可能会用flash/flex或是silverlight，现在可以使用js来完成大部分的功能，因此js作为一门前端的支撑语言也不仅仅是进行的简单的编码，越来越多框架性的东西出现了。越来越多的开发模式转变为后端只是吐json的数据源，而前端做所有UI的事情。MVCMV
android ksoap2 中把XML(DataSet) 当做参数传递 aijuans android
我的android app中需要发送webservice ，于是我使用了 ksop2 进行发送，在测试过程中不是很顺利,不能正常工作.我的web service 请求格式如下 [html] view plain copy <Envelope xmlns="http://schemas.
使用Spring进行统一日志管理 + 统一异常管理 baalwolf spring
统一日志和异常管理配置好后，SSH项目中，代码以往散落的log.info() 和 try..catch..finally 再也不见踪影！统一日志异常实现类： [java] view plain copy package com.pilelot.web.util; impor
Android SDK 国内镜像 BigBird2012 android sdk
一、镜像地址： 1、东软信息学院的 Android SDK 镜像，比配置代理下载快多了。配置地址， http://mirrors.neusoft.edu.cn/configurations.we#android 2、北京化工大学的： IPV4:ubuntu.buct.edu.cn IPV4:ubuntu.buct.cn IPV6:ubuntu.buct6.edu.cn
HTML无害化和Sanitize模块 bijian1013 JavaScript AngularJS Linky Sanitize
一.ng-bind-html、ng-bind-html-unsafe AngularJS非常注重安全方面的问题，它会尽一切可能把大多数攻击手段最小化。其中一个攻击手段是向你的web页面里注入不安全的HTML，然后利用它触发跨站攻击或者注入攻击。考虑这样一个例子，假设我们有一个变量存
[Maven学习笔记二]Maven命令 bit1129 maven
mvn compile compile编译命令将src/main/java和src/main/resources中的代码和配置文件编译到target/classes中，不会对src/test/java中的测试类进行编译 MVN编译使用 maven-resources-plugin:2.6:resources maven-compiler-plugin:2.5.1:compile &nbs
【Java命令二】jhat bit1129 Java命令
jhat用于分析使用jmap dump的文件，，可以将堆中的对象以html的形式显示出来，包括对象的数量，大小等等，并支持对象查询语言。 jhat默认开启监听端口7000的HTTP服务，jhat是Java Heap Analysis Tool的缩写 1. 用法： [hadoop@hadoop bin]$ jhat -help Usage: jhat [-stack <bool&g
JBoss 5.1.0 GA:Error installing to Instantiated: name=AttachmentStore state=Desc ronin47
进到类似目录 server/default/conf/bootstrap，打开文件 profile.xml找到： Xml代码<bean name="AttachmentStore" class="org.jboss.system.server.profileservice.repository.AbstractAtta
写给初学者的6条网页设计安全配色指南 brotherlamp UI ui自学 ui视频 ui教程 ui资料
网页设计中最基本的原则之一是，不管你花多长时间创造一个华丽的设计，其最终的角色都是这场秀中真正的明星——内容的衬托我仍然清楚地记得我最早的一次美术课，那时我还是一个小小的、对凡事都充满渴望的孩子，我摆放出一大堆漂亮的彩色颜料。我仍然记得当我第一次看到原色与另一种颜色混合变成第二种颜色时的那种兴奋，并且我想，既然两种颜色能创造出一种全新的美丽色彩，那所有颜色
有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。写一个函数实现。复杂度是什么。 bylijinnan java 算法面试
import java.util.Random; import java.util.Set; import java.util.TreeSet; /** * http://weibo.com/1915548291/z7HtOF4sx * #面试题#有一个数组，每次从中间随机取一个，然后放回去，当所有的元素都被取过，返回总共的取的次数。 * 写一个函数实现。复杂度是什么
struts2获得request、session、application方式 chiangfai application
1、与Servlet API解耦的访问方式。 a.Struts2对HttpServletRequest、HttpSession、ServletContext进行了封装，构造了三个Map对象来替代这三种对象要获取这三个Map对象，使用ActionContext类。 -----> package pro.action; import java.util.Map; imp
改变python的默认语言设置 chenchao051 python
import sys sys.getdefaultencoding() 可以测试出默认语言，要改变的话，需要在python lib的site-packages文件夹下新建： sitecustomize.py，这个文件比较特殊，会在python启动时来加载，所以就可以在里面写上： import sys sys.setdefaultencoding('utf-8') &n
mysql导入数据load data infile用法 daizj mysql 导入数据
我们常常导入数据！mysql有一个高效导入方法，那就是load data infile 下面来看案例说明基本语法： load data [low_priority] [local] infile 'file_name txt' [replace | ignore] into table tbl_name [fields [terminated by't'] [OPTI
phpexcel导入excel表到数据库简单入门示例 dcj3sjt126com PHP Excel
跟导出相对应的，同一个数据表，也是将phpexcel类放在class目录下，将Excel表格中的内容读取出来放到数据库中 <?php error_reporting(E_ALL); set_time_limit(0); ?> <html> <head> <meta http-equiv="Content-Type"
22岁到72岁的男人对女人的要求 dcj3sjt126com
22岁男人对女人的要求是：一，美丽，二，性感，三，有份具品味的职业，四，极有耐性，善解人意，五，该聪明的时候聪明，六，作小鸟依人状时尽量自然，七，怎样穿都好看，八，懂得适当地撒娇，九，虽作惊喜反应，但看起来自然，十，上了床就是个无条件荡妇。 32岁的男人对女人的要求，略作修定，是：一，入得厨房，进得睡房，二，不必服侍皇太后，三，不介意浪漫蜡烛配盒饭，四，听多过说，五，不再傻笑，六，懂得独
Spring和HIbernate对DDM设计的支持 e200702084 DAO 设计模式 spring Hibernate 领域模型
A：数据访问对象 DAO和资源库在领域驱动设计中都很重要。DAO是关系型数据库和应用之间的契约。它封装了Web应用中的数据库CRUD操作细节。另一方面，资源库是一个独立的抽象，它与DAO进行交互，并提供到领域模型的“业务接口”。资源库使用领域的通用语言，处理所有必要的DAO，并使用领域理解的语言提供对领域模型的数据访问服务。
NoSql 数据库的特性比较 geeksun NoSQL
Redis 是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。目前由VMware主持开发工作。 1. 数据模型作为Key-value型数据库，Redis也提供了键（Key）和值（Value）的映射关系。除了常规的数值或字符串，Redis的键值还可以是以下形式之一： Lists （列表） Sets
使用 Nginx Upload Module 实现上传文件功能 hongtoushizi nginx
转载自： http://www.tuicool.com/wx/aUrAzm 普通网站在实现文件上传功能的时候，一般是使用Python，Java等后端程序实现，比较麻烦。Nginx有一个Upload模块，可以非常简单的实现文件上传功能。此模块的原理是先把用户上传的文件保存到临时文件，然后在交由后台页面处理，并且把文件的原名，上传后的名称，文件类型，文件大小set到页面。下
spring-boot-web-ui及thymeleaf基本使用 jishiweili spring thymeleaf
视图控制层代码demo如下： @Controller @RequestMapping("/") public class MessageController { private final MessageRepository messageRepository; @Autowired public MessageController(Mes
数据源架构模式之活动记录 home198979 PHP 架构活动记录数据映射
hello!架构一、概念活动记录（Active Record）：一个对象，它包装数据库表或视图中某一行，封装数据库访问，并在这些数据上增加了领域逻辑。对象既有数据又有行为。活动记录使用直截了当的方法，把数据访问逻辑置于领域对象中。二、实现简单活动记录活动记录在php许多框架中都有应用，如cakephp。 <?php /** * 行数据入口类 *
Linux Shell脚本之自动修改IP pda158 linux centos Debian 脚本
作为一名 Linux SA，日常运维中很多地方都会用到脚本，而服务器的ip一般采用静态ip或者MAC绑定，当然后者比较操作起来相对繁琐，而前者我们可以设置主机名、ip信息、网关等配置。修改成特定的主机名在维护和管理方面也比较方便。如下脚本用途为：修改ip和主机名等相关信息，可以根据实际需求修改，举一反三！ #!/bin/sh #auto Change ip netmask ga
开发环境搭建独浮云 eclipse jdk tomcat
最近在开发过程中，经常出现MyEclipse内存溢出等错误，需要重启的情况，好麻烦。对于一般的JAVA+TOMCAT项目开发，其实没有必要使用重量级的MyEclipse，使用eclipse就足够了。尤其是开发机器硬件配置一般的人。 &n