UCAS_HMM

CUDA——内存

内存形式

静态全局内存

#include 
#include

__device__ float devData;   //- GPU静态变量（所有设备代码均可见，主机代码不允许直接访问）

__global__ void checkGlobalVariable()
{
    printf("threadIdx.x=%d devData = %0.2f\n", threadIdx.x, devData);
    devData += 2.0f;
}

int main(int argc, char **argv)
{
    float init_value = 3.14f;
    //- 注意传递参数是devData，而不是地址，不需要指定拷贝方向，因为函数名已经明确了
    cudaMemcpyToSymbol(devData, &init_value, sizeof(float));
    dim3 block(3);
    dim3 grid(2);
    checkGlobalVariable<<>>();
    cudaDeviceSynchronize();
    //- 注意传递参数是devData，而不是地址，不需要指定拷贝方向，因为函数名已经明确了
    cudaMemcpyFromSymbol(&init_value, devData, sizeof(float));
    printf("devData=%0.2f\n", init_value);

    return 0;
}

[mmhe@k231 chapter4]$ ./test 
threadIdx.x=0 devData = 3.14
threadIdx.x=1 devData = 3.14
threadIdx.x=2 devData = 3.14
threadIdx.x=0 devData = 3.14
threadIdx.x=1 devData = 3.14
threadIdx.x=2 devData = 3.14
devData=5.14

可以看到每个线程输出的结果都是3.14，而最终主机输出的结果是5.14，显示只加和了1次。这是因为访问冲突导致的，所有的thread首先加载到静态变量的值（均为3.14），然后执行加2操作之后（结果为5.14），将结果存储到静态变量中，因此最终结果为5.14.如果想要解决这个问题，需要调用原子操作atomicAdd。
另外需要注意的是，devData在主机代码中是被当做一个符号进行处理的，而非一个变量，因此在调用cudaMemcpyToSymbol和cudaMemcpyFromSymbol函数时，传递的是符号名字，而非地址。
书里面也介绍了一个获取全局变量地址的API——cudaGetSymbolAddress，这样就能使用cudaMemcpy来进行拷贝赋值了。

固定内存

在CUDA框架下，主机内存分为两种：（1）可分页内存——由malloc开辟，有free释放；（2）固定内存——由cudaMallocHost开辟，由cudaFreeHost释放，占用的内存更多，但是主机设备间的数据传递更快。

#include
#include

int main(int argc, char **argv)
{
    int *pin_arr, *page_arr;
    int nElem = 1<<30;
    cudaMallocHost((void **)&pin_arr, nElem * sizeof(int));
    page_arr = (int *)malloc(nElem * sizeof(int));

    int *d_arr;
    cudaMalloc((void **)&d_arr, nElem * sizeof(int));

    cudaMemcpy(d_arr, page_arr, nElem * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(page_arr, d_arr, nElem * sizeof(int), cudaMemcpyDeviceToHost);
    // cudaMemcpy(d_arr, pin_arr, nElem * sizeof(int), cudaMemcpyHostToDevice);
    // cudaMemcpy(pin_arr, d_arr, nElem * sizeof(int), cudaMemcpyDeviceToHost);

    free(page_arr);
    cudaFreeHost(pin_arr);
    cudaDeviceReset();
    return 0;
}

==45339== Profiling result:
            Type  Time(%)      Time     Calls       Avg       Min       Max  Name
 GPU activities:   84.54%  3.21079s         1  3.21079s  3.21079s  3.21079s  [CUDA memcpy DtoH]
                   15.46%  587.34ms         1  587.34ms  587.34ms  587.34ms  [CUDA memcpy HtoD]

==48677== Profiling result:
            Type  Time(%)      Time     Calls       Avg       Min       Max  Name
 GPU activities:   50.19%  574.67ms         1  574.67ms  574.67ms  574.67ms  [CUDA memcpy DtoH]
                   49.81%  570.23ms         1  570.23ms  570.23ms  570.23ms  [CUDA memcpy HtoD]

上半部分是使用可分页的内存，下半部分使用的是固定内存。可以发现，对于设备到主机的传输，固定内存要远快于可分页内存，但是对于主机到设备的传输，则性能差不多。

零拷贝内存

零拷贝内存是主机和设备都能直接访问的一片内存，主要用于显存不够时的一个补充。但是由于数据需要经过PCIe总线，因此如果频繁对这片区域的数据进行读写，那么会显著降低性能。
以矢量相加为例子，比较一下当A和B都位于GMEM和位于零拷贝内存上，核函数执行效率的区别。

#include
#include

__host__ void init(int *arr, int nElem)
{
    for (int i = 0; i < nElem; i++)
    {
        arr[i] = i;
    }
}

__global__ void sumArr(int *arrA, int *arrB, int *arrC, int nElem)
{
    int index = blockIdx.x * blockDim.x + threadIdx.x;
    if (index < nElem)
    {
        arrC[index] = arrA[index] + arrB[index];
    }
}

__host__ void check(int *arrA, int *arrB, int *arrC, int nElem)
{
    for (int i = 0; i < nElem; i++)
    {
        if (arrC[i] != (arrA[i] + arrB[i]))
        {
            printf("error at i = %d\n", i);
            return;
        }
    }
    printf("result is correct\n");
}

int main(int argc, char **argv)
{
    int nElem = 1<<24;
    int *h_arrA, *h_arrB, *h_arrC, *d_arrA_G, *d_arrB_G, *d_arrC_G, *d_arrA_U, *d_arrB_U, *d_arrC_U;
    h_arrA = (int *)malloc(nElem * sizeof(int));
    h_arrB = (int *)malloc(nElem * sizeof(int));
    h_arrC = (int *)malloc(nElem * sizeof(int));
    cudaMalloc((void **)&d_arrA_G, nElem * sizeof(int));
    cudaMalloc((void **)&d_arrB_G, nElem * sizeof(int));
    cudaMalloc((void **)&d_arrC_G, nElem * sizeof(int));
    cudaHostAlloc((void **)&d_arrA_U, nElem * sizeof(int), cudaHostAllocMapped);
    cudaHostAlloc((void **)&d_arrB_U, nElem * sizeof(int), cudaHostAllocMapped);
    cudaHostAlloc((void **)&d_arrC_U, nElem * sizeof(int), cudaHostAllocMapped);

    init(h_arrA, nElem);
    init(h_arrB, nElem);
    init(d_arrA_U, nElem);
    init(d_arrB_U, nElem);
    cudaMemcpy(d_arrA_G, h_arrA, nElem * sizeof(int), cudaMemcpyHostToDevice);
    cudaMemcpy(d_arrB_G, h_arrB, nElem * sizeof(int), cudaMemcpyHostToDevice);

    dim3 block(512);
    dim3 grid((nElem + block.x - 1) / block.x);
    //- A和B都是全局内存，C是全局内存
    sumArr<<>>(d_arrA_G, d_arrB_G, d_arrC_G, nElem);
    cudaMemcpy(h_arrC, d_arrC_G, nElem * sizeof(int), cudaMemcpyDeviceToHost);
    check(h_arrA, h_arrB, h_arrC, nElem);
    // //- A和B都是零拷贝内存，C是全局内存
    // sumArr<<>>(d_arrA_U, d_arrB_U, d_arrC_G, nElem);
    // cudaMemcpy(h_arrC, d_arrC_G, nElem * sizeof(int), cudaMemcpyDeviceToHost);
    // check(h_arrA, h_arrB, h_arrC, nElem);
    // //- A和B都是零拷贝内存，C也是零拷贝内存
    // sumArr<<>>(d_arrA_U, d_arrB_U, d_arrC_U, nElem);
    // cudaDeviceSynchronize();    //- 这个地方一定要注意，鉴于d_arrC_U主机可以访问，就没有用调用cudaMemcpy来拷贝，因此一定要显式同步。
    // check(d_arrA_U, d_arrB_U, d_arrC_U, nElem);

    free(h_arrA);
    free(h_arrB);
    free(h_arrC);
    cudaFree(d_arrA_G);
    cudaFree(d_arrB_G);
    cudaFree(d_arrC_G);
    cudaFreeHost(d_arrA_U);
    cudaFreeHost(d_arrB_U);
    cudaFreeHost(d_arrC_U);
    cudaDeviceReset();

    return 0;
}

#-  A和B都是全局内存，C是全局内存
            Type  Time(%)      Time     Calls       Avg       Min       Max  Name
 GPU activities:   60.39%  42.203ms         1  42.203ms  42.203ms  42.203ms  [CUDA memcpy DtoH]
                   27.05%  18.908ms         2  9.4539ms  9.3450ms  9.5628ms  [CUDA memcpy HtoD]
                   12.56%  8.7768ms         1  8.7768ms  8.7768ms  8.7768ms  sumArr(int*, int*, int*, int)
#- A和B都是零拷贝内存，C是全局内存
 GPU activities:   54.52%  39.520ms         1  39.520ms  39.520ms  39.520ms  [CUDA memcpy DtoH]
                   29.03%  21.047ms         2  10.523ms  10.407ms  10.639ms  [CUDA memcpy HtoD]
                   16.45%  11.926ms         1  11.926ms  11.926ms  11.926ms  sumArr(int*, int*, int*, int)
#- A和B都是零拷贝内存，C也是零拷贝内存
 GPU activities:   66.12%  49.425ms         2  24.713ms  21.864ms  27.561ms  [CUDA memcpy HtoD]
                   33.88%  25.330ms         1  25.330ms  25.330ms  25.330ms  sumArr(int*, int*, int*, int)

可以看到，对性能的影响还是挺大的。零拷贝内存不适合大数据集，书上提到，随着处理的数据变大，减速越明显。

统一虚拟寻址

上面的零拷贝例子中，我们直接将零拷贝内存的指针传递给了核函数，让它在设备代码上被解析。其实这里隐藏了一个称为虚拟统一寻址（UVA）的机制。对于不支持这一特性的老版本cuda来说，我们不能这样用同一个指针来在设备和主机代码中进行解析，而是需要先通过API获取零拷贝内存的地址，然后传递给核函数，才能进行解析，如：

int *d_arrA_U_ref, *d_arrB_U_ref, *d_arrC_U_ref;
cudaHostGetDevicePointer((void **)&d_arrA_U_ref, d_arrA_U, 0);
cudaHostGetDevicePointer((void **)&d_arrB_U_ref, d_arrB_U, 0);
cudaHostGetDevicePointer((void **)&d_arrC_U_ref, d_arrC_U, 0);
sumArr<<>>(d_arrA_U_ref, d_arrB_U_ref, d_arrC_U_ref, nElem);

这两种做法性能是相同的，只是代码可读性和维护性更强。

内存访问模式

对齐访问

这里有一个推论概念：以L1缓存内存加载事务为例，粒度为128字节。首先会以数组的首地址为起始点，每间隔128字节为一个区间，如果一个warp中的32个thread请求的数据内存刚好都落在这一个区间内，那么只需要一个128字节内存加载事务就能满足需求；否则，如果散落在两个区间内，就需要两个加载事务。这里的关键要明确，划分区间的起始点是数组的首地址。

#include
#include

__global__ void sumArrOffSet(int *arrA, int *arrB, int *arrC, int nElem, int offset)
{
    int index = blockIdx.x * blockDim.x + threadIdx.x;
    int k = index + offset;
    if (index < nElem)
    {
        arrC[index] = arrA[k] + arrB[k];
    }
}

int main(int argc, char **argv)
{
    int nElem = 1<<14;
    int *d_arrA, *d_arrB, *d_arrC;
    cudaMalloc((void **)&d_arrA, nElem * sizeof(int));
    cudaMalloc((void **)&d_arrB, nElem * sizeof(int));
    cudaMalloc((void **)&d_arrC, nElem * sizeof(int));

    dim3 block(512);
    dim3 grid((nElem + block.x - 1) / block.x);
    sumArrOffSet<<>>(d_arrA, d_arrB, d_arrC, nElem, atoi(argv[1]));
    cudaDeviceSynchronize();
    
    cudaFree(d_arrA);
    cudaFree(d_arrB);
    cudaFree(d_arrC);
    cudaDeviceReset();

    return 0;
}

[mmhe@k231 chapter4]$ nvprof --metrics gld_transactions,gst_transactions ./test 0
Invocations                               Metric Name                        Metric Description         Min         Max         Avg
Device "Tesla K80 (0)"
    Kernel: sumArrOffSet(int*, int*, int*, int, int)
          1                          gld_transactions                  Global Load Transactions        1024        1024        1024
          1                          gst_transactions                 Global Store Transactions         512         512         512

[mmhe@k231 chapter4]$ nvprof --metrics gld_transactions,gst_transactions ./test 1
Invocations                               Metric Name                        Metric Description         Min         Max         Avg
Device "Tesla K80 (0)"
    Kernel: sumArrOffSet(int*, int*, int*, int, int)
          1                          gld_transactions                  Global Load Transactions        2048        2048        2048
          1                          gst_transactions                 Global Store Transactions         512         512         512

[mmhe@k231 chapter4]$ nvprof --metrics gld_transactions,gst_transactions ./test 16
Invocations                               Metric Name                        Metric Description         Min         Max         Avg
Device "Tesla K80 (0)"
    Kernel: sumArrOffSet(int*, int*, int*, int, int)
          1                          gld_transactions                  Global Load Transactions        2048        2048        2048
          1                          gst_transactions                 Global Store Transactions         512         512         512

[mmhe@k231 chapter4]$ nvprof --metrics gld_transactions,gst_transactions ./test 32
Invocations                               Metric Name                        Metric Description         Min         Max         Avg
Device "Tesla K80 (0)"
    Kernel: sumArrOffSet(int*, int*, int*, int, int)
          1                          gld_transactions                  Global Load Transactions        1024        1024        1024
          1                          gst_transactions                 Global Store Transactions         512         512         512

本次处理的矢量长度为16384，blockDim.x=512，共有32个block，每个block有16个warp。

当偏移量=0时，第一个warp中请求的A和B元素各需要一个128字节的内存加载事务，因此共计1024个内存加载事务。
当偏移量=1时，第一个warp中32个thread加载A和B均落在字节索引4-131这128个字节内，但是由于前面推论中提到的分区是以数组的首地址开始的，因此0-127属于第一个区间，128-255属于第二个区间，因此4-131跨越了两个区间。对于其他的warp也是如此，因此一个warp需要4个内存事务来进行，共计2048个加载事务。
当偏移量=16时，第一个warp加载的字节索引落在64-191这128个字节内，同样跨越了两个区间，因此也上述情况一样；
当偏移量=32时，第一个warp加载的字节索引落在128-255字节区间内，刚好属于第二个区间，因此一个事务就能满足，因此又回到了1024这个结果。
注意，这里的程序只是为了验证对其访问，因此并不注重程序的正确性，程序中存在跨区域索引。

合并访问

全局内存写入

写入的粒度有多种，因此它能提供更高的利用率。

结构体数组和数组结构体

#include
#include

struct point
{
    int x;
    int y;
};

__global__ void kernel(point *arr, int nElem)
{
    int index = blockIdx.x * blockDim.x + threadIdx.x;
    if (index < nElem)
    {
        arr[index].x = arr[index].x + 2;
        arr[index].y = arr[index].y + 2;
    }
}

int main(int argc, char **argv)
{
    int nElem = 1<<14;
    struct point *d_arr;
    cudaMalloc((void **)&d_arr, nElem * sizeof(point));
    dim3 block(512);
    dim3 grid((nElem + block.x - 1)/block.x);
    kernel<<>>(d_arr, nElem);
    cudaDeviceSynchronize();
    cudaDeviceReset();
    return 0;
}

数组尺寸16384，block尺寸512，共有32个block，每个block有16个warp。
当结构体对象是数组的基本单元时，在这个数组的内存中，对象成员x和y是紧挨在一起的，即[x,y,x,y…x,y]。那么对于一个warp中对x的索引，会分散在以数组首地址为起始的两个128字节区间内，也就是说，加载x需要2个事务，那么总的核函数加载x和y共需要2048个内存加载事务，并且利用率只有50%。

#include
#include

struct point
{
    int *x;
    int *y;
};

__global__ void init(point *A, int nElem)
{
    int index = blockIdx.x * blockDim.x + threadIdx.x;
    if (index < nElem)
    {
        A->x[index] = index;
        A->y[index] = index;
    }
}

__global__ void kernel(point *A, int nElem)
{
    int index = blockIdx.x * blockDim.x + threadIdx.x;
    if (index < nElem)
    {
        A->x[index] += 2;
        A->y[index] += 2;
    }
}

int main(int argc, char **argv)
{
    int nElem = 32;
    point *h_arr;
    point *d_arr;
    h_arr = (point *)malloc(sizeof(point));
    cudaMalloc((void **)&(h_arr->x), nElem * sizeof(int));
    cudaMalloc((void **)&(h_arr->y), nElem * sizeof(int));
    cudaMalloc((void **)&d_arr, sizeof(point));
    cudaMemcpy(d_arr, h_arr, sizeof(point), cudaMemcpyHostToDevice);

    dim3 block(32);
    dim3 grid((nElem + block.x - 1)/block.x);
    init<<>>(d_arr, nElem);
    cudaDeviceSynchronize();
    kernel<<>>(d_arr, nElem);
    cudaDeviceSynchronize();
    cudaDeviceReset();
    return 0;
}

Invocations                               Metric Name                        Metric Description         Min         Max         Avg
Device "Tesla K80 (0)"
    Kernel: init(point*, int)
          1                          gld_transactions                  Global Load Transactions           2           2           2
          1                          gst_transactions                 Global Store Transactions           2           2           2
          1                            gld_efficiency             Global Memory Load Efficiency      25.00%      25.00%      25.00%
          1                            gst_efficiency            Global Memory Store Efficiency     100.00%     100.00%     100.00%
    Kernel: kernel(point*, int)
          1                          gld_transactions                  Global Load Transactions           4           4           4
          1                          gst_transactions                 Global Store Transactions           2           2           2
          1                            gld_efficiency             Global Memory Load Efficiency      85.00%      85.00%      85.00%
          1                            gst_efficiency            Global Memory Store Efficiency     100.00%     100.00%     100.00%

这个结果比较有意思，一步一步来分析：（32个数据，整体只有一个warp，便于分析）

init核函数：出现了2个加载事务，这是因为A->x也是需要从GMEM中进行加载的，一个int*类型有8个字节，需要一个内存加载事务。整体需要两个内存加载事务。这里需要注意的是，nvcc会根据加载量自动优化缓存路径，这里它采用了非L1缓存的方式来加载，导致加载粒度为32，因此利用率为25%。
kernel核函数：同样，对于数组地址的加载共计需要消耗2个32粒度的事务，其余元素的加载共需要消耗2个128粒度的事务，因此总的利用率为 $\frac{8\times2+32\times4\times2}{32\times2+128\times2} = 85\%$ .

最大内存带宽

基本概念

峰值带宽

K80一块板上集成了2个GPU，内存总线宽度是384bit，内存时钟频率为2505Mhz，双通道，8bit为一个字节，则内存带宽峰值为：
$\frac{2\times 384bit\times2.505GHz\times2}{8bits/byte} = 480.96GB/s$

有效带宽

$\text{effective bandwidth (GB/s)} = \frac{\left(\text{byte read + byte written}\right)}{\text{time}\times1024\times1024\times1024}$

矩阵转置

有效带宽上下限

上限：当读取和写入都是行主导的时候，内存可以被合并对其加载，此时的内存性能是最好的，因此这种情况作为有效带宽的上限
下限：当读取和写入都是列主导的时候，这是最坏的情况，因此作为下限。

L1缓存是否加载

L1缓存是否加载会导致加载粒度不同。

#include
#include
#include"../../CodeSamples/common/common.h"

__global__ void copyRow(int *arrA, int *arrB, int row, int col)
{
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    if (x < col && y < row)
    {
        arrB[y * col + x] = arrA[y * col + x];
    }
}

__global__ void copyCol(int *arrA, int *arrB, int row, int col)
{
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    if (x < col && y < row)
    {
        arrB[x * col + y] = arrA[x * col + y];
    }
}

__global__ void NaiveRow(int *arrA, int *arrB, int row, int col)
{
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    if (x < col && y < row)
    {
        arrB[x * col + y] = arrA[y * col + x];
    }
}

__global__ void NaiveCol(int *arrA, int *arrB, int row, int col)
{
    int x = blockIdx.x * blockDim.x + threadIdx.x;
    int y = blockIdx.y * blockDim.y + threadIdx.y;
    if (x < col && y < row)
    {
        arrB[y * col + x] = arrA[x * col + y];
    }
}

int main(int argc, char **argv)
{
    cudaSetDevice(5);
    int row = 1<<14;
    int col = 1<<14;
    int nElem = row * col;
    int *d_arrA, *d_arrB;
    cudaMalloc((void **)&d_arrA, nElem * sizeof(int));
    cudaMalloc((void **)&d_arrB, nElem * sizeof(int));

    dim3 block(atoi(argv[1]), atoi(argv[2]));
    dim3 grid((row + block.y - 1) / block.y, (col + block.x - 1) / block.x);
    printf("gridDim:(%d,%d,%d) blockDim:(%d,%d,%d)\n", grid.x, grid.y, grid.z, block.x, block.y, block.z);

    double iStart = seconds();
    copyRow<<>>(d_arrA, d_arrB, row, col);
    cudaDeviceSynchronize();
    double iElaps = seconds() - iStart;
    printf("copyRow time=%fs, brandwidth = %fGB/s\n", iElaps, 2.0*row*col*sizeof(int)/iElaps/1024/1024/1024);

    iStart = seconds();
    copyCol<<>>(d_arrA, d_arrB, row, col);
    cudaDeviceSynchronize();
    iElaps = seconds() - iStart;
    printf("copyCol time=%fs, brandwidth = %fGB/s\n", iElaps, 2.0*row*col*sizeof(int)/iElaps/1024/1024/1024);

    iStart = seconds();
    NaiveRow<<>>(d_arrA, d_arrB, row, col);
    cudaDeviceSynchronize();
    iElaps = seconds() - iStart;
    printf("NaiveRow time=%fs, brandwidth = %fGB/s\n", iElaps, 2.0*row*col*sizeof(int)/iElaps/1024/1024/1024);

    iStart = seconds();
    NaiveCol<<>>(d_arrA, d_arrB, row, col);
    cudaDeviceSynchronize();
    iElaps = seconds() - iStart;
    printf("NaiveCol time=%fs, brandwidth = %fGB/s\n", iElaps, 2.0*row*col*sizeof(int)/iElaps/1024/1024/1024);

    cudaFree(d_arrA);
    cudaFree(d_arrB);
    return 0;
}

L1缓存开启						
Kernel		BandWidth		Notes		加载吞吐量	存储吞吐量	加载效率	存储效率
copyRow		41.340298GB/s	Upper bound	23.154GB/s	23.154GB/s	100.00%		100.00%
copyCol		21.524815GB/s	Lower bound	308.22GB/s	77.056GB/s	3.12%		12.50%
NaiveRow	30.102732GB/s	合并读/间隔写	15.946GB/s	127.57GB/s	100.00%		12.50%
NaiveCol	22.602213GB/s	间隔写/合并读	379.29GB/s	11.853GB/s	3.12%		100.00%
						
L1缓存关闭						
Kernel		BandWidth		Notes		加载吞吐量	存储吞吐量	加载效率	存储效率
copyRow		41.362517GB/s	Upper bound	23.460GB/s	23.460GB/s	100.00%		100.00%
copyCol		13.826092GB/s	Lower bound	53.674GB/s	53.674GB/s	12.50%		12.50%
NaiveRow	29.522903GB/s	合并读/间隔写	15.419GB/s	123.35GB/s	100.00%		12.50%
NaiveCol	17.568648GB/s	间隔写/合并读	72.086GB/s	9.0108GB/s	12.50%		100.00%

吞吐量的计算

Visual Studio2022实现C++控制台输出HelloWrold
2022/10/621:332022年/10/3日晚，今天是我第一次开始学习C语言的第一天，我从朋友那边知道学习C语言要下载VisualStudio这个软件；对于第一次接触这个软件的我，对此表示什么都不懂；只好是再次向我那朋友请教。在对这个软件有一点皮毛的了解后，我开始了我的第一个代码使用VisualStudio2022实现C++控制台输出HelloWrold。1·首先在在桌面找到VisualSt
max open files mysql_MySQL性能优化之open_files_limit，table_open_cache和max_connections配置关系... Moriarty K max open files mysql
MySQL的变量open_files_limit，table_open_cache和max_connections是相互关联的。如果对有些变量进行了设置，有的变量没有设置，mysql会根据一定的计算公式进行计算得出其他的，当然有些时候会触发mysql的一些警告来。本文探讨的均基于Linux系统首先，mysql会基于max_connections和table_open_cache的值计算最低需要的文
深度学习Pytorch(一) Bgemini 深度学习 pytorch 深度学习 python
深度学习Pytorch(一)前言：必须使用英伟达显卡才能使用cuda（显卡加速）！移除环境：condaremove-npytorch--all一、安装Pytorch下载Anaconda打开AnacondaPrompt创建一个Pytorch环境：condacreate-npytorchpython=3.9激活Pytorch环境：condaactivatepytorch查看当前包：piplist安装P
华为OD机试 2025B卷 - 字符串加密 (C++ & Python & JAVA & JS & C语言) YOLO大师华为od 华为OD机试2025B卷华为OD2025B卷华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述给你一串未加密的字符串str，通过对字符串的每一个字母进行改变来实现加密，加密方式是在每一个字母str[i]偏移特定数组元素a[i]的量，数组a前三位已经赋值：a[0]=1,a[1]=2,a[2]=4。当i>=3时，数组元素a[i]=a[i-1]+a[i-2]+a[i-3]。例如：
【华为od刷题（C++）】HJ23 删除字符串中出现次数最少的字符 m0_64866459 哈希算法算法 c++华为od
我的代码：#include//用于输入输出操作#include//引入哈希表容器unordered_map，用来存储每个字符出现的次数usingnamespacestd;intmain(){stringstr;//声明一个字符串变量str，用于接收输入的字符串intmin=27;//声明一个整型变量min，初始值设为27unordered_mapmp;//声明一个unordered_map//它的
华为OD机考2025B卷 - 最多几个直角三角形（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java python 华为OD机考2025B卷 javascript 华为od C++C语言
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述有N条线段，长度分别为a[1]-a[n]。现要求你计算这N条线段最多可以组合成几个直角三角形。每条线段只能使用一次，每个三角形包含三条线段。输入描述第一行输入一个正整数T（1#
如何最大化YashanDB数据库的存储性能数据库
在数据库技术领域，存储性能不仅对数据的读写速度有直接影响，同时也关系到整个系统的效率和穷尽的业务能力。数据库管理员和系统架构师常面临着性能瓶颈、I/O瓶颈等问题，并需要通过优化存储结构、合理设计索引、选择合适的部署架构等手段来提升存储性能。本文将详细解析YashanDB数据库的存储性能优化，包括存储管理、数据结构选择、并行处理等多方面的技术原理和实践要点。存储架构优化部署架构选择YashanDB支
基于Linux下的vscode c/c++开发环境搭建详细教程墨小傲 linux vscode c语言
vscode是文本编辑而非集成开发环境，需要经过配置才能在其上编译执行代码。本教程将具体详解在linux上配置VisualStudioCode使用GCCC++编译器（g++）和GDB调试器的方法（GCC是GNU编译器集合，GDB则是GNU调试器）。配置vscode后，将通过在VSCode中编译和调试一个简单的C++程序告知您具体该如何操作。一、先决条件安装VisualStudioCode.安装C+
The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70. weixin_66009678 pytorch 人工智能 python
出现如下报错：NVIDIAGeForceRTX3090withCUDAcapabilitysm_86isnotcompatiblewiththecurrentPyTorchinstallation.ThecurrentPyTorchinstallsupportsCUDAcapabilitiessm_37sm_50sm_60sm_70.IfyouwanttousetheNVIDIAGeForceRT
鸿蒙（HarmonyOS）性能优化实战-启动分析工具Launch Profiler 学习指南愿天堂没有996 HarmonyOS 鸿蒙开发移动开发 harmonyos 性能优化 HarmonyOS OpenHarmony 移动开发
LaunchProfiler概述DevEcoStudio内置Profiler分析调优工具。其中Launch主要用于分析应用或服务的启动耗时，分析启动周期各阶段的耗时情况、核心线程的运行情况等，协助开发者识别启动缓慢的原因。此外，Launch任务窗口还集成了Time、CPU、Frame场景分析任务的功能，方便开发者在分析启动耗时的过程中同步对比同一时段的其他资源占用情况。场景示例如下代码在页面绘制之
《王者荣耀》游戏优化的AI革命：从性能提升到生态治理 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总人工智能笔记学习深度学习游戏
目录：AI技术进化历程：使用时间轴和表格介绍“绝悟”AI从基础操作到职业水平的成长过程，以及“开悟”平台的技术外溢效应。性能优化策略：通过终端适配方案表格，分析预计算烘焙、多线程优化等技术如何解决亿级用户的设备兼容问题。游戏环境治理：列举AI接管、违规检测等机制如何应对挂机、摆烂等破坏公平性的行为。产业技术外溢：说明游戏AI如何向智能制造、自动驾驶等领域输出协作决策模型。伦理争议：探讨“超规格能力
《街头霸王6》性能优化全攻略：七大解决方案终结卡顿闪退
《街头霸王6》性能优化全攻略：七大解决方案终结卡顿闪退作为格斗游戏领域的标杆之作，《街头霸王6》凭借精良的制作和爽快的打击感征服了全球玩家。然而，部分用户在畅享格斗盛宴时遭遇了程序闪退、画面卡顿等性能问题。本文将深入剖析这些问题的根源，并提供经过验证的系统级优化方案，助你重返流畅的格斗战场。一、DirectX版本适配：底层兼容性调优游戏引擎与图形接口的兼容性问题往往是性能异常的元凶。通过以下步骤可
Yuzu模拟器Vulkan模式配置指南与性能优化实战 mmoo_python 性能优化 windows
Yuzu模拟器Vulkan模式配置指南与性能优化实战前言：VulkanAPI为何成为模拟器性能突破口作为当前最热门的Switch模拟器，Yuzu团队近期向全体用户开放了VulkanAPI支持功能。这项技术革新不仅解决了长期困扰AMD显卡用户的兼容性问题，更通过底层渲染架构的革新，为复杂3D游戏带来显著性能提升。本文将深度解析Vulkan模式的配置流程，结合实际测试数据揭示性能优化秘诀，助力玩家畅玩
前端开发常见问题（从布局到性能优化）白仑色前端系列前端开发 HTML CSS JavaScript 性能优化响应式布局跨域
前端开发作为连接用户与产品的重要桥梁，涉及HTML、CSS和JavaScript的综合运用。但在实际开发过程中，开发者常常会遇到各种“坑”，比如页面布局异常、跨域请求失败、性能瓶颈、浏览器兼容性差等问题。本文将围绕前端开发中常见的十大问题展开讲解：页面布局相关问题（盒模型、浮动、Flex布局）CSS样式冲突与继承JavaScript异步处理（Promise、async/await）跨域问题及解决方
使用 C++/Faiss 加速海量 MFCC 特征的相似性搜索 whoarethenext c++faiss 开发语言
使用C++/Faiss加速海量MFCC特征的相似性搜索引言在现代音频处理应用中，例如大规模声纹识别(SpeakerRecognition)、音乐信息检索(MusicInformationRetrieval)或音频事件检测(AudioEventDetection)，我们通常需要从海量的音频库中快速找到与给定查询音频最相似的样本。这个过程的核心技术是对音频内容进行特征提取和高效的相似性搜索。MFCC(
单片机：实现国密SM2算法（附完整源码）源代码大师单片机实战教程单片机算法嵌入式硬件
单片机：实现国密SM2算法主要功能模块1.定义椭圆曲线参数2.大数运算（示例：大数比较）3.椭圆曲线点定义4.密钥生成5.加密与解密注意事项实现国密SM2算法在单片机上的完整源码涉及多个模块，包括椭圆曲线运算、SM3哈希函数、密钥生成、加密解密以及签名验证等。以下是一个基于C语言的简化版SM2实现示例，适用于资源有限的单片机环境。请注意，实际应用中可能需要根据具体单片机的性能和资源进行优化。主要功
对于报错..\meson.build:1:0: ERROR: Unknown compiler(s): [[‘icl‘], [‘cl‘], [‘cc‘], [‘gcc‘], [‘clang‘]等随风万里无云笔记笔记
解决方案1.安装完整的C/C++编译环境适用于Windows的官方编译器（MSVC）：下载并安装VisualStudio2022安装时勾选“使用C++的桌面开发”工作负载，并确保勾选以下组件：•MSVCv143-VS2022C++生成工具•Windows10/11SDK•C++核心功能完成安装后重启计算机2.验证编译器是否可用打开命令提示符（CMD）或PowerShell。运行以下命令检查cl.e
ASP.NET Core vs ASP.NET：架构革命与性能飞跃的终极指南——从0到1的8大秘诀！墨夶 C#学习资料 asp.net 架构后端
**ASP.NETCore的架构革命与性能优化实战**第一阶段：架构对比——从“城堡”到“积木”1.1传统ASP.NET的“城堡”式架构//旧版ASP.NETWebForms典型结构publicclassGlobal:HttpApplication{voidApplication_Start(){RouteTable.Routes.Add(newRoute("...",newPageRouteHa
Postgresql快速同步大量数据方案浅析行星008 数据库 postgresql 数据库
目录推荐方案：并行导出导入+网络加速方案优势：详细步骤1.数据选择与准备2.并行数据导出（111服务器）3.高效网络传输4.并行数据导入（112服务器）5.性能优化参数增量同步方案（可选）方法1：逻辑复制（适合持续同步）方法2：增量更新脚本（适合定时同步）性能优化技巧验证与监控预期性能指标故障处理针对PostgreSQL14.3环境中从111服务器同步部分数据（约1000GB）到112服务器的需求
量化开发（系列第3篇）： C++在高性能量化交易中的核心应用与技术栈深度解析 Natsume1710 c++开发语言性能优化 python
本文为《量化开发》系列第3篇参考GitHub项目：Awesome-QuantDev-Learn前言在量化交易领域，Python以其开发效率高、生态系统丰富等优势，成为策略研究、数据分析及中低频交易的首选语言。在本系列前两篇文章中，我们详细探讨了Python在量化入门与策略回测中的实践。然而，当进入对延迟要求极为严苛的高频交易（High-FrequencyTrading,HFT）领域时，Python
C/C++ 求模运算符%的应用
求模运算符用于整数运算。求模运算符给出其左侧整数除以右侧整数的余数。例：15%4=3(读作15求模4得3)因为15比4得三倍多3，即15除以4得余数时3.示例，我们有16通道数从0到15，经过计算我只需要指定为0通道还是1通道。02468101214为0通道，其余为1通道。示例源码：//Len_mo.cpp:此文件包含"main"函数。程序执行将在此处开始并结束。//#includeintmain
C语言基础知识点（十四）求模符号%
今天继续看基础，发现这个求模符号可以对正数取模也可以对复数取模。求模运算符的作用是给出左侧证书除以右侧证书的余数。求模预算符只能用于整数不能用于浮点数。学习代码#includeintmain(){inta,b,c,d;a=11;b=5;c=-11;d=-5;printf("11%%5:%d\n",a%b);printf("11%%-5:%d\n",a%d);printf("-11%%5:%d\n"
c语言——运算符俊昭喜喜里 c语言开发语言
一.运算符的简介1.运算符的定义：运算符就是在c语言中程序执行运算的逻辑符号。优先级运算符名称或含义使用形式结合方向说明1[]数组下标数组名[常量表达式]左到右--()圆括号(表达式）/函数名(形参表)--.成员选择（对象）对象.成员名--->成员选择（指针）对象指针->成员名--2-负号运算符-表达式右到左单目运算符~按位取反运算符~表达式++自增运算符++变量名/变量名++--自减运算符--变
C语言笔记 - 模运算符（%）的用法 UkjUnity c语言笔记算法 C语言
在C语言中，模运算符（%）是一种常见的运算符，用于计算两个整数相除后得到的余数。它的使用非常简单，但在实际的编程中有很多有用的应用场景。本文将详细介绍模运算符的用法，并提供一些相关的源代码示例。基本用法模运算符采用百分号（%）表示，它的作用是计算两个整数相除后的余数。例如，表达式"10%3"将返回1，因为10除以3的余数是1。下面是一个基本示例：#includeintmain(){intdivid
奇数和偶数的求法c++
今天给大家分享一个奇偶数的求法:#includeusingnamespacestd;intmain(){inta=0;cin>>a;if(a%2==0){cout>a;这是输入和声明if(a%2==0){cout<<"偶数";}else{cout<<"奇数";}这部分是判断的点个赞吧,求求了~
C++ 变量作用域写代码的小球 java 前端 javascript
一般来说有三个地方可以定义变量：在函数或一个代码块内部声明的变量，称为局部变量。在函数参数的定义中声明的变量，称为形式参数。全局变量在所有函数外部定义的变量（通常是在程序的头部），称为全局变量。全局变量的值在程序的整个生命周期内都是有效的。全局变量可以被任何函数访问。也就是说，全局变量一旦声明，在整个程序中都是可用的。在所有函数外部声明的变量，称为全局变量。作用域是程序的一个区域，变量的作用域可以
学习虚幻C++开发日志——初识虚幻框架未来牛马之星学习虚幻C++开发日志学习虚幻 c++
1.虚幻引擎架构1.1虚幻引擎模块（Modules）官方文档：虚幻引擎模块|虚幻引擎5.4文档|EpicDeveloperCommunity(epicgames.com)模块（Modules）是虚幻引擎（UE）的软件架构的基本构建块。Module分为引擎模块,项目模块,插件模块.注意：1.要控制模块的加载方式和时间，请在.uproject或.uplugin文件中为你的模块添加配置信息。这包括模块的
求模运算符c 写代码的小球算法
在C语言中，取模运算（也称为取余运算）使用取模运算符%来实现。数学上称为mod。取模运算的基本形式是x%y，表示x除以y的余数。取模运算的基本原理取模运算的基本公式是：x%y=x-y*(x/y)其中，x/y表示整数除法的结果1。例如：#includeintmain(){inta=-3;intb=2;intresult=a%b;printf("%d%%%d=%d\n",a,b,result);//输
面向对象与面向过程程序设计语言：核心概念、对比分析与应用指南咸鱼_要_翻身 C++C Python 开发语言
目录一、面向过程程序设计语言(ProceduralProgramming)1、基本概念2、主要特点3、代表语言4、典型示例(C语言)5、优势6、局限性二、面向对象程序设计语言(Object-OrientedProgramming)1、基本概念2、四大核心特性3、代表语言4、典型示例(Java)5、优势6、局限性三、主要区别对比四、实际应用选择建议五、现代语言趋势一、面向过程程序设计语言(Proce
李工ROBOT架构之扩展 TestController 以支持更多实验（如 TDDB、TC）并增强可扩展性
基于您的需求，我将为半导体可靠性测试机上位机系统提供以下内容的详细实现：扩展TestController以支持更多实验（如TDDB、TC）并增强可扩展性，以及硬件驱动层协议扩展（支持Modbus、UDP）。内容基于.NETCore8.0、WPF、MVVM模式、Prism框架，并使用中文描述，确保代码可落地且易于扩展。我将提供具体代码示例、设计思路和性能优化建议，并实现动态配置切换不同测试模式的功能
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D