楓潇潇

图像矩阵转置性能优化实例

文章目录

图像矩阵转置性能优化实例
- 1. 背景
- 2. main函数
- 3. CPU模式
- - 3.1 读连续，写跳跃
  - 3.2 读跳跃，写连续
  - 3.3 执行耗时
  - 3.4 结论
- 4. NEON模式
- - 4.1 NEON 8x8矩阵
  - 4.2 NEON 16x8矩阵
  - 4.3 NEON 16x8矩阵预取
- 4.4 测试情况
- 5. 总结
- 6. 参考资料

1. 背景

本文将以矩阵转置为例，用cpu模式下的写列连续、写行连续，neon模式下 8 * 8、8 * 16，cache预读等几种样例分析优化心得。

测试用例：
数组大小：640 * 480
运算次数：1024
测试平台：RV1126

由于矩阵转置的逻辑功能是将矩阵行列对调，同时矩阵在内存中通常是按照行内存连续的方式存储的。因此，原始矩阵和目标矩阵之间转换的过程中，一定存在一个矩阵的内存访问时不连续的。为了让程序执行时间足够长，使执行时间足够稳定，同时便于抓包分析，重复执行代码1024次。

2. main函数

#include  //要包含这个头文件
#include 
#include 
#include 
#include 
#include 
#include 

#include 
#include 
#include 

typedef unsigned long long am_ms_t;
typedef unsigned long long am_us_t;

#define IMAGE_WIDTH (320)
#define IMAGE_HEIGH (240)

#define IMAGE_TEST  (10240)

am_ms_t sys_get_ms(void)
{
	struct timespec ts;
	am_ms_t ms = 0;
	
	clock_gettime(CLOCK_MONOTONIC_RAW, &ts);
	ms  = (am_ms_t)(ts.tv_sec * 1000);
	ms += ((am_ms_t)(ts.tv_nsec / 1000000));

	return ms;
}

am_us_t sys_get_us(void)
{
	am_us_t us = 0;
	struct timespec ts;

	clock_gettime(CLOCK_MONOTONIC_RAW, &ts);

	us = (am_us_t)(ts.tv_sec * 1000000);
	us += (am_us_t)(ts.tv_nsec / 1000);

	return us;
}

int main()
{
    uint32_t size = IMAGE_WIDTH * IMAGE_HEIGH;
    uint32_t i = 0;
    
    uint8_t *psrc  = NULL;
    uint8_t *pdst0 = NULL;

    posix_memalign((void **)&psrc, 64, size);
    posix_memalign((void **)&pdst0, 64, size);

    am_ms_t old_ms = 0;
    
    memset(pdst0, 0, size);

    srand(time(NULL));
    for(i=0; i<size; i++)
    {
        *(psrc + i) = (rand()&0xff);
    }

    old_ms = sys_get_ms();
    for (i=0; i<IMAGE_TEST; i++) 
    {
        transposition_cpu_colseq(psrc, pdst0, IMAGE_WIDTH, IMAGE_HEIGH);
    }
    printf("trans col const:%llu ms\n", sys_get_ms()-old_ms);

    old_ms = sys_get_ms();
    for (i=0; i<IMAGE_TEST; i++) 
    {
        transposition_cpu_rowseq(psrc, pdst0, IMAGE_WIDTH, IMAGE_HEIGH);
    }
    printf("trans row const:%llu ms\n", sys_get_ms()-old_ms);

    old_ms = sys_get_ms();
    for (i=0; i<IMAGE_TEST; i++) 
    {
        transposition_neon_8x8(psrc, pdst0, IMAGE_WIDTH, IMAGE_HEIGH);
    }
    printf("trans neon 8x8 const:%llu ms\n", sys_get_ms()-old_ms);

    old_ms = sys_get_ms();
    for (i=0; i<IMAGE_TEST; i++) 
    {
        transposition_neon_16x8(psrc, pdst0, IMAGE_WIDTH, IMAGE_HEIGH);
    }
    printf("trans neon 16x8 const:%llu ms\n", sys_get_ms()-old_ms);
    
    old_ms = sys_get_ms();
    for (i=0; i<IMAGE_TEST; i++) 
    {
        transposition_neon_16x8_prefetch(psrc, pdst0, IMAGE_WIDTH, IMAGE_HEIGH);
    }
    printf("trans neon 16x8 prefetch const:%llu ms\n", sys_get_ms()-old_ms);

    free(psrc);
    free(pdst0);

    return 0;
}

编译选项

ASFLAGS        := -g -ggdb -Os -mfpu=neon-vfpv4 -mfloat-abi=hard
CFLAGS         := -g -ggdb -Os -mfpu=neon-vfpv4 -mfloat-abi=hard
CXXFLAGS       := -g -ggdb -Os -mfpu=neon-vfpv4 -mfloat-abi=hard
LDFLAGS        :=

ASFLAGS        += -ftree-vectorize -fopenmp -ffast-math -finline-functions -funroll-all-loops
CFLAGS         += -ftree-vectorize -fopenmp -ffast-math -finline-functions -funroll-all-loops
CXXFLAGS       += -ftree-vectorize -fopenmp -ffast-math -finline-functions -funroll-all-loops
LDFLAGS        += -fopenmp

3. CPU模式

3.1 读连续，写跳跃

int transposition_cpu_colseq(uint8_t *src, uint8_t *dst, const int w, const int h)
{
    //读连续，写跳跃
    int x, y;

    for (y = 0; y < h; y++)
    {
        for (x = 0; x < w; x++)
        {
            dst[x * h + y] = src[y * w + x];
        }
    }

    return 0;
}

3.2 读跳跃，写连续

int transposition_cpu_rowseq(uint8_t *src, uint8_t *dst, const int w, const int h)
{
    //读跳跃，写连续
    int x, y;
    
    for(x=0; x<w; x++)
    {
        for(y=0; y<h; y++)
        {
            dst[x * h + y] = src[y * w + x];
        }
    }


    return 0;
}

3.3 执行耗时

读连续，写跳跃（col）：3672 ms

读跳跃，写连续（row）：7370 ms

3.4 结论

缓存一致性算法在读写内存的实现细节不同，具体读写性能差异因IC架构所导致的。实际需两种对比后，择优选取。

参考《深入理解计算机系统》中缓存章节，缓存更新算法处理写内存操作比读内存更复杂。其中，读miss时，缓存会依次从低等级存储中寻找并加载包含当前数据的Cache line；在写miss时，首先会依次从低等级缓存中加载数据至当前缓存中，然后对当前缓存行更新数据，并依次向低等级缓存跟新Cache line。因此写内存不连续的情况会比读内存不连续时额外做了写回操作，造成性能下降。

与我实测数据结构有差异，暂未能分析出具体原因

4. NEON模式

4.1 NEON 8x8矩阵

int transposition_neon_8x8(uint8_t *src, uint8_t *dst, int w, int h)
{
    uint8x8x4_t mat1;
    uint8x8x4_t mat2;
    
    uint8x8x2_t temp1;
    uint8x8x2_t temp2;
    uint8x8x2_t temp3;
    uint8x8x2_t temp4;
    
    uint16x4x4_t temp11;
    uint16x4x4_t temp12;
    uint16x4x2_t temp5;
    uint16x4x2_t temp6;
    uint16x4x2_t temp7;
    uint16x4x2_t temp8;
    
    uint32x2x4_t temp21;
    uint32x2x4_t temp22;
    
    uint32x2x2_t res1;
    uint32x2x2_t res2;
    uint32x2x2_t res3;
    uint32x2x2_t res4;


    int dw = w & 7;
    int dh = h & 7;
    int sw = w - dw;
    int sh = h - dh;
    int x, y;
    
    for(y=0; y<sh; y+=8)
    {
        for(x=0; x<sw; x+=8)
        {
            mat1.val[0] = vld1_u8(src + (y + 0) * w + x);
            mat1.val[1] = vld1_u8(src + (y + 1) * w + x);
            mat1.val[2] = vld1_u8(src + (y + 2) * w + x);
            mat1.val[3] = vld1_u8(src + (y + 3) * w + x);
            
            mat2.val[0] = vld1_u8(src + (y + 4) * w + x);
            mat2.val[1] = vld1_u8(src + (y + 5) * w + x);
            mat2.val[2] = vld1_u8(src + (y + 6) * w + x);
            mat2.val[3] = vld1_u8(src + (y + 7) * w + x);
            
            temp1 = vtrn_u8(mat1.val[0], mat1.val[1]);
            temp2 = vtrn_u8(mat1.val[2], mat1.val[3]);
            
            temp3 = vtrn_u8(mat2.val[0], mat2.val[1]);
            temp4 = vtrn_u8(mat2.val[2], mat2.val[3]);


            temp11.val[0] = vreinterpret_u16_u8(temp1.val[0]);
            temp11.val[1] = vreinterpret_u16_u8(temp1.val[1]);
            temp11.val[2] = vreinterpret_u16_u8(temp2.val[0]);
            temp11.val[3] = vreinterpret_u16_u8(temp2.val[1]);
            
            temp12.val[0] = vreinterpret_u16_u8(temp3.val[0]);
            temp12.val[1] = vreinterpret_u16_u8(temp3.val[1]);
            temp12.val[2] = vreinterpret_u16_u8(temp4.val[0]);
            temp12.val[3] = vreinterpret_u16_u8(temp4.val[1]);


            temp5 = vtrn_u16(temp11.val[0], temp11.val[2]);
            temp6 = vtrn_u16(temp11.val[1], temp11.val[3]);
            temp7 = vtrn_u16(temp12.val[0], temp12.val[2]);
            temp8 = vtrn_u16(temp12.val[1], temp12.val[3]);


            temp21.val[0] = vreinterpret_u32_u16(temp5.val[0]);
            temp21.val[1] = vreinterpret_u32_u16(temp5.val[1]);
            temp21.val[2] = vreinterpret_u32_u16(temp6.val[0]);
            temp21.val[3] = vreinterpret_u32_u16(temp6.val[1]);
            temp22.val[0] = vreinterpret_u32_u16(temp7.val[0]);
            temp22.val[1] = vreinterpret_u32_u16(temp7.val[1]);
            temp22.val[2] = vreinterpret_u32_u16(temp8.val[0]);
            temp22.val[3] = vreinterpret_u32_u16(temp8.val[1]);


            res1 = vtrn_u32(temp21.val[0],temp22.val[0]);
            res2 = vtrn_u32(temp21.val[1],temp22.val[1]);
            res3 = vtrn_u32(temp21.val[2],temp22.val[2]);
            res4 = vtrn_u32(temp21.val[3],temp22.val[3]);


            mat1.val[0] = vreinterpret_u8_u32(res1.val[0]);
            mat1.val[1] = vreinterpret_u8_u32(res2.val[0]);
            mat1.val[2] = vreinterpret_u8_u32(res3.val[0]);
            mat1.val[3] = vreinterpret_u8_u32(res4.val[0]);
            
            mat2.val[0] = vreinterpret_u8_u32(res1.val[1]);
            mat2.val[1] = vreinterpret_u8_u32(res2.val[1]);
            mat2.val[2] = vreinterpret_u8_u32(res3.val[1]);
            mat2.val[3] = vreinterpret_u8_u32(res4.val[1]);


            vst1_u8(dst + (x + 0) * h + y, mat1.val[0]);
            vst1_u8(dst + (x + 1) * h + y, mat1.val[2]);
            vst1_u8(dst + (x + 2) * h + y, mat1.val[1]);
            vst1_u8(dst + (x + 3) * h + y, mat1.val[3]);
            vst1_u8(dst + (x + 4) * h + y, mat2.val[0]);
            vst1_u8(dst + (x + 5) * h + y, mat2.val[2]);
            vst1_u8(dst + (x + 6) * h + y, mat2.val[1]);
            vst1_u8(dst + (x + 7) * h + y, mat2.val[3]);
        }
    }
    
    for(y=sh-1; y<h; y++)
    {
        for(x=0; x<w; x++)
        {
            dst[x * h + y] = src[ y * w + x];
        }
    }
    
    for(x=sw-1; x<w; x++)
    {    
        for(y=0; y<sh; y++)
        {
            dst[x * h + y] = src[ y * w + x];
        }
    }
    
    return 0;
}

4.2 NEON 16x8矩阵

int transposition_neon_16x8(uint8_t *src, uint8_t *dst, int w, int h)
{
    uint8_t *tmp_src = src;
    uint8_t *tmp_dst = dst;


    uint8x16x4_t mat[2];
    
    uint8x16x2_t temp8x16x2[4];
        
    uint16x8x4_t temp16x8x4[2];
    
    uint16x8x2_t temp16x8x2[4];


    uint32x4x4_t temp32x4x4[2];
    
    uint32x4x2_t res[4];


    int dw = w & 15;
    int dh = h & 7;
    int sw = w - dw;
    int sh = h - dh;
    int x, y;
    int i, j;


    //#pragma omp parallel for num_threads(2) schedule(dynamic)
    for (y = 0; y < sh; y += 8)
    {
        for (x = 0; x < sw; x += 16)
        {
            mat[0].val[0] = vld1q_u8(tmp_src + (y + 0) * w + x);
            mat[0].val[1] = vld1q_u8(tmp_src + (y + 1) * w + x);
            mat[0].val[2] = vld1q_u8(tmp_src + (y + 2) * w + x);
            mat[0].val[3] = vld1q_u8(tmp_src + (y + 3) * w + x);
            
            mat[1].val[0] = vld1q_u8(tmp_src + (y + 4) * w + x);
            mat[1].val[1] = vld1q_u8(tmp_src + (y + 5) * w + x);
            mat[1].val[2] = vld1q_u8(tmp_src + (y + 6) * w + x);
            mat[1].val[3] = vld1q_u8(tmp_src + (y + 7) * w + x);
            
            temp8x16x2[0] = vtrnq_u8(mat[0].val[0], mat[0].val[1]);
            temp8x16x2[1] = vtrnq_u8(mat[0].val[2], mat[0].val[3]);
            
            temp8x16x2[2] = vtrnq_u8(mat[1].val[0], mat[1].val[1]);
            temp8x16x2[3] = vtrnq_u8(mat[1].val[2], mat[1].val[3]);


            temp16x8x4[0].val[0] = vreinterpretq_u16_u8(temp8x16x2[0].val[0]);
            temp16x8x4[0].val[1] = vreinterpretq_u16_u8(temp8x16x2[0].val[1]);
            temp16x8x4[0].val[2] = vreinterpretq_u16_u8(temp8x16x2[1].val[0]);
            temp16x8x4[0].val[3] = vreinterpretq_u16_u8(temp8x16x2[1].val[1]);
            
            temp16x8x4[1].val[0] = vreinterpretq_u16_u8(temp8x16x2[2].val[0]);
            temp16x8x4[1].val[1] = vreinterpretq_u16_u8(temp8x16x2[2].val[1]);
            temp16x8x4[1].val[2] = vreinterpretq_u16_u8(temp8x16x2[3].val[0]);
            temp16x8x4[1].val[3] = vreinterpretq_u16_u8(temp8x16x2[3].val[1]);


            temp16x8x2[0] = vtrnq_u16(temp16x8x4[0].val[0], temp16x8x4[0].val[2]);
            temp16x8x2[1] = vtrnq_u16(temp16x8x4[0].val[1], temp16x8x4[0].val[3]);
            temp16x8x2[2] = vtrnq_u16(temp16x8x4[1].val[0], temp16x8x4[1].val[2]);
            temp16x8x2[3] = vtrnq_u16(temp16x8x4[1].val[1], temp16x8x4[1].val[3]);


            temp32x4x4[0].val[0] = vreinterpretq_u32_u16(temp16x8x2[0].val[0]);
            temp32x4x4[0].val[1] = vreinterpretq_u32_u16(temp16x8x2[0].val[1]);
            temp32x4x4[0].val[2] = vreinterpretq_u32_u16(temp16x8x2[1].val[0]);
            temp32x4x4[0].val[3] = vreinterpretq_u32_u16(temp16x8x2[1].val[1]);
            temp32x4x4[1].val[0] = vreinterpretq_u32_u16(temp16x8x2[2].val[0]);
            temp32x4x4[1].val[1] = vreinterpretq_u32_u16(temp16x8x2[2].val[1]);
            temp32x4x4[1].val[2] = vreinterpretq_u32_u16(temp16x8x2[3].val[0]);
            temp32x4x4[1].val[3] = vreinterpretq_u32_u16(temp16x8x2[3].val[1]);


            res[0] = vtrnq_u32(temp32x4x4[0].val[0], temp32x4x4[1].val[0]);
            res[1] = vtrnq_u32(temp32x4x4[0].val[1], temp32x4x4[1].val[1]);
            res[2] = vtrnq_u32(temp32x4x4[0].val[2], temp32x4x4[1].val[2]);
            res[3] = vtrnq_u32(temp32x4x4[0].val[3], temp32x4x4[1].val[3]);


            vst1_u32((uint32_t*)(tmp_dst + (x +  0) * h + y), vget_low_u32(res[0].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  1) * h + y), vget_low_u32(res[2].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  2) * h + y), vget_low_u32(res[1].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  3) * h + y), vget_low_u32(res[3].val[0]));
            
            vst1_u32((uint32_t*)(tmp_dst + (x +  4) * h + y), vget_low_u32(res[0].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  5) * h + y), vget_low_u32(res[2].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  6) * h + y), vget_low_u32(res[1].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  7) * h + y), vget_low_u32(res[3].val[1]));
            
            vst1_u32((uint32_t*)(tmp_dst + (x +  8) * h + y), vget_high_u32(res[0].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  9) * h + y), vget_high_u32(res[2].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 10) * h + y), vget_high_u32(res[1].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 11) * h + y), vget_high_u32(res[3].val[0]));
            
            vst1_u32((uint32_t*)(tmp_dst + (x + 12) * h + y), vget_high_u32(res[0].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 13) * h + y), vget_high_u32(res[2].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 14) * h + y), vget_high_u32(res[1].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 15) * h + y), vget_high_u32(res[3].val[1]));
        }
    }


    for (y = sh; y < h; y++)
    {
        for (x = 0; x < w; x++)
            dst[x * h + y] = src[y * w + x];
    }


    for (x = sw; x < w; x++)
    {
        for (y = 0; y < sh; y++)
        {
            dst[x * h + y] = src[y * w + x];
        }
    }
    
    return 0;
}

4.3 NEON 16x8矩阵预取

int transposition_neon_16x8_prefetch(uint8_t *src, uint8_t *dst, int w, int h)
{
    uint8_t *tmp_src = src;
    uint8_t *tmp_dst = dst;


    uint8x16x4_t mat[2];
    
    uint8x16x2_t temp8x16x2[4];
        
    uint16x8x4_t temp16x8x4[2];
    
    uint16x8x2_t temp16x8x2[4];


    uint32x4x4_t temp32x4x4[2];
    
    uint32x4x2_t res[4];


    int dw = w & 15;
    int dh = h & 7;
    int sw = w - dw;
    int sh = h - dh;
    int x, y;
    int i, j;


    //#pragma omp parallel for num_threads(2) schedule(dynamic)
    for (y = 0; y < sh; y += 8)
    {
        for (x = 0; x < sw; x += 16)
        {
            mat[0].val[0] = vld1q_u8(tmp_src + (y + 0) * w + x);
            mat[0].val[1] = vld1q_u8(tmp_src + (y + 1) * w + x);
            mat[0].val[2] = vld1q_u8(tmp_src + (y + 2) * w + x);
            mat[0].val[3] = vld1q_u8(tmp_src + (y + 3) * w + x);
            
            mat[1].val[0] = vld1q_u8(tmp_src + (y + 4) * w + x);
            mat[1].val[1] = vld1q_u8(tmp_src + (y + 5) * w + x);
            mat[1].val[2] = vld1q_u8(tmp_src + (y + 6) * w + x);
            mat[1].val[3] = vld1q_u8(tmp_src + (y + 7) * w + x);
            
            temp8x16x2[0] = vtrnq_u8(mat[0].val[0], mat[0].val[1]);
            temp8x16x2[1] = vtrnq_u8(mat[0].val[2], mat[0].val[3]);
            
            temp8x16x2[2] = vtrnq_u8(mat[1].val[0], mat[1].val[1]);
            temp8x16x2[3] = vtrnq_u8(mat[1].val[2], mat[1].val[3]);


            temp16x8x4[0].val[0] = vreinterpretq_u16_u8(temp8x16x2[0].val[0]);
            temp16x8x4[0].val[1] = vreinterpretq_u16_u8(temp8x16x2[0].val[1]);
            temp16x8x4[0].val[2] = vreinterpretq_u16_u8(temp8x16x2[1].val[0]);
            temp16x8x4[0].val[3] = vreinterpretq_u16_u8(temp8x16x2[1].val[1]);
            
            temp16x8x4[1].val[0] = vreinterpretq_u16_u8(temp8x16x2[2].val[0]);
            temp16x8x4[1].val[1] = vreinterpretq_u16_u8(temp8x16x2[2].val[1]);
            temp16x8x4[1].val[2] = vreinterpretq_u16_u8(temp8x16x2[3].val[0]);
            temp16x8x4[1].val[3] = vreinterpretq_u16_u8(temp8x16x2[3].val[1]);


            temp16x8x2[0] = vtrnq_u16(temp16x8x4[0].val[0], temp16x8x4[0].val[2]);
            temp16x8x2[1] = vtrnq_u16(temp16x8x4[0].val[1], temp16x8x4[0].val[3]);
            temp16x8x2[2] = vtrnq_u16(temp16x8x4[1].val[0], temp16x8x4[1].val[2]);
            temp16x8x2[3] = vtrnq_u16(temp16x8x4[1].val[1], temp16x8x4[1].val[3]);


            temp32x4x4[0].val[0] = vreinterpretq_u32_u16(temp16x8x2[0].val[0]);
            temp32x4x4[0].val[1] = vreinterpretq_u32_u16(temp16x8x2[0].val[1]);
            temp32x4x4[0].val[2] = vreinterpretq_u32_u16(temp16x8x2[1].val[0]);
            temp32x4x4[0].val[3] = vreinterpretq_u32_u16(temp16x8x2[1].val[1]);
            temp32x4x4[1].val[0] = vreinterpretq_u32_u16(temp16x8x2[2].val[0]);
            temp32x4x4[1].val[1] = vreinterpretq_u32_u16(temp16x8x2[2].val[1]);
            temp32x4x4[1].val[2] = vreinterpretq_u32_u16(temp16x8x2[3].val[0]);
            temp32x4x4[1].val[3] = vreinterpretq_u32_u16(temp16x8x2[3].val[1]);


            res[0] = vtrnq_u32(temp32x4x4[0].val[0], temp32x4x4[1].val[0]);
            res[1] = vtrnq_u32(temp32x4x4[0].val[1], temp32x4x4[1].val[1]);
            res[2] = vtrnq_u32(temp32x4x4[0].val[2], temp32x4x4[1].val[2]);
            res[3] = vtrnq_u32(temp32x4x4[0].val[3], temp32x4x4[1].val[3]);


            vst1_u32((uint32_t*)(tmp_dst + (x +  0) * h + y), vget_low_u32(res[0].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  1) * h + y), vget_low_u32(res[2].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  2) * h + y), vget_low_u32(res[1].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  3) * h + y), vget_low_u32(res[3].val[0]));
            
            vst1_u32((uint32_t*)(tmp_dst + (x +  4) * h + y), vget_low_u32(res[0].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  5) * h + y), vget_low_u32(res[2].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  6) * h + y), vget_low_u32(res[1].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  7) * h + y), vget_low_u32(res[3].val[1]));
            
            vst1_u32((uint32_t*)(tmp_dst + (x +  8) * h + y), vget_high_u32(res[0].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x +  9) * h + y), vget_high_u32(res[2].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 10) * h + y), vget_high_u32(res[1].val[0]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 11) * h + y), vget_high_u32(res[3].val[0]));
            
            vst1_u32((uint32_t*)(tmp_dst + (x + 12) * h + y), vget_high_u32(res[0].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 13) * h + y), vget_high_u32(res[2].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 14) * h + y), vget_high_u32(res[1].val[1]));
            vst1_u32((uint32_t*)(tmp_dst + (x + 15) * h + y), vget_high_u32(res[3].val[1]));


            __builtin_prefetch(tmp_src + (y + 0) * w + (x + 16), 0, 0);
            __builtin_prefetch(tmp_src + (y + 1) * w + (x + 16), 0, 0);
            __builtin_prefetch(tmp_src + (y + 2) * w + (x + 16), 0, 0);
            __builtin_prefetch(tmp_src + (y + 3) * w + (x + 16), 0, 0);
            __builtin_prefetch(tmp_src + (y + 4) * w + (x + 16), 0, 0);
            __builtin_prefetch(tmp_src + (y + 5) * w + (x + 16), 0, 0);
            __builtin_prefetch(tmp_src + (y + 6) * w + (x + 16), 0, 0);
            __builtin_prefetch(tmp_src + (y + 7) * w + (x + 16), 0, 0);
        }
    }


    for (y = sh; y < h; y++)
    {
        for (x = 0; x < w; x++)
            dst[x * h + y] = src[y * w + x];
    }


    for (x = sw; x < w; x++)
    {
        for (y = 0; y < sh; y++)
        {
            dst[x * h + y] = src[y * w + x];
        }
    }
    
    return 0;
}

4.4 测试情况

由上图可知，neon 16x8 比 8x8提升39ms，加入预取之后反而增加了32ms，初步怀疑是图像较小，cache足够缓存数据，预取反而增加了额外的负担。

在此补充一个1024x1024的测试实验。测试结果如下：
由上可知，在cache不足的情况下，加入预取，有助于性能的提升。

5. 总结

1）由于NEON硬件设计，需要先将源数据加载到D/Q寄存器，运算完之后还需将数据拷贝到目标内存，这将额外增加内存拷贝的流程；
2）cpu对读写动作的开销不一致，因架构而已；
3）neon的并行运算有助于提高性能；

6. 参考资料

C++性能调优
neon加速图像转置

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
linux sdl windows.h,Windows下的SDL安装奔跑吧linux内核 linux sdl windows.h
首先你要下载并安装SDL开发包。如果装在C盘下，路径为C:\SDL1.2.5如果在WINDOWS下。你可以按以下步骤：1.打开VC++，点击"Tools",Options2,点击directories选项3.选择"Includefiles"增加一个新的路径。"C:\SDL1.2.5\include"4，现在选择"Libaryfiles“增加"C:\SDL1.2.5\lib"现在你可以开始编写你的第
linux中sdl的使用教程,sdl使用入门 Melissa Corvinus linux中sdl的使用教程
本文通过一个简单示例讲解SDL的基本使用流程。示例中展示一个窗口，窗口里面有个随机颜色快随机移动。当我们鼠标点击关闭按钮时间窗口关闭。基本步骤如下：1.初始化SDL并创建一个窗口。SDL_Init()初始化SDL_CreateWindow()创建窗口2.纹理渲染存储RGB和存储纹理的区别：比如一个从左到右由红色渐变到蓝色的矩形，用存储RGB的话就需要把矩形中每个点的具体颜色值存储下来；而纹理只是一
PHP环境搭建详细教程好看资源平台前端 php
PHP是一个流行的服务器端脚本语言，广泛用于Web开发。为了使PHP能够在本地或服务器上运行，我们需要搭建一个合适的PHP环境。本教程将结合最新资料，介绍在不同操作系统上搭建PHP开发环境的多种方法，包括Windows、macOS和Linux系统的安装步骤，以及本地和Docker环境的配置。1.PHP环境搭建概述PHP环境的搭建主要分为以下几类：集成开发环境：例如XAMPP、WAMP、MAMP，这
使用 FinalShell 进行远程连接（ssh 远程连接 Linux 服务器）编程经验分享开发工具服务器 ssh linux
目录前言基本使用教程新建远程连接连接主机自定义命令路由追踪前言后端开发，必然需要和服务器打交道，部署应用，排查问题，查看运行日志等等。一般服务器都是集中部署在机房中，也有一些直接是云服务器，总而言之，程序员不可能直接和服务器直接操作，一般都是通过ssh连接来登录服务器。刚接触远程连接时，使用的是XSHELL来远程连接服务器，连接上就能够操作远程服务器了，但是仅用XSHELL并没有上传下载文件的功能
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
【华为OD技术面试真题精选 - 非技术题】 -HR面，综合面_华为od hr面一个射手座的程序媛程序员华为od 面试职场和发展
最后的话最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！资料预览给大家整理的视频资料：给大家整理的电子书资料：如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以点击这里获
简介Shell、zsh、bash zhaosuningsn Shell zsh bash shell linux bash
Shell是Linux和Unix的外壳，类似衣服，负责外界与Linux和Unix内核的交互联系。例如接收终端用户及各种应用程序的命令，把接收的命令翻译成内核能理解的语言，传递给内核，并把内核处理接收的命令的结果返回给外界，即Shell是外界和内核沟通的桥梁或大门。Linux和Unix提供了多种Shell，其中有种bash，当然还有其他好多种。Mac电脑中不但有bash，还有一个zsh，预装的，据说
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
linux 发展史种树的猴子内核 java 操作系统 linux 大数据
linux发展史说明此前对linux认识模糊一知半解，近期通过学习将自己对于linux的发展总结一下方便大家日后的学习。那Linux是目前一款非常火热的开源操作系统，可是linux是什么时候出现的，又是因为什么样的原因被开发出来的呢。以下将对linux的发展历程进行详细的讲解。目录一、Linux发展背景二、UINIX的诞生三、UNIX的重要分支-BSD的诞生四、Minix的诞生五、GNU与Free
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
Linux vi常用命令 fengyehongWorld Linux linux
参考资料viコマンド（vimコマンド）リファレンス目录一.保存系命令二.删除系命令三.移动系命令四.复制粘贴系命令一.保存系命令⏹保存并退出:wq⏹强制保存并退出:wq!⏹退出(文件未编辑):q⏹强制退出(忽略已编辑内容):q!⏹另存为:w新文件名二.删除系命令⏹删除当前行dd⏹清空整个文档gg：移动到文档顶部dG：删除到最后一行ggdG三.移动系命令⏹移动到文档顶部gg⏹移动到文档底部#方式1G
Linux查看服务器日志 TPBoreas 运维 linux 运维
一、tail这个是我最常用的一种查看方式用法如下：tail-n10test.log查询日志尾部最后10行的日志;tail-n+10test.log查询10行之后的所有日志;tail-fn10test.log循环实时查看最后1000行记录(最常用的)一般还会配合着grep用，(实时抓包)例如:tail-fn1000test.log|grep'关键字'（动态抓包）tail-fn1000test.log
Android应用性能优化轻口味 Android
Android手机由于其本身的后台机制和硬件特点，性能上一直被诟病，所以软件开发者对软件本身的性能优化就显得尤为重要；本文将对Android开发过程中性能优化的各个方面做一个回顾与总结。Cache优化ListView缓存：ListView中有一个回收器，Item滑出界面的时候View会回收到这里，需要显示新的Item的时候，就尽量重用回收器里面的View；每次在getView函数中inflate新
笋丁网页自动回复机器人V3.0.0免授权版源码希希分享软希网58soho_cn 源码资源笋丁网页自动回复机器人
笋丁网页机器人一款可设置自动回复，默认消息，调用自定义api接口的网页机器人。此程序后端语言使用Golang，内存占用最高不超过30MB，1H1G服务器流畅运行。仅支持Linux服务器部署，不支持虚拟主机，请悉知！使用自定义api功能需要有一定的建站基础。源码下载：https://download.csdn.net/download/m0_66047725/89754250更多资源下载：关注我。安
matlab delsat = setdiff(1:69,unique(Eph(30,:)))；语句含义黄卷青灯77 matlab 开发语言 setdiff
这行MATLAB代码用于计算在范围1:69中不包含在Eph矩阵第30行的唯一值集合中的所有元素。具体解释如下：delsat=setdiff(1:69,unique(Eph(30,:)));解释Eph(30,:)Eph(30,:)提取矩阵Eph的第30行的所有列元素。这是一个行向量，包含了第30行的所有值。unique(Eph(30,:))unique函数返回Eph(30,:)中的唯一元素。这意味着
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
【树一线性代数】005入门 Owlet_woodBird 算法
Index本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376分析实现总结本文稍后补全，推荐阅读：https://blog.csdn.net/weixin_60702024/article/details/141874376已知非空二叉树T的结点值均为正整数，采用顺序存储方式保存，数据结构定义如下:t
补充元象二面 Redstone Monstrosity 前端面试
1.请尽可能详细地说明，防抖和节流的区别，应用场景？你的回答中不要写出示例代码。防抖（Debounce）和节流（Throttle）是两种常用的前端性能优化技术，它们的主要区别在于如何处理高频事件的触发。以下是防抖和节流的区别和应用场景的详细说明：防抖和节流的定义防抖：在一段时间内，多次执行变为只执行最后一次。防抖的原理是，当事件被触发后，设置一个延迟定时器。如果在这个延迟时间内事件再次被触发，则重
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
Linux CTF逆向入门蚁景网络安全 linux 运维 CTF
1.ELF格式我们先来看看ELF文件头，如果想详细了解，可以查看ELF的manpage文档。关于ELF更详细的说明：e_shoff：节头表的文件偏移量（字节）。如果文件没有节头表，则此成员值为零。sh_offset：表示了该section（节）离开文件头部位置的距离+-------------------+|ELFheader|---++--------->+-------------------
NPM私库搭建-verdaccio（Linux） Beam007 npm linux 前端
1、安装nodelinux服务器安装nodea)、官网下载所需的node版本https://nodejs.org/dist/v14.21.0/b)、解压安装包若下载的是xxx.tar.xz文件，解压命令为tar-xvfxxx.tar.xzc)、修改环境变量修改：/etc/profile文件#SETPATHFORNODEJSexportNODE_HOME=NODEJS解压安装的路径exportPAT
C++常见知识掌握 nfgo c++开发语言
1.Linux软件开发、调试与维护内核与系统结构Linux内核是操作系统的核心，负责管理硬件资源，提供系统服务，它是系统软件与硬件之间的桥梁。主要组成部分包括：进程管理：内核通过调度器分配CPU时间给各个进程，实现进程的创建、调度、终止等操作。使用进程描述符（task_struct）来存储进程信息，包括状态（就绪、运行、阻塞等）、优先级、内存映射等。内存管理：包括物理内存和虚拟内存管理。通过页表映
高级UI<第二十四篇>：Android中用到的矩阵常识 NoBugException
（1）定义在数学中，矩阵（Matrix）是一个按照长方阵列排列的复数或实数集合。由m×n个数aij排成的m行n列的数表称为m行n列的矩阵，简称m×n矩阵。记作：图片.png这m×n个数称为矩阵A的元素，简称为元，数aij位于矩阵A的第i行第j列，称为矩阵A的(i,j)元，以数aij为(i,j)元的矩阵可记为(aij)或(aij)m×n，m×n矩阵A也记作Amn。元素是实数的矩阵称为实矩阵，元素是复
linux脚本sed替换变量,sed 命令中替换值为shell变量诺坎普之约 linux脚本sed替换变量
文章目录sed命令中替换值为shell变量替换基本语法sed中替换使用shell变量总结参考文档sed命令中替换值为shell变量替换基本语法大家都是sed有很多用法，最多就应该是替换一些值了。让我们先回忆sed的替换语法。在sed进行替换的时候sed-i's/old/new/g'1.txtecho"hellooldfrank"|sed's/old/new/g'结果如下：hellonewfrank
RK3229_Android9.0_Box 4G模块EC200A调试 suifen_ 网络
0、kernel修改这部分完全可以参考Linux的移植：RK3588EC200A-CN【4G模块】调试_rkec200a-cn-CSDN博客1、修改device/rockchip/rk322xdiff--gita/device.mkb/device.mkindexec6bfaa..e7c32d1100755---a/device.mk+++b/device.mk@@-105,6+105,8@@en
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

图像矩阵转置性能优化实例

图像矩阵转置性能优化实例

文章目录

1. 背景

2. main函数

3. CPU模式

3.1 读连续，写跳跃

3.2 读跳跃，写连续

3.3 执行耗时

3.4 结论

4. NEON模式

4.1 NEON 8x8矩阵

4.2 NEON 16x8矩阵

4.3 NEON 16x8矩阵 预取

4.4 测试情况

5. 总结

6. 参考资料

你可能感兴趣的:(Linux性能优化,矩阵,线性代数,neon,性能优化)

4.3 NEON 16x8矩阵预取