kerneler_

Cortex-A8处理器memcpy的优化方案

公司产品涉及到视频编解码和人脸识别，但是出现帧率太低的现象，同事做了一些测试，最后问题定位到应用程序中memcpy慢，特别是由uncached区域（视频采集buf，使用mmap对/dev/mem映射到用户空间）到cached区域（用户空间malloc），因此需要想办法进行下优化。
首先交代下设备处理器背景，处理器是公司自研，使用ARM Cortex-A8处理器核，CPU为800MHZ，SAXI总线为533MHZ。后续一系列测试都是在相同的clk下进行，保证测试数据的硬件环境一致，有可对比性。
同事对系统下各种场景的memcpy进行一系列测试。测试数据如下。

对这个表的测试方法进行下说明，kernel和user空间下分别使用do_gettimeofday和gettimeofday获取时间，公司SOC的地址空间中0x80000000开始是ddr空间，kernel的cmdline中mem=256MB，因此0x80000000-0x90000000为lowmem。
mmap映射/dev/mem可以完成整个4G空间的映射（关于mem驱动的原理，可以看我的另一篇学习powerpc /dev/mem的博文，http://blog.csdn.net/skyflying2012/article/details/47611399），但是具体访问权限以及属性还需要看mem驱动中mmap函数的实现。
公司设备的应用场景是从物理地址0x90000000的uncached区域到cached区域进行memcpy，测试速度仅有11MB/s，这对于1080P的人脸识别完全不够，优化是必须的。
仔细对比分析这组测试数据，我有以下几个疑问。
1 用户空间mmap mem的uncached区域（mem驱动中映射页表属性默认是uncached）向malloc出来的cached缓冲区拷贝，0x80000000区域为什么比0x90000000区域的拷贝快？
2 kernel下ioremap的uncached区域向kmalloc的cached区域拷贝，为什么比用户空间的快很多？
3 kmalloc的cached区域向ioremap的uncached区域拷贝，为什么比kernel下ioremap的uncached区域向kmalloc的cached区域拷贝要慢很多？
3个问题逐步递进，都分析明白解决了，特别是第2点，内核memcpy远快于用户空间，就能找到一些对用户空间memcpy的优化方法。

那我们就来逐步的分析下这3个问题。

1 用户空间mmap mem的uncached区域向malloc出来的cached缓冲区拷贝，0x80000000区域为什么比0x90000000区域的拷贝快？

这2者都是在用户空间进行测试，测试代码完全一致，统计方法也都一致，memcpy都是使用的libc库的实现。为什么memcpy速度不一样，想来想去也只有可能是这2个区域的页表属性不一样，有可能一个cached一个uncached，这个需要从mem驱动的实现下手。
公司kernel版本是3.4.55。mem实现在kernel的driver/char/mem.c中，找到mem的mmap实现，如下

static int mmap_mem(struct file *file, struct vm_area_struct *vma)
{
    size_t size = vma->vm_end - vma->vm_start;

    if (!valid_mmap_phys_addr_range(vma->vm_pgoff, size))
        return -EINVAL;

    if (!private_mapping_ok(vma))
        return -ENOSYS;

    if (!range_is_allowed(vma->vm_pgoff, size))
        return -EPERM;

    if (!phys_mem_access_prot_allowed(file, vma->vm_pgoff, size,
                        &vma->vm_page_prot))
        return -EINVAL;

    vma->vm_page_prot = phys_mem_access_prot(file, vma->vm_pgoff,
                         size,
                         vma->vm_page_prot);

    /* Remap-pfn-range will mark the range VM_IO and VM_RESERVED */
    if (remap_pfn_range(vma,
                vma->vm_start,
                vma->vm_pgoff,
                size,
                vma->vm_page_prot)) {
        return -EAGAIN;
    }
    return 0;
}

mmap_mem开始会进行映射区域的一些检查，然后设置映射属性，最后调用remap_pfn_range建立真正的页表。我们所关心的是映射属性，就是phys_mem_access_prot的实现。该函数在mem.c中有一个实现，对于ARM架构来说，phys_mem_access_prot默认设置属性位uncached。
但是由于公司设备在menuconfig时定义了CONFIG_ARM_DMA_MEM_BUFFERABLE（该选项使DMA一致性映射时属性为bufferable而不是uncached，但是发现一致性映射工作正常，很奇怪为什么选这个），phys_mem_access_prot的实现在arch/arm/mm/mmu.c中，如下。

#ifdef CONFIG_ARM_DMA_MEM_BUFFERABLE
pgprot_t phys_mem_access_prot(struct file *file, unsigned long pfn,
                  unsigned long size, pgprot_t vma_prot)
{
    if (!pfn_valid(pfn))
    {
        return pgprot_noncached(vma_prot);
    }
    else if (file->f_flags & O_SYNC)
    {
        return pgprot_writecombine(vma_prot);
    }
    return vma_prot;
}
EXPORT_SYMBOL(phys_mem_access_prot);
#endif

应用程序测试代码中mem设备open时设置了属性O_SYNC，因此主要看pfn_valid实现了，看字面意思，该pfn页有效，则属性为bufferable，反之为uncached。pfn_valid在arch/arm/mm/init.c中，如下。

#ifdef CONFIG_HAVE_ARCH_PFN_VALID
int pfn_valid(unsigned long pfn)
{
    return memblock_is_memory(__pfn_to_phys(pfn));
}
EXPORT_SYMBOL(pfn_valid);

memblock_is_memory实现在/mm/memblock.c中，该函数实现这里不详细说了，后续在我的内存管理学习笔记专栏里会详细学习。
这里简单说明下，memblock.c中维护了memblock.memory（可用）和memblock.reserve（保留）2个链表，arm-linux启动中，在paging_init建立页表前，会调用arm_memblock_init对memblock链表进行初始化，arm_memblock_init中会将cmdline中指定的lowmem调用memblock_add添加到memblock.memory链表中（公司kernel没有配置CONFIG_HIGHMEM）。
而memblock_is_memory是在memblock.memory链表中搜索是否有该物理页。
因此pfn_valid对于lowmem（0x80000000-0x90000000）返回ture，对于其他物理地址则返回false。
返回上级函数phys_mem_access_prot，一目了然，该函数的逻辑是对于mmap映射lowmem（0x80000000-0x90000000）区域，页表映射属性prot配置为bufferable，其他区域页表属性配置为uncached。
这样第一个问题就解决了，对于公司设备的kernel，用户空间mmap mem驱动，物理地址在0x80000000-0x90000000区域内，为bufferable，其他区域为uncached（这样reg空间也可以映射出来访问，实现用户空间驱动）。所以映射lowmem区域的拷贝速度要快于其他区域。
不过要说明下的是，这个问题是因为该kernel配置了CONFIG_ARM_DMA_MEM_BUFFERABLE，使用了arm特定的phys_mem_access_prot实现。
如果不配置该选项，则mmap_mem使用了mem.c中的phys_mem_access_prot实现。该实现中如果open时指定了O_SYNC或者O_DSYNC，则所有空间的映射属性都配置为uncached。

2 kernel下ioremap的uncached区域向kmalloc的cached区域拷贝，为什么比用户空间uncached到cached区域拷贝要快很多？

这个问题如果解决，对于优化用户空间memcpy会很有帮助，对于同事测试的数据，我从以下3个方面进行了分析调试。
（1）统计时间的准确性不一致，需要修改。
kernel下使用do_gettimeofday获取时间，kernel下是没有调度的（进程调度发生在由内核态返回时，检查是否有就绪进程，然后调度。内核态下即使发生中断，都还只是内核态下的相互切换，不会有调度），但是用户空间有进程调度（中断系统调用等异常，导致陷入内核态，再返回时产生调度），进程调度对时间统计准确性有影响，一是会导致gettimeofday时间统计没有内核态下那么准确（有部分时间是其他进程的开销），二是进程调度还需要切换进程的页表（每个进程独立拥有16KB内存页表），进程调度导致页表切换，MMU需要重新读入TLB，我想也会对性能有所影响吧。
因此要想办法统一时间统计方法，使应用程序暂时不再调度。我的解决方法如下。
a 保证应用程序不产生调度
在应用程序中将处理器的寄存器空间mmap出来，在开始测试前配置中断寄存器将中断全部mask，测试结束再unmask，保证没有中断产生而陷入内核态，
再对malloc区域提前访问，保证页表提前建立，不会产生缺页异常（malloc缓冲区在访问时才缺页异常建立页表）。
不使用gettimeofday系统调用，二是直接读取timer计数，利用计数来计算用时。
b 对于内核测试代码，也不使用do_gettimeofday，直接读取timer计数，计算用时，与应用程序统一。
对应用程序进行修改后，再次测试1MB数据从uncached区域到cached区域拷贝，计算用时是68ms，速度为14.7MB/s。相比于同事的测试数据的确有所提升，这说明用户空间进程调度对时间统计是有些影响，但是排除进程调度影响后的测试速度跟内核的速度还是相差很大。看来根本原因还没有找到。

（2）memcpy实现不一致。
kernel不依赖于任何库，自己实现memcpy，应用程序的memcpy是依赖于libc中的实现，这2者实现可能有差异。
这个的解决方法就简单粗暴了，对比memcpy的实现呗。
kernel的memcpy实现在arch/arm/lib/memcpy.S中，是汇编代码，粗略看了下实现。
主要是使用PLD指令（armv5以上支持）进行数据预取，并且使用stmia/ldmia进行数据的32 bytes批量读写。
而对于应用程序的memcpy实现，如果去找libc的实现，要麻烦些，需要顺着所使用的编译器一步步的找相应的版本，
这里想了一个懒办法。就是将应用程序静态编译，然后反汇编找memcpy实现，在反汇编文件中找到memcpy实现，如下：

00014104 :
   14104:   e3520003    cmp r2, #3  ; 0x3
   14108:   e92d07f0    push    {r4, r5, r6, r7, r8, r9, sl}
   1410c:   8a000009    bhi 14138 0x34>
   14110:   e3520000    cmp r2, #0  ; 0x0
   14114:   0a000005    beq 14130 0x2c>
   14118:   e3a0c000    mov ip, #0  ; 0x0
   1411c:   e7d1300c    ldrb    r3, [r1, ip]
   14120:   e7c0300c    strb    r3, [r0, ip]
   14124:   e28cc001    add ip, ip, #1  ; 0x1
   14128:   e152000c    cmp r2, ip
   1412c:   8afffffa    bhi 1411c 0x18>
   14130:   e8bd07f0    pop {r4, r5, r6, r7, r8, r9, sl}
   14134:   e12fff1e    bx  lr
   14138:   e3100003    tst r0, #3  ; 0x3
   1413c:   e0809002    add r9, r0, r2
   14140:   01a0c000    moveq   ip, r0
   14144:   01a04001    moveq   r4, r1
   14148:   0a000005    beq 14164 0x60>
   1414c:   e1a0c000    mov ip, r0
   14150:   e4d13001    ldrb    r3, [r1], #1
   14154:   e4cc3001    strb    r3, [ip], #1
   14158:   e31c0003    tst ip, #3  ; 0x3
   1415c:   1afffffb    bne 14150 0x4c>
   14160:   e1a04001    mov r4, r1
   14164:   e2117003    ands    r7, r1, #3  ; 0x3
   14168:   0a00001c    beq 141e0 0xdc>
   1416c:   e06ca009    rsb sl, ip, r9
   14170:   e2672000    rsb r2, r7, #0  ; 0x0
   14174:   e35a0003    cmp sl, #3  ; 0x3
   14178:   e7916002    ldr r6, [r1, r2]
   1417c:   da00000d    ble 141b8 0xb4>
   14180:   e2673004    rsb r3, r7, #4  ; 0x4
   14184:   e0815002    add r5, r1, r2
   14188:   e1a08183    lsl r8, r3, #3
   1418c:   e1a0100a    mov r1, sl
   14190:   e1a07187    lsl r7, r7, #3
   14194:   e5b52004    ldr r2, [r5, #4]!
   14198:   e2411004    sub r1, r1, #4  ; 0x4
   1419c:   e1a03812    lsl r3, r2, r8
   141a0:   e1833736    orr r3, r3, r6, lsr r7
   141a4:   e3510003    cmp r1, #3  ; 0x3
   141a8:   e48c3004    str r3, [ip], #4
   141ac:   e2844004    add r4, r4, #4  ; 0x4
   141b0:   e1a06002    mov r6, r2
   141b4:   cafffff6    bgt 14194 0x90>
   141b8:   e159000c    cmp r9, ip
   141bc:   83a02000    movhi   r2, #0  ; 0x0
   141c0:   9affffda    bls 14130 0x2c>
   141c4:   e7d43002    ldrb    r3, [r4, r2]
   141c8:   e7cc3002    strb    r3, [ip, r2]
   141cc:   e2822001    add r2, r2, #1  ; 0x1
   141d0:   e08c3002    add r3, ip, r2
   141d4:   e1590003    cmp r9, r3
   141d8:   8afffff9    bhi 141c4 0xc0>
   141dc:   eaffffd3    b   14130 0x2c>
   141e0:   e06c6009    rsb r6, ip, r9
   141e4:   e356003f    cmp r6, #63 ; 0x3f
   141e8:   da000026    ble 14288 0x184>
   141ec:   e1a05006    mov r5, r6
   141f0:   e5943000    ldr r3, [r4]
   141f4:   e2455040    sub r5, r5, #64 ; 0x40
   141f8:   e58c3000    str r3, [ip]
   141fc:   e5942004    ldr r2, [r4, #4]
   14200:   e355003f    cmp r5, #63 ; 0x3f
   14204:   e58c2004    str r2, [ip, #4]
   14208:   e5941008    ldr r1, [r4, #8]
   1420c:   e1a06005    mov r6, r5
   14210:   e58c1008    str r1, [ip, #8]
   14214:   e594300c    ldr r3, [r4, #12]
   14218:   e58c300c    str r3, [ip, #12]
   1421c:   e5942010    ldr r2, [r4, #16]
   14220:   e58c2010    str r2, [ip, #16]
   14224:   e5943014    ldr r3, [r4, #20]
   14228:   e58c3014    str r3, [ip, #20]
   1422c:   e5942018    ldr r2, [r4, #24]
   14230:   e58c2018    str r2, [ip, #24]
   14234:   e594301c    ldr r3, [r4, #28]
   14238:   e58c301c    str r3, [ip, #28]
   1423c:   e5942020    ldr r2, [r4, #32]
   14240:   e58c2020    str r2, [ip, #32]
   14244:   e5943024    ldr r3, [r4, #36]
   14248:   e58c3024    str r3, [ip, #36]
   1424c:   e5942028    ldr r2, [r4, #40]
   14250:   e58c2028    str r2, [ip, #40]
   14254:   e594302c    ldr r3, [r4, #44]
   14258:   e58c302c    str r3, [ip, #44]
   1425c:   e5942030    ldr r2, [r4, #48]
   14260:   e58c2030    str r2, [ip, #48]
   14264:   e5943034    ldr r3, [r4, #52]
   14268:   e58c3034    str r3, [ip, #52]
   1426c:   e5942038    ldr r2, [r4, #56]
   14270:   e58c2038    str r2, [ip, #56]
   14274:   e594303c    ldr r3, [r4, #60]
   14278:   e2844040    add r4, r4, #64 ; 0x40
   1427c:   e58c303c    str r3, [ip, #60]
   14280:   e28cc040    add ip, ip, #64 ; 0x40
   14284:   caffffd9    bgt 141f0 0xec>
   14288:   e356000f    cmp r6, #15 ; 0xf
   1428c:   da00000e    ble 142cc 0x1c8>
   14290:   e06c1009    rsb r1, ip, r9
   14294:   e5943000    ldr r3, [r4]
   14298:   e2411010    sub r1, r1, #16 ; 0x10
   1429c:   e58c3000    str r3, [ip]
   142a0:   e5942004    ldr r2, [r4, #4]
   142a4:   e351000f    cmp r1, #15 ; 0xf
   142a8:   e58c2004    str r2, [ip, #4]
   142ac:   e5943008    ldr r3, [r4, #8]
   142b0:   e1a06001    mov r6, r1
   142b4:   e58c3008    str r3, [ip, #8]
   142b8:   e594200c    ldr r2, [r4, #12]
   142bc:   e2844010    add r4, r4, #16 ; 0x10
   142c0:   e58c200c    str r2, [ip, #12]
   142c4:   e28cc010    add ip, ip, #16 ; 0x10
   142c8:   cafffff1    bgt 14294 0x190>
   142cc:   e3560003    cmp r6, #3  ; 0x3
   142d0:   daffffb8    ble 141b8 0xb4>
   142d4:   e06c2009    rsb r2, ip, r9
   142d8:   e2422004    sub r2, r2, #4  ; 0x4
   142dc:   e4943004    ldr r3, [r4], #4
   142e0:   e3520003    cmp r2, #3  ; 0x3
   142e4:   e48c3004    str r3, [ip], #4
   142e8:   cafffffa    bgt 142d8 0x1d4>
   142ec:   eaffffb1    b   141b8 0xb4>

libc中的memcpy实现中循环批量的使用ldr/str指令进行一次4bytes的数据读写。这么看来的确是不如kernel下的memcpy更加高效。那就想办法将kernel下的memcpy应用在用户程序中。
为了首先验证下kernel下的memcpy是否能提高应用程序的拷贝速度，直接将kernel下编译生成的memcpy.o与我的应用程序静态链接，为了确保的确是链接了memcpy.o中的memcpy，而不是libc库的。将静态链接的程序反汇编进行检查，的确是使用的memcpy.o中的memcpy实现。然后进行对比拷贝测试，结果如下。

可以看出，对于有uncache区域参与的memcpy，拷贝速度提高1倍左右。
但是对于cached到cached区域的memcpy，仅仅提升15%左右。
这说明PLD预取对拷贝影响更大，cached区域相互拷贝，cache控制器会预取cache line（32bytes）进来，因此再使用PLD预取不会再起很大作用，而仅仅是stmia/ldmia指令相较于str/ldr指令速度再略有提升。
我的理解，可以粗略估计，uncached区域性能提升1倍，PLD预取起了85%的效果，stmia/ldmia起了15%效果。
不管怎么说，总算是找到了memcpy这个可以优化的点了。

（3）页表映射的属性是否一致。
能影响访问速度的页表属性我所知道的只有cached/uncached。我的理解不管内核还是用户空间，从uncached到cached拷贝，只要是页表建立，属性确定，那么访问速度就应该是一样的。如果还不一样，看来是有别的页表属性对访问速度有影响？
即使使用kernel的memcpy，应用程序的拷贝还是比kernel的慢一些，现在能想到的不一致因素都已经保证一致了，也只有考虑页表的属性了。对于这个问题的解决，还是结合第三个疑问来一起分析。

3 kmalloc的cached区域向ioremap的uncached区域拷贝，为什么比kernel下ioremap的uncached区域向kmalloc的cached区域拷贝要慢很多？

这个问题其实是一个数据流方向问题，根据同事的测试数据可以看出，从uncached区域读取比向uncached区域写入的拷贝要慢很多。那就直接测试下uncached区域的读写。
为了保证读写的可比性透明性，都是用嵌入式汇编编写。
读取测试代码如下。

  asm(
                "mov r0, %0\n"
                "add r1, r0, #0x100000\n"
                "1: ldr r2, [r0], #4\n"
                "cmp r0, r1\n"
                "bne 1b\n"
                :
                :"r"(addr_nc)
                :"r0", "r1", "r2"
           );

写入测试代码如下。

asm(
                "mov r0, %0\n"
                "add r1, r0, #0x100000\n"
                "ldr r3, =0x12345678\n"
                "2: str r3, [r0], #4\n"
                "cmp r0, r1\n"
                "bne 2b\n"
                :
                :"r"(addr_nc)
                :"r0", "r1", "r3"
           );

将应用程序编译后再反汇编查看，保证对于循环的读写没有进行优化。
测试发现，写入1MB数据使用4.7ms，读取1MB数据使用36.8ms。相差了近8倍！。
在uboot以及应用程序中也加入该汇编代码进行测试，并且让IC验证工程师对读写汇编代码进行了FPGA仿真，将memcpy测试数据加进来，测试结果如下。

uboot和FPGA下关闭了dcached，因此没有测试cached操作数据。
可以看出cached区域内的拷贝读写，kernel app都是一致的，但是uncached参与的拷贝读写kernel跟uboot app就有差别了。uboot app中的读写速度跟FPGA仿真接近。
IC工程师在查看仿真波形后，解释说读比写多出来的时间是CPU内部的时间，而不是总线上的时间。这也就说明FPGA仿真出来，读比写慢30%是Cortex-A8处理器核的问题。这个不是软件上能解决的了。
根据测试数据表，可以看出kernel下的memcpy快跟uncached写快是有关系的。
实在没有别的办法，只能将用户空间映射的uncached区域和kernel下映射的uncached区域的页表属性都打印出来进行对比。
对于用户空间映射的页表属性，在/driver/char/mem.c的mmap_mem中加在phys_mem_access_prot之后，将vma->vm_page_prot打印出来。值为0x103
对于内核空间映射的页表属性，内核模块使用ioremap映射的uncached区域，在ioremap中的__arm_ioremap_pfn_caller中将type->prot_pte打印出来。值为0x653
这个prot值是linux页表的属性值，这里需要知道的是linux为了保证兼容性，分别建立了linux二级页表和硬件二级页表，各占2KB，一起占用4KB一个页。这里的原理在我的内存管理学习笔记再详细说明。
linux二级页表是供linux系统进行页表管理，而硬件二级页表则是供处理器MMU进行读取。
linux二级页表的位定义在/arch/arm/include/asm/pgtable-2level.h中，如下。

/*
 * "Linux" PTE definitions.
 *
 * We keep two sets of PTEs - the hardware and the linux version.
 * This allows greater flexibility in the way we map the Linux bits
 * onto the hardware tables, and allows us to have YOUNG and DIRTY
 * bits.
 *
 * The PTE table pointer refers to the hardware entries; the "Linux"
 * entries are stored 1024 bytes below.
 */
#define L_PTE_PRESENT       (_AT(pteval_t, 1) << 0)
#define L_PTE_YOUNG     (_AT(pteval_t, 1) << 1)
#define L_PTE_FILE      (_AT(pteval_t, 1) << 2) /* only when !PRESENT */
#define L_PTE_DIRTY     (_AT(pteval_t, 1) << 6)
#define L_PTE_RDONLY        (_AT(pteval_t, 1) << 7)
#define L_PTE_USER      (_AT(pteval_t, 1) << 8)
#define L_PTE_XN        (_AT(pteval_t, 1) << 9)
#define L_PTE_SHARED        (_AT(pteval_t, 1) << 10)    /* shared(v6), coherent(xsc3) */

/*
 * These are the memory types, defined to be compatible with
 * pre-ARMv6 CPUs cacheable and bufferable bits:   XXCB
 */
#define L_PTE_MT_UNCACHED   (_AT(pteval_t, 0x00) << 2)  /* 0000 */
#define L_PTE_MT_BUFFERABLE (_AT(pteval_t, 0x01) << 2)  /* 0001 */
#define L_PTE_MT_WRITETHROUGH   (_AT(pteval_t, 0x02) << 2)  /* 0010 */
#define L_PTE_MT_WRITEBACK  (_AT(pteval_t, 0x03) << 2)  /* 0011 */
#define L_PTE_MT_MINICACHE  (_AT(pteval_t, 0x06) << 2)  /* 0110 (sa1100, xscale) */
#define L_PTE_MT_WRITEALLOC (_AT(pteval_t, 0x07) << 2)  /* 0111 */
#define L_PTE_MT_DEV_SHARED (_AT(pteval_t, 0x04) << 2)  /* 0100 */
#define L_PTE_MT_DEV_NONSHARED  (_AT(pteval_t, 0x0c) << 2)  /* 1100 */
#define L_PTE_MT_DEV_WC     (_AT(pteval_t, 0x09) << 2)  /* 1001 */
#define L_PTE_MT_DEV_CACHED (_AT(pteval_t, 0x0b) << 2)  /* 1011 */
#define L_PTE_MT_MASK       (_AT(pteval_t, 0x0f) << 2)

根据linux页表的位定义，0x653和0x103都是配置为uncached，其他位看字面含义也不会对uncached写入速度有影响。
只能采取测试的方法，将页表属性中配置有差别的置位在mem.c中的mmap_mem函数中进行测试。
我在mem.c中建立sys文件入口prot，可以在应用中动态修改mem驱动中的prot值，一位一位的修改，测试哪一位会对uncached写入速度有影响。
测试中果然发现，在置位L_PTE_MT_DEV_SHARED也就是bit4后，mmap /dev/mem的uncached区域的写入以及拷贝速度瞬间提升，uncached区域写入1MB数据耗时4.8ms，跟kernel下的测试接近！
ioremap以及mmap中计算的prot属性值是填写在linux软件页表中，如果要搞清楚L_PTE_MT_DEV_SHARED位为什么会影响写入速度，我们需要搞清楚L_PTE_MT_DEV_SHARED位对应于硬件页表是哪一位，以及硬件页表中该位是起了什么作用。

公司处理器是armV7架构，使用两级页表。不管上层调用如何进行软件操作，硬件页表的填写是在linux最底层页表配置函数cpu_v7_set_pte_ext中。其中会首先配置linux软件二级页表，然后根据linux二级页表的位定义来配置相应的硬件页表。
该函数是arch/arm/mm/proc-v7-2level.S中，如下

/*
 *  cpu_v7_set_pte_ext(ptep, pte)
 *
 *  Set a level 2 translation table entry.
 *
 *  - ptep  - pointer to level 2 translation table entry
 *        (hardware version is stored at +2048 bytes)
 *  - pte   - PTE value to store
 *  - ext   - value for extended PTE bits
 */
ENTRY(cpu_v7_set_pte_ext)
#ifdef CONFIG_MMU
    str r1, [r0]            @ linux version

    bic r3, r1, #0x000003f0
    bic r3, r3, #PTE_TYPE_MASK
    orr r3, r3, r2
    orr r3, r3, #PTE_EXT_AP0 | 2

    tst r1, #1 << 4
    orrne   r3, r3, #PTE_EXT_TEX(1)

    eor r1, r1, #L_PTE_DIRTY
    tst r1, #L_PTE_RDONLY | L_PTE_DIRTY
    orrne   r3, r3, #PTE_EXT_APX

    tst r1, #L_PTE_USER
    orrne   r3, r3, #PTE_EXT_AP1
#ifdef CONFIG_CPU_USE_DOMAINS
    @ allow kernel read/write access to read-only user pages
    tstne   r3, #PTE_EXT_APX
    bicne   r3, r3, #PTE_EXT_APX | PTE_EXT_AP0
#endif

    tst r1, #L_PTE_XN
    orrne   r3, r3, #PTE_EXT_XN

    tst r1, #L_PTE_YOUNG
    tstne   r1, #L_PTE_PRESENT
    moveq   r3, #0

 ARM(   str r3, [r0, #2048]! )
 THUMB( add r0, r0, #2048 )
 THUMB( str r3, [r0] )
    mcr p15, 0, r0, c7, c10, 1      @ flush_pte
#endif
    mov pc, lr
ENDPROC(cpu_v7_set_pte_ext)

该汇编函数首先将linux软件页表（r1参数1即为软件页表值）存入低2KB页内，然后根据软件页表值来配置硬件页表值，最后将硬件页表值写入高2KB内。
其中使用的硬件二级页表位定义在/arch/arm/include/asm/pgtable-2level-hwdef.h中，如下。

/*
 * + Level 2 descriptor (PTE)
 *   - common
 */
#define PTE_TYPE_MASK       (_AT(pteval_t, 3) << 0)
#define PTE_TYPE_FAULT      (_AT(pteval_t, 0) << 0)
#define PTE_TYPE_LARGE      (_AT(pteval_t, 1) << 0)
#define PTE_TYPE_SMALL      (_AT(pteval_t, 2) << 0)
#define PTE_TYPE_EXT        (_AT(pteval_t, 3) << 0)     /* v5 */
#define PTE_BUFFERABLE      (_AT(pteval_t, 1) << 2)
#define PTE_CACHEABLE       (_AT(pteval_t, 1) << 3)

/*
 *   - extended small page/tiny page
 */
#define PTE_EXT_XN      (_AT(pteval_t, 1) << 0)     /* v6 */
#define PTE_EXT_AP_MASK     (_AT(pteval_t, 3) << 4)
#define PTE_EXT_AP0     (_AT(pteval_t, 1) << 4)
#define PTE_EXT_AP1     (_AT(pteval_t, 2) << 4)
#define PTE_EXT_AP_UNO_SRO  (_AT(pteval_t, 0) << 4)
#define PTE_EXT_AP_UNO_SRW  (PTE_EXT_AP0)
#define PTE_EXT_AP_URO_SRW  (PTE_EXT_AP1)
#define PTE_EXT_AP_URW_SRW  (PTE_EXT_AP1|PTE_EXT_AP0)
#define PTE_EXT_TEX(x)      (_AT(pteval_t, (x)) << 6)   /* v5 */
#define PTE_EXT_APX     (_AT(pteval_t, 1) << 9)     /* v6 */
#define PTE_EXT_COHERENT    (_AT(pteval_t, 1) << 9)     /* XScale3 */
#define PTE_EXT_SHARED      (_AT(pteval_t, 1) << 10)    /* v6 */
#define PTE_EXT_NG      (_AT(pteval_t, 1) << 11)    /* v6 */

cpu_v7_set_pte_ext中根据软件页表的bit4来配置硬件页表的代码如下。

    tst r1, #1 << 4
    orrne   r3, r3, #PTE_EXT_TEX(1)

如果软件页表中置位bit4，则硬件页表中置位bit6。也就是说硬件页表中置位bit6，使uncached的写入拷贝速度提升
那么bit6到底是干啥的呢，这涉及到armv7处理器的MMU，需要看armv7架构处理器的datasheet了。
我在arm以及armv7架构的datasheet中的确是找到了一些关于bit6的说明，如下。

ARM处理器核的官方datasheet下载链接如下：http://download.csdn.net/detail/skyflying2012/9530439
ARMV7架构处理器的官方datasheet下载链接如下：http://download.csdn.net/detail/skyflying2012/9530443

bit6是硬件页表的TEX[2:0]的最低位，根据上图的说明，访问区域属性的确是由TEX[2:0]以及cached/bufferable 2位一起来控制。但是我还没有找到具体的说明TEX[2:0]对读写影响的说明，后续搞明白后再来补上。
mem.c中置位L_PTE_MT_DEV_SHARED，并且链接kernel的memcpy.o，应用程序对读写拷贝进行测试，跟kernel下的测试速度基本一致了，相较于以前有了大幅提升。
到这里算是解决了我的后2个疑问了。
kernel下ioremap的uncached区域向kmalloc的cached区域拷贝比用户空间的快，原因有2个。
（1）kernel的memcpy比应用程序的效率更高
（2）kernel下建立的软件页表置位了L_PTE_MT_DEV_SHARED，对应于硬件页表的bit6，测试发现可以大幅提升uncached写入速度，从而是memcpy性能再度提升。
kmalloc的cached区域向ioremap的uncached区域拷贝，比kernel下ioremap的uncached区域向kmalloc的cached区域拷贝要慢很多，也是因为软件页表的了L_PTE_MT_DEV_SHARED位。

解决了我对测试数据的3个疑问，对于公司cortex-A8处理器memcpy的优化也就有了几点方法，如下。
（1）使用kernel的memcpy，将kernel下的memcpy抠出来，单独编译成一个库使用。（代码我后续上传到我的资源中）
（2）在mem.c驱动的mmap_mem函数中，置位L_PTE_MT_DEV_SHARED。不过由于还未搞懂其真正含义，不知其有无其他影响，该方法谨慎使用
（3）对于涉及malloc区域的memcpy，提前访问缓冲区，建立页表。该点对于提高memcpy效率有点效果，但是对于程序整体效率无作用（因为缺页异常是必须的）

最后我对采用该优化方案的memcpy进行了一组对比试验，测试拷贝1MB数据的耗时，统计时间还是采用关中断
读timer计数的方式，数据如下。

可以看出，对于有uncached区域参与的memcpy，优化后性能提升明显，
uncached->uncached提升3倍，uncached->cached提升3.5倍，cached->uncached提升13.2倍！
cached->uncached提升最多，我的理解是因为置位L_PTE_MT_DEV_SHARED对写入速度提升最为明显导致的。

但是对于cached内部的memcpy，速度提升不明显。看来置位L_PTE_MT_DEV_SHARED对cached区域无影响，而cached区域本身就有cache line的预取，因此memcpy的PLD预取也没有起作用，只有stmia/ldmia的32bytes批量操作相比与str/ldr的4bytes操作有一点性能的提升。

对于公司设备memcpy的优化记录到这里。最后需要说明的也是最重要的一点，
我的以上优化方法，都在armv7架构的cortex-a8处理器下进行的，pld预取以及硬件页表的bit6置位都需要特定处理器的支持。这都是针对Cortex-A8处理器的优化，并且对于有uncached区域参与的拷贝提升明显，cached区域内拷贝效果不是很明显。

我测试过arm9处理器的memcpy，发现arm9的读写拷贝性能都很均衡，不会出现armv7这种写比读快很多的情况，这些都是跟特定处理器的特定配置是有关系的。

因此朋友们照搬我这套优化方案，有可能是没有效果的，我这里更多的是提供给大家这一套优化的思路供选择。

你可能感兴趣的:(linux,kernel)

MongoDB 客户端工具(图) IT古董 Mongodb mongodb 工具 couchdb 集群 php windows
转自:http://hi.baidu.com/shepherdnewage/blog/item/962368f05d1f427fdcc4747c.htmlhttp://www.javabloger.com/article/mongodb-gui-win-linux-mac.htmlNoSQL的运动不止，MongoDB作为其中的主力军发展迅猛，但是图形化工具少见，我在此做了一个简单的收集，如果将来有
上位机操作篇---Linux常用命令 Ronin-Lotus 上位机操作篇网络 linux ubuntu 程序员创富运维服务器
第二章Linux常用命令（简介）常用命令及其简介第二章Linux常用命令（简介）前言第一部分：基础命令一、pwd二、ls或者ls[选项][目录名]三、cd四、clear或者crtl+l第二部分：文件操作一、touch二、mkdir三、cp四、mv五、rm第三部分：文本操作一、cat二、grep三、find第四部分：权限操作一、chmod二、chown三、sudo第五部分：用户管理操作一、addus
SecureCRT & SecureFX 9.6.1 for macOS, Linux, Windows - 终端仿真和文件传输 securecrt
SecureCRT&SecureFX9.6.1formacOS,Linux,Windows-跨平台的多协议终端仿真和文件传输请访问原文链接：https://sysin.org/blog/securecrt-9/查看最新版。原创作品，转载请保留出处。作者主页：sysin.orgSecureCRT客户端运行于Windows、Mac和Linux，将坚如磐石的终端仿真与强大的加密、广泛的身份验证选项以及S
Python 潮流周刊#83：uv 的使用技巧（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目，2则热门讨论，全文2300字。以下是本期摘要：文章&教程①UV的使用技巧②用pyinfra和ChimeraLinux开发一个小型CDN③高效的Python开发者工
RHCE第一次作业岩魈云散服务器 linux 网络
实验4：nfs自动挂载实验原理：当客户端有使用NFS文件系统的需求时才让系统自动挂载，而当NFS文件系统使用完毕后,让NFS自动卸载。使用服务：nfs、autofs实验演示：需要完成自动挂载，必须使用两台虚拟机，一台做客户端，一台做服务端。这里新建了一张网卡，使用新的网卡去完成该实验，而不使用Linux默认的网卡。1.配置新网卡ip地址查看ip，新网卡ens224初始没有ip，需要先配置ip[ro
实验室多人共享GPU服务器搭建指南（更新ing） Geodesy&Geomatic 服务器运维 gpu算力深度学习 docker
1.服务器参数设置1.1实验室服务器参数操作系统Ubuntu20.04LTS系统挂盘：SSD（2×960GB）为Raid1、STAT（2×10T）为Raid0什么是raid0、raid1、raid5、raid10？需要几块硬盘？linux安装nvidia驱动必备（笔者实验室的GPU服务器交货时已安装驱动，不再详述）Ubuntu20.04安装Nvidia驱动——4060显卡（黑屏解决方法）1.首先禁
Bash 命令：系统操作的得力助手阿贾克斯的黎明运维 bash 开发语言
目录Bash命令：系统操作的得力助手目录操作命令文件操作命令文件查看命令在Linux系统的日常使用与运维工作中，Bash命令起着核心作用。它就像一把万能钥匙，能够开启系统各种功能的大门，让我们高效地管理和操作计算机资源。接下来，我们将详细介绍一些常用的Bash命令及其用法。目录操作命令ls（list）：用于列出目录内容。例如，在终端输入ls，会显示当前目录下的文件和子目录。如果要查看详细信息，可以
2023全国职业院校技能大赛网络系统管理赛项（Linux部分真题） Jackson~Y linux 运维服务器
一、Linux项目任务描述你作为一个Linux的技术工程师，被指派去构建一个公司的内部网络，要为员工提供便捷、安全稳定内外网络服务。你必须在规定的时间内完成要求的任务，并进行充分的测试，确保设备和应用正常运行。任务所有规划都基于Linux操作系统，请根据网络拓扑、基本配置信息和服务需求完成网络服务安装与测试，网络拓扑图和基本配置信息如下：（一）拓扑图（二）网络地址规划服务器和客户端基本配置如下表，
Android搞机之编译LineageOS内核 android逆向工程
编译环境VMware虚拟机+Kali2022.332GB内存400GB硬盘乐视Max2手机lineageOS18.1源码下载从lineageOS官网上找到LeMax2。在Buildforx2章节找到kernel的Github地址下载kernel源码gitclone--depth=1https://github.com/LineageOS/android_kernel_leeco_msm8996.g
k8s mysql数据目录挂载_【kubernetes】k8s数据卷,pod挂载本地路径九罭之魚 k8s mysql数据目录挂载
环境：Linux服务器配置挂载目录思路：在部署pod的节点(宿主机)配置同样的挂载路径到一个固定的服务器(目标服务器)，这样不管pod在哪里跑，文件的保存路径都是不变的1.安装sshfsyuminstall-ysshfs2.添加ssh认证把节点的ssh公钥拷贝到目标服务器的~/.ssh/authorizedkeys中3.挂载目录在节点服务器执行：sshfsUSER@目标服务器IP:/path/to
MySQL DCL数据控制语言青花锁 mysql 数据库 DCL 数据控制语言
作者主页：青花锁简介：Java领域优质创作者、Java微服务架构公号作者简历模板、学习资料、面试题库、技术互助文末获取联系方式往期热门专栏回顾专栏描述Java项目实战介绍Java组件安装、使用；手写框架等Aws服务器实战AwsLinux服务器上操作nginx、git、JDK、VueJava微服务实战Java微服务实战，SpringCloudNetflix套件、SpringCloudAlibaba套
处理解决运行前端脚手架工程报错： ‘vue-cli-service‘ 不是内部或外部命令，也不是可运行的程序或批处理文件。附带 Linux m0_74825746 前端 vue.js linux
目录一、场景介绍二、处理方式????1、?如果?package.json配置没有?vue-cli-server那么就安装它即可，注意安装完毕需重启编辑器启动项目，避免依赖添加不生效问题????2、如果package.json配置有?vue-cli-server或者安装了还是没好，可以看看node_modules工程模块是否存在，如果没有请安装。???3、如果上面两个条件都存在，却还是不行，那就是网
Linux 操作一：系统调用：文件读写余额不足12138 linux 服务器
Linux操作一：系统调用：文件读写基本概念什么是文件简单的说，文件就是存储在硬件磁盘上的数据集合。文件通过什么来标识系统中在处理的文件（读、写操作）的时候，需要唯一能够识别这个文件，就需要一个针对文件的标识，以便在其它地方能识别出这个文件，于是就产生了文件描述符。文件描述符文件描述符是一些整数，简单的说就是一个文件ＩＤ，用于在系统中唯一的标识一个文件。文件描述符的总数也就是系统可以打开文件的最多
Linux系统调用下的文件I/O编程夏天又到了 LinuxC\C++编程技术 linux 服务器运维
【图书推荐】《LinuxC与C++一线开发实践（第2版）》_linuxc与c++一线开发实践pdf-CSDN博客LinuxC\C++编程技术_夏天又到了的博客-CSDN博客《LinuxC与C++一线开发实践（第2版）（Linux技术丛书）》(朱文伟，李建英)【摘要书评试读】-京东图书I/O就是输入/输出，它是主存和外部设备（比如硬盘、U盘）之间复制数据的过程，其中数据从设备到内存的过程称为输入，数
解决Docker服务注册到Eureka instanceId显示172.../以及Dockerfile和 docker-maven-plugin的简单使用林纳斯_ docker docker 微服务 eureka 172.
一、CentOS下安装DKcentos内核高于3.10：通过uname-r命令查看当前的内核版本移除旧版本：$sudoyumremovedocker\docker-client\docker-client-latest\docker-common\docker-latest\docker-latest-logrotate\docker-logrotate\docker-selinux\docker
【linux配置】配置文件设置静态IP方法温柔如酒 linux配置文件 linux 服务器
1、配置文件说明1.1Ubuntu系统：修改文件vim/etc/netplan/01-netcfg.yamlnetwork:version:2ethernets:ens33:dhcp4:noaddresses:-192.168.1.100/24gateway4:192.168.1.1nameservers:addresses:-114.114.114.114-223.5.5.5应用配置：sudon
【linux性能优化】系统启动参数温柔如酒 linux性能优化 linux 数据库运维
grubby-c/boot/grub2/grub.cfg--update-kernel=ALL--args=“raid=noautodetectswiotlb=16384crashkernel=16M,lowcrashkernel=512M,highmodprobe.blacklist=virtio_nettransparent_hugepage=neveracpi_force_table_ver
Linux系统下DPDK源码编译，testpmd的使用以及编译过程中遇到的问题，以及高版本DPDK meson+ninja编译步骤温柔如酒 DPDK linux 运维网络
一.dpdk-20.081.首先，下载以及编译依赖库安装：ubuntu：apt-getinstalllibnuma-devcentos:yuminstalllibnuma-devel以及yuminstallnumactl-devel官网下载DPDK源码，DPDK官网：dpdk.org以dpdk-20.08为例，下载完成后，cd到源码所在路径1.指定DPDK安装路径，设置所需的环境变量并转到源目录e
【linux命令】ip命令使用温柔如酒 linux命令 linux tcp/ip 网络
1、设置网口IP方法1：通过IP设置网口ip添加静态IP：ipaddradd1.1.1.1/24deveth0删除ip:ipaddrdel1.1.1.1/24deveth0方法2：nmtui配置IP另外方法：nmtui2、添加路由添加路由：iprouteadd目标网络地址/子网掩码via网关地址iprouteadd目标网络地址/子网掩码via网关地址dev网口名称eg：iprouteadd2.2.
Python Sqlite数据库与配置文件的加载、编辑和保存 2201_75335496 数据库 sqlite python json pyqt
一、Sqlite数据库SQLite，是一款轻型的数据库，是遵守ACID的关系型数据库管理系统，它包含在一个相对小的C库中。它是D.RichardHipp建立的公有领域项目。它的设计目标是嵌入式的，而且已经在很多嵌入式产品中使用了它，它占用资源非常的低，在嵌入式设备中，可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统，同时能够跟很多程序语言相结合，比如T
使用vnstat监控网络流量和带宽占用 handsomestWei 运维运维网络
使用vnstat监控网络流量和带宽占用简介vnstat是个Linux下基于shell终端的网络流量监控工具，可帮助用户在不同时间段内监视，记录和查看网络统计信息。它提供了各种网络接口的汇总，允许用户以详细表或命令行统计视图的形式查看小时，每日，每月统计。安装sudoaptupdatesudoaptinstallvnstatsudosystemctlstartvnstatsudosystemctle
hive表级权限控制_Hive权限管理 weixin_39769091 hive表级权限控制
最近遇到一个hive权限的问题，先简单记录一下，目前自己的理解不一定对，后续根据自己的理解程度更新一、hive用户的概念hive本身没有创建用户的命令，hive的用户就是Linux用户，若当前是用mr用户输入hive，进入hive的shell，则当前hive的用户为mr。hive本身不提供用户和用户的管理，只做权限控制。所以在实际的生产中，容易造成创表和使用表的用户不统一的情况，针对该情况可以使用
HIVE的权限控制和超级管理员的实现 weixin_34364071 大数据数据库 java
Hive用户权限管理从remote部署hive和mysql元数据表字典看，已经明确hive是通过存储在元数据中的信息来管理用户权限。现在重点是Hive怎么管理用户权限。首先要回答的是用户是怎么来的，发现hive有创建角色的命令，但没有创建用户的命令，显然Hive的用户不是在mysql中创建的。在回答这个问题之前，先初步了解下Hive的权限管理机制。Hive用户组和用户即Linux用户组和用户，和h
Linux性能优化CPU篇之平均负载 linux
首先使用uptime命令查看对应平均负载.平均负载是指单位时间内,系统处于可运行状态和不可中断状态进程数所谓的可运行状态的进程是指,正在使用CPU或者正在等待的CPU进程数量,也就是我们常用的ps命令,处于R状态。不可中断状态的进程是正在处于内核关键流程中的进程,注意这些进程不可以被打断的,当我们向一个磁盘写入一个文件的时候,它是不可以被打断的。那么平均复杂怎么样才算好呢?平均负载最理想的情况是等
Linux 系统性能调优周盛欢 linux 运维服务器
嘿，朋友们，今天咱们来唠唠Linux系统性能调优这事儿。你是不是觉得这听起来特高大上、特复杂？别担心，我保证用最简单的语言，让你这个0基础的小伙伴也能轻松入门。一、为啥要调优Linux性能想象一下，你的电脑突然变卡了，打开个软件都得等半天，是不是特别闹心？Linux系统也一样，用着用着可能会因为各种原因变慢。比如，服务器上用户越来越多，要是不调优，系统就可能扛不住，影响大家正常用。所以，性能调优就
Centos7.6离线安装软件 PascalMing Linux Centos yum ntp 离线安装
在离线情况下，安装Centos软件，有几个方法1、直接下载离线软件包如果能直接下载离线软件包，是最省事的方法，可以直接baidu查找试试，或到下面这个网址试试：PackagesforLinuxandUnix-pkgs.orgUbuntu各版本的软件比较齐全，下载后直接安装即可由于Centos目前逐步停止支持，导致不少安装包不容易找到，可以试试第2种方法2、使用yum的离线包下载功能yum将一个包下
蓝易云 - Linux系统中常见的远程管理协议！蓝易云 linux 运维服务器 http nginx https flutter
Linux系统中常见的远程管理协议有以下几种：1.SSH（SecureShell）：SSH是一种安全的远程登录协议，用于在网络上安全地远程登录到Linux服务器。它提供了加密的传输和身份验证机制，可以防止数据在传输过程中被拦截和篡改。SSH使用用户名和密码或公钥认证来验证用户身份，并允许用户在远程终端上执行命令。2.Telnet：Telnet是一种不安全的远程登录协议，用于在网络上远程登录到Lin
【linux】看门狗&喂狗的简述乔峰不是张无忌330 linux 汽车电子 linux 汽车车载系统
看门狗的功能作用“看门狗定时器”，从功能上说它可以让微控制器在意外状况下（比如软件陷入死循环）重新回复到系统上电状态，以保证系统出问题的时候重启一次。“看门狗”就是一个计数器，由于位数有限计数器能够装的数值是有限的(比如8位的最多装256个数、16位的最多装65536个数)，从开启“看门狗”那刻起，它就开始不停的数机器周期，数一个机器周期就计数器加１，加到计数器盛不下了（术语叫溢出）就就产生一个复
机器学习数据预处理preprocessing之KernelCenterer 一叶_障目机器学习人工智能
sklearn.preprocessing.KernelCenterer对矩阵XXX执行中心化操作，即使得核矩阵的行和列的均值为零给定二维矩阵XXX，可以下式得到其核变换矩阵KKK：K(X,X)=ϕ(X).ϕ(X)TK(X,X)=\phi(X).\phi(X)^TK(X,X)=ϕ(X).ϕ(X)T式中ϕ(X)\phi(X)ϕ(X)是一种将XXX从原始空间映射到希尔伯特空间的函数希尔伯特空间是一种完
【VMware创建虚拟机+安装Ubuntu22】 2301_81475776 java 服务器 linux
使用VMware创建虚拟机并安装Ubuntu22创建虚拟机Ubuntu安装创建虚拟机1.打开下载好的VMware，点击主页中的"创建新的虚拟机“2.弹出窗口，选择“自定义”选项，点击下一步3.弹出窗口，选择所需要的”硬件兼容性“，点击下一步4.弹出窗口，选择”稍后安装操作系统“，点击下一步5.弹出窗口，客户机系统操作选择"Linux",版本选择“Ubuntu64”6.修改虚拟机名称7.选择虚拟
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源