龙芯软件开发(17)-- 初始化龙芯2E缓存

自从 RISC 类型的 CPU 开发出来以后,拥有缓存的 CPU 已经越来越普遍了,从嵌入式的 CPU 到桌面通用的 CPU ,或者大型机群的 CPU ,都具有大量的缓存。由于很多程序都具有局部循环特性,使用缓存就可以大大地提高 CPU 效率。比如像下面的程序:
 
int nSum = 0;
for(int i = 0; i < 10000; i++)
{
     nSum += i;
}
 
上面这段程序,就可以在缓存里保存下来后,不再用去访问内存了。如果没有缓存的话,就需要每条指令到内存里读取出来再执行,这样做的速度就比有缓存的情况下慢很多了。
 
现在先看看龙芯的缓存是怎么样组织,有什么特性,从龙芯的用户手册里可以看到,龙芯 2E 具有三个独立的缓存,一级指令缓存 64K ,一级数据缓存 64K ,二级混合缓存 512K 。一级缓存采用虚地址索引和物理地址标志,二级缓存的索引和标志采用的都是物理地址。一级和二级缓存都采用随机替换算法。由于具有两级缓存,为了确保缓存数据与内存里的数据一致性,在龙芯的指令里还一条同步指令 SYNC ,只要运行这条指令,就可以让所有缓存与内存里的数据达到一致。
 
do_caches:
    TTYDBG("Sizing caches.../r/n");
 
    mfc0   t3, COP_0_CONFIG /* t3 = original config */
    and t3, 0xffffeff0       /* Make sure coherency is OK */
 
    and t3, ~(CF_7_TE|CF_7_SE|CF_7_TC|CF_7_SC) /* disable L2/L3 cache */
    mtc0    t3, COP_0_CONFIG
 
上面的代码,首先读取 COP_0_CONFIG 寄存器值,然后把关闭缓存位置位,最后修改配置寄存器。
 
li t2, 4096
 
    srl t1, t3, 9
    and t1, 3
    sllv   s3, t2, t1    /* s3 = I cache size */
 
#ifdef CONFIG_CACHE_64K_4WAY
        sll     s3,2
#endif
 
    and t1, t3, 0x20
    srl t1, t1, 1
    addu   s4, t1, 16    /* s4 = I cache line size */
 
    srl t1, t3, 6
    and t1, 3
    sllv   s5, t2, t1    /* s5 = D cache size */
 
#ifdef CONFIG_CACHE_64K_4WAY
        sll     s5,2
#endif
 
    and t1, t3, 0x10
    addu   s6, t1, 16    /* s6 = D cache line size */
    TTYDBG("Init caches.../r/n")
 
    li s7, 0                   /* no L2 cache */
    li s8, 0                   /* no L3 cache */
 
上面代码是通过配置寄存器里的参数来计算指令缓存和数据缓存的大小,以便后面可以初始化缓存,当然也许有人想到使用 CPU ID 来进行判断缓存的大小,但是同一 ID CPU 缓存也可能是不一样的。
 
TTYDBG("godson2 caches found/r/n")
        bal     godson2_cache_init
        nop
 
上面的代码接着就根据计算的参数去初始化缓存,下面接着去看它的代码实现。
 
LEAF(godson2_cache_init)
####part 2####
cache_detect_2way:
    mfc0   t4, CP0_CONFIG
    andi   t5, t4, 0x0e00
    srl t5, t5, 9
    andi   t6, t4, 0x01c0
    srl t6, t6, 6
    addiu t6, t6, 11
    addiu t5, t5, 11
    addiu t4, $0, 1
    sllv   t6, t4, t6
    srl t6,1
    sllv   t5, t4, t5
    srl t5,1
    addiu t7, $0, 2
####part 3####
    lui a0, 0x8000
    addu   a1, $0, t5
    addu   a2, $0, t6
cache_init_d2way:
#a0=0x80000000, a1=icache_size, a2=dcache_size
#a3, v0 and v1 used as local registers
    mtc0   $0, CP0_TAGHI
上面的代码是计算出指令缓存的大小,数据缓存的大小,然后把CP0寄存器TagHi寄存清为0,由于这个寄存器是没有定义的。
 
    addu   v0, $0, a0
    addu   v1, a0, a2
1: slt a3, v0, v1
    beq a3, $0, 1f
    nop
    mtc0   $0, CP0_TAGLO
    cache Index_Store_Tag_D, 0x0(v0)
    mtc0   $0, CP0_TAGLO
    cache Index_Store_Tag_D, 0x1(v0)
    mtc0   $0, CP0_TAGLO
    cache   Index_Store_Tag_D, 0x2(v0)
    mtc0   $0, CP0_TAGLO
    cache   Index_Store_Tag_D, 0x3(v0)
    beq $0, $0, 1b
    addiu v0, v0, 0x20
上面的代码是通过循环初始化64K数据缓存。首先使用mtc0指令清空TagLo寄存器,然后把0x8000 0000开始的内存映射到数据缓存索引,它是通过指令cache来进行的。Index_Store_Tag_D的值是0x05,意思就是把v0寄存的值加上0x0,然后把索引地址设置到缓存寄存器TagLo和TagHi。这样就把64K数据缓存指向了0x8000 0000开始的64K内存了。
 
 
#if 1
1:
cache_init_l24way:
        mtc0    $0, CP0_TAGHI
        addu    v0, $0, a0
        addu    v1, a0, 128*1024
1:      slt    a3, v0, v1
        beq     a3, $0, 1f
        nop
        mtc0    $0, CP0_TAGLO
        cache   Index_Store_Tag_S, 0x0(v0)
        mtc0    $0, CP0_TAGLO
        cache   Index_Store_Tag_S, 0x1(v0)
        mtc0    $0, CP0_TAGLO
        cache   Index_Store_Tag_S, 0x2(v0)
        mtc0    $0, CP0_TAGLO
        cache   Index_Store_Tag_S, 0x3(v0)
        beq     $0, $0, 1b
        addiu   v0, v0, 0x20
上面的代码是通过循环初始化512K二级缓存。Index_Store_Tag_S的值是0x0B,也就是1011B,设置二级缓存的索引。
 
1:
cache_flush_4way:
    addu   v0, $0, a0
    addu   v1, a0, 128*1024
1: slt a3, v0, v1
    beq a3, $0, 1f
    nop
    cache Index_Writeback_Inv_S, 0x0(v0)
    cache Index_Writeback_Inv_S, 0x1(v0)
    cache Index_Writeback_Inv_S, 0x2(v0)
    cache Index_Writeback_Inv_S, 0x3(v0)
    beq $0, $0, 1b
    addiu v0, v0, 0x20
# endif
上面的代码是清空二级缓存数据,把内存有效的数据加载到二级缓存。
 
1:
cache_flush_i2way:
    addu   v0, $0, a0
    addu   v1, a0, a1
1: slt a3, v0, v1
    beq a3, $0, 1f
    nop
    cache Index_Invalidate_I, 0x0(v0)
#   cache Index_Invalidate_I, 0x1(v0)
#   cache Index_Invalidate_I, 0x2(v0)
#   cache Index_Invalidate_I, 0x3(v0)
    beq $0, $0, 1b
    addiu v0, v0, 0x20
上面的代码是初始化一级指令缓存,并把有效数据加载进来。
 
1:
cache_flush_d2way:
    addu   v0, $0, a0
    addu   v1, a0, a2
1: slt a3, v0, v1
    beq a3, $0, 1f
    nop
    cache Index_Writeback_Inv_D, 0x0(v0)
    cache Index_Writeback_Inv_D, 0x1(v0)
    cache Index_Writeback_Inv_D, 0x2(v0)
    cache Index_Writeback_Inv_D, 0x3(v0)
    beq $0, $0, 1b
    addiu v0, v0, 0x20
上面的代码是加载数据到一级数据缓存。
 
1:
cache_init_finish:
    nop
    jr ra
    nop
 
cache_init_panic:
    TTYDBG("cache init panic/r/n");
1: b   1b
    nop
    .end   godson2_cache_init
到这里已经把一级和二级缓存已经初始化完成,就把缓存映射到内存了,接着就可以把代码拷贝到0x8000 0000到0x9FFF FFFF的虚拟内存运行,这样在内存运行的代码就非常快了。
 

你可能感兴趣的:(龙芯软件开发(17)-- 初始化龙芯2E缓存)