numa架构初探--持续更新

在NUMA架构出现前,CPU欢快的朝着频率越来越高的方向发展。受到物理极限的挑战,又转为核数越来越多的方向发展。如果每个core的工作性质都是share-nothing(类似于map-reduce的node节点的作业属性),那么也许就不会有NUMA。由于所有CPU Core都是通过共享一个北桥来读取内存,随着核数如何的发展,北桥在响应时间上的性能瓶颈越来越明显。于是,聪明的硬件设计师们,先到了把内存控制器(原本北桥中读取内存的部分)也做个拆分,平分到了每个die上。于是NUMA就出现了!

NUMA是什么

NUMA中,虽然内存直接attach在CPU上,但是由于内存被平均分配在了各个die上。只有当CPU访问自身直接attach内存对应的物理地址时,才会有较短的响应时间(后称Local Access)。而如果需要访问其他CPU attach的内存的数据时,就需要通过inter-connect通道访问,响应时间就相比之前变慢了(后称Remote Access)。所以NUMA(Non-Uniform Memory Access)就此得名。


NUMA的几个概念(Node,socket,core,thread)
   对于socket,core和thread会有不少文章介绍,这里简单说一下,具体参见下图:

    一句话总结:socket就是主板上的CPU插槽; Core就是socket里独立的一组程序执行的硬件单元,比如寄存器,计算单元等; Thread:就是超线程hyperthread的概念,逻辑的执行单元,独立的执行上下文,但是共享core内的寄存器和计算单元。
   NUMA体系结构中多了Node的概念,这个概念其实是用来解决core的分组的问题,具体参见下图来理解(图中的OS CPU可以理解thread,那么core就没有在图中画出),从图中可以看出每个Socket里有两个node,共有4个socket,每个socket 2个node,每个node中有8个thread,总共4(Socket)× 2(Node)× 8 (4core × 2 Thread) = 64个thread。
   另外每个node有自己的内部CPU,总线和内存,同时还可以访问其他node内的内存,NUMA的最大的优势就是可以方便的增加CPU的数量,因为Node内有自己内部总线,所以增加CPU数量可以通过增加Node的数目来实现,如果单纯的增加CPU的数量,会对总线造成很大的压力,所以NUMA结构不可能支持很多的核。     


那么我们如何查看服务的numa架构呢
lscpu

其中如上图,看到当前机器有4个sockets,每隔socket含有1个numa node,每个numa node还有14个core,每个core还有2个thread(超线程)

测试
1.首先安装numactl工具
yum install numactl

2.查看numa状态
dmesg | grep -i numa查看输出结果:
如果输出结果为:
No NUMA configuration found
说明numa为disable,如果不是上面的内容说明numa为enable


numa_hit是打算在该节点上分配内存,最后从这个节点分配的次数;
num_miss是打算在该节点分配内存,最后却从其他节点分配的次数;
num_foregin是打算在其他节点分配内存,最后却从这个节点分配的次数;
interleave_hit是采用interleave策略最后从该节点分配的次数;
local_node该节点上的进程在该节点上分配的次数
other_node是其他节点进程在该节点上分配的次数
3.查看numa分布

4.查看对应网卡在哪个numa节点上


5.验证numa

6.如何关闭numa 
  • RHEL 7 (/etc/default/grub)
Raw
    GRUB_CMDLINE_LINUX="rd.lvm.lv=rhel_vm-210/root rd.lvm.lv=rhel_vm-210/swap vconsole.font=latarcyrheb-sun16 crashkernel=auto  vconsole.keymap=us rhgb quiet numa=off"
Please note, on RHEL 7 grub config has to be rebuilt for changes to take effect:
Raw
~]# grub2-mkconfig -o /etc/grub2.cfg
关闭numa两种方法一种os层,改grub,一种在bios层硬件直接关闭
建议直接硬件关闭,否则硬件不关,只关了os层会影响性能
或者直接修改vi /boot/grub2/grub.cfg然后重启


7.绑定网卡到制定的node上
先停止 irqbalance 服务
# systemctl stop irqbalance.service
然后通过 set_irq_affinity_bynode.sh 3 ib0绑定,其中3是ib0所在的node 3

你可能感兴趣的:(ORACLE)