【Linux 内核 内存管理】物理内存组织结构

一、 UMA和NUMA两种模型
共享存储型多处理机有两种模型
一致内存访问(Uniform-Memory-Access,简称UMA)模型

非一致内存访问(Nonuniform-Memory-Access,简称NUMA)模型

UMA模型
物理存储器被所有处理器件均匀共享。所有处理机对所有存储字具有相同的存取时间,这就是为什么称它为均匀存储器存取的原因。每台处理机可以有私用高速缓存,外围设备也以一定形式共享。
【Linux 内核 内存管理】物理内存组织结构_第1张图片

NUMA模型
NUMA模式下,处理器被划分成多个”节点”(node), 每个节点被分配有的本地存储器空间。 所有节点中的处理器都可以访问全部的系统物理存储器,但是访问本节点内的存储器所需要的时间,比访问某些远程节点内的存储器所花的时间要少得多。
【Linux 内核 内存管理】物理内存组织结构_第2张图片
Linux适用于各种不同的体系结构, 而不同体系结构在内存管理方面的差别很大. 因此linux内核需要用一种体系结构无关的方式来表示内存。
在 NUMA 非一致内存访问架构 中, 将 CPU 划分为多个节点 , 每个节点都有自己的 " 内存控制器 " 和 " 内存插槽 " , CPU 访问自己的节点上的 内存 很快 , 但是访问其它 CPU 的内存 很慢 ;
在UMA结构下, 则任务系统中只存在一个内存node, 这样对于UMA结构来说, 内核把内存当成只有一个内存node节点的伪NUMA。

注意:NUMA 内存节点分为两种情况

  • 根据 " 处理器与内存的距离 " 划分 " 内存节点 " ;
  • 在 不连续内存 的 NUMA 架构中 , 根据 " 物理地址是否连续 " 划分 " 内存节点 " , 每个 物理地址连续 的内存块 是一个 " 内存节点 " ;

二、内存管理系统 3 级结构

① 节点 Node ,
② 区域 Zone ,
③ 页 Page ,
Linux 内核中 , 使用 上述 3级结构 描述 和 管理 " 物理内存 " ;

2.1 内存节点 pglist_data 结构体
Linux 内核中 , 使用 pglist_data 结构体 描述 " 内存节点 " , 该结构体定义在 Linux 内核源码中的 linux-4.12\include\linux\mmzone.h#601 位置 ;
其中 :
node_zones 是 内存区域数组 ;

struct zone node_zones[MAX_NR_ZONES];

node_zonelists 是 备用区域列表 ;

struct zonelist node_zonelists[MAX_ZONELISTS];

nr_zones 是 该 " 内存节点 " 包含 多少个 " 内存区域 " ;

// 该 " 内存节点 " 包含 多少个 " 内存区域 "
int nr_zones;

CONFIG_FLAT_NODE_MEM_MAP 宏定义指的是 " 除 稀疏内存模型 之外 " 的情况 , 该情况下 声明 struct page *node_mem_map 页描述数组 ;
struct page_ext *node_page_ext 是 内存页的扩展属性 ;

#ifdef CONFIG_FLAT_NODE_MEM_MAP	/* means !SPARSEMEM */
	// 页描述数组
	struct page *node_mem_map;
#ifdef CONFIG_PAGE_EXTENSION
	// 内存页的扩展属性
	struct page_ext *node_page_ext;
#endif
#endif

node_start_pfn 是 该 " 内存节点 " 的 起始物理页 编号 ;
node_present_pages 是 物理页 的总数 ;
node_spanned_pages 是 物理页 的区间范围 总大小 , 该大小包括 " 内存空洞 " 大小 ;
node_id 是 节点标识符 ;

2.2 内存区域 zone 简介
" 内存节点 " 再向下划分 , 就是 " 内存区域 " zone ,
" 内存区域 " 在 Linux 内核中使用 struct zone 结构体类型进行描述 , zone 枚举定义在 Linux 内核源码的 linux-4.12\include\linux\mmzone.h#350 位置 ;

enum zone_type {
#ifdef CONFIG_ZONE_DMA
    //如果一些设备不能直接访问所有内存,需要使用DMA内存,例如ISA总线只能直接访问16MB以下的内存.不需要通过MMU管理,连续分配,具有更高的性能
	ZONE_DMA,
#endif
#ifdef CONFIG_ZONE_DMA32
    //标记了使用32位地址可寻址、适合DMA的内存域,显然只有64位系统上,才会有该内存域。
	ZONE_DMA32,
#endif
    //可以直接映射到内核段的普通内存域,这是所有体系机构上保证都会存在的唯一内存域,在IA-32系统上,该域可访问的最大内存不超过896MiB,超过该值的内存只能能通过高端内存寻址访问ZONE_HIGHMEM中的内存。
	ZONE_NORMAL,
#ifdef CONFIG_HIGHMEM
   //超出了内核段的物理内存。只有在可用物理内存多余可映射的内核内存时,才会访问该域,显然一般只有32位系统上才会有可能有该区域。通过kmap及kunmap将该域内存映射到内核虚拟地址空间。
	ZONE_HIGHMEM,
#endif
//伪内存区域,用来防止内存区域
	ZONE_MOVABLE,
#ifdef CONFIG_ZONE_DEVICE
//为了支持持久内存热拔插增加的内存区域,每个内存区域用一个zone结构体控制
	ZONE_DEVICE,
#endif
	__MAX_NR_ZONES

};

ZONE的数据结构如下:

struct zone {
    unsigned long _watermark[NR_WMARK];
    unsigned long watermark_boost;
 
    unsigned long nr_reserved_highatomic;
    long lowmem_reserve[MAX_NR_ZONES];
    const char      *name;
    struct free_area    free_area[MAX_ORDER];
    unsigned long       flags;
}
  • 水位: 每个zone都有三个水位值
    WMARK_MIN: 最低水位,代表内存显然已经不够用了。
    WMARK_LOW:低水位,代表内存已经开始吃紧,需要启动回收页内核线性kswapped去回收内存
    WMARK_HIGH:高水位,代表内存还是足够的。
enum zone_watermarks {
    WMARK_MIN,
    WMARK_LOW,
    WMARK_HIGH,
    NR_WMARK
};
  • lowmem_reserve: 这个zone区域保留的内存,当系统内存出现不足的时候,系统就会使用这些保留的内存来做一些操作,比如使用保留的内存进程用来可以释放更多的内存
  • free_area:用于维护空闲的页,其中数组的下标对应页的order数。最大order目前是11,free_are的结构体。
struct free_area {
    struct list_head    free_list[MIGRATE_TYPES];
    unsigned long       nr_free;
};
  • free_list:用于将各个order的free page链接在一起
  • nr_free: 代表这个order中还有多个空闲page
    而每一个order中又根据迁移类型分成了几组。
enum migratetype {
    MIGRATE_UNMOVABLE,
    MIGRATE_MOVABLE,
    MIGRATE_RECLAIMABLE,
#ifdef CONFIG_CMA
    MIGRATE_CMA,
#endif
    MIGRATE_PCPTYPES, /* the number of types on the pcp lists */
    MIGRATE_HIGHATOMIC = MIGRATE_PCPTYPES,
#ifdef CONFIG_MEMORY_ISOLATION
    MIGRATE_ISOLATE,    /* can't allocate from here */
#endif
    MIGRATE_TYPES
};
MIGRATE_UNMOVABLE: 不可移动的页
MIGRATE_MOVABLE:可以移动的页,当出现内存碎片的时候,就可以移动此页,腾出更多连续的空间
MIGRATE_RECLAIMABLE:可以回收的页
MIGRATE_CMA:用于专门CMA申请的页
MIGRATE_PCPTYPES:per-cpu的使用的
MIGRATE_HIGHATOMIC:高阶原子分配
MIGRATE_ISOLATE:隔离,不能从此分配页

【Linux 内核 内存管理】物理内存组织结构_第3张图片
可以通过我当前的设备,查看page的信息cat /proc/pagetypeinfo
【Linux 内核 内存管理】物理内存组织结构_第4张图片
可以很清晰的看到各个order中不同类型,不同zone,page的剩余情况。当然也可以从cat /proc/buddyinfo看各个page的剩余情况。
当然了我们的zone,也可以通过cat /proc/zoneinfo去查看zone的详细信息的。

root:/ # cat /proc/zoneinfo
Node 0, zone   Normal
  pages free     126204
        min      1251
        low      9254
        high     9566
        spanned  1308544
        present  1180543
        managed  1136476
        protection: (0, 24576)
      nr_free_pages 126204
      nr_zone_inactive_anon 984
      nr_zone_active_anon 61238
      nr_zone_inactive_file 423539
      nr_zone_active_file 122889
      nr_zone_unevictable 987
      nr_zone_write_pending 288
      nr_mlock     987
      nr_page_table_pages 13969
      nr_kernel_stack 36784
      nr_bounce    0
      nr_zspages   0
      nr_free_cma  60532
Node 0, zone  Movable
  pages free     680267
        min      866
        low      6404
        high     6620
        spanned  786432
        present  786432
        managed  786432
        protection: (0, 0)
      nr_free_pages 680267
      nr_zone_inactive_anon 0
      nr_zone_active_anon 104777
      nr_zone_inactive_file 0
      nr_zone_active_file 0
      nr_zone_unevictable 121
      nr_zone_write_pending 0
      nr_mlock     121
      nr_page_table_pages 0
      nr_kernel_stack 0
      nr_bounce    0
      nr_zspages   0
      nr_free_cma  0

2.3 物理页
每个物理页对应一个page结构体,称为页描述符。内存节点的pglist_data实例的成员node_mem_map指向该内存节点包含的所有物理页的页描述符组成的数组。
页是内存管理中的最小单位,页面中的内存其物理地址是连续的,每个物理页由struct page描述。为了节省内存,struct page是一个联合体。
页,又称为页帧,在内核当中,内存管理单元MMU(负责虚拟地址和物理地址转换的硬件)是把物理页page作为内存管理的基本单位。体系结构不同,支持的页大小也相同。
32位体系结构支持4kb的页;64位体系结构支持8kb的页;MIPS64架构体系支持16kb的页。
Linux内核源码分析:include/linux/mm_types.h

struct page {
	unsigned long flags;//原子标志,有些情况下会异步更新
 
	union {
		struct {	/* Page cache and anonymous pages */
			struct list_head lru;
			//如果最低位位0,则指向inode address_space 或为NULL
			//如果页映射为匿名地址,最低位置位,而且指针指向anon_vma对象
			struct address_space *mapping;
			pgoff_t index;		/* Our offset within mapping. */
 
			//由映射私有,不透明数据;
			//如果设置了PagePrivate,通常用于buffer_heads,
			//如果设置了PageSwapCache,则用于swp_entry_t
			//如果设置了PageBuddy 则用于伙伴系统中的阶
			unsigned long private;
		};
 
		struct {	/* slab, slob and slub */
			union {
				struct list_head slab_list;
				struct {	/* Partial pages */
					struct page *next;
#ifdef CONFIG_64BIT
					int pages;	/* Nr of pages left */
					int pobjects;	/* Approximate count */
#else
					short int pages;
					short int pobjects;
#endif
				};
			};
			struct kmem_cache *slab_cache; /* not slob */
			/* Double-word boundary */
			void *freelist;		/* first free object */
			union {
				void *s_mem;	/* slab: first object */
				unsigned long counters;		/* SLUB */
				struct {			/* SLUB */
					unsigned inuse:16;
					unsigned objects:15;
					unsigned frozen:1;
				};
			};
		};
...
}

你可能感兴趣的:(linux,linux,服务器,运维)