qemu内存管理以及vhost-user的协商机制下的前后端内存布局

概括来说，qemu和KVM在内存管理上的关系就是：在虚拟机启动时，qemu在qemu进程地址空间申请内存，即内存的申请是在用户空间完成的。通过kvm提供的API，把地址信息注册到KVM中，这样KVM中维护有虚拟机相关的slot，这些slot构成了一个完整的虚拟机物理地址空间。slot中记录了其对应的HVA，页面数、起始GPA等，利用它可以把一个GPA转化成HVA，这正是KVM维护EPT的技术核心。整个内存虚拟化可以分为两部分：qemu部分和kvm部分。qemu完成内存的申请，kvm实现内存的管理。

qemu与KVM内存管理的分工.png

qemu中地址空间分两部分，两个全局变量system_memory和system_IO，其中system_memory是所有memory_region的父object，他们只负责管理内存。
在KVM中，也有两个全局变量address_space_memory和address_space_memory_IO，与qemu中的memory_region对应，只有将HVA和GPA的对应关系注册到KVM模块的memslot，才可以生效成为EPT。

qemu内存管理以及vhost-user的协商机制下的前后端内存布局_第2张图片

system_memory和address_space_memory等的关系.png

在qemu 2.9的前端virtio和dpdk17.05的后端vhost-user构成的虚拟队列中，会率先通过socket建立连接，将qemu中virtio的内存布局传给vhost，vhost收到包（该消息机制有自己的协议，暂称为msg）后，分析其中的信息，这里面通信包含一套自己写的协议。包含以下内容，均是在刚建立连接时候传递的：

static const char *vhost_message_str[VHOST_USER_MAX] = {
    [VHOST_USER_NONE] = "VHOST_USER_NONE",
    [VHOST_USER_GET_FEATURES] = "VHOST_USER_GET_FEATURES",
    [VHOST_USER_SET_FEATURES] = "VHOST_USER_SET_FEATURES",
    [VHOST_USER_SET_OWNER] = "VHOST_USER_SET_OWNER",
    [VHOST_USER_RESET_OWNER] = "VHOST_USER_RESET_OWNER",
    [VHOST_USER_SET_MEM_TABLE] = "VHOST_USER_SET_MEM_TABLE",
    [VHOST_USER_SET_LOG_BASE] = "VHOST_USER_SET_LOG_BASE",
    [VHOST_USER_SET_LOG_FD] = "VHOST_USER_SET_LOG_FD",
    [VHOST_USER_SET_VRING_NUM] = "VHOST_USER_SET_VRING_NUM",
    [VHOST_USER_SET_VRING_ADDR] = "VHOST_USER_SET_VRING_ADDR",
    [VHOST_USER_SET_VRING_BASE] = "VHOST_USER_SET_VRING_BASE",
    [VHOST_USER_GET_VRING_BASE] = "VHOST_USER_GET_VRING_BASE",
    [VHOST_USER_SET_VRING_KICK] = "VHOST_USER_SET_VRING_KICK",
    [VHOST_USER_SET_VRING_CALL] = "VHOST_USER_SET_VRING_CALL",
    [VHOST_USER_SET_VRING_ERR]  = "VHOST_USER_SET_VRING_ERR",
    [VHOST_USER_GET_PROTOCOL_FEATURES]  = "VHOST_USER_GET_PROTOCOL_FEATURES",
    [VHOST_USER_SET_PROTOCOL_FEATURES]  = "VHOST_USER_SET_PROTOCOL_FEATURES",
    [VHOST_USER_GET_QUEUE_NUM]  = "VHOST_USER_GET_QUEUE_NUM",
    [VHOST_USER_SET_VRING_ENABLE]  = "VHOST_USER_SET_VRING_ENABLE",
    [VHOST_USER_SEND_RARP]  = "VHOST_USER_SEND_RARP",
    [VHOST_USER_NET_SET_MTU]  = "VHOST_USER_NET_SET_MTU",
};

其中我们最关心的就是vhost_user_set_mem_table:

static int
vhost_user_set_mem_table(struct virtio_net *dev, struct VhostUserMsg *pmsg)
{
    ...
    for (i = 0; i < memory.nregions; i++) {
        fd  = pmsg->fds[i];
        reg = &dev->mem->regions[i];

        reg->guest_phys_addr = memory.regions[i].guest_phys_addr;
        reg->guest_user_addr = memory.regions[i].userspace_addr;
        reg->size            = memory.regions[i].memory_size;
        reg->fd              = fd;

        mmap_offset = memory.regions[i].mmap_offset;
        mmap_size   = reg->size + mmap_offset;

        /* mmap() without flag of MAP_ANONYMOUS, should be called
         * with length argument aligned with hugepagesz at older
         * longterm version Linux, like 2.6.32 and 3.2.72, or
         * mmap() will fail with EINVAL.
         *
         * to avoid failure, make sure in caller to keep length
         * aligned.
         */
        alignment = get_blk_size(fd);
        if (alignment == (uint64_t)-1) {
            RTE_LOG(ERR, VHOST_CONFIG,
                "couldn't get hugepage size through fstat\n");
            goto err_mmap;
        }
        mmap_size = RTE_ALIGN_CEIL(mmap_size, alignment);

        mmap_addr = mmap(NULL, mmap_size, PROT_READ | PROT_WRITE,
                 MAP_SHARED | MAP_POPULATE, fd, 0);
        //对每个region调用mmap映射共享内存
        if (mmap_addr == MAP_FAILED) {
            RTE_LOG(ERR, VHOST_CONFIG,
                "mmap region %u failed.\n", i);
            goto err_mmap;
        }

    ...
    return 0;

err_mmap:
    free_mem_region(dev);
    rte_free(dev->mem);
    dev->mem = NULL;
    return -1;
}

另外，我们在实际运行系统的过程中发现，qemu的内存布局和vhost端的内存布局，虽是通过共享内存建立的，但是既不是一整块内存映射，也不是通过零碎的region一小块一小块的映射。它们的内存布局如下：

qemu内存管理以及vhost-user的协商机制下的前后端内存布局_第3张图片

virtio前后端的内存布局.png

在vhost这边只有两块region，而且像是将前端的内存region做了一个聚合得到的。回归代码，发现消息传递之前，传递的并非是memory_region变量，而是memory_region_section，在qemu的vhost_set_memory函数中，有这样一个操作：

if (add) {
        /* Add given mapping, merging adjacent regions if any */
        vhost_dev_assign_memory(dev, start_addr, size, (uintptr_t)ram);
    } else {
        /* Remove old mapping for this memory, if any. */
        vhost_dev_unassign_memory(dev, start_addr, size);
    }

将毗邻的memory_region合并了，这样就解释的通了。因为memory_region是一个树状结构，且有包含关系在里面，所以如果一个个传递，vhost里面用for循环进行映射到自己地址空间，效率低下，而且大多数内存vhost用不到，没有必要这么细分。

qemu内存管理以及vhost-user的协商机制下的前后端内存布局

你可能感兴趣的:(qemu内存管理以及vhost-user的协商机制下的前后端内存布局)