ApeLife

dpdk内存池rte_mempool实现

dpdk可以通过两种方式来管理内存，一种是调用rte_malloc，在大页内存上申请空间；另一种是使用内存池，也是通过在大页内存上申请空间方式。两种有什么区别呢？虽然两者最终都是在大页内存上获取空间，但内存池这种方式直接在大页内存上获取，绕开了rte_malloc调用。rte_malloc一般用于申请小的内存空间。通常在需要非常大的缓冲区时，在大页内存上一次性申请一个大的缓冲区，当做内存池，从而提高性能。

一、内存池的使用

内存池的使用非常简单，直接调用三个接口就好了。应用程序可以调用rte_mempool_create创建一个内存池；调用rte_mempool_get从内存池中获取内存空间；调用rte_mempool_put将不再使用的内存空间放回到内存池中。

以一个例子来说明: l2fwd二层转发时，通过rte_mempool_create创建了一个内存池，内存池中有NB_MBUF个元素。内存池创建好后，都会调用rte_pktmbuf_init初始化每一个元素。

l2fwd_pktmbuf_pool = rte_mempool_create("mbuf_pool", NB_MBUF,  MBUF_SIZE, 32,
				        sizeof(struct rte_pktmbuf_pool_private),
				        rte_pktmbuf_pool_init, NULL, 
                              rte_pktmbuf_init, NULL,rte_socket_id(), 0);

在eth_igb_rx_init接口初始化网卡接收队列时，会调用igb_alloc_rx_queue_mbufs接口从内存池中获取多个对象元素，用于存放从网卡直接发来的报文。这个接口内部最终会调用rte_mempool_get从内存池中获取内存空间

static int igb_alloc_rx_queue_mbufs(struct igb_rx_queue *rxq)
{
	for (i = 0; i < rxq->nb_rx_desc; i++) 
	{
		volatile union e1000_adv_rx_desc *rxd;
		//rte_rxmbuf_alloc就是从内存池中获取一个mbuf元素，里面会调用rte_mempool_get
		struct rte_mbuf *mbuf = rte_rxmbuf_alloc(rxq->mb_pool);
		dma_addr = rte_cpu_to_le_64(RTE_MBUF_DATA_DMA_ADDR_DEFAULT(mbuf));
		//dma地址之间指向这个mbuf, 相当于告诉网卡，收到报文后之间放到这个mbuf中。
		rxd = &rxq->rx_ring[i];
		rxd->read.hdr_addr = dma_addr;
		rxd->read.pkt_addr = dma_addr;
		rxe[i].mbuf = mbuf;
	}
}

当mbuf不在使用了，那就需要释放他所占用的内存空间，rte_pktmbuf_free接口用于释放一个mbuf空间，内部最终调用rte_mempool_put将已经申请的空间放回到内存池中，相当于回收以便这个空间后续可以被使用。

void rte_pktmbuf_free(struct rte_mbuf *m)
{
	//内存回收，将不再使用的对象重新放回到内存池
	rte_mempool_put(m->pool, m);
}

二、内存池的实现

1、内存池的创建

内存池的创建，在rte_mempool_create接口中完成。这个接口主要是创建下面这样一种结构。在大页内存中开辟一个连续的大缓冲区当做内存池。将这个内存池进行分割，头部为struct rte_mempool内存池结构；紧接着是内存池的私有结构大小，这个由应用层自己设置，每个创建内存池的应用进程都可以指定不同的私有结构；最后是多个连续的对象元素，这些对象元素都是处于同一个内存池中。每个对象元素又有对象的头部，对象的真实数据区域，对象的尾部组成。这里所说的对象元素，其实就是应用层要开辟的真实数据空间，例如应用层自己定义的结构体变量等

知道了创建共享内存主要维护的数据结构，接下里分析代码的实现就简单了。

首先统计每一个对象元素的的大小，包括对象的头部，对象的真实数据区域，对象的尾部所占的空间；仅接着统计这个内存池的总大小，由内存池头部、私有结构以及所有对象空间组成。

//计算每一个对象元素的大小
rte_mempool_calc_obj_size(elt_size, flags, &objsz);
//统计内存池头部的大小
mempool_size = MEMPOOL_HEADER_SIZE(mp, pg_num) + private_data_size;
//计算整个内存池的总大小，包括内存池头部与所有的对象元素
mempool_size += (size_t)objsz.total_size * n;

r = rte_ring_create(rg_name, rte_align32pow2(n+1), socket_id, rg_flags);

接着从大页内存中直接获取一个足够大的缓冲区，当做内存池使用，并给内存池头部结构struct rte_mempool赋值。此时内存池头部，私有结构，以及每个对象元素都在同一个缓冲区中，属于同一个内存池。内存池创建好后，会通过遍历的方式对内存池中的每一个对象元素进行初始化。初始化的逻辑等会在分析，先看整体流程。

//从内存区中直接获取一个足够大的内存区，存放内存池
mz = rte_memzone_reserve(mz_name, mempool_size, socket_id, mz_flags);
//给内存池结构赋值
mp = startaddr;
memset(mp, 0, sizeof(*mp));
snprintf(mp->name, sizeof(mp->name), "%s", name);
mp->phys_addr = mz->phys_addr;
//例如rte_pktmbuf_init
//遍历每个内存池中的元素，进行初始化
mempool_populate(mp, n, 1, obj_init, obj_init_arg);

将内存池插入到内存池链表中。每创建一个内存池，都会创建一个链表节点，然后插入到链表中。因此这个链表记录着当前系统创建了多少内存池。

//创建内存池链表节点
te = rte_zmalloc("MEMPOOL_TAILQ_ENTRY", sizeof(*te), 0);
//内存池链表节点插入到内存池链表中
te->data = (void *) mp;
RTE_EAL_TAILQ_INSERT_TAIL(RTE_TAILQ_MEMPOOL, rte_mempool_list, te);

现在来看每一个元素的初始化，在rte_mempool_create创建共享内存池，还会创建一个ring。这个ring队列有什么用呢？这是用来管理内存池中的每个对象元素的，记录内存池中哪些对象使用了，哪些对象没有被使用。当初始化好一个对象元素后，会将这个对象元素放到这个ring队列中，在所有元素都初始化完成后，此时ring队列存放了内存池上所有的对象元素。需要注意的是ring队列存放的是对象元素的指针而已，而不是对象元素本身的拷贝。应用程序要申请内存时，调用rte_mempool_get，最终是从这个ring队列中获取元素的；应用程序调用rte_mempool_put将内存回收时，也是将要回收的内存空间放到这个ring队列中。因此内存池与ring队列相互关联起来。

r = rte_ring_create(rg_name, rte_align32pow2(n+1), socket_id, rg_flags);

static void mempool_add_elem(...)
{
	//例如rte_pktmbuf_init
	//内存池上的某个对象元素初始化
	if (obj_init)
	{
		obj_init(mp, obj_init_arg, obj, obj_idx);
	}
	//将初始化完成的对象元素入队
	rte_ring_sp_enqueue(mp->ring, obj);
}

此时内存池结构，ring队列就关联起来了。来看下这两者之间的关联结构。

2、内存的申请

在创建好内存池后，当应用程序需要从内存池中获取一个对象元素的空间时，可以调用rte_mempool_get从内存池中获取一个元素空间。优先从每个cpu本身的缓存中查找是否有空闲的对象元素，如果有就从cpu本地缓存中获取；如果cpu本地缓存没有空闲的对象元素，则从ring队列中取出一个对象元素。这里所说的cpu本地缓存并不是cpu硬件上的cache, 而是应用层为每个cpu准备的缓存。之所以要维护一个cpu本地缓存是为了尽量减少多个cpu同时访问内存池上的元素，减少竞争的发生。

int rte_mempool_get(struct rte_mempool *mp, void **obj_table, unsigned n)
{
#if RTE_MEMPOOL_CACHE_MAX_SIZE > 0
	//从当前cpu应用层缓冲区中获取
	cache = &mp->local_cache[lcore_id];
	cache_objs = cache->objs;
	for (index = 0, len = cache->len - 1; index < n; ++index, len--, obj_table++)
	{
		*obj_table = cache_objs[len];
	}
	return 0;
#endif
	/* get remaining objects from ring */
	//直接从ring队列中获取
	ret = rte_ring_sc_dequeue_bulk(mp->ring, obj_table, n);
}

3、内存的释放

当应用层已经不在需要使用某个内存时，需要将他进行回收，以免造成内存泄漏，进而导致内存池没有空间了，其他应用程序无法在获取内存空间。可以调用rte_mempool_put将不再使用的内存放回到内存池中。首先也是查看cpu本地缓存是否还有空间，如果有则优先把元素放到cpu本地缓存；如果没有则将要释放的对象元素放回到ring队列中。来看下这个接口的实现。

int rte_mempool_put(struct rte_mempool *mp, void **obj_table, unsigned n)
{
#if RTE_MEMPOOL_CACHE_MAX_SIZE > 0
	//在当前cpu本地缓存有空间的场景下， 先放回到本地缓存。
	cache = &mp->local_cache[lcore_id];
	cache_objs = &cache->objs[cache->len];
	for (index = 0; index < n; ++index, obj_table++)
	{
		cache_objs[index] = *obj_table;
	}
	//缓冲达到阈值，刷到队列中
	if (cache->len >= flushthresh) 
	{
		rte_ring_mp_enqueue_bulk(mp->ring, &cache->objs[cache_size], cache->len - cache_size);
		cache->len = cache_size;
	}
        return 0
#endif
	//直接放回到ring队列
	rte_ring_sp_enqueue_bulk(mp->ring, obj_table, n);
}

到此为止内存池的实现就已经分析完成了，内存池也是dpdk报文能够高速转发，零拷贝的基础。

DPDK源码分析之DPDK技术简介 lingshengxiyou c++linux DPDK 服务器 linux c++dpdk 虚拟机
Cache和内存技术1.Cache一致性多核处理器同时访问同一段cacheline时，会出现写回冲突的情况，操作系统解决这个问题会消耗一部分性能，DPDK采用了两个技术来解决这个问题：对于共享的数据，每个核都定义自己的备份lcore[RTE_MAX_LCORE]，这样多核处理事务时只处理自己的部分，lcore[idx]利用单网卡有着多队列的能力，当多核处理同一个网卡的数据包时，进行分队列处理，例如
DPDK源码分析之l2fwd lingshengxiyou linux DPDK c++网络服务器 linux dpdk 虚拟机
什么是L2转发2层转发，即对应OSI模型中的数据链路层，该层以Mac帧进行传输，运行在2层的比较有代表性的设备就是交换机了。当交换机收到数据时，它会检查它的目的MAC地址，然后把数据从目的主机所在的接口转发出去。交换机之所以能实现这一功能，是因为交换机内部有一个MAC地址表，MAC地址表记录了网络中所有MAC地址与该交换机各端口的对应信息。某一数据帧需要转发时，交换机根据该数据帧的目的MAC地址来
DPDK系列之三十二DPDK并行机制及弹性扩展分析 fpcc 网络开发 DPDK
一、DPDK中并行机制及弹性扩展在前面的简介中对并行机制进行了一个初步的分析，在DPDK中，对并行的支持是一个整体的流程。在外面，有多核心并行和绑定等的支持，在内部有多线程和多队列网卡以及无锁编程的应用。而从一些算法上则提供了负载均衡等自动控制，从而才能保证在整体上达到最优的并行效果。也正是通过上面的一系列手段的综合运用，打开了千万并发的突破口。二、DPDK源码分析1、CPU亲和性和独占在Linu
虚拟机dpdk环境搭建 ApeLife dpdk源码分析
一、准备环境磨刀不误砍柴工，要想更好的进行dpdk源码分析，需要搭建一套dpdk环境，观察数据包的转发流程。由于个人电脑条件有限，只能在vmware虚拟机环境下搭建dpdk环境。dpdk源码分析系列的所有文章都是基于这套环境来分析。1、vmware虚拟机上安装ubuntun系统，ubuntu版本为12.04；linux内核版本为3.13.0-32-generic。我的系统架构是32位，可以通过un
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

dpdk内存池rte_mempool实现

你可能感兴趣的:(dpdk源码分析)