dog250

Linux3.5内核对路由子系统的重构对Redirect路由以及neighbour子系统的影响

几年前，我记得写过好几篇关于Linux去除对路由cache支持的文章，路由cache的下课来源于一次对路由子系统的重构，具体原因就不再重复说了，本文将介绍这次重构对Redirect路由以及neighbour子系统的影响。

事实上，直到最近3个月我才发现这些影响是如此之大，工作细节不便详述，这里只是对关于开放源代码Linux内核协议栈的一些实现上的知识进行一个汇总，以便今后查阅，如果有谁也因此获益，则不胜荣幸。

路由项rtable，dst_entry与neighbour

IP协议栈中，IP发送由两部分组成：

IP路由的查找

要想成功发送一个数据包，必须要有响应的路由，这部分是由IP协议规范的路由查找逻辑完成的，路由查找细节并不是本文的要点，对于Linux系统，最终的查找结果是一个rtable结构体对象，表示一个路由项，其内嵌的第一个字段是一个dst_entry结构体，因此二者可以相互强制转换，其中重要的字段就是：rt_gateway
　　rt_gateway只是要想把数据包发往目的地，下一跳的IP地址，这是IP逐跳转发的核心。到此为止，IP路由查找就结束了。

IP neighbour的解析

在IP路由查找阶段已经知道了rt_gateway，那么接下来就要往二层落实了，这就是IP neighbour解析的工作，我们知道rt_gateway就是neighbour，现在需要将它解析成硬件地址。所谓的neighbour就是逻辑上与本机直连的所有网卡设备，“逻辑上直连”意味着，对于以太网而言，整个以太网上所有的设备都可以是本机的邻居，关键看谁被选择为发送当前包的下一跳，而对于POINTOPOINT设备而言，则其邻居只有唯一的一个，即对端设备，唯一意味着不需要解析硬件地址！值得注意的是，无视这个区别将会带来巨大的性能损失，这个我将在本文的最后说明。

声明：

为了描述方便，以下将不再提起rtable，将路由查找结果一律用dst_entry代替！下面的代码并不是实际上的Linux协议栈的代码，而是为了表述方便抽象而成的伪代码，因此dst_entry并不是内核中的dst_entry结构体，而只是代表一个路由项！这么做的理由是，dst_entry表示的是与协议无关的部分，本文的内容也是与具体协议无关的，因此在伪代码中不再使用协议相关的rtable结构体表示路由项。

Linux内核对路由子系统的重构

在Linux内核3.5版本之前，路由子系统存在一个路由cache哈希表，它缓存了最近最经常使用的一些dst_entry(IPv4即rtable)路由项，对数据包首先以其IP地址元组信息查找路由cache，如果命中便可以直接取出dst_entry，否则再去查找系统路由表。
　　在3.5内核中，路由cache不见了，具体缘由不是本文的重点，已有其它文章描述，路由cache的去除引起了对neighbour子系统的副作用，这个副作用被证明是有益的，下面的很大的篇幅都花在这个方面，在详细描述重构对neighbour子系统的影响之前，再简单说说另一个变化，就是Redirect路由的实现的变化。
　　所谓的Redirect路由肯定是对本机已经存在的路由项的Redirect，然而在早期的内核中，都是在不同的位置比如inet_peer中保存重定向路由，这意味着路由子系统与协议栈其它部分发生了耦合。在早期内核中，其实不管Redirect路由项存在于哪里，最终它都要进入路由cache才能起作用，可是在路由cache完全没有了之后，Redirect路由保存的位置问题才暴露出来，为了“在路由子系统内部解决Redirect路由问题”，重构后的内核在路由表中为每一个路由项保存了一个exception哈希表，一个路由项Fib_info类似于下面的样子：

Fib_info {
　　Address nexhop;
　　Hash_list exception;
};

这个exception表的表项类似下面的样子：

Exception_entry {
　　Match_info info;
　　Address new_nexthop;
};

这样的话，当收到Reidrect路由的时候，会初始化一个Exception_entry记录并且插入到相应的exception哈希表，在查询路由的时候，比如说最终找到了一个Fib_info，在构建最终的dst_entry之前，要先用诸如源IP信息之类的Match_info去查找exception哈希表，如果找到一个匹配的Exception_entry，则不再使用Fib_info中的nexhop构建dst_entry，而是使用找到的Exception_entry中的new_nexthop来构建dst_entry。
在对Redirect路由进行了简单的介绍之后，下面的篇幅将全部用于介绍路由与neighbour的关系。

重构对neighbour子系统的副作用

以下是网上摘录的关于在路由cache移除之后对neighbour的影响：
Neighbours
>Hold link-level nexthop information (for ARP, etc.)
>Routing cache pre-computed neighbours
>Remember: One “route” can refer to several nexthops
>Need to disconnect neighbours from route entries.
>Solution:
　　Make neighbour lookups cheaper (faster hash, etc.)
　　Compute neighbours at packet send time ...
　　.. instead of using precomputed reference via route
>Most of work involved removing dependenies on old setup
事实上二者不该有关联的，路由子系统和neighbour子系统是两个处在上下不同层次的子系统，合理的方式是通过路由项的nexthop值来承上启下，通过一个唯一的neighbour查找接口关联即可：

dst_entry = 路由表查找(或者路由cache查找，通过skb的destination作键值)
nexthop = dst_entry.nexthop
neigh = neighbour表查找(通过nexthop作为键值)

然而Linux协议栈的实现却远远比这更复杂，这一切还得从3.5内核重构前开始说起。

重构前

在重构前，由于存在路由cache，凡是在cache中可以找到dst_entry的skb，便不用再查找路由表，路由cache存在的假设是，对于绝大多数的skb，都不需要查找路由表，理想情况下，都可以在路由cache中命中。对于neighbour而言，显而易见的做法是将neighbour和dst_entry做绑定，在cache中找到了dst_entry，也就一起找到了neighbour。也就是说，路由cache不仅仅缓存dst_entry，还缓存neighbour。
　　事实上在3.5内核前，dst_entry结构体中有一个字段就是neighbour，表示与该路由项绑定的neighour，从路由cache中找到路由项后，直接取出neighbour就可以直接调用其output回调函数了。
　　我们可以推导出dst_entry与neighbour的绑定时期，那就是查找路由表之后，即在路由cache未命中时，进而查找路由表完成后，将结果插入到路由cache之前，执行一个neighbour绑定的逻辑。
　　和路由cache一样，neighbour子系统也维护着一张neighbour表，并执行着替换，更新，过期等状态操作，这个neighbour表和路由cache表之间存在着巨大的耦合，在描述这些耦合前，我们先看一下整体的逻辑：

func ip_output(skb):
        dst_entry = lookup_from_cache(skb.destination);
        if dst_entry == NULL
        then
                dst_entry = lookup_fib(skb.destination);
                nexthop = dst_entry.gateway?:skb.destination;
                neigh = lookup(neighbour_table, nexthop);
                if neigh == NULL
                then
                        neigh = create(neighbour_table, nexthop);
                        neighbour_add_timer(neigh);
                end
                dst_entry.neighbour = neigh;
                insert_into_route_cache(dst_entry);
        end
        neigh = dst_entry.neighbour;
        neigh.output(neigh, skb);
endfunc
---->TO Layer2

试看以下几个问题：
如果neighbour定时器执行时，某个neighbour过期了，可以删除吗？
如果路由cache定时器执行时，某条路由cache过期了，可以删除吗？
如果可以精确回答上述两个问题，便对路由子系统和neighbour子系统之间的关系足够了解了。我们先看第一个问题。
　　如果删除了neighbour，由于此时与该neighbour绑定的路由cache项可能还在，那么在后续的skb匹配到该路由cache项时，便无法取出和使用neighbour，由于dst_entry和neighbour的绑定仅仅发生在路由cache未命中的时候，此时无法执行重新绑定，事实上，由于路由项和neighbour是一个多对一的关系，因此neighbour中无法反向引用路由cache项，通过dst_entry.neighbour引用的一个删除后的neighbour就是一个野指针从而引发oops最终内核panic。因此，显而易见的答案就是即便neighbour过期了，也不能删除，只能标记为无效，这个通过引用计数可以做到。现在看第二个问题。
　　路由cache过期了，可以删除，但是要记得递减与该路由cache项绑定的neighbour的引用计数，如果它为0，把neighbour删除，这个neighbour就是第一个问题中在neighbour过期时无法删除的那类neighbour。由此我们可以看到，路由cache和neighbour之间的耦合关系导致与一个dst_entry绑定的neighbour的过期删除操作只能从路由cache项发起，除非一个neighbour没有同任何一个dst_entry绑定。现修改整体的发送逻辑如下：

func ip_output(skb):
        dst_entry = lookup_from_cache(skb.destination);
        if dst_entry == NULL
        then
                dst_entry = lookup_fib(skb.destination);
                nexthop = dst_entry.gateway?:skb.destination;
                neigh = lookup(neighbour_table, nexthop);
                if neigh == NULL
                then
                        neigh = create(neighbour_table, nexthop);
                        neighbour_add_timer(neigh);
                end
                inc(neigh.refcnt);
                dst_entry.neighbour = neigh;
                insert_into_route_cache(dst_entry);
        end
        neigh = dst_entry.neighbour;
        # 如果是INVALID状态的neigh，需要在output回调中处理
        neigh.output(neigh, skb);
endfunc
   
func neighbour_add_timer(neigh):
        inc(neigh.refcnt);
        neigh.timer.func = neighbour_timeout;
        timer_start(neigh.timer);
endfunc

func neighbour_timeout(neigh):
        cnt = dec(neigh.refcnt);
        if cnt == 0
        then
                free_neigh(neigh);
        else
                neigh.status = INVALID;
        end
endfunc

func dst_entry_timeout(dst_entry):
        neigh = dst_entry.neighbour;
        cnt = dec(neigh.refcnt);
        if cnt == 0
        then
                free_neigh(neigh);
        end
        free_dst(dst_entry);
endfunc

我们最后看看这会带来什么问题。
　　如果neighbour表的gc参数和路由cache表的gc参数不同步，比如neighbour过快到期，而路由cache项到期的很慢，则会有很多的neighbour无法删除，造成neighbour表爆满，因此在这种情况下，需要强制回收路由cache，这是neighbour子系统反馈到路由子系统的一个耦合，这一切简直太乱了：

func create(neighbour_table, nexthop):
retry:
        neigh = alloc_neigh(nexthop);
        if neigh == NULL or neighbour_table.num > MAX
        then
                shrink_route_cache();
                retry;
        end
endfunc

关于路由cache的gc定时器与neighbour子系统的关系，有一篇写得很好的关于路由cache的文章《 Tuning Linux IPv4 route cache》如下所述：
You may find documentation about those obsolete sysctl values:
net.ipv4.route.secret_interval has been removed in Linux 2.6.35; it was used to trigger an asynchronous flush at fixed interval to avoid to fill the cache.
net.ipv4.route.gc_interval has been removed in Linux 2.6.38. It is still present until Linux 3.2 but has no effect. It was used to trigger an asynchronous cleanup of the route cache. The garbage collector is now considered efficient enough for the job.
UPDATED: net.ipv4.route.gc_interval is back for Linux 3.2. It is still needed to avoid exhausting the neighbour cache because it allows to cleanup the cache periodically and not only above a given threshold. Keep it to its default value of 60.

这一切在3.5内核之后发生了改变！！

重构后

经过了重构，3.5以及此后的内核去除了对路由cache的支持，也就是说针对每一个数据包都要去查询路由表(暂不考虑在socket缓存dst_entry的情形)，不存在路由cache也就意味着不需要处理cache的过期和替换问题，整个路由子系统成了一个完全无状态的系统，因此，dst_entry再也无需和neighbour绑定了，既然每次都要重新查找路由表开销也不大，每次查找少得多的neighbour表的开销更是可以忽略(虽然查表开销无法避免)，因此dst_entry去除了neighbour字段，IP发送逻辑如下：

func ip_output(skb):
        dst_entry = lookup_fib(skb.destination);
        nexthop = dst_entry.gateway?:skb.destination;
        neigh = lookup(neighbour_table, nexthop);
        if neigh == NULL
        then    
                neigh = create(neighbour_table, nexthop);
        end
        neigh.output(skb);
endfunc

路由项不再和neighbour关联，因此neighbour表就可以独立执行过期操作了，neighbour表由于路由cache的gc过慢而导致频繁爆满的情况也就消失了。
　　不光如此，代码看上去也清爽了很多。

一个细节：关于POINTOPOINT和LOOPBACK设备的neighbour

有很多讲述Linux neighbour子系统的资料，但是几乎无一例外都是在说ARP的，各种复杂的ARP协议操作，队列操作，状态机等，但是几乎没有描述ARP之外的关于neighbour的资料，因此本文在最后这个小节中准备补充关于这方面的一个例子。还是从问题开始：
一个NOARP的设备，比如POINTOPOINT设备发出的skb，其neighbour是谁？
在广播式以太网情况下，要发数据包到远端，需要解析“下一跳”地址，即每一个发出的数据包都要经由一个gateway发出去，这个gateway被抽象为一个同网段的IP地址，因此需要用ARP协议落实到确定的硬件地址。但是对于pointopoint设备而言，与该设备对连的只有固定的一个，它并没有一个广播或者多播的二层，因此也就没有gateway的概念了，或者换句话说，其下一跳就是目标IP地址本身。
　　根据上述的ip_output函数来看，在查找neighbour表之前，使用的键值是nexthop，对于pointopoint设备而言，nexthop就是skb的目标地址本身，如果找不到将会以此为键值进行创建，那么试想使用pointopint设备发送的skb的目标地址空间十分海量的情况，将会有海量的neighbour在同一时间被创建，这些neighbour将会同时插入到neighbour表中，而这必然要遭遇到锁的问题，事实上，它们的插入操作将全部自旋在neighbour表读写锁的写锁上！！
　　neigh_create的逻辑如下：

struct neighbour *neigh_create(struct neigh_table *tbl, const void *pkey,
                   struct net_device *dev)
{
    struct neighbour *n1, *rc, *n = neigh_alloc(tbl);
　　......
    write_lock_bh(&tbl->lock);
　　// 插入hash表
    write_unlock_bh(&tbl->lock);
    .......
}

在海量目标IP的skb通过pointopoint设备发送的时候，这是一个完全避不开的瓶颈！然而内核没有这么傻。它采用了以下的方式进行了规避：

__be32 nexthop = ((struct rtable *)dst)->rt_gateway?:ip_hdr(skb)->daddr;
if (dev->flags&(IFF_LOOPBACK|IFF_POINTOPOINT))
　　nexthop = 0;

这就意味着只要发送的pointopint设备相同，且伪二层(比如IPGRE的情况)信息相同，所有的skb将使用同一个neighbour，不管它们的目标地址是否相同。在IPIP Tunnel的情形下，由于这种设备没有任何的二层信息，这更是意味着所有的通过IPIP Tunnel设备的skb将使用一个单一的neighbour，即便是使用不同的IPIP Tunnel设备进行发送。
但是在3.5内核重构之后，悲剧了！
　　我们直接看4.4的内核吧！

static inline __be32 rt_nexthop(const struct rtable *rt, __be32 daddr)
{
    if (rt->rt_gateway)
        return rt->rt_gateway;
    return daddr;
}
static int ip_finish_output2(struct net *net, struct sock *sk, struct sk_buff *skb)
{
　　......
    nexthop = (__force u32) rt_nexthop(rt, ip_hdr(skb)->daddr);
    neigh = __ipv4_neigh_lookup_noref(dev, nexthop);
    if (unlikely(!neigh))
        neigh = __neigh_create(&arp_tbl, &nexthop, dev, false);
    if (!IS_ERR(neigh)) {
        int res = dst_neigh_output(dst, neigh, skb);
        return res;
    }
　　......
}

可以看到，dev->flags&(IFF_LOOPBACK|IFF_POINTOPOINT)这个判断消失了！这意味着内核变傻了。上一段中分析的那种现象在3.5之后的内核中将会发生，事实上也一定会发生。
　　遭遇这个问题后，在没有详细看3.5之前的内核实现之前，我的想法是初始化一个全局的dummy neighbour，它就是简单的使用dev_queue_xmit进行direct out：

static const struct neigh_ops dummy_direct_ops = {
    .family =        AF_INET,
    .output =        neigh_direct_output,
    .connected_output =    neigh_direct_output,
};
struct neighbour dummy_neigh;
void dummy_neigh_init()
{
    memset(&dummy_neigh, 0, sizeof(dummy_neigh));
    dummy_neigh.nud_state = NUD_NOARP;
    dummy_neigh.ops = &dummy_direct_ops;
    dummy_neigh.output = neigh_direct_output;
    dummy_neigh.hh.hh_len = 0;
}

static inline int ip_finish_output2(struct sk_buff *skb)
 {
　　......
     nexthop = (__force u32) rt_nexthop(rt, ip_hdr(skb)->daddr);
    if (dev->type == ARPHRD_TUNNEL) {
        neigh = &dummy_neigh;
    } else {
        neigh = __ipv4_neigh_lookup_noref(dev, nexthop);
    }
     if (unlikely(!neigh))
         neigh = __neigh_create(&arp_tbl, &nexthop, dev, false);
　　......
 }

后来看了3.5内核之前的实现，发现了：

if (dev->flags&(IFF_LOOPBACK|IFF_POINTOPOINT))
　　nexthop = 0;

于是决定采用这个，代码更少也更优雅！然后就产生了下面的patch：

diff --git a/net/ipv4/ip_output.c b/net/ipv4/ip_output.c
--- a/net/ipv4/ip_output.c
+++ b/net/ipv4/ip_output.c
@@ -202,6 +202,8 @@ static int ip_finish_output2(struct net *net, struct sock *sk, struct sk_buff *s

        rcu_read_lock_bh();
        nexthop = (__force u32) rt_nexthop(rt, ip_hdr(skb)->daddr);
+       if (dev->flags & (IFF_LOOPBACK | IFF_POINTOPOINT))
+               nexthop = 0;
        neigh = __ipv4_neigh_lookup_noref(dev, nexthop);
        if (unlikely(!neigh))
                neigh = __neigh_create(&arp_tbl, &nexthop, dev, false);

什么是手机的boot分区王景程智能手机模块测试
什么是手机的Boot分区？Boot分区（BootPartition）是Android设备启动时最关键的分区，它包含了引导系统所需的核心文件，包括Linux内核（Kernel）和启动镜像（Ramdisk）。当你开机时，手机的Bootloader（引导加载程序）会先读取Boot分区的内容，然后加载操作系统。Boot分区的作用Boot分区的主要作用是：加载Linux内核：内核（Kernel）是Andro
Linux 内核网络设备驱动编程：私有协议支持 109702008 编程 #C语言网络人工智能 linux 网络
一、structnet_device的通用性与私有协议的使用structnet_device是Linux内核中用于描述网络设备的核心数据结构，它不仅限于TCP/IP协议，还可以用于支持各种类型的网络协议，包括私有协议。其原因如下：协议无关性：structnet_device的设计是通用的，它本身并不依赖于任何特定的网络协议。它提供了一个抽象的接口，用于管理网络设备的初始化、配置和数据收发等操作，而
如何禁止Linux内核打印,一种更为合理的Linux内核打印机制虎斑爱读书如何禁止Linux内核打印
2020-04-26关键字：printk_ratelimit、printk_ratelimited在Linux内核开发中，几乎所有的日志、信息的打印都是通过printk()函数实现的。printk首先会将所有来自程序的信息都放到一个缓冲区中，然后各个“监控程序”再根据自己的需要将这些信息读取出来。如console会将日志信息直接显示在屏幕上等。Linux内核中的日志缓冲区本质上就是一个环形FIFO
early_printk函数川渝小神丢 Linux系统
分析Linux内核启动流程时可以知道，在调用setup_arch函数之前就已经调用过printk函数了，但是这个时候的printk函数只是将打印信息放在缓存区中，并没有打印到控制台上，因为这个时候控制台还没有被初始化。只有在start_kernel函数中的console_init函数被调用后，控制台才会被注册、初始化，printk函数打印的内容才会被真正地输出到屏幕上。如果想在console_in
Android系统架构与四大组件 Tyssen Android开发系列教程 android开发系统架构
本篇博文主要讲解Android的系统架构。对于Android开发者来说，有必要了解一下Android应用程序是如何运行的。Android是一个移动操作系统，它大致分为四层，即Linux内核层，库和运行时，Framework层和应用层。Android的体系架构鼓励系统组件重用，共享组件数据，并且定义组件的访问控制权限。可以说，这些层次结构即是相互独立，又是相互关联的。一Android系统架构1.Li
什么是“脚本”？ moqiyong666 Linux
脚本（Script），是使用一种特定的描述性语言，依据一定的格式编写的可执行文件。SQL脚本，是包含一到多个sql命令的sql语句，我们可以将这些sql脚本放在一个文本文件中（我们称之为“sql脚本文件”），然后通过相关的命令执行这个sql脚本文件。Shell、Linux命令的区别：shell翻译成壳的意思，它是包裹在linux内核外层的、一个可通过一系列的linux命令对操作系统发出相关指令的人
Linux-C/C++《C/9、信号：基础》(基本概念、信号分类、信号传递等) YH_DevJourney Linux-C/C++学习专栏 linux c语言 c++
本章将讨论信号，虽然信号的基本概念比较简单，但是其所涉及到的细节内容比较多，所以本章篇幅也会相对比较长。事实上，在很多应用程序当中，都会存在处理异步事件这种需求，而信号提供了一种处理异步事件的方法，所以信号机制在Linux早期版本中就已经提供了支持，随着Linux内核版本的更新迭代，其对信号机制的支持更加完善。本章将会讨论如下主题内容。信号的基本概念；信号的分类、Linux提供的各种不同的信号
科普：“git“与“github“ 人工干智能安装应用架构 git github
Git与GitHub的关系可以理解为：Git是一种软件工具，而GitHub则是一个在线平台，它们是“一家子”。二者的关联最直接体现在你通过Git在GitHub仓库中clone软件包到你的机器中来。具体来说：一、Git定义：Git是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目版本管理。它由LinusTorvalds开发，最初是为了帮助管理Linux内核开发。特点：分布式：开发者
Linux、Docker、Redis常见面试题百百味 linux docker redis
1.Linux什么是Linux？Linux是一种基于UNIX的操作系统，最初是由LinusTorvalds引入的。它基于Linux内核，可以运行在由Intel，MIPS，HP，IBM，SPARC和Motorola制造的不同硬件平台上。Linux中另一个受欢迎的元素是它的吉祥物，一个名叫Tux的企鹅形象。UNIX和LINUX有什么区别？Unix最初是作为BellLaboratories的专有操作系统
开发工具篇第二讲：git使用技巧从基础到进阶(快速入门/高阶用法/git别名/项目实战/gitLab) 程序员 jet_qi 常用开发工具 git java rebase cherry-pick
git是一个开源的分布式版本控制系统，可以有效高速地处理从很小到非常大的项目版本管理。它是LinusTorvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件，git作为版本管理工具，程序员是必须要掌握的。本文是开发工具篇第二讲：主要介绍了git的常规使用方法及在日常开发实战场景中git的应用。文章目录1、认识git2、git原理2.1、git与其他版本管理系统的主要区别2.
Linux内核中的双向链表list_head ioriwc linux 链表运维
双向链表在Linux内核中使用非常多，它是内核各种队列、栈的基础，相关的结构定义和函数均在include/linux/list.h中定义，下面介绍下其原理及使用方法。1、结构体定义structlist_head{structlist_head*next,*prev;};双向链表结构体很简单，有prev和next两个指针，分别指向链表的前一节点和后一节点。这里专门讲下空链表，空链表指链表的prev和
linux--关于Linux的文件IO、虚拟地址空间概念、文件描述符 Bruce Jue linux linux 服务器
标准C库IO函数C库的IO函数时跨平台的，它是先通过例如fopen、fread这样的函数去调用对应系统内核例如windows、linux的write或者是read函数进而实现跨平台读写文件。那么一般都是要获取一个FILE*fp的内存地址，这个实际上是一个结构体，包含三个部分。在Linux中，IO是针对内存来说的。在FILE*fp来说，文件描述符其实是由linux内核给出的。C库IO的优点：存储效率
【Linux】【进程】epoll内核实现总结+ET和LT模式内核实现方式钟离墨笺 Linux linux 网络运维
【Linux】【网络】epoll内核实现总结+ET和LT模式内核实现方式1.epoll的工作原理eventpoll结构当某一进程调用epoll_create方法时，Linux内核会创建一个eventpoll结构体，这个结构体中有两个成员与epoll的使用方式密切相关.structeventpoll{..../*红黑树的根节点，这颗树中存储着所有添加到epoll中的需要监控的事件*/structrb
container_of()理解和使用场景 qq_41072096 笔记指针链表
函数解释：在Linux内核源码中，实现和链表相关的接口list_entry()时，会调用container_of()宏定义，它的作用是：给定结构体中某个成员的地址、该结构体类型和该成员的名字获取这个成员所在的结构体变量的首地址。container_of()宏定义实现如下所示：/***container_of-castamemberofastructureouttothecontainingstru
linux4.0内核编译步骤,Ubuntu20.04linux内核(5.4.0版本)编译准备与实现过程-编译过程（2） -Go语言中文社区... Up酱彡 linux4.0内核编译步骤
前面因为博客园维修，所以内核编译过程一直没有发出来，现在把整个内核过程分享出来。本随笔给出内核的编译实现过程，在编译前需要参照我前面一篇随笔：Ubuntu20.04linux内核(5.4.0版本)编译准备与实现过程-编译前准备(1)：https://www.cnblogs.com/iFrank/p/14556664.html切记：注意一点需要参照前一篇随笔，不然编译过程十有八九出问题。开发环境Ub
Linux nftables 命令使用详解 linux
简介nftables是iptables、ip6tables、arptables和ebtables的继承者，用于管理Linux中的包过滤和网络地址转换。它提供了一种更现代、更灵活和更有效的方式来配置防火墙，取代了旧的工具。nftables在Linux内核3.13及以上版本中可用，它是nft包的一部分。用于配置nftables的主要命令行工具是nft。基本概念Tables：用于组织规则的容器。每个表可
量化交易技术简介 0010000100 linux
量化交易1.C++技术栈高频交易和低延迟系统对C++和Linux内核的要求极高，需要高效的代码执行、低延迟的通信机制、以及对操作系统底层的深入优化。以下是关键技术点：1.C++技术栈高频交易需要极致的性能优化，因此C++代码需要低延迟、高吞吐，通常采用以下技术：（1）高性能数据结构•Lock-free数据结构（无锁队列、环形缓冲区）•采用std::atomic和内存屏障（memorybarrier
6.13 linux内核管理：内核cpu ：cpu使用情况阳光的王小草 linux整理 linux cpu cpu使用情况
6.13linux内核管理：内核cpu：cpu使用情况top命令Top命令排序（shift+M）按照内存排序（shift+P）按照cpu占有率排序
推荐开源项目：RTL8852BE —— 无线网卡驱动的福音周琰策Scott
推荐开源项目：RTL8852BE——无线网卡驱动的福音项目地址:https://gitcode.com/gh_mirrors/rt/rtl8852be1、项目介绍RTL8852BE是一个开源项目，旨在为Linux内核提供针对RealtekRTL8852BE芯片的驱动支持。这个项目由Rock_Shen开发，并从TinkerBoard2/kernel分支出来，现在由HRex39维护。它主要用于解决Li
Linux Media 子系统 V4l2 aningxiaoxixi camera linux 服务器网络
一创建V4l2的entity在Linux内核的MediaController框架中，V4L2设备作为实体（entity）的注册过程涉及以下步骤：1.初始化MediaController结构驱动首先创建一个media_device实例，并与V4L2设备（如v4l2_device）关联。例如：structmedia_device*mdev=devm_kzalloc(dev,sizeof(*mdev),
关于dma_alloc_coherent的用法 leoufung 驱动虚拟化内核 mlx5 blue-filed vhost
目录概述DMA映射建立一致性DMA映射DMA池建立流式DMA映射单页流式映射分散/聚集映射PCI双重地址周期映射DAC简单的PCIDMA例子ISA设备DMA概述DMA的操作是需要物理地址的，但是在linux内核中使用的都是虚拟地址，如果想要用DMA对一段内存进行操作，如何得到这一段内存的物理地址和虚拟地址的映射呢？dma_alloc_coherent这个函数实现了这种机制。1、函数原型：void*
list_for_each_entry_safe 简介 leoufung 驱动 list windows 数据结构
list_for_each_entry_safe是Linux内核中用于遍历链表的一个宏，特别适用于在遍历过程中可能需要删除链表节点的场景。它的设计保证了在删除当前节点时，不会影响后续节点的访问，从而实现安全的遍历。定义#definelist_for_each_entry_safe(pos,n,head,member)\for(pos=list_entry((head)->next,typeof(*
Linux内核文件系统-ext2文件系统-磁盘数据结构 chenxiaosong.com Linux内核课程 Linux内核文件系统 ext2文件系统磁盘数据结构
建议点击这里查看个人主页上的最新原文作者:陈孝松主页:chenxiaosong.com哔哩哔哩教学视频:陈孝松课程:chenxiaosong.com/courses博客:chenxiaosong.com/blog贡献:chenxiaosong.com/contributions邮箱:chenxiaosong@chenxiaosong.comQQ交流群:544216206,点击查看群介绍一般的Lin
海光处理器与AMD Zen1的指令差异三水问海国产处理器信创海光国产CPU
通过lscpu拿到cpuflags字段，可以对比指令之间的差异。Cpuflags的定义，可以参考Linux内核的头文件：cpufeatures.h«asm«include«x86«arch-kernel/git/torvalds/linux.git-Linuxkernelsourcetree根据下表的对比，可以发现Hygon基于AMDZen1，在加解密、安全防护、性能加速等方面是有指令缺失的。海光
手把手教你Linux内核编译：从零开始编写深度Linux C/C++全栈开发操作系统 linux 内存管理内核编译
在计算机技术的广袤星空中，Linux内核宛如一颗最为璀璨而神秘的巨星，散发着无尽的魅力与诱惑。它是操作系统的心脏，掌控着计算机系统的一切核心资源与底层运作。如今，我们即将踏上一场激动人心的冒险之旅——一步步解锁Linux内核，开启从零开始的编程征程。一、简介Linux内核作为操作系统的核心，其魅力在于多方面。首先，它负责资源管理和设备驱动等重要任务。学习Linux内核编程，能够让开发者深入了解操作
【3.Git与Github的历史和区别】汇川归海 Linux_C git与github git github
目录Git的历史和Github的区别本质和功能Git的历史和Github的区别Git是由Linux内核的创造者LinusTorvalds于2005年创建的。当时，Linux内核开源项目使用BitKeeper作为版本控制系统，但2005年BitKeeper的商业公司终止了与Linux社区的合作，收回了免费使用权。因此，Linus决定自己开发一个版本控制系统，仅用两周时间就用C语言写出了Git。Git
Rust OS Dev消息队列和动态内存分配、微内核操作系统开发等方面的最佳实践 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介自从20年前开源界流行了Linux操作系统后，有很多企业也纷纷转向Linux操作系统，原因之一就是开源社区的强大生态，尤其是Rust语言的发明和广泛应用。然而，面对Rust语言带来的高效率和安全性，一些公司却觉得这种高性能和安全性无法完全体现出来，并且也因此想开发一款基于Rust语言和Linux内核的操作系统。此时，基于微内核模式的操作系统诞生了，可以满足更多复
Linux 虚拟服务器（LVS）技术详解 π大星星️ lvs 笔记 linux 运维
一、LVS概述Linux虚拟服务器（LinuxVirtualServer，简称LVS）是由章文嵩博士开发的一种开源的服务器集群技术，它工作在Linux内核空间，为构建高可用、可扩展的网络服务提供了一种高效的解决方案。LVS可以将多个真实服务器（RealServer）组成一个虚拟的服务器池，通过调度算法将客户端的请求分发到不同的真实服务器上进行处理，从而实现负载均衡和高可用性。LVS具有以下特点：高
Linux内核学习之--模块与设备文艺小少年 Linux内核机制及驱动分析内核 linux sysfs
一、引言本章讨论内核的四种成分设备类型：为了统一普通设备的操作做的分类模块：Linux内核中按照需求加载和卸载目标源码的机制内核对象：内核数据结构中支持面向对象的简单操作，还维护对象之间的父子关系sysfs：表示系统中设备树的一个文件系统二、设备类型Unix系统中，所有设备被分为以下三类块设备字符设备网络设备块设备blkdev，通常可再’/dev/block’目录下查看，寻值单位为块(相当于硬件概
epoll系统调用原理肥猪猪爸互联网开发 java 并发 c语言算法 Linux内核面试
⚡epoll系统调用原理详解1.什么是epoll？epoll是Linux内核2.6版本引入的高效I/O多路复用机制，相较于传统的select和poll，它在处理大量文件描述符（FD）时具有更高的性能和扩展性。主要优势：高效：采用事件驱动模式，避免了大量无意义的轮询。可扩展：支持处理上万个并发连接，适用于高并发服务器。边缘触发（ET）与水平触发（LT）：提供灵活的事件通知机制。2.epoll的核心概
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh ickes@192.168.27.211 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_