从Linux源码看Socket的listen及连接队列

今天就从Linux源码的角度看下Server端的Socket在进行listen的时候到底做了哪些事情(基于Linux 3.10内核)，当然由于listen的backlog参数和半连接hash表以及全连接队列都相关，在这里也一块讲了。

Server端Socket需要Listen

众所周知，一个Server端Socket的建立，需要socket、bind、listen、accept四个步骤。今天笔者就聚焦于Listen这个步骤。

代码如下:

voidstart_server(){// server fdintsockfd_server;// accept fd intsockfd;intcall_err;structsockaddr_insock_addr;...... call_err=bind(sockfd_server,(struct sockaddr*)(&sock_addr),sizeof(sock_addr));if(call_err ==-1){fprintf(stdout,"bind error!\n");exit(1); }// 这边就是我们今天的聚焦点listencall_err=listen(sockfd_server,MAX_BACK_LOG);if(call_err ==-1){fprintf(stdout,"listen error!\n");exit(1); }}

首先我们通过socket系统调用创建了一个socket，其中指定了SOCK_STREAM,而且最后一个参数为0，也就是建立了一个通常所有的TCP Socket。在这里，我们直接给出TCP Socket所对应的ops也就是操作函数。

Listen系统调用

好了，现在我们直接进入Listen系统调用吧。

#include// 成功返回0,错误返回-1,同时错误码设置在errnointlisten(intsockfd,intbacklog);

注意，这边的listen调用是被glibc的INLINE_SYSCALL装过一层，其将返回值修正为只有0和-1这两个选择，同时将错误码的绝对值设置在errno内。这里面的backlog是个非常重要的参数，如果设置不好，是个很隐蔽的坑。

对于java开发者而言，基本用的现成的框架，而java本身默认的backlog设置大小只有50。这就会引起一些微妙的现象，这个在本文中会进行讲解。

接下来，我们就进入Linux内核源码栈吧

listen|->INLINE_SYSCALL(listen......)|->SYSCALL_DEFINE2(listen,int, fd,int, backlog)/* 检测对应的描述符fd是否存在，不存在，返回-BADF|->sockfd_lookup_light/* 限定传过来的backlog最大值不超出 /proc/sys/net/core/somaxconn|->if((unsignedint)backlog > somaxconn) backlog = somaxconn|->sock->ops->listen(sock, backlog) <=> inet_listen

值得注意的是，Kernel对于我们传进来的backlog值做了一次调整，让其无法>内核参数设置中的somaxconn。

需要C/C++ Linux高级服务器架构师学习资料加群563998835（包括C/C++，Linux，golang技术，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK，ffmpeg等）

inet_listen

接下来就是核心调用程序inet_listen了。

intinet_listen(struct socket *sock, int backlog){/*Really, if the socket is already in listen state*we can only allow the backlog to be adjusted.*if((sysctl_tcp_fastopen & TFO_SERVER_ENABLE) != 0 &&inet_csk(sk)->icsk_accept_queue.fastopenq== NULL) {fastopen的逻辑if((sysctl_tcp_fastopen & TFO_SERVER_WO_SOCKOPT1) != 0)err=fastopen_init_queue(sk, backlog);elseif ((sysctl_tcp_fastopen &TFO_SERVER_WO_SOCKOPT2)!= 0)err=fastopen_init_queue(sk,((uint)sysctl_tcp_fastopen)>> 16);elseerr=0;if(err)gotoout;}if(old_state!= TCP_LISTEN) {err=inet_csk_listen_start(sk, backlog);}sk->sk_max_ack_backlog=backlog;......}

从这段代码中，第一个有意思的地方就是,listen这个系统调用可以重复调用！第二次调用的时候仅仅只能修改其backlog队列长度(虽然感觉没啥必要)。

首先，我们看下除fastopen之外的逻辑(fastopen以后开单章详细讨论)。也就是最后的inet_csk_listen_start调用。

int inet_csk_listen_start(structsock*sk,constint nr_table_entries){......// 这里的nr_table_entries即为调整过后的backlog// 但是在此函数内部会进一步将nr_table_entries = min(backlog,sysctl_max_syn_backlog)这个逻辑int rc = reqsk_queue_alloc(&icsk->icsk_accept_queue, nr_table_entries);......inet_csk_delack_init(sk);// 设置socket为listen状态sk->sk_state = TCP_LISTEN;// 检查端口号if(!sk->sk_prot->get_port(sk, inet->inet_num)){// 清除掉dst cachesk_dst_reset(sk);// 将当前sock链入listening_hash// 这样，当SYN到来的时候就能通过__inet_lookup_listen函数找到这个listen中的socksk->sk_prot->hash(sk);}sk->sk_state = TCP_CLOSE;__reqsk_queue_destroy(&icsk->icsk_accept_queue);// 端口已经被占用，返回错误码-EADDRINUSEreturn-EADDRINUSE;}

这里最重要的一个调用sk->sk_prot->hash(sk),也就是inet_hash,其将当前sock链入全局的listen hash表，这样就可以在SYN包到来的时候寻找到对应的listen sock了。如下图所示:

如图中所示，如果开启了SO_REUSEPORT的话，可以让不同的Socket listen(监听)同一个端口，这样就能在内核进行创建连接的负载均衡。在Nginx 1.9.1版本开启了之后，其压测性能达到3倍!

半连接队列hash表和全连接队列

在笔者一开始翻阅的资料里面,都提到。tcp的连接队列有两个，一个是sync_queue,另一个accept_queue。但笔者仔细阅读了一下源码，其实并非如此。事实上，sync_queue其实是个hash表(syn_table)。另一个队列是icsk_accept_queue。

所以在本篇文章里面，将其称为reqsk_queue(request_socket_queue的简称)。在这里，笔者先给出这两个queue在三次握手时候的出现时机。如下图所示:

当然了，除了上面提到的qlen和sk_ack_backlog这两个计数器之外，还有一个qlen_young,其作用如下:

qlen_young: 记录的是刚有SYN到达，没有被SYN_ACK重传定时器重传过SYN_ACK同时也没有完成过三次握手的sock数量

如下图所示:

至于SYN_ACK的重传定时器在内核中的代码为下面所示:

staticvoidtcp_synack_timer(structsock *sk){inet_csk_reqsk_queue_prune(sk, TCP_SYNQ_INTERVAL, TCP_TIMEOUT_INIT, TCP_RTO_MAX);}

这个定时器在半连接队列不为空的情况下，以200ms(TCP_SYNQ_INTERVAL)为间隔运行一次。限于篇幅，笔者就在这里不多讨论了。

为什么要存在半连接队列

因为根据TCP协议的特点，会存在半连接这样的网络攻击存在，即不停的发SYN包，而从不回应SYN_ACK。如果发一个SYN包就让Kernel建立一个消耗极大的sock，那么很容易就内存耗尽。所以内核在三次握手成功之前，只分配一个占用内存极小的request_sock，以防止这种攻击的现象，再配合syn_cookie机制，尽量抵御这种半连接攻击的风险。

半连接hash表和全连接队列的限制

由于全连接队列里面保存的是占用内存很大的普通sock，所以Kernel给其加了一个最大长度的限制。这个限制为:

下面三者中的最小值

1.listen系统调用中传进去的backlog

2./proc/sys/inet/ipv4/tcp_max_syn_backlog

3./proc/sys/net/core/somaxconn

即min(backlog,tcp_ma_syn_backlog,somaxcon)

如果超过这个somaxconn会被内核丢弃，如下图所示:

这种情况的连接丢弃会发生比较诡异的现象。在不设置tcp_abort_on_overflow的时候,client端无法感知，就会导致即在第一笔调用的时候才会知道对端连接丢弃了。

那么，怎么让client端在这种情况下感知呢，我们可以设置一下tcp_abort_on_overflow

echo'1'> tcp_abort_on_overflow

设置后，如下图所示:

当然了，最直接的还是调大backlog!

listen(fd,2048)echo'2048'>/proc/sys/inet/ipv4/tcp_max_syn_backlogecho'2048'>/proc/sys/net/core/somaxconn

backlog对半连接队列的影响

这个backlog对半连接队列也有影响，如下代码所示:

/* TW buckets are converted to open requests without

* limitations, they conserve resources and peer is

* evidently real one.

*/// 在开启SYN cookie的情况下，如果半连接队列长度超过backlog，则发送cookie// 否则丢弃if(inet_csk_reqsk_queue_is_full(sk) && !isn) {want_cookie = tcp_syn_flood_action(sk, skb,"TCP");if(!want_cookie)gotodrop;}/* Accept backlog is full. If we have already queued enough

* of warm entries in syn queue, drop request. It is better than

* clogging syn queue with openreqs with exponentially increasing

* timeout.

*/// 在全连接队列满的情况下，如果有young_ack，那么直接丢弃if(sk_acceptq_is_full(sk) && inet_csk_reqsk_queue_young(sk) >1) {NET_INC_STATS_BH(sock_net(sk), LINUX_MIB_LISTENOVERFLOWS);gotodrop;}

我们在dmesg里面经常看到的

PossibleSYN floodingonport8080

就是由于半连接队列满以后，Kernel发送cookie校验而导致。

从Linux源码看Socket的listen及连接队列

你可能感兴趣的:(从Linux源码看Socket的listen及连接队列)