问题:
1:Server 进行 bind()
,listen()
,accept()
,然后进行等待Client连接。
2:Client 进行 连接。即,Server的accept()
返回client_fd
3:Server 程序退出(异常退出,或者)。但是和客户端的连接依旧存在。
4:Server 重启程序,但是此时Server进行bind()
失败,提示端口被占用。
解决方法:
在1时,Server accept
之前对listen_fd
进行SO_REUSEADDR
设置,或者在2时,对client_fd进行SO_REUSEADDR
。
常见误区1:
通常网上的文章告诉我们都是需要对Server的listen_fd
进行SO_REUSEADDR
设置,而忽略了其实际也可对其所有client_fd
进行SO_REUSEADDR
设置。
常见误区2:
SO_REUSEADDR
不仅仅只忽略time_wait状态的socket,是忽略所有的带SO_REUSEADDR
的任意状态的socket。例如,如果存在状态为establish状态的socket,只要这个socket设置了SO_REUSEADDR
,第二次Server照样能起来。
常见误区3:
即使设置了SO_REUSEADDR
,也不能同时建立2个独立进程listen
同一个端口。想要此功能,请看SO_REUSEPORT
分析,或者父进程listen然后fork子进程,这样父子进程都能同时accept。
常见误区4:
即使绑定的端口一样,也不一定被内核认为端口冲突,还有其他条件,后文会讲。
常见误区5:
SO_REUSEADDR
对客户端是不生效的。例如Client bind
了一个已经存在的socket一样的本地端口,然后connect
到的server地址也是这个已经存在的的socket的Server地址,即五元组冲突,所以无论如何都不可能通过SO_REUSEADDR
进行强行bind
。
首先,看SO_REUSEADDR
如何设置的:
内核函数 sock_setsockopt
有这么一段代码:
case SO_REUSEADDR:
sk->sk_reuse = (valbool ? SK_CAN_REUSE : SK_NO_REUSE);
break;
如果设置SO_REUSEADDR
为1,那么 sk->sk_reuse 值为 1,反之为0。
由常见误区
可以猜到,因为对每个client_fd
进行SO_REUSEADDR
设置,和只对listen_fd
设置效果是一样的,那么必然能猜想到,client_fd
的SO_REUSEADDR
属性是继承自listen_fd
的。
首先,关于TCP被动打开源码分析,见我的老博文 :https://blog.csdn.net/mrpre/article/details/24670659
这里,直接看accept()
阻塞时是如何创建client_fd
对应的sock的以及client_fd
是如何继承listen_fd
的SO_REUSEADDR
属性的。
三次握手完成时,即受到客户端的ACK
时,处理流程的调用栈如下:
tcp_v4_syn_recv_sock->tcp_create_openreq_child->inet_csk_clone_lock
struct sock *tcp_create_openreq_child(struct sock *sk, struct request_sock *req, struct sk_buff *skb)
{
struct sock *newsk = inet_csk_clone_lock(sk, req, GFP_ATOMIC);
......
}
上面,入参sk是listen_fd
对应的sk,newsk是client_fd
对应的sk。从 函数名字inet_csk_clone_lock
中的clone可以推测数,继承的操作就在该函数中。
struct sock *inet_csk_clone_lock(const struct sock *sk,
const struct request_sock *req,
const gfp_t priority)
{
struct sock *newsk = sk_clone_lock(sk, priority);//核心函数
......
}
struct sock *sk_clone_lock(const struct sock *sk, const gfp_t priority)
{
struct sock *newsk;
newsk = sk_prot_alloc(sk->sk_prot, priority, sk->sk_family);
if (newsk != NULL) {
struct sk_filter *filter;
sock_copy(newsk, sk);//核心函数
....
}
}
static void sock_copy(struct sock *nsk, const struct sock *osk)
{
memcpy(nsk, osk, offsetof(struct sock, sk_dontcopy_begin));
memcpy(&nsk->sk_dontcopy_end, &osk->sk_dontcopy_end,
osk->sk_prot->obj_size - offsetof(struct sock, sk_dontcopy_end));
}
sock_copy
函数拷贝 osk
的数据到nsk
中,具体拷贝的内容,是osk
起始地址到&osk->sk_dontcopy_end
,而osk->sk_reuse
恰好就在该范围内,nsk自然就继承了sk_reuse
属性。
TCP的bind失败核心代码
sys_bind->inet_bind->inet_csk_get_port
说明:linux内核用struct inet_bind_bucket
描述一个被绑定的端口,加到全局的表中。
只要有人创建一个新的端口,就创建一个struct inet_bind_bucket
对象。
int inet_csk_get_port(struct sock *sk, unsigned short snum)
{
struct inet_hashinfo *hashinfo = sk->sk_prot->h.hashinfo;
struct inet_bind_hashbucket *head;
struct inet_bind_bucket *tb;
int ret, attempts = 5;
struct net *net = sock_net(sk);
int smallest_size = -1, smallest_rover;
kuid_t uid = sock_i_uid(sk);
local_bh_disable();
if (!snum) {
//没有指定端口,显然对于调用bind函数的Server来说这里直接忽略
} else {
have_snum:
//根据bind的端口:snum算hash值,取hash桶的index,head为冲突链表的表头
head = &hashinfo->bhash[inet_bhashfn(net, snum,
hashinfo->bhash_size)];
spin_lock(&head->lock);
inet_bind_bucket_for_each(tb, &head->chain)
//冲突链表中有,说明有socket绑定了端口
if (net_eq(ib_net(tb), net) && tb->port == snum)
goto tb_found;
}
tb = NULL;
goto tb_not_found;
tb_found:
if (!hlist_empty(&tb->owners)) {
//说明这个有人端口现在有socket绑定了
if (sk->sk_reuse == SK_FORCE_REUSE)
goto success;
if (((tb->fastreuse > 0 &&
sk->sk_reuse && sk->sk_state != TCP_LISTEN) ||
(tb->fastreuseport > 0 &&
sk->sk_reuseport && uid_eq(tb->fastuid, uid))) &&
smallest_size == -1) {
goto success;
} else {
ret = 1;
//检查是否冲突,端口一样,但是绑定的接口不一样,不能算冲突,下文细说。
if (inet_csk(sk)->icsk_af_ops->bind_conflict(sk, tb, true)) {
if (((sk->sk_reuse && sk->sk_state != TCP_LISTEN) ||
(tb->fastreuseport > 0 &&
sk->sk_reuseport && uid_eq(tb->fastuid, uid))) &&
smallest_size != -1 && --attempts >= 0) {
spin_unlock(&head->lock);
goto again;
}
goto fail_unlock;
}
}
}
tb_not_found:
//到这里说明端口没有冲突。
ret = 1;
//tb为null说明压根没有socket绑定过该端口;tb不为null,说明有其他socket绑定,但是经过判断不认为冲突。
if (!tb && (tb = inet_bind_bucket_create(hashinfo->bind_bucket_cachep,
net, head, snum)) == NULL)
goto fail_unlock;
if (hlist_empty(&tb->owners)) {
if (sk->sk_reuse && sk->sk_state != TCP_LISTEN)
tb->fastreuse = 1;
else
tb->fastreuse = 0;
if (sk->sk_reuseport) {
tb->fastreuseport = 1;
tb->fastuid = uid;
} else
tb->fastreuseport = 0;
} else {
if (tb->fastreuse &&
(!sk->sk_reuse || sk->sk_state == TCP_LISTEN))
tb->fastreuse = 0;
if (tb->fastreuseport &&
(!sk->sk_reuseport || !uid_eq(tb->fastuid, uid)))
tb->fastreuseport = 0;
}
success:
if (!inet_csk(sk)->icsk_bind_hash)
inet_bind_hash(sk, tb, snum);//所有绑定到tb的sock,都需要挂到tb->owners上去
WARN_ON(inet_csk(sk)->icsk_bind_hash != tb);
ret = 0;
fail_unlock:
spin_unlock(&head->lock);
fail:
local_bh_enable();
return ret;
}
当我们Server创建一个socket,并且进行bind()
的时候,就创建一个tb,且把tb插入到hash表中,且把这个listen_fd
对于的sock挂到tb->owners中。其次,当TCP请求过来时,调用tcp_v4_syn_recv_sock->__inet_inherit_port->inet_bind_hash
把client_fd
对于的sock也挂到了tb->owners。
当Server进程挂了或者人肉被kill掉之后,tb->owners还剩下client_fd
的sock。此时,如果我们启动另一个进程进行bind的时候,还会执行到inet_csk_get_port
,遍历tb的冲突链,会执行goto tb_found
,执行inet_csk(sk)->icsk_af_ops->bind_conflict
即执行inet_csk_bind_conflict
函数。
这里不列出inet_csk_bind_conflict
具体源码,直接说明里面判断的逻辑:
如果当前待绑定的的sock和其余tb->owners中的sock不是绑定同一个接口,则不进行比较,则不认为是不冲突。
如果当前待绑定的的sock和其余tb->owners中的sock绑定的是同一个接口,但是ip地址不一样,则不认为是冲突。
如果当前待绑定的的sock和其余tb->owners中的sock是同一个接口且同一个ip,如果其余的sock是listen的sock,则必须当前sock和其余socket都需要开启reuseport。
如果当前sock和其余sock都开启了SO_REUSEADDR
,且其余sock不是listen的,则不认为是冲突,换几句话说,如果每次建立的socket都设置了SO_REUSEADDR
,且只进行了bind
操作,其余的sock都没有进行listen
(当前的sock可以是listen),则不认为冲突。这个条件就是本文最开始提到的问题的解决方案。
其余和reuseport相关的不在这里解释。
在实验的过程中发现,为何两个独立的进程只要设置了SO_REUSEADDR
就允许bind
同一个地址?有何意义?有何功能呢?其实是自己多虑了过分关注的bind()
操作。作为一个Client,进行connect
即使不进行bind
也会随机分配一个端口。所以所谓2次的bind
,其中一个bind
理解为有人占用端口就行了。