作为一款网络编程框架,很多时候,netty的生产使用具有较高的相似性,参考一款成熟的产品如何使用netty进行网络通讯,无疑会加深我们对netty的理解,帮助我们更好的将netty应用于生产实践,本文就跟大家一起分析下RocketMq中是如何使用netty的,希望对你有借鉴意义;
我将从以下几个方面进行讲解:
1.EventLoopGroup的构造原则,线程数多少合适,以及一个EventLoop的高频面试题
2.rocketMq的客户端服务端,分别设置了哪些ChannelOption,各自代表什么含义
3.通用的心跳、会话管理机制是怎样运作的
4.客户端与服务端如何对话,通信协议要考虑哪些东西
5.如何拿到响应结果,同步等待,还是异步回调,超时处理怎么做
代码走起,rocketMq的netty客户端与服务端代码基本集中在
org.apache.rocketmq.remoting.netty.NettyRemotingServer
org.apache.rocketmq.remoting.netty.NettyRemotingClient
EventLoopGroup的构造方法,涉及到的几个关键点需要说明下:
1).关于netty有个常见的面试题,EventLoop何时被创建,new一个无参的EventLoopGroup时,netty会创建多少个线程(也即EventLoop),我们跟进EpollEventLoopGroup,看看它的无参构造
明确了,无参构造启动2倍CPU核数的线程数;那在构造时,到底指定多少线程数合适呢?
正常情况下,服务端需要两个EventLoopGroup,boosGroup用于轮询并处理selector连接事件,通常情况下1个线程就够用了,workGroup轮询并处理selector读写事件,推荐线程数为CPU核数~2*CPU核数,线程处理事件过程中阻塞的时间越短,线程数应越接近CPU核数,实际操作时,可以参考这个公式:线程数=CPU核数*(1+阻塞时间/总时间);需要说明的是,boosGroup监听到新链接并建立新链接SocketChannel之后,会为该socketChannel分配一个eventLoop线程,这个线程就来源于workGroup,一个eventLoop线程可以对应任意个连接,每个连接只会对应一个eventLoop线程,这意味着netty中每个连接都是单线程处理的,完美的避开了并发问题;
线程处理过程中,如果需要阻塞较长时间,强烈推荐分配一个专门的线程池,因为work线程是所有连接公用的,一旦阻塞较长时间,影响范围很大;netty中,在添加Handler时,可以指定一个EventLoopGroup,该Handler的所有操作都会在该EventLoopGroup的线程中执行,无需我们自己管理线程池了
再看看EventLoop何时被创建,同样是在构造函数中,继续跟到父类
新建的EventLoop都存在children数组中,EventLoop与线程一一对应,其核心逻辑都在run方法中,run方法主要干两件事,1.轮询selector中IO事件并处理 2.处理自身taskQueue中的任务(使用者可以通过EventLoop的execute、schedule方法提交任务,任务就存在其taskQueue中),后面有机会会详细说一说EventLoop;
2).回到第一张图中,EpollEventLoopGroup构造函数的第二个参数是个ThreadFactory,它就干了一件事,给线程起名字,通过一个AtomicInteger成员变量,保证线程名的唯一性;在构造线程时,给它起个名字算是必备操作了,一来规范化线程名,二来通过日志可以明确区分属于哪类线程,对日志分析和问题排查非常有利;
先看服务端:
SO_BACKLOG:用于指定服务端连接队列长度,当服务器连接处理线程全忙时,已完成三次握手的请求会被临时存放在连接队列中(还没来得及被accept),队列满后会拒绝新收到的连接请求。默认情况下,该值为200左右,对于连接数不太多的场景,默认值就够了,像常见RPC框架的服务端就没有设置。RocketMq需要支持更高频的连接请求,所以使用了推荐值1024;
SO_REUSEADDR:TCP四次挥手的最后阶段,主动发起关闭的一端会处于TIME_WAIT状态,该状态下的socket所用端口无法被复用(默认时间2MSL=4分钟);在服务端客户端架构中,通常是服务端主动发起连接关闭,在大量连接的场景中,无论是频繁关闭连接和新建连接,还是服务端重启,都需要端口资源,4分钟太长了,不能忍。SO_REUSEADDR=true就是通知内核,如果端口忙,但socket状态是TIME_WAIT,可以立即重用端口;因为端口资源限制,该配置算是服务端必备的了;
SO_KEEPALIVE:TCP有内置的连接保活机制,保活并不是把挂掉的连接整活,而是只留下有效的连接,及时释放无效连接资源;由于netty提供的IdleStateHandler可以非常方便、灵活的实现心跳维持和会话管理,所以一般不需要使用TCP自带的KEEP_ALIVE;会话管理下面会做专门的介绍;TCP_NODELAY:TCP/IP协议中针对TCP默认开启了Nagle算法,会对包的发送进行限制,至少满足下面任意一个条件才可以发出,1.写缓冲区的字节数超过指定阈值 2.之前发出的所有包都已收到ack
其好处是减少网络开销和发送接收两端的压力,坏处就是存在发送延时,对于延时敏感型、数据传输量比较小的应用,应该选择关闭Nagle算法,关闭方式为设置TCP_NODELAY=trueSO_SNDBUF与SO_RCVBUF:每个socket都有一个receive缓冲区和send缓冲区,在调用socket的read send时,其实仅仅是操作缓冲区,read仅仅从reveive缓冲区拿数据,拿不到就阻塞等待对端数据从网络过来。send仅仅将数据放入send缓冲区,缓冲区满了就等待;对于TCP协议来说,由于有滑动窗口控制,如果接收端read缓冲区已满,还未来的及处理,则会在回复发送端的ack中缩小窗口值,提示发送端降低发送速度,甚至暂时不发;缓冲区的大小影响的是两端发送接收的速度,没有一个标准的参考值,实际生产时应该由测试结果决定,通常情况下,默认的值就够了,也就是不需要设置;
服务端参数小结,可以看到,服务端在设置option时,有两类方法,一类是option(),作用的对象是服务端监听端口的socket(我们称之为父socket),一类是childOption,作用的对象是与客户端连接的socket(我们称之为子socket),哪些参数该设置在父socket哪些设置在子socket上,我没找到一个满意的说法,我自己的推测是子socket只用于数据传输,与数据发送接收有关的option应该设置在子socket上;如果你看到标准答案,记得告诉我一声...
再看客户端:
除了CONNECT_TIMEOUT_MILLS,其他参数在服务端中都已经介绍过,CONNECT_TIMEOUT_MILLS顾名思义,连接超时时间,超过该时间还没连上服务端,则抛出timeout异常,也算是客户端的标配了;由于客户端只与服务端建立少量的连接,所以不需要设置SO_REUSEADDR
上面说了,netty提供的IdleStateHandler可以用于心跳维持和会话管理,我们先看看IdleStateHandler源码,再看看通用的会话管理机制怎么玩
IdleStateHandler在构造时需要指定三个时间值,单位是秒,分别表示read事件、write事件 、read+write事件的检测周期,正常情况下,指定第三个参数即可,会同时判断读写事件是否超时;
在IdleStateHandler的初始化方法中,启动了一个一次性定时任务
allIdleTimeNanos是allIdleTimeSeconds算出的纳秒值,更精确,从ctx.executor获取到的就是当前channel对应的EventLoop,AllIdleTimeoutTask任务干了啥呢
根据最新读写事件发生的时间,算出与当前时间的差值,如果大于指定的时间间隔,说明超时了,会触发一个IdleStateEvent事件并往channel中传播方便进行超时处理,并再次提交一个一次性定时任务;如果小于指定时间间隔,说明还没超时,则再次提交一个一次性定时任务,这里的延时时间为算出的时间差值,而不是指定的时间间隔,不然就不对了;
channelIdle方法用于传播IdleStateEvent事件,属于入站事件,会往next方向(后添加的)的下一个ChannelInboundHandler传播,传播方向与顺序详细说明参考我上一篇handler事件传播顺序;
接下来的重点就在IdleStateEvent事件的处理上了,IdleStateEvent传播到ChannelInboundHandler时,会调用其userEventTriggered方法,一般情况下,服务端处理方式比较统一,直接关闭连接、释放资源;客户端处理方式分为两种情况,1)如果服务端连接资源可以预估为不太紧缺,则发送心跳包给服务端,保证服务端不会关闭当前连接。2)反之,如果服务端连接资源紧缺,则客户端的方式与服务端一致,直接关闭连接,释放资源,下次请求时重建连接,防止请求频率较低的客户端占用服务端连接资源;对于rocketMq来说,显然属于第2种情况,所以服务端和客户端的方式都是关闭连接;而像rpc框架这种,就属于第1种情况,客户端定时发送心跳包,保持连接活跃。有点需要特别注意的是,第1种情况下,服务端超时时间要>=2*客户端超时时间,为的就是给足客户端发送心跳的时间
客户端服务端之间要想互相通信,还需要有⼀套传输协议来⽀持,传输协议就是端与端之间对话的语⾔,在设计传输协议时,并没有太多规范和要求,只要是通信双⽅都能正确理解对端传来的内容,并且没有歧义就好了;
既然传输协议是⼀种语⾔,就得考虑如何断句,不然一串话发过去对方都不知道怎么解析了,比如你来一句"我见到你很开心",对端收到后显然不知道到底谁开心;现代语言的断句方式就是标点符号,通讯语言也可以这样玩,http1就是基于分隔符的协议,遇到/r/n就做个断句;但是,分隔符断句必然存在这样一个问题,⽆论定义什么字符作为分隔符,理论上,它都有可能会在传输的数据中出现。为了区分“数据内的分隔符”和真正的分隔符,在加上分隔符之前,必须先对其做转义,收到数据之后再转义回来,这是个⽐较麻烦的过程,还要损失⼀些性能。
更加实⽤的⽅法是,在每句话前⾯加⼀个表示这句话⻓度的数字,收到数据时,按照⻓度来读取就可以了,比如"4我见到你3很开心","3我见到4你很开心"对方就能正确解析了;
事实上,在基于TCP制定网络协议时,必然要面对的粘包拆包问题,其本质原因就是双方没有约定好解析数据包的规则,netty提供的基于分隔符和长度的解码器可以很好地解决上述问题;
当然了,除了定制TCP协议,直接使用http协议也是一个不错的选择,在选型时,通常基于以下几点考虑:
1.选用http,一定是基于其普适和通用的要求,http的使用非常广泛,不管是手机、浏览器、还是现在的物联网设备,都可以非常方便的支持http,http协议可以算作普通话;
2.选用定制tcp,一般是基于性能的需求,由于定制的tcp协议的接入成本更高,所以一般只用作内部交流,不具有普适性,算作内部黑话;
如果你设计一款内部系统的通讯工具,比如公司内部的rpc框架,消息队列,可以考虑定制tcp协议;如果要设计的是一款开放的工具,比如物联网通讯工具,就应该重点考虑http协议。虽然http协议因为报文头废信息比率较多,影响了传输性能,但对大部分场景来说,其性能要求并没有高到对协议本身有要求的程度,这是一个开放的、互联互通的时代,保证基本性能的前提下,通用和兼容性才是最重要的事情;
本文讨论的是rocketMq,出于对性能的高要求,rocketMq采用的是定制tcp协议,所以就绕不开上面说的粘包拆包问题,rocketMq中约定使用基于长度进行数据解码,我们先看看rocketMq的数据包构造,rocketMq通讯都采用的统一结构体类RemotingCommand,分为长度部分、header部分、以及body部分:
header部分:分为两块,第一块是我标红的部分,长度为固定的4byte,第1个byte存的是序列化类型,后3个byte存的是header内容长度的后24位;第二块就是header内容了,设header内容长mbyte,那header的总长度就=(4+m)byte
body部分:设长度为nbyte
长度部分:4byte,就是header部分+body部分的长度之和,也就是(4+m+n)byte
看看怎么解码的:
LengthFieldBasedFrameDecoder是netty提供的基于长度的解码器,通过构造函数告诉它怎么解析数据包,这里一共传了5个参数,第1个:maxFrameLength,代表数据包的最大长度,超过则丢弃;第2个:lengthFieldOffset,表示长度域的偏移量,rocketMq中,长度域从0开始;第3个:长度域的长度,这里是4byte;第4个:要调整的长度,这里不需要调整,是0;第5个:跳过的字节数,这里是4,表示最终解析出的数据包里不需要包含长度域;那解析出来的frame包就是这样:
接下来,就可以从frame中解析出真正需要的信息了,即序列化类型,header内容,body内容;让我们看看RemotingCommand的组成,我们在定制tcp协议时,可以参考这样的设计:
flag:RemotingCommand的类型,0表示请求,1表示响应, 用一个实体类表示请求与响应,可以减少不必要的编解码工作量,算是必备字段了;code:flag为0时,code表示具体的请求类型,flag为1时,code表示响应码,remark表示响应描述; 必备字段;version: 必备字段,多版本共存时,必须有字段可以区分具体是哪个版本,才知道要怎么处理;extFields:如果想要结构体具有很好的扩展性,这个字段也是必备的;language:为了支持多种语言;body:请求体和响应体,二进制数组类型,不同的请求和响应类型,其请求体和响应体一般由不同的实体类表示,发送前序列化为字节流塞到body里,处理时再反序列化出来,也是 必备字段;serializeTypeCurrentRPC:序列化类型,默认为json方式,body的处理一定需要序列化与反序列化,如果要 支持多种序列化方式,这个也是必备字段;opaque:请求ID,唯一标识一个请求的字段,用于收到响应时,匹配到原请求,然后进行处理; 必备字段和通常的方法调用不一样,因为隔着一层网络,请求出去,和响应回来是互相独立的过程,响应回来时必须能匹配到原先的请求,才能正确处理;这就引出了下面的问题
rocketMq中恰巧两种都有,同步方式涉及到 异步转同步处理,其处理方式也是通用的,看代码:我把它分为4部分,1.构造阻塞体future对象,用上面说的请求ID作为key,存入一个map中;2.发送网络请求 ;3.通过阻塞体阻塞等待结果;4.处理完成或者请求失败后,移除map中的阻塞体对象
这里用的是CountDownLatch,除此之外,还有个CompletableFuture,异转同场景中,就它哥俩最常用;响应回来时,根据请求ID从map里找到这个阻塞对象,调用图中的putResponse,这样waitResponse就可以返回并拿到响应结果了;需要注意的是,超时处理也相当关键,必须要杜绝无限等待;
异步比同步更简单,构造阻塞体future对象时,传入一个回调对象,请求发出后就不用管了,响应回来时同样是先找到future对象,然后调用其中回调对象的回调方法即可;
先就写这么多了,后面想到其他可写内容再添加.....