我们知道Netty是一个基于JDK的nio实现的网络编程框架,那Netty的服务端是怎么启动的呢,包括他是何时register
的,何时 bind
端口的,以及何时开始读取网络中的数据的?
让我们带着这个疑问,通过一个官方的例子来深入探究Netty服务端的启动过程。
PS:本文基于netty源码的4.1分支进行分析。
首先我们拿一个最简单的EchoServer的例子来举例说明,具体的代码如下:
EventLoopGroup bossGroup = new NioEventLoopGroup(1); // 1
EventLoopGroup workerGroup = new NioEventLoopGroup();
try {
ServerBootstrap b = new ServerBootstrap();
b.group(bossGroup, workerGroup)
.channel(NioServerSocketChannel.class) // 2
.option(ChannelOption.SO_BACKLOG, 100)
.handler(new LoggingHandler(LogLevel.INFO)) // 3
.childHandler(new ChannelInitializer
@Override
public void initChannel(SocketChannel ch) throws Exception {
ChannelPipeline p = ch.pipeline();
if (sslCtx != null) {
p.addLast(sslCtx.newHandler(ch.alloc()));
}
p.addLast(new EchoServerHandler());
}
});
// Start the server.
ChannelFuture f = b.bind(PORT).sync(); // 5
// Wait until the server socket is closed.
f.channel().closeFuture().sync();
} finally {
// Shut down all event loops to terminate all threads.
bossGroup.shutdownGracefully();
workerGroup.shutdownGracefully();
}
从上面的代码来看,在启动的过程中共有5处地方需要我们关注,不过最重要的启动服务端的代码,还是在最后第5步的时候。
为了更加清晰的描述整个启动的过程,也便于我们更好的理解和记忆,我将使用多图形少代码的形式来表达。
首先我把启动过程的一个大致流程画成如下的图:
其中有以下几个核心的方法:
channel()
handler()
childHandler()
doBind()
除此之外,还有一个初始化EventLoopGroup类的方法:
NioEventLoopGroup()
我们从最初的初始化 EventLoopGroup
类开始吧,从源码中可以看到是一层一层的构造方法的调用,然后再super到了父类中,最终会调用到 AbstractEventExecutor
类,具体的调用流程如下图所示:
这个过程中创建了几个重要的实例,我用淡蓝色标记出来了。
首先我们需要知道的是,在Netty中有几个比较重要的类:
EventLoop
EventLoopGroup
EventExecutor
EventExecutorGroup
他们之间的关系图如下所示:
EventLoop和EventExecutor说到底都是一种Executor。
然后通过调用ServerBootstrap的group()方法,我们将创建的EventLoopGroup对象分别赋值给了ServerBootstrap的 group
和 childGroup
属性。
初始化完了EventLoopGroup之后,接着就开始执行 channel()
方法了,这个方法很简单,就是通过 ReflectiveChannelFactory
类创建了一个 channelFactory
,这个 channelFactory
后面会很有用,都是通过它来创建需要的Channel实例的。这里我就不贴具体的代码了,具体的执行过程可以用下面的图来表示:
通过调用该方法,ServerBootstrap类的 channelFactory
属性就被赋予了值,并且该ChannelFactory的实现类是通过反射来创建Channel的。
后面在需要创建Channel的时候,会调用该channelFactory的 newChannel()
方法,执行该方法之后,会创建三种非常有用的对象:
channel
pipeline
unsafe
该方法没有创建其他的对象,只是把用户提供的方法参数中所表示的ChannelHandler对象通过该方法来赋值给ServerBootstrap的 handler
属性。
PS:这里创建的handler在后面的初始化时会使用到
该方法没有创建其他的对象,只是把用户提供的方法参数中所表示的ChannelHandler对象通过该方法来赋值给ServerBootstrap的 childHandler
属性。
PS:这里创建的childHandler在后面的初始化时会使用到
Netty启动过程中最复杂,步骤最多的就是这个方法了,不过不用担心,我已经把该方法核心的执行过程整理好了,如下图所示:
这里我推荐大家在读源码的时候,可以拿一张纸,一支笔,用画图的形式把方法的调用过程,以及创建了哪些属性等等这些都记下来,一开始可以不用知道那些方法和属性具体是干什么的。先把整个调用流程理清楚,然后再一点一点细化,由点到面的扩展开来,最终把你那张图丰富成一个完整的调用图。
从图中可以看的出来,doBind方法拆分成了两个核心的方法:
initAndRegister()
doBind0()
第一个 initAndRegister
方法,从方法名字上就可以看得出来,它主要是执行某个init的过程,然后又执行了某个register的过程。
第二个 doBind0
方法,主要是执行了端口的绑定,然后创建了eventLoop不断的执行JDK中的Selector.select()方法,从注册到selector中的channel中选择符合条件的channel。另外创建了一个task,用来从选中的channel中读取数据,然后把读取到的数据给到childHandler进行处理。
下面让我们来深入到这两个方法的执行过程中去,看看到底发生了什么。
initAndRegister方法的执行过程如下图所示:
initAndRegister方法做的事有两件:init和register。在这之前首先通过channelFactory创建了一个channel。该方法是在初始化EventLoopGroup的时候出现的,可以回头看一下,初始化的过程一共创建了三种对象:channel、unsafe、pipeline。
从该方法中慢慢的往下看,就可以看到,通过channelFactory创建了一个channel对象后,然后又拆分成了两个部分,分别对channel进行了初始化,和对channel进行了register。其中register方法,最终会调用到JDK中最原始的register方法,即把一个channel注册到一个selector中去。
init
初始化的过程主要是把用户先前创建的handler和childHandler添加到pipeline中去。
register
注册的过程主要是把该channel注册到selector中去,这里的channel就是用来接受客户端连接的。
doBind0方法的执行过程如下图所示:
doBind0做的事也很明确:bind、select以及runTask。
bind的过程最终是调用到JDK中原生的bind方法,其中在unsafe中执行bind的过程时,除了执行了具体的bind之外,还在NioEventLoop中启动了一个线程,用来不断的执行JDK中selector的select方法。然后读取选中的channel中的数据,最后把读取到的数据丢给childHandler去处理。
我们知道JDK中的Selector会出现epoll空轮询的bug,若Selector的轮询结果为空,也没有wakeup或新消息处理,则发生空轮询,此时CPU使用率将达到100%。
Netty是通过重建Selector的方式修复该bug的,具体的做法是:
对Selector的select操作周期进行统计,每完成一次空的select操作进行一次计数,
若在某个周期内连续发生n(SELECTORAUTOREBUILD_THRESHOLD)次空轮询,则触发了epoll死循环bug。
重建Selector,判断是否是其他线程发起的重建请求,若不是则将原SocketChannel从旧的Selector上解除注册,重新注册到新的Selector上,并将原来的Selector关闭。
具体的代码是在NioEventLoop中的select方法中执行的,代码如下:
private void select(boolean oldWakenUp) throws IOException {
Selector selector = this.selector;
try {
int selectCnt = 0;
long currentTimeNanos = System.nanoTime();
long selectDeadLineNanos = currentTimeNanos + delayNanos(currentTimeNanos);
for (;;) {
long timeoutMillis = (selectDeadLineNanos - currentTimeNanos + 500000L) / 1000000L;
if (timeoutMillis <= 0) {
if (selectCnt == 0) {
selector.selectNow();
selectCnt = 1;
}
break;
}
if (hasTasks() && wakenUp.compareAndSet(false, true)) {
selector.selectNow();
selectCnt = 1;
break;
}
int selectedKeys = selector.select(timeoutMillis);
selectCnt ++;
if (selectedKeys != 0 || oldWakenUp || wakenUp.get() || hasTasks() || hasScheduledTasks()) {
break;
}
if (Thread.interrupted()) {
selectCnt = 1;
break;
}
long time = System.nanoTime();
if (time - TimeUnit.MILLISECONDS.toNanos(timeoutMillis) >= currentTimeNanos) {
// timeoutMillis elapsed without anything selected.
selectCnt = 1;
// 当发生的select次数大于指定的阈值时,重建Selector
} else if (SELECTOR_AUTO_REBUILD_THRESHOLD > 0 &&
selectCnt >= SELECTOR_AUTO_REBUILD_THRESHOLD) {
// 重建Selector,以解决JDK中的epoll的bug
rebuildSelector();
selector = this.selector;
// Select again to populate selectedKeys.
selector.selectNow();
selectCnt = 1;
break;
}
currentTimeNanos = time;
}
} catch (CancelledKeyException e) {
if (logger.isDebugEnabled()) {
logger.debug(CancelledKeyException.class.getSimpleName() + " raised by a Selector {} - JDK bug?",
selector, e);
}
// Harmless exception - log anyway
}
}
通过上面的分析,我们最后来总结一下,Netty服务端在启动的时候做了以下的事情:
1.创建了EventLoopGroup、NioEventLoop的实例,并且创建了一个selector
2.创建了一个channelHandler用来在未来实例化Channel
创建Channel的过程中会一并创建pipeline和unsafe
3.设置了ServerBootstrap的handler和childHandler属性,用以在接收到数据后进行业务逻辑的处理
4.通过channelFactory创建了channel实例,并对其进行了初始化和注册到selector上
5.通过Unsafe调用JDK的bind方法将服务绑定到了端口上,并通过EventLoop创建了一个线程来循环执行以下任务
5.1.执行selector的select方法,并通过计数的方式,满足一定条件的情况下对selector进行重建,以解决JDK的epoll空轮询的bug
5.2.对选中的channel执行读操作,并将读取到的数据丢给childHandler进行处理
一个完整的Netty服务端启动过程如下图所示: