原文地址:https://www.nginx.com/blog/inside-nginx-how-we-designed-for-performance-scale/
Nginx在网络性能上处于领先地位,这一切都得益于软件的设计。尽管其他web服务器和应用服务器都采用基于线程或者进程的体系结构,Nginx具有复杂的事件驱动架构,使得nginx在现代硬件上可以扩展到数十万个并发连接。
下面的图展示了Nginx如何用一个进程来处理许多连接。博客的后面会讨论细节
为了更好地理解这个设计,你需要知道NGINX如何运行,NGINX拥有一个master线程,用来执行高特权地操作(比如读取配置和绑定端口)还有一些工作和帮助线程。
在译者刚刚安装好nginx的osx上的运行结果
在上面的四核服务器上,nginx创建了四个工作进程,还有一对缓存帮助进程来处理磁盘上的内容缓存。
为什么说架构重要
对于任何Unix应用来说,基础是线程或者进程。(从linux的视角来看,线程和进程几乎相同。主要的不同在于它们是如何分享内存的)。线程或者进程是一个操作系统可以计划在CPU 内核上运行的指令集。许多复杂的应用因为下面的两个原因同时运行多个线程或者进程:
1.他们在同时可以使用更多的CPU内核
2.线程和进程使得许多操作可以轻易地并发完成(比如同时处理多个连接)
线程和进程消耗着资源。他们使用内存和其他操作系统资源,而且需要上下文切换。现代的服务器可以同时处理数百个小的活动的线程或者进程,但是一旦内存耗尽或者高IO造成大量上下文切换时,性能会严重恶化。
常用的方法是为每一个连接建立一个单独的线程或者进程。容易实现,但难以扩展
Nginx如何做?
Nginx使用可调整的可用硬件资源可预测的进程模型。
1.master进程执行特权操作比如(读取配置文件,绑定端口,然后创建少量子进程(下面的三种进程)
2.cache loader进程在启动的时候运行。把磁盘中的缓存加载到内存中,然后存在。它的调度很保守,所以它的资源需求也低
3.cache manager进程周期性地执行,然后从磁盘缓存中删除条目保持一定的大小
4.工作进程执行全部的工作。它们处理网络连接,磁盘中的读写,还有和上游服务器之间的通信
Nginx推荐的配置是每一个CPU核数一个工作进程,最有效地利用硬件资源。你可以这样设置
worker_processes auto;
当一个NGINX服务器激活时,只有工作进程处于繁忙状态。每一个工作进程以nonblocking的方式处理许多连接,减少上下文切换的次数
每一个工作进程都是单线程的,而且独立运行,获取新的连接然后处理它们。进程可以通过共享缓存数据,session持久化数据还有其他共享数据通信。
每一个NGINX工作进程都由nginx的配置文件初始化,然后由master process提供一些监听端口。
NGINX工作线程从等待监听socket上的事件(accept_mutex和kernel socket sharding)开始。事件由新的传入连接发起。这些连接被分配给状态机,HTTP状态机是最常用的,但是Nginx也实现了基于流的状态机(原生的TCP),还有一些邮件协议(SMTP,IMAP,和POP3)
状态机是告诉NGINX如何处理一个请求的指令集。与NGINX功能相同的大多数Web服务使用类似的状态机,区别在于实现。
调度状态机
把状态机想像成象棋的规则。每一个HTTP事务是一个象棋游戏。象棋的一边是web服务器-一个高手,非常迅速的执行指令,另一边是远端客户端通过一个相对缓慢的网络相连。
阻塞状态的机器
回想起我们说的一个进程或者线程是一个可以在CPU核心上调度的完备指令集。大多数web服务器和web应用使用一个线程一个连接或者一个进程一个连接的方式下象棋。每一个线程或者进程包含着一个游戏从始到终的指定。在进程执行的过程中,大多数时间都在阻塞状态,等待客户端完成下一步动作。
1.web服务器在监听的端口上等待新的连接
2.当它接收到一个新的游戏时,开始游戏,在等待客户端的每个下一步时阻塞。
3.一旦游戏结束,web服务器可能会查看是否客户端想要再来一局(对应长连接),如果连接关闭(客户端离开或者超时),web服务器等待一局新游戏的开始
关键的地方在于每一个活动中的HTTP连接都需要一个线程或者进程。架构简单,易于实现。然而,这里有一个巨大的不平衡,由文件操作符和少量内存表示的轻量级HTTP协议,映射到一个线程或者进程,一个非常重的操作系统对象。尽管编程方便,但这是极大的浪费。
NGINX是一个真的象棋大师
nginx就是这样子下象棋的。每一个worker线程都可以同时开启数百个游戏。
1.worker等待监听连接socket
2.发生在socket的事件,由worker处理,比如客户端想要下一局象棋,工作线程创建一个新的连接socket,或者是客户端下了新的一步,工作线程迅速回应。
工作线程在网络交互的时候不会阻塞,等待客户端的回应。当客户端执行了它的动作之后,立刻切换到其他游戏,或者是开始一局新的游戏。
为什么比阻塞的多线程架构快
Nginx可以很好的扩展到每个worker处理数十万个线程。每一个连接创建一个file descriptor,然后消耗少量额外的内存。每个连接几乎没有额外的开销。Nginx进程可以固定在CPU。如果没有工作需要处理,上下文切换相对不频繁。
在阻塞,每一个连接一个线程的方法中,每个连接需要大量的额外资源和开销,并且上下文切换频繁。通过适当的系统调整,NGINX可以扩展处理每个工作进程数十万个HTTP并发连接,并且可以吸收流量尖峰(来一局新游戏),而且不会丢失节拍。
更新配置文件并且升级NGINX
Nginx的进程架构,少量的工作进程,可以非常效率地更新配置甚至是Nginx自身。
当master进程收到一个SIGHUP信号时,它做两件事情:
1.重载配置文件,然后fork出来新的一批工作进程。新的工作进程立刻开始执行接受连接并且处理事务。
2.让旧的工作线程缓慢退出。工作线程停止接受新的连接。只要当前的HTTP请求完成,工作线程就立刻关闭连接。一旦所有的连接关闭,工作线程退出。
这种重新加载过程可能导致CPU和内存使用量的小幅上升,但与活动连接的资源负载相比,通常是不可察觉的。 您可以每秒重新加载配置多次(许多NGINX用户都这样做)。 很少有许多NGINX工作进程等待连接关闭的时代,但即使是这些情况,也能迅速解决。
NGINX的二进制升级实现了高可用性的圣杯,你可以即时升级软件,没有任何连接丢失,停机时间或服务中断。