ElasticSearch线程池设计

前言

ES的操作中充斥着不同的操作任务类型,如Index、Search、刷新合并、recover等等。各种类型任务之间不但有着不同的实效性的要求(如有的任务要求尽快完成,而另外一些类型任务可能不要求),而且CPU资源消耗也可能因为应用场景不同而有区别(如ELK是一种写多的应用场景,而站内搜索可能是写少读多的应用场景)。

在Java线程池框架的基础上,ES扩展设计了自己的线程池方案。首先,ES中线程池的类结构如图:
ElasticSearch线程池设计_第1张图片
ES线程池类图

基于这种结构,ES定义了若干种类型的线程池,下面分开一一介绍。

Fixed类型线程池

Fixed类型线程池基于EsThreadPoolExecutor创建,是EsThreadPoolExecutor的实例。这种类型的线程池的特点是线程数固定,任务队列大小可配
  1.当队列大小配置为-1时,任务队列是一种无界队列,基于Java的LinkedTransferQueue实现。
  2.当配置大小非负时,任务队列是有界队列,是在LinkedTransferQueue基础上增加了size管控的自定义队列(SizeBlockingQueue类型)。

怎么理解线程数固定呢?在Java标准的线程池里面,主要有3个重要的参数会影响线程数的变化:corePoolSize、maximumPoolSize和keepAliveTime。
  1.corePoolSize,线程池刚创建时,线程数量为0,当每次执行execute添加新的任务时会在线程池创建一个新的线程,直到线程数量达到corePoolSize为止。
  2.maximumPoolSize,当任务队列已满,放不下新的任务,再添加新的任务则线程池会再创建新的线程,线程数量大于corePoolSize但不会超过maximumPoolSize。
  3.keepAliveTime,当线程数量大于corePoolSize时,如果有线程空闲时间超过keepAliveTime,则线程会被销毁,最终保证线程池线程个数为corePoolSize。

在ES的Fixed类型线程池中,corePoolSize和maximumPoolSize设置的值一样,keepAliveTime设置的值为0。根据上面描述,开始提交任务时,会不断创建新的线程,直至线程数达到配置的线程数。

在这之后,再创建任务,如果任务队列没满,任务会进入任务队列;如果队列满了,再提交任务会被阻塞。因此,此时不管队列满不满,都不会再创建新的线程,线程数不会增加。当不无任务可做导致线程空闲时,也不会销毁和回收线程,线程数也不会减少

Fixed_auto_queue_size类型线程池

此种类型线程池基于QueueResizingEsThreadPoolExecutor实现。这种类型线程池和Fixed类型线程池很类似,线程数固定,但是不允许用无界任务队列。任务队列(ResizableBlockingQueue)的容量根据利特尓法则(Little's Law)不断调整,以适应系统不断变化的负载情况。

Little's Law: L = λW, 其中λ计算方式:单位时间内进来的task个数。W是配置的单个task期望处理时间(target_response_time)。根据此公式计算出来的L就是理想的Queue 的容量。因此,如果任务平均的响应时间超过target_response_time的话,任务队列容量会减少以控制进入线程池的任务个数。

那么什么时候来计算和调整呢?答案是每次提交的任务执行完后(afterExecute),判断已经执行的任务个数是否达到了配置的每帧任务数(auto_queue_frame_size)。如果是,就开始计算并调整。

任务队列的容量调整也是参数可配的。queue_size 参数配置任务队列的初始容量。min_queue_size 配置了任务队列的容量下限,max_queue_size 配置了任务队列的容量上限。如下是一个Search操作(该操作使用就是本类型线程池)的线程池参数配置:

thread_pool:
   search:
     size: 30
     queue_size: 500
     min_queue_size: 10
     max_queue_size: 1000
     auto_queue_frame_size: 2000
     target_response_time: 1s

Scaling类型线程池

Scaling类型线程池基于EsThreadPoolExecutor创建。这种类型线程池和Java标准的线程池有点类似,也有三类参数corePoolSize、maximumPoolSize和keepAliveTime,但是线程创建和任务进入队列行为却有区别:
  1.当线程池个数低于corePoolSize时,每次提交新任务都会触发新的线程创建。当线程池个数超过corePoolSize且任务队列未满时,再有新任务提交,java标准线程池会把任务加入到队列里面。
  2.ES里面的Scaling类型线程池会首先检查创建的线程数是否达到了maximumPoolSize,如果没有,会继续创建新的线程。在创建的线程数达到了maximumPoolSize,新提交的任务才会进入任务队列。
  3. 线程空闲时间超过keepAliveTime且线程数大于corePoolSize,线程都会被销毁。Java线程池是队列满了才创建了多余的线程,而Scaling是先创建的线程后入的队列。在某种情况下,Scaling的线程相对来说,更容易空闲一些。

Direct类型线程池

基于AbstractExecutorService的内部匿名类实现,特点是不支持shutdown。

Prioritized 类型线程池

基于PrioritizedEsThreadPoolExecutor实现,此类型线程池线程个数固定为1。提交的任务,会被按照优先级的顺序来执行。如果两个任务有相同的优先级,先到的任务先执行。

总结

基于上面介绍的几种线程池类型,ES定义了若干线程池的实例并用于不同的业务操作,如下图:


ElasticSearch线程池设计_第2张图片
不同操作的线程池

你可能感兴趣的:(ElasticSearch线程池设计)