分布式调度中xxl-job任务调度失败——java.io.IOException: Too many open files

先亮出错误

06:15:04.460 logback [xxl-job, admin JobTriggerPoolHelper-fastTriggerPool-567911238] INFO  c.x.r.r.i.r.XxlRpcReferenceBean - >>>>>>>>>>> xxl-rpc, invoke error, address:192.168.1.151:19919, XxlRpcRequestXxlRpcRequest{requestId='bb2dd2ec-423b-4538-9fd8-811cbac25db7', createMillisTime=1569449700409, accessToken='', className='com.xxl.job.core.biz.ExecutorBiz', methodName='run', parameterTypes=[class com.xxl.job.core.biz.model.TriggerParam], parameters=[TriggerParam{jobId=31, executorHandler='OnlineNonChannelPayStatusQueryJobHandler', executorParams='{
  "dataSize": "50",
  "shardingIndex": "0",
  "shardingTotal": "1",
  "delayTime": "999999"
}', executorBlockStrategy='SERIAL_EXECUTION', executorTimeout=0, logId=28652, logDateTim=1569449700355, glueType='BEAN', glueSource='', glueUpdatetime=1568972057000, broadcastIndex=0, broadcastTotal=1}], version='null'}
06:15:04.460 logback [xxl-job, admin JobTriggerPoolHelper-fastTriggerPool-567911238] ERROR c.x.j.a.core.trigger.XxlJobTrigger - >>>>>>>>>>> xxl-job trigger error, please check if the executor[192.168.1.151:19919] is running.
com.xxl.rpc.util.XxlRpcException: java.lang.IllegalStateException: failed to create a child event loop
	at com.xxl.rpc.remoting.invoker.reference.XxlRpcReferenceBean$1.invoke(XxlRpcReferenceBean.java:227)
	at com.sun.proxy.$Proxy81.run(Unknown Source)
	at com.xxl.job.admin.core.trigger.XxlJobTrigger.runExecutor(XxlJobTrigger.java:196)
	at com.xxl.job.admin.core.trigger.XxlJobTrigger.processTrigger(XxlJobTrigger.java:149)
	at com.xxl.job.admin.core.trigger.XxlJobTrigger.trigger(XxlJobTrigger.java:74)
	at com.xxl.job.admin.core.thread.JobTriggerPoolHelper$3.run(JobTriggerPoolHelper.java:77)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)
Caused by: java.lang.IllegalStateException: failed to create a child event loop
	at io.netty.util.concurrent.MultithreadEventExecutorGroup.(MultithreadEventExecutorGroup.java:88)
	at io.netty.util.concurrent.MultithreadEventExecutorGroup.(MultithreadEventExecutorGroup.java:58)
	at io.netty.channel.MultithreadEventLoopGroup.(MultithreadEventLoopGroup.java:52)
	at io.netty.channel.nio.NioEventLoopGroup.(NioEventLoopGroup.java:87)
	at io.netty.channel.nio.NioEventLoopGroup.(NioEventLoopGroup.java:82)
	at io.netty.channel.nio.NioEventLoopGroup.(NioEventLoopGroup.java:63)
	at io.netty.channel.nio.NioEventLoopGroup.(NioEventLoopGroup.java:51)
	at io.netty.channel.nio.NioEventLoopGroup.(NioEventLoopGroup.java:43)
	at com.xxl.rpc.remoting.net.impl.netty_http.client.NettyHttpConnectClient.init(NettyHttpConnectClient.java:48)
	at com.xxl.rpc.remoting.net.common.ConnectClient.getPool(ConnectClient.java:110)
	at com.xxl.rpc.remoting.net.common.ConnectClient.asyncSend(ConnectClient.java:41)
	at com.xxl.rpc.remoting.net.impl.netty_http.client.NettyHttpClient.asyncSend(NettyHttpClient.java:18)
	at com.xxl.rpc.remoting.invoker.reference.XxlRpcReferenceBean$1.invoke(XxlRpcReferenceBean.java:216)
	... 8 common frames omitted
Caused by: io.netty.channel.ChannelException: failed to open a new selector
	at io.netty.channel.nio.NioEventLoop.openSelector(NioEventLoop.java:169)
	at io.netty.channel.nio.NioEventLoop.(NioEventLoop.java:143)
	at io.netty.channel.nio.NioEventLoopGroup.newChild(NioEventLoopGroup.java:127)
	at io.netty.channel.nio.NioEventLoopGroup.newChild(NioEventLoopGroup.java:36)
	at io.netty.util.concurrent.MultithreadEventExecutorGroup.(MultithreadEventExecutorGroup.java:84)
	... 20 common frames omitted
Caused by: java.io.IOException: Too many open files
	at sun.nio.ch.IOUtil.makePipe(Native Method)
	at sun.nio.ch.EPollSelectorImpl.(EPollSelectorImpl.java:65)
	at sun.nio.ch.EPollSelectorProvider.openSelector(EPollSelectorProvider.java:36)
	at io.netty.channel.nio.NioEventLoop.openSelector(NioEventLoop.java:167)
	... 24 common frames omitted

此异常直接导致任务调度全部失败

原因:

操作系统的中打开文件的最大句柄数受限所致,常常发生在很多个并发用户访问服务器的时候.因为为了执行每个用户的应用服务器都要加载很多文件(new一个socket就需要一个文件句柄),用 CentOS 做 API 接口服务器供其他终端调用时,并发量高会报错:java.io.IOException: Too many open files。其原因是在 Linux 下默认的Socket最大连接数为 1024(可以通过 ulimit -n 查看)。超过这个数这就会导致打开文件的句柄的缺乏.

解决:

  • 尽量把类打成jar包,因为一个jar包只消耗一个文件句柄,如果不打包,一个类就消耗一个文件句柄.
  • java的垃圾回收不能关闭网络连接打开的文件句柄,如果没有执行close()(例如:java.net.Socket.close())则文件句柄将一直存在,而不能被关闭.你也可以考虑设置socket的最大打开数来控制这个问题.
  •  对操作系统做相关的设置,增加最大文件句柄数量。
    1. Linux
      在Linux内核2.4.x中需要修改源代码,然后重新编译内核才生效。编辑Linux内核源代码中的 include/linux/fs.h文件,将 NR_FILE 由8192改为65536,将NR_RESERVED_FILES 由10 改为 128。编辑fs/inode.c 文件将MAX_INODE 由16384改为262144。或者编辑 /etc/sysctl.conf  文件增加两行 fs.file-max = 65536 和 fs.inode-max = 262144 。一般情况下,系统最大打开文件数比较合理的设置为每4M物理内存256,比如256M.可以用lsof -p 看打开的文件句柄数.
    2. Windows
      最大文件句柄是16,384,你在任务管理器的性能这一项中可以看到当前打开的句柄数.
    Linux服务器端修改:

          查看系统允许打开的最大文件数

          #cat /proc/sys/fs/file-max

 

          查看每个用户允许打开的最大文件数

          ulimit -a

          发现系统默认的是open files (-n) 1024,问题就出现在这里。

          在系统文件/etc/security/limits.conf中修改这个数量限制(注意系统文件慎重修改,本人亲身入坑),

          在文件中加入内容:

          * soft nofile 65536 (注意:此处参数最大65536,如超过65536系统将会认为这儿为负数,这会导致外部ssh无法连接
          * hard nofile 65536(注意:此处参数最大65536,如超过65536系统将会认为这儿为负数,这会导致外部ssh无法连接

          用'*'号表示修改所有用户的限制;

          soft 代表软连接

          hard 代表硬连接

          不需要重启 Linux 服务器,只需要重启xxljob的服务即可生效。通过 ulimit -a 查看可以发现

    另外方法:
          1.使用ps -ef |grep java   (java代表你程序,查看你程序进程) 查看你的进程ID,记录ID号,假设进程ID为12
          2.使用:lsof -p 12 | wc -l    查看当前进程id为12的 文件操作状况
               执行该命令出现文件使用情况为 1052
          3.使用命令:ulimit -a   查看每个用户允许打开的最大文件数
               发现系统默认的是open files (-n) 1024,问题就出现在这里。
          4.然后执行:ulimit -n 4096

          将open files (-n) 1024 设置成open files (-n) 4096

          这样就增大了用户允许打开的最大文件数

原文地址:https://www.iteye.com/blog/gaozzsoft-1824824

注意:cron表达式的正确书写,如果客户端页面新增任务cron表达式书写错误(例如: * 0/3 * * * ? ,预想每三分钟执行一次。正确应该是 0 0/3 * * * ? )。xxl-job无法识别就会导致任务并非按照你的指定时间去跑,而是启动后没秒都在调度(在这儿应该没有几个任务可以确保一秒执行完成)直接导致你的任务全部挂起未执行。一秒挂一个想想上面设置的最大值65536能支撑多久。所以说cron表达式在定时任务执行中是很重要的。(此处建议对于此定时任务的创建最好交于平台运维人员集中管理,以防止误操作产生事故)

你可能感兴趣的:(xxl-job)