too many open files 的终极解决办法

关于我:https://blog.csdn.net/Appleyk

====就是随便记录,不会太详细,不会注重文章的质量,主要给自己看的===

关于这个不想说太多,网上一搜很多,大部分都是不负责任的,都是说改什么Linux的配置,我只想说,这是小学生吧? 这明显就是治标不治本啊!!!

1、首先,得定位问题,查,到底是哪些进程或线程打开了大量的连接(scoket)没有关闭

lsof -n | awk '{print $2}' | sort | uniq -c | sort -nr | more

2、如果Linux是内网环境不支持lsof命令,那就离线安装gcc

百度网盘地址: https://pan.baidu.com/s/1xFDKEJ3UkLoNJmBxIflnEg 提取码: mxtg

上面是下载地址,里面都是些gcc安装需要依赖的rpm包,里面有个sh脚本,是用来一键安装所有包的

image.png

将这些rmp传到linux服务器下,统一安装即可:

rpm -Uvh *.rpm --nodeps --force

3、查看当前进程相关的连接

lsof | grep pid

4、jps查看当前java进程的状态

jps

5、查看当前进程属于哪个应用

ps -ef | grep pid

6、杀掉对应的pid

kill -9 pid

8、总结

由于是生产内网环境遇到的,就不截图了,直接说明最后怎么解决的:

1、tomcat运行一段时间就会输出大量日志: xxxx too many open flle,这个错一报,tocmat所在的linux服务器就什么连接都create不了,结果导致服务瘫痪,前端请求一直pending

2、每次重启服务,临时解决,发现不一会又出现xxxx too many open flle错误

3、索性,将ulimit -n 显示的值 从1024 改成了 2w+,还是不行,运行一段时间又报错

4、什么情况,抓狂中,只能lsof查看一下,到底是哪些进程打开的file(linux一切皆文件)比较多,其实file就是一个tcp连接(socket)

5、结果发现,内网环境linux上没安装lsof,卧槽,那就安装呗,外网下了一个二进制包,准备编译,结果make时提示我需要gcc

6、那就安装gcc呗,外网准备相关依赖包,内网安装,欧克了,lsof可以用了

7、利用lsof -n | awk '{print $2}' | sort | uniq -c | sort -nr | more查看了排在前面的几个进程,利用jps比对了一下,果不其然,指向的就是tomcat,但是额外发现有好多个tomcat进程实例(重复的,可能之前tomcat关闭时,没政正常shutdown),于是用kill命令手动全部干掉了

8、重启tomcat,保证只有一个jps进程,跟了下,程序运行期间,files数一直在增长,于是定位就是这个服务本身的问题,实际上就是代码写的有问题,有资源用完了未释放,造成tcp连接一直挂着,占用着linux的文件句柄资源

9、利用 lsof | grep pid命令,查看了进程的连接情况,结果发现大量的状态为Established的tcp连接,他们清一色的指向mongodb

10、那么问题就好办了,先在mongodb中查询当前连接的数:db.serverStatus().connections;发现current的值在持续++,肯定就不对劲了

11、debug项目代码,定位问题在一些数据入库的时候异常了,结果定时器频繁重执行,而入库分两步,一个是入mongodb,一个入postgresql,前者入的时候,代码中忘关client连接了

12、将11步定位的问题代码处,加了连接close()的方法

13、再重新打包服务,发布,观察,问题不在出现!!!!解决

你可能感兴趣的:(too many open files 的终极解决办法)