之前经常遇到服务器上有时候会出现无法创建新的tcp连接,但ping完全正常的情况。
系统日志中会出现类似这样的提示:
sshd: PID 2096: error: reexec socketpair: No buffer space available
太长不看:
目前看来,大多数的原因是服务端程序的Handle Leaks造成的。
1、64位系统,如果进程的Handle超过3000,则可能有问题。
2、通过ProcessExplorer来查看,打开“Show Unnamed Handles and Mappings”功能,如果有大量的无name的handles,则可能有问题。
3、只有修改程序代码,及时回收资源才能解决这个问题。
此时,编写了一个简单的程序 test.exe
#include
#include
#pragma comment(lib, "ws2_32.lib")
LPSTR ConvertErrorCodeToString(DWORD ErrorCode)
{
HLOCAL LocalAddress=NULL;
FormatMessage(FORMAT_MESSAGE_ALLOCATE_BUFFER|FORMAT_MESSAGE_IGNORE_INSERTS|FORMAT_MESSAGE_FROM_SYSTEM,
NULL,ErrorCode,0,(PTSTR)&LocalAddress,0,NULL);
return (LPSTR)LocalAddress;
}
int main()
{
//加载套接字
WSADATA wsaData;
char buff[1024];
memset(buff, 0, sizeof(buff));
if(WSAStartup(MAKEWORD(2, 2), &wsaData) != 0)
{
printf("Failed to load Winsock");
return 0;
}
SOCKADDR_IN addrSrv;
addrSrv.sin_family = AF_INET;
addrSrv.sin_port = htons(YOUR PORT);
addrSrv.sin_addr.S_un.S_addr = inet_addr("YOUR IP");
//创建套接字
SOCKET sockClient = socket(AF_INET, SOCK_STREAM, 0);
if(SOCKET_ERROR == sockClient){
printf("Socket() error:%d", WSAGetLastError());
return 0;
}
//向服务器发出连接请求
if(connect(sockClient, (struct sockaddr*)&addrSrv, sizeof(addrSrv)) == INVALID_SOCKET){
printf("Connect failed:%d ,%s", WSAGetLastError(),ConvertErrorCodeToString(WSAGetLastError()));
return 0;
}
//发送数据
strcpy(buff,"0|hello world\n");
send(sockClient, buff, sizeof(buff), 0);
//关闭套接字
closesocket(sockClient);
WSACleanup();
return 0;
}
执行后会提示:
C:\Users\Administrator>test.exe
Connect failed:10055 ,由于系统缓冲区空间不足或队列已满,不能执行套接字上的操作。
Google查询10055这个错误,能看到这个帖子
https://stackoverflow.com/questions/16712354/windows-socket-error-code-10055
根据它的提示,我们能找到最合适的调试方法是:
How to troubleshoot a handle leak?
https://blogs.technet.microsoft.com/yongrhee/2011/12/19/how-to-troubleshoot-a-handle-leak/
Pushing the Limits of Windows: Handles
https://blogs.technet.microsoft.com/markrussinovich/2009/09/29/pushing-the-limits-of-windows-handles/
推荐开发同学根据这两篇文章来排查具体的情况。
临时解决方案:
1、改端口范围
通过以下两个方法任选其一:
reg add HKLM\System\CurrentControlSet\Services\Tcpip\Parameters /v MaxUserPort /t REG_DWORD /d 65534
或者
netsh int ipv4 set dynamicport tcp start=1000 num=60000
以上两个方法有一个副作用, 原本系统的临时动态端口会从49XXX开始,但按照如上两个方法操作之后,临时端口会从10XX开始,可能会导致其他问题,使用前敬请注意。
2、重启程序
3、重启系统
但都是治标不治本,最终还是需要开发修改代码才行。