zeromq使用注意点滴

zeromq使用注意点滴

 

1.关于介绍zeromq的就不说了,可以自己去看官方guide很详细

2.主要说下在使用过程中需要注意的地方

  1)使用如果使用c++的接口的时候,在你自己的类中或者apache模块中需要将zmq::context_t 对象定义在zmq::socket_t对象的前面,这样可以保证销毁的顺序

  2)使用sub-pub时候,如果sub没有调用setsockopt设置过滤项(设置NULL则接受所有),那么将会接收不到任何的消息,默认会阻塞所有消息

  3)如果是后台服务集群使用且zmq需要bind端口的,那么最好在iptables中进行下过滤,不要让外部链接连接过来,否则会造成cpu空转;关于cpu空转将会在最后说

  4)客户端连接服务器时,每个客户端中的zmq,每个连接使用一个socket,虽然可以一个socket可以调用connect多次,也就是连接多个server。但是,记住,最好是一个socket只调用一次connect

  5)使用zmq的程序,运行一段时间后(可能几天),如果你碰到异常退出,并且你使用nohup运行的lognohup.out中显示zeromq connection timeout,那么你可以zeromq/src/tcp_socket.cpp文件中的203行看是write的时候出错。

 1 int zmq::tcp_socket_t::write (const void *data, int size) 

 2 { 

 3     ssize_t nbytes = send (s, data, size, 0); 

 4  

 5     //  Several errors are OK. When speculative write is being done we may not  

 6     //  be able to write a single byte to the socket. Also, SIGSTOP issued  

 7     //  by a debugging tool can result in EINTR error.  

 8     if (nbytes == -1 && (errno == EAGAIN || errno == EWOULDBLOCK || 

 9           errno == EINTR)) 

10         return 0; 

11  

12     //  Signalise peer failure.  

13     if (nbytes == -1 && (errno == ECONNRESET || errno == EPIPE)) 

14         return -1; 

15  

16     errno_assert (nbytes != -1); 

17     return (size_t) nbytes; 

18 } 

这是由于 errno_assert (nbytes != -1);造成的,但是,真正的原因是nbytes==-1时,errno==ETIMEDOUT ,在前面一行中没有去添加对这个timeout的判断,另外,可以参考该文件中对win上的处理。因此,这里如果你碰到了timeout错误,那么请将errno == ETIMEOUT加入到errno==EPIPE后面,然后重新编译

  6)关于cpu空转。首先你可以用top 程序名,去看你的程序的cpu使用率是否是100%,而且基本固定不变,那么这时候,你就需要怀疑是否你的程序的问题,然后通过lsof -p 程序的进程号,去查看是否有文件描述符有can't identify protocol,还要注意下,是否有外网的ip连接到你的zmq的监听的端口。然后,你可以在zeromq/src/epoll.cpp中的loop,rm_fd,add_fd函数中打log,看看在监听到EPOLLERR|EPOLLHUP 的文件描述符是不是lsof -p 查看到的can't identify protocol的文件描述符一致。其实,只要做到前面5点,那么cpu 空转基本是不会出现的。

ps:最后,希望碰到问题,大家能自己思考为什么会出现这样的问题,该如何解决,对自己的提升会有很大的帮助。

 

来源:http://www.linuxidc.com/Linux/2013-03/80273.htm

 

你可能感兴趣的:(zeromq)