所有的进程需要进行监管,都认为是不可靠的,可以使用supervised或是forever之类的进行外部程序的监管,如redis等,
一旦down机要立刻重启,最好还有相关的发送邮件之类的
对于自己写的程序,根据情况要在业务程序监管上,比如异常killed掉了,或是内在泄漏了out of memory了,要时刻认为自己的程序会crash,时刻标记自己的信息,以便能断点续执行,特别是对一些扫数据库的任务,能接着那个点上,而不是重头再来,这个很重要
最好这种情况的monior要double check