原文地址:http://blog.sina.com.cn/s/blog_87ace1a00101kp0y.html
产品运维建议初步整理:
1.要有专门的人负责运维,至少当非开发人员发现问题时,能够在第一时间找到问题处理人。
2.每天定时查询服务器的运行状态,至少早上上班时和晚上下班前两次;每天下班前发送“日常运维报告”邮件给主要关系人;每周整理一次“周运维报告”,统一当周系统运行情况。
3.提供部署手册、运维手册和操作手册;提供系统升级部署文档规范。
4.整理该产品常见问题的解决方法日志,当遇到不能解决的问题时,要根据问题的严重性,给出处理时长;并将后续的常见问题解决办法持续集成。
5.准备应急预案。当发生异常情况时,要能快速找到明确的问题负责人和问题解决人员;尽快确定问题的处理方式,并将处理结果通知给问题发现者和问题关系人。
6.可以开发一个简单的系统监控程序。检查服务器、软件、数据库的状态,第一时间将异常以邮件或其他形式通知给相关负责人员,提高应急处理能力,减少投诉量。
运维手册主要包含以下内容:
1. 系统运行环境
1.1 硬件(服务器品牌、型号、CPU颗数、CPU主频、内存大小、硬盘大小、网卡块数)
1.2 操作系统(名称、版本、32/64位)
1.3 软件
1.3.1 WEB服务器(名称、版本、32/64位)
1.3.2 JDK(版本、32/64位)
1.4 数据库(名称、版本、客户端连接管理工具、编码类型)
1.5 网络(网卡地址及对应的作用描述)
2. 文件清单
3. 部署位置
3.1 程序安装位置
3.2 备份文件位置
3.3 升级文件位置
4. 主要配置文件及说明
5. 基本维护
5.1 日志(位置)
5.2 系统新数据录入方法(如:增加门店)
6. 账户信息
6.1 远程登陆(地址、端口、账号和密码。)
6.2 FTP(地址、端口、账号和密码。)
6.3 数据库(地址、端口、账号和密码。)
7. 其他
7.1 新增门店时的配置要点
操作手册主要包含如下内容:
(含各个入口访问地址[如有HTTPS方式也请附上];软件客户端下载、安装说明;手机客户端android、IOS和管理后台的使用说明)。
应急预案:
规范应急应急预案处理流程。
1. 问题第一负责人(部门/组、姓名、手机号码、邮箱、备注)
2. 细分问题负责人(部门/组、姓名、手机号码、邮箱、备注)
3. 问题处理建议时间。
4. 解决问题的主要步骤。
部署文档:
略,部分参见运维手册。
升级文档:
1. 列出要上传的文件清单;
2. 写清楚升级的每个文档放置的位置;
3. 需要修改配置文件的,请加以描述;
4. 有必要的话,请简单描述其作用;
监控程序:
1. 简单的监控程序,可以通过一个JSP网页,编写一个简单连接数据库的脚本,部署在各个门店服务器上。在云服务器上,定时访问这些部署在门店服务器上的JSP网页,通过返回结果,初步判定程序的健康状况。
一旦出现连接错误,可及时通过发送邮件等方式自动提醒。
常见问题:
形成问题解决日志。通过长期运维积累,记录问题解决办法,逐步形成系统运维知识库,以备后用。
运维报告:
运维报告,要用统一格式的文档。详细记录一下内容:
1. 服务器硬件资源使用情况。(CPU利用率,内存使用率、硬盘剩余空间)
2. 操作系统运行情况。(是否有系统异常提醒、安全提醒)。事前应做好安全防范配置工作,如防火墙等。
3. WEB服务器运行状态。(JVM使用率波动区间、SESSION数量波动区间、连接数情况)
4. 应用软件。(是否有异常信息;平均响应速度[可测试3到5次取平均值])
5. 网络连接情况。(系统与其他系统相关服务器之间的连接是否通畅,IP地址有误异常[如被篡改等])
最后附上检查时间,系统总体状态评价,记录发现的问题及待解决的问题(此条需要持续跟踪直至解决)。
最后,要注意软件运营版本管理。每个版本要附上增加的内容或变更的事项,以方便运维。(此条尤为重要,可明确此版本产品的系统边界;尤其接到客户电话时,防止尴尬和露怯)。