先搞清楚几样东西:
1.监控对象是什么
2.监控指标有哪些
3.从什么维度去监控

监控对象
1.用户端监控:给用户提供的业务功能的监控
2.接口监控:业务功能依赖的RPC接口监控
3.资源监控:接口依赖的资源的监控
4.基础监控:服务器本身的健康状况的监控

监控指标:
1.请求量:一是实时请求量(QPS),二是统计请求量(PV)
2.响应时间:用一段时间内的平均耗时来反映,可以用0~10ms、10ms~50ms、50ms~100ms、100ms~500ms、500ms以上这五个区间,并且根据这五个区间来定义好SLA
3.错误率:调用错误的次数占总调用次数的比率

监控维度
1.全局维度:整体对所有监控对象的一个了解
2.分机房维度:同一个监控对象,对于不同机房来说,很有可能会不一样
2.单机维度:同一个监控对象,对于不同的主机来说,很有可能会不一样
3.时间维度:同一个监控对象,对于每天同一时刻来说,很有可能会不一样(各种业务活动影响),可以定义一天前,一周前,一个月前,三个月前等去观察
4.核心维度:分开核心业务和非核心业务来监控