阅读266 返回首页    go 网易 go 网易蜂巢


性能监控

目录

发现问题

性能监控通过探针的方式,分布式地采集集群运行数据,汇总到监控服务器。监控服务器记录、整理、分析性能数据,最后产生监控图表,展示给用户查看。

现有的监控图表有: 集群管理列表仪表盘集群性能仪盘表

集群列表仪盘表

通过集群列表仪表盘,你可以看到一个集群 30 分钟内的性能数据指标,如下图所示,这些指标包括:
  • 健康异常记录:超出规定指标的数据将被记录到健康异常中。
  • 平均响应时间:入口请求在观察周期内的平均响应时间。
  • 请求频率、请求次数:入口请求在观察周期内的请求次数和频率(按分钟计)。
  • 错误频率、错误次数、错误率:入口请求在观察周期内的错误次数和频率(按分钟计),以及错误次数与请求次数的比例。

集群管理仪表盘.png

集群性能仪盘表

点击具体的集群实例,进入集群详情后,可以在集群性能仪表盘中看到下图,其中包括了:
  • 拓扑图:观察周期内,当前集群实例与其他集群实例或者第三方服务的拓扑关系,以及他们彼此间的请求频率和平均响应时间。
  • 健康状态异常总览:观察周期内健康事件的记录数。
  • 慢响应总览折线图:观察周期内,慢响应、极慢响应、无响应的请求数量变化趋势。
  • 平均响应时间折线图:观察周期内,平均响应时间变化趋势。
  • 请求频率折线图:观察周期内,请求频率的变化趋势。
  • 错误率折线图:观察周期内,错误比例的变化趋势。

集群性能仪表盘.png

性能监控可以采集到集群的多项数据指标,你可以根据这些指标定义健康判定规则(自定义功能暂未开放),同时蜂巢也根据多年的经验,设定了一些默认的健康判定规则。当集群监控通过健康规则判断,发现集群出现异常时,会产生健康异常通知,并在健康明细中进行记录。

健康异常.png

定位问题

通过上面的图表,你可以快速判断系统是否出问题,以及问题的大致类型是什么。蜂巢还提供了丰富的明细图表和快照信息,帮助用你速定位问题,如下图所示:

明细图表.png

通过明细图表,你可以看到:
  • 每个访问的请求,具体的统计信息。
  • 慢的请求、出错的请求、以及健康异常事件的记录。

如果需要进一步确定问题的原因,还可以使用快照功能。异常记录前面若有照相机图标,表示蜂巢记录了这次异常记录的快照信息,如下图所示:

异常记录快照示例.png

点击照相机图标,你可以看到这次请求处理中具体的调用链路、响应时长、以及报出的异常信息等快照信息。

具体快照信息.png

监控自动化

根据性能监控采集的数据,你可以设置报警通知(目前未全部开放)。根据各类性能监测的事件、触发告警通知,你可以及时地通知到负责人处理运维问题。

最后更新:2017-01-03 10:48:49

  上一篇:go 管理文件
  下一篇:go CDN-加速域名管理