性能监控
发现问题
性能监控通过探针的方式,分布式地采集集群运行数据,汇总到监控服务器。监控服务器记录、整理、分析性能数据,最后产生监控图表,展示给用户查看。
现有的监控图表有: 集群管理列表仪表盘 和 集群性能仪盘表。
集群列表仪盘表
通过集群列表仪表盘,你可以看到一个集群 30 分钟内的性能数据指标,如下图所示,这些指标包括:- 健康异常记录:超出规定指标的数据将被记录到健康异常中。
- 平均响应时间:入口请求在观察周期内的平均响应时间。
- 请求频率、请求次数:入口请求在观察周期内的请求次数和频率(按分钟计)。
- 错误频率、错误次数、错误率:入口请求在观察周期内的错误次数和频率(按分钟计),以及错误次数与请求次数的比例。
集群性能仪盘表
点击具体的集群实例,进入集群详情后,可以在集群性能仪表盘中看到下图,其中包括了:- 拓扑图:观察周期内,当前集群实例与其他集群实例或者第三方服务的拓扑关系,以及他们彼此间的请求频率和平均响应时间。
- 健康状态异常总览:观察周期内健康事件的记录数。
- 慢响应总览折线图:观察周期内,慢响应、极慢响应、无响应的请求数量变化趋势。
- 平均响应时间折线图:观察周期内,平均响应时间变化趋势。
- 请求频率折线图:观察周期内,请求频率的变化趋势。
- 错误率折线图:观察周期内,错误比例的变化趋势。
性能监控可以采集到集群的多项数据指标,你可以根据这些指标定义健康判定规则(自定义功能暂未开放),同时蜂巢也根据多年的经验,设定了一些默认的健康判定规则。当集群监控通过健康规则判断,发现集群出现异常时,会产生健康异常通知,并在健康明细中进行记录。
定位问题
通过上面的图表,你可以快速判断系统是否出问题,以及问题的大致类型是什么。蜂巢还提供了丰富的明细图表和快照信息,帮助用你速定位问题,如下图所示:
通过明细图表,你可以看到:- 每个访问的请求,具体的统计信息。
- 慢的请求、出错的请求、以及健康异常事件的记录。
如果需要进一步确定问题的原因,还可以使用快照功能。异常记录前面若有照相机图标,表示蜂巢记录了这次异常记录的快照信息,如下图所示:
点击照相机图标,你可以看到这次请求处理中具体的调用链路、响应时长、以及报出的异常信息等快照信息。
监控自动化
根据性能监控采集的数据,你可以设置报警通知(目前未全部开放)。根据各类性能监测的事件、触发告警通知,你可以及时地通知到负责人处理运维问题。
最后更新:2017-01-03 10:48:49