性能監控
發現問題
性能監控通過探針的方式,分布式地采集集群運行數據,匯總到監控服務器。監控服務器記錄、整理、分析性能數據,最後產生監控圖表,展示給用戶查看。
現有的監控圖表有: 集群管理列表儀表盤 和 集群性能儀盤表。
集群列表儀盤表
通過集群列表儀表盤,你可以看到一個集群 30 分鍾內的性能數據指標,如下圖所示,這些指標包括:- 健康異常記錄:超出規定指標的數據將被記錄到健康異常中。
- 平均響應時間:入口請求在觀察周期內的平均響應時間。
- 請求頻率、請求次數:入口請求在觀察周期內的請求次數和頻率(按分鍾計)。
- 錯誤頻率、錯誤次數、錯誤率:入口請求在觀察周期內的錯誤次數和頻率(按分鍾計),以及錯誤次數與請求次數的比例。
集群性能儀盤表
點擊具體的集群實例,進入集群詳情後,可以在集群性能儀表盤中看到下圖,其中包括了:- 拓撲圖:觀察周期內,當前集群實例與其他集群實例或者第三方服務的拓撲關係,以及他們彼此間的請求頻率和平均響應時間。
- 健康狀態異常總覽:觀察周期內健康事件的記錄數。
- 慢響應總覽折線圖:觀察周期內,慢響應、極慢響應、無響應的請求數量變化趨勢。
- 平均響應時間折線圖:觀察周期內,平均響應時間變化趨勢。
- 請求頻率折線圖:觀察周期內,請求頻率的變化趨勢。
- 錯誤率折線圖:觀察周期內,錯誤比例的變化趨勢。
性能監控可以采集到集群的多項數據指標,你可以根據這些指標定義健康判定規則(自定義功能暫未開放),同時蜂巢也根據多年的經驗,設定了一些默認的健康判定規則。當集群監控通過健康規則判斷,發現集群出現異常時,會產生健康異常通知,並在健康明細中進行記錄。
定位問題
通過上麵的圖表,你可以快速判斷係統是否出問題,以及問題的大致類型是什麼。蜂巢還提供了豐富的明細圖表和快照信息,幫助用你速定位問題,如下圖所示:
通過明細圖表,你可以看到:- 每個訪問的請求,具體的統計信息。
- 慢的請求、出錯的請求、以及健康異常事件的記錄。
如果需要進一步確定問題的原因,還可以使用快照功能。異常記錄前麵若有照相機圖標,表示蜂巢記錄了這次異常記錄的快照信息,如下圖所示:
點擊照相機圖標,你可以看到這次請求處理中具體的調用鏈路、響應時長、以及報出的異常信息等快照信息。
監控自動化
根據性能監控采集的數據,你可以設置報警通知(目前未全部開放)。根據各類性能監測的事件、觸發告警通知,你可以及時地通知到負責人處理運維問題。
最後更新:2017-01-03 10:48:57