248
魔獸
雲服務器 ECS 監控:使用雲監控監控ECS實例
本文以某門戶網站的監控設置為例,講解雲監控服務如何給業務係統做實時護航。
主要內容
- 監控的必要性
- 雲監控配置
監控的必要性
越來越多的用戶選擇將業務部署在雲上,大大減輕了運維成本和壓力,其中合理的監控設置功不可沒,設置合理的監控不僅可以讓用戶實時了解係統業務的運行情況,還能幫助用戶提前發現問題,避免可能會出現的業務故障;同時有效的告警機製能讓用戶在故障發生後第一時間發現問題,縮短故障處理時間,以便盡快地恢複業務。
雲監控配置
此網站架構如下圖所示,其中使用到了阿裏雲產品ECS,RDS,OSS及負載均衡SLB,下麵針對此種類型的架構,說明雲監控的配置使用。
在開始設置監控前,需要檢查ECS監控插件運行情況,確保監控信息能夠正常采集,如安裝失敗需要手動安裝,請參考雲監控插件安裝指南。此外,還需要提前添加報警聯係人和聯係組,建議設置至少2人以上的聯係人,互為主備,以便及時響應監控告警。監控選項的設定,具體可參見雲服務資源使用概覽和報警概覽。利用雲監控的Dashboard功能,給您業務係統的雲資源設置一個全局監控總覽,可隨時檢查整個業務係統資源的健康狀態。下圖根據ECS分組選擇添加監控的資源,依次添加內存使用率,CPU使用率等監控項。監控的實例數較少可以選擇實例維度作為展示,如有多實例建議以分組或者用戶為維度展示;監控數據取平均值。
為了更好的監控大屏展示效果,這裏將ECS的CPU、內存、磁盤的使用率單獨分組展示;將RDS的四項指標分兩組展示。
報警閾值
關於各項監控指標的報警閾值說明,建議根據實際業務情況斟酌設置,不要設置太低以免頻繁觸發報警影響監控服務體驗,也不要設置太高以免觸發閾值後沒有足夠的預留時間來響應和處理告警。
報警規則
以CPU使用率為例,由於需要給服務器預留部分處理性能保障服務器正常運行,所以建議將cpu告警閾值設置為70%,連續三次超過閾值後開始報警。如下圖所示點擊添加報警規則繼續設置內存和磁盤的報警規則和報警通知人即可。
進程監控
對於常見的web應用,設置進程監控,不僅可以實時監控應用進程的運行情況,還有助於故障的排查處理,下圖是java進程的相關監控示例。
站點監控
在雲服務器外層的監控服務,站點監控主要用於模擬真實用戶訪問情況,實時測試業務可用性,有助於的故障排查處理。
RDS監控
建議將RDS的CPU使用率告警閾值設置為70%,連續三次超過閾值後開始報警。硬盤使用率,最大IOPS使用率,連接數等其他監控項可根據您的實際情況來設置。
負載均衡監控
為了更好使用負載均衡的雲監控服務,需要先開啟負載均衡SLB的健康檢查,詳情參見健康檢查機製和配置說明建議設置負載均衡SLB帶寬值的70%作為告警閾值,如下圖所示。
如以上監控選項不能滿足您的實際業務監控需求,可以參見創建自定義監控項和報警規則。
最後更新:2017-08-15 14:32:41