592 阿裏雲技術社區[雲棲]

雲計算管理三大利器：Nagios、Ganglia和Splunk

綜合利用Nagios、Ganglia和Splunk搭建起的雲計算平台監控體係，具備錯誤報警、性能調優、問題追蹤和自動生成運維報表的功能。有了這套係統，就可輕鬆管理Hadoop/HBase雲計算平台。

雲計算早已不是停留在概念階段了，各大公司都購買了大量的機器，開始正式的部署和運營。而動輒上百台的性能強勁的服務器，為運營管理帶來了巨大的挑戰。

如果沒有方便的監控報警平台，對於管理員而言猶如噩夢，每天都將如救火隊員一樣，飛快地敲擊鍵盤，用原始的Unix命令在多台機器中疲於奔命。
如果沒有好的日誌管理平台，對於開發者Troubleshooting更是一件淚流滿麵的事情。
而如果你是運維團隊的總負責人，簡潔清晰的Report則非常重要。Stakeholder們動不動就可能問起係統的SLA、機器的利用率等諸多問題，畢竟，公司為此投入了巨大的資金和人力。

朋友們，當我們管理起公司寄予厚望的雲計算平台時，當我們麵對如此多充滿挑戰的實際問題時，該怎麼辦？

概述

我們在搭建趨勢雲計算平台時，遇到了很多的問題和挑戰。開始搭建時，第一次來了那麼多性能強勁的機器，我們在感到興奮的同時，也不免有些顧慮。大家坐在一起討論，問題就列了滿滿一白板。

帶著這些問題，我們開始了自己的雲計算平台管理和運營之旅，一路走來，收獲頗豐。現在基本上形成了如圖1所示的一整套雲計算平台監控體係。

圖1 雲計算平台監控架構

在這個係統中，我們綜合利用了Nagios、Ganglia和Splunk，搭建起雲計算平台監控體係，使其具備錯誤報警、性能調優、問題追蹤和自動生成運維報表的功能。有了這套係統，我們終於能夠輕鬆管理Hadoop/HBase雲計算平台了。接下來將簡單介紹它們的特點和功能。

最後更新：2017-04-04 07:03:57