閱讀969 返回首頁    go 技術社區[雲棲]


從零開始搭建ELK+GPE監控預警係統

前言

本文可能不會詳細記錄每一步實現的過程,但一定程度上可以引領小夥伴走向更開闊的視野,串聯每個環節,呈現予你不一樣的效果。

業務規模

  • 8個平台
  • 100+台服務器
  • 10+個集群分組
  • 微服務600+
  • 用戶N+

麵臨問題

隨著分布式微服務容器技術的發展,傳統監控係統麵臨許多問題:

  • 容器如何監控
  • 微服務如何監控
  • 集群性能如何進行分析計算
  • 如何管理agent端大量配置腳本

這些都是傳統監控所要麵臨的棘手問題,那麼如何解決當前遇到的問題,GPE橫空出世,後麵會重點分析。

係統監控

  • 目標群體:係統日誌、服務器、容器、係統軟件運行指標
  • 日誌架構:ELK (Elasticsearch+Logstash+Kibana+Redis)
  • 監控架構:GPE (Grafana+Prometheus+Exporter+Consul)
  • 報警方式:郵件、短信、釘釘以及自定義webhook,監控中心7x24小時

ELK日誌

隨著分布式微服務的盛行,功能模塊的拆分細化,無論對於開發還是運維,日誌的重要性都是不言而喻的,但是如何存儲分析定位查看日誌,一百個公司可能會有兩百種做法。有的很少記錄日誌,有的日誌等級都不分,有的寫入文本然後就不管不問了,有的向MySql數據庫一扔也沒有了下文,等到用戶投訴或者被發現問題,才會翻一翻。

那麼如何正確優雅的記錄日誌呢?相信大家對於ELK並不陌生,可能不少小夥伴都接觸過,對於中小型互聯網創業公司來說,使用ELK搭建日誌分析係統的確是一個不錯的選擇。

架構圖

elk

核心組件

ELK由Elasticsearch、Logstash和Kibana三劍客組成,當然了以上是最基本的組件,為了使的架構流程更加豐滿,我們加入了Redis做緩衝隊列,配置了sendmail做異常日誌告警。

ElasticSearch

ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分布式多用戶能力的全文搜索引擎,基於RESTful web接口。它的特點有:分布式,零配置,自動發現,索引自動分片,索引副本機製,restful風格接口等。

Logstash

Logstash數據分析工具,它可以對係統生成的的日誌進行采集、分析,存儲。2013 年,Logstash 被 Elasticsearch 公司收購,ELK Stack 正式成為官方用語。

kibana

Kibana是一個開源的分析與可視化平台,用來搜索、查看存儲在Elasticsearch索引中的數據。

工作流程

  • logstash(shipper) 實時監控並過濾收集每個服務的日誌信息
  • logstash(shipper) 把收集來的日誌(INFO 、DEBUG 、RROR 、WARN等)分別發送到Redis
  • logstash(indexer) 按照日誌分類分別從Redis讀取日誌信息並發送給ElasticSearch
  • logstash(indexer) 過濾出RROR日誌通過郵件或者其它webhook方式告警開發運維人員
  • Kibana讀取ElasticSearch數據結合自定義搜索進行頁麵展示

GPE監控

ELK主要收集分析預警的是我們平台係統中各個服務的業務日誌,一般通過日誌組件(log4j 、log4j2 、logback)來收集並寫入文本。但是對於係統本身以及一些應用軟件的監控預警,這套方案顯然是不合適的,這裏推薦一下GPE三劍客,當然了GPE是我自己意淫出來的組合。

架構圖

GPE

核心組件

Grafana、Prometheus、Exporter(一係列插件),自定義的三劍客,當然了為了使得整合監控程序更加流暢完整,我們加入了注冊中心Consul做服務發現,實現動態添加服務,使用郵件、釘釘以及webhook實現異常告警。

GPE組件隻是其中的一種實現方式罷了,Grafana配合InfluxData提供Telegraf也可以收集很多Metrics,實現更為豐富的大屏監控預警。

Grafana

Grafana 是一個開箱即用的可視化工具,具有功能齊全的度量儀表盤和圖形編輯器,有靈活豐富的圖形化選項,可以混合多種風格,支持多個數據源特點。

109211_20171108195226841_772465907

Prometheus

Prometheus是一個開源的服務監控係統,它通過HTTP協議從遠程的機器收集數據並存儲在本地的時序數據庫上。

  • 多維數據模型(時序列數據由metric名和一組key/value組成)
  • 在多維度上靈活的查詢語言(PromQl)
  • 不依賴分布式存儲,單主節點工作.
  • 通過基於HTTP的pull方式采集時序數據
  • 可以通過push gateway進行時序列數據推送(pushing)
  • 可以通過服務發現或者靜態配置去獲取要采集的目標服務器
  • 多種可視化圖表及儀表盤支持

如架構圖所示,Prometheus通過安裝在遠程機器上的exporter來收集監控數據。

440956_20161222225523854_188246022

Consul

Consul有多個組件,但是整體來看,它是你基礎設施中用於發現和配置服務的一個工具。它提供如下幾個關鍵功能:

  • 服務發現: Consul的某些客戶端可以提供一個服務,例如api或者mysql,其它客戶端可以使用Consul去發現這個服務的提供者。使用DNS或者HTTP,應用可以很容易的找到他們所依賴的服務。
  • 健康檢查: Consul客戶端可以提供一些健康檢查,這些健康檢查可以關聯到一個指定的服務(服務是否返回200 OK),也可以關聯到本地節點(內存使用率是否在90%以下)。這些信息可以被一個操作員用來監控集群的健康狀態,被服務發現組件路由時用來遠離不健康的主機。
  • 鍵值存儲: 應用可以使用Consul提供的分層鍵值存儲用於一些目的,包括動態配置、特征標記、協作、leader選舉等等。通過一個簡單的HTTP API可以很容易的使用這個組件。
  • 多數據中心: Consul對多數據中心有非常好的支持,這意味著Consul用戶不必擔心由於創建更多抽象層而產生的多個區域。

Consul被設計為對DevOps群體和應用開發者友好,他非常適合現代的、可伸縮的基礎設施。

Consul

工作流程

  • Exporter組件注冊到Consul注冊中心
  • Prometheus拉取Consul注冊中心的servers
  • Exporter組件獲取服務器或者係統軟件的metrics
  • Grafana配置Prometheus數據源獲取其采集數據結合自定義麵板實現監控大屏
  • Grafana通過設置Alerting實現監控預警

小結

如文章開頭所述,本文並沒有一步步詳細記錄安裝使用教程,這些教程網上都有,即使有坑,相信作為程序員的你也能夠解決。不才,在這裏隻是拋磚引玉,希望各位小夥伴可以學到更多知識。

還記得許多年前的春天,那時網站還都是靜態頁麵,沒有圖片也沒有絢麗的效果,沒有24小時服務的客服,可當初程序員是那麼快樂,雖然隻有網頁三劍客,在網上、在指尖、在BBS中,揮灑著自己的青春熱血,如果有一天 我老無所依,請把我留在 在那互聯網浪潮裏。

現如今,隨著雲計算、分布式、微服務的盛行,程序員的你是否已經疲倦與自己的CURD,是否已經不屑於與產品汪扯皮,來來來,返回頂部小夥伴們再看看一遍,誰說程序員全部的時間都要敲代碼,是時候需要去需找自己的另一片天空了。

聲明:部分文字介紹來源於網絡。

作者: 小柒

出處: https://blog.52itstyle.com

分享是快樂的,也見證了個人成長曆程,文章大多都是工作經驗總結以及平時學習積累,基於自身認知不足之處在所難免,也請大家指正,共同進步。

最後更新:2017-11-22 16:33:41

  上一篇:go  health4j—Java項目的全麵體檢工具
  下一篇:go  雙11享Go了嗎?2017阿裏雙11在線峰會續寫科技盛宴!