自動化能讓運維在旁邊喝咖啡?一起聽聽饒琛琳給我們帶來的精彩演講吧。
在運維俠客行·北京站上,主辦方優雲軟件特意邀請了來自日誌易的產品總監饒琛琳老師給大家帶來了數據驅動的智能運維主題演講。本文主要從怎麼做到DevOps開始聊起,接著說了智能運維平台作用和架構,並對告警交互係統進行分析,最後對智能運維平台進行了簡要總結。一起來了解下吧。
饒琛琳,日誌易產品總監,前·新浪微博係統架構師,Weibo: @ARGV,著有:《網站運維技術與實踐》《ELKstack權威指南》譯有:《Puppet 3 Cookbook》《Learning Puppet 4》。
以下是精彩內容整理:
剛剛前麵我坐在後麵聽,聽到優雲在講雙態的時候提的比較好的幾個關鍵詞,第一個就是運維其實是需要有一個平台的,第二個就是運維最終需要通過可視化走向智能化的。這個地方有兩個點,第一個點是平台,這個地方可能不是我今天演講的關鍵的地方,可我覺得還是要提一下。因為智能運維的英文單詞就是AIOPS,不簡單翻譯成智能運維,按照字麵上的意義翻譯下來應該是基於算法的IT運維平台,OPS的P並不是把OP直接拿下來,O是Operations,P是platform,需要強調平台的概念,因為我們在很多時候,運維的工作:部署,排障,性能調優。其實你在很多地方做排障的工作時,如果你沒有一個好的平台,把足夠多的數據、信息集中處理,你是很難受的。
前幾年搞自動化很流行的時候,大家都在喊我們有一個自動化平台,有個監控平台,有這個平台那個平台,其實那都是係統的,並不是平台,你隻是把一部分數據集中在這個平台,一部分數據集中那個平台,數據之間依然並不是打通的,這是我聽完其他嘉賓演講覺得應該單獨給大家點明的一部分,繼續開始今天的演講吧。
怎麼做到devops-ing?或者sre呢?
常見的一個情況可能大家的第一反應是我知道好多開源項目,還有監控項目一大把,很多很多開源項目,是不是把這些工具用完了我就devops?他其實不一定。
另外一種就是前幾年比較常見的一種說法就是我們把一些東西都自動化了,用機器做事情,運維在旁邊喝咖啡,這是早些年比較流行的夢想,這時候也未定了。很多東西並不是能自動化去搞的,下麵有一個很具體的例子,自動化真的能讓你旁邊喝咖啡嗎?
這是我在微博的時候的,具體的一個統計值,微博有一個單獨團隊叫故障管理組,他們就是負責統計故障,管理故障,反饋故障。他們當時統計結果就是百分之70的微博故障就是因為在做自動化變更時出問題,我相信其他家公司在技術投入上沒有微博那麼重視,在這個事情上會更嚴重,絕大多數故障應該是自動化變更造成的。
數據驅動的運維操作
這個時候你要真正的想我運維工作應該要怎麼樣做好的時候,你要想剛才上麵那一點,既然麻煩你的地方都是因為變更造成的,變更是自動化造成的,那是不是自動化不該做了?不是,而是我應該在恰當的時候去證明自動化該做而那個時候不該做,這時候需要充分的數據來證明這個事情,需要充分的數據證明變更是有必要的,而且變更以後不會出問題。我們需要數據來說話,這個數據需要各種各樣層麵,包括定期的報表、包括監控係統的拿到的性能指標,以及包括日誌。

這些數據拿過來,並不是是拿過來直接就能用,因為比如前麵講到的metrics這些監控係統大多是采樣的,采樣意味著把很多細節點模煳掉了。大趨勢來說,容量規劃、流量調度的時候可以根據大的趨勢幹一個事情,但細節是沒有的。所以我們想要拿到這些細節的時候,我們需要一個全量的數據分析,要把所有數據拿到一個平台上,每一個細節都能把握到,這時我才能做這個事情。
如何驅動
這是剛才提到的aiops,它的外圍其實是很熟悉的東西了,監控、自動化、服務反饋。外圍是所有IT運維人員在做的事情,但是中間,我們怎麼樣去持續的完成這件事情,而不是單純的說有一個監控團隊,有一個代碼上線團隊,或者說有一個單獨的服務台,我們怎麼樣把東西自動串起來,實現智能的情況,中間需要一個單獨的驅動,就是我們說的智能運維的平台。這個平台要做的事情就是拿到了全量數據Big Data,Big Data指的是拿到運維相關的全量的數據然後利用算法(machine learning),不一定都用machine learning 驅動,很多沒有到machine learning 級別 的統計學概念上的算法 依然很有用的。
AIO的三大作用

智能運維平台的作用其實需要更靈活更易用的辦法來訪問和分析數據,舉例子,hadoop到現在已經十多年了,相信大多數企業都有hadoop,我們也會把一些數據放hadoop上去,隔三差五合規審計一下,三個月,六個月數據在不在,在,這種的話對我們運維來說是沒有用的,你隻是完成一份工作,這種數據是沒辦法很好的用上它;
另外一個作用,有一些可能不在你合規審計內零散的數據可能是有用的,在目前不一定到容器化可能是模塊化,一個多模塊分布式的業務架構上,各個主鍵他們互相之間的一些業務數據,其實可以反映很大的IT運營價值,但這種數據並不是底層的IT運維東西,並沒有特別明確的規範,說要求你怎麼樣怎麼樣,如果你不去做他,這些散落在各組件上數據就對你毫無意義,這其實就是構建一個智能運維平台可以發揮很大價值的東西;
第三點的作用,就是說你要搞一個智能運維平台時你應該提供的價值點,沒有做到這三點基本算失敗的,第三點意思就是說應該有一個快速探索實驗的平台,講的細一點就是我們想一下運維人員工作時常見的狀態,你遇到一個問題,這個問題你不一定知道是什麼原因造成的,但你會猜一個思路,比如現在遇到一個訪問故障,你會猜說是不是他的那個出問題,你上去看了,沒有問題,你又猜說CDN網出問題了,我看一下CDN對不對,解析在不在,是不是被劫持了,會不斷去猜的思路,所以你需要一個快速試錯的平台給你跑,這就是快速探索的意思。觀看視頻:https://v.qq.com/x/page/q0506d7dy1f.html
PPT已上傳至優雲運維社區公眾號,回複ppt即可下載。
關於運維俠客行沙龍
運維俠客行是優雲軟件打造的運維行業線下沙龍品牌,我們將在全國範圍內展開馬拉鬆式的技術普及和巡回交流活動,並針對運維、雲計算、安全、大數據等多個領域進行頂級專家的技術分享交流會,讓從業者第一時間了解行業前沿技術、實踐案例和變革動態,為熱愛技術的朋友們提供一個交流分享、觀點碰撞的全新平台。
最後更新:2017-05-31 10:32:06