阿裏大數據SRE專家池楓:做Tesla,是因為傳統運維方式已不能滿足業務發展需求
4月20日20:00-21:30,一場別開生麵的技術大會—— “運維/Devops在線技術峰會”將在線舉辦。從網絡基礎架構實踐和演進,到同城容災架構剖析;從如何穩定、安全的使用雲數據庫,到企業如何在雲上安全加固最佳實踐;從阿裏雲專家理解的DevOps,到如何構建一個通用化的智能運維平台……不僅一一告訴你雲上的運維重點在哪、運維人應該如何思考,也手把手教你如何做。同時,對於處於轉型中的企業,我們也邀請了有代表性的互聯網公司來分享他們的親身體驗。

阿裏大數據SRE技術專家池楓說,他希望Tesla是一個創新、高效的自動化、智能化平台
池楓,阿裏大數據SRE技術專家。2011年加入阿裏巴巴大數據SRE團隊,見證阿裏大數據產品最快速的發展過程。先後負責阿裏Hadoop、Hbase、Apsara、ODPS等產品運維, 全程負責大數據運維自動化體係建設。曆時2年時間帶領團隊完成Tesla智能運維體係設計,開發,落地,進化曆程。專注智能運維在大規模異構集群下的場景應用,專注業務運維與智能運維結合後的轉型道路探求。
在4月20日20:00舉行的運維/Devops在線技術峰會上,池楓將會分享《如何構建一個通用化的智能運維平台(Tesla)——大數據SRE實踐》議題。為此雲棲社區采訪了這位在大數據SRE浸淫多年的技術專家。
雲棲社區:曆時三年,你帶領團隊建設了Tesla智能運維體係,能聊聊什麼是Tesla?為什麼要建設它?
池楓:先回答為什麼要建設Tesla,這個還要從2014說起,那個時期大數據在業界初露崢嶸,阿裏巴巴內部大數據的業務也快速發展,產品種類,服務規模雙雙增長,並且產品的迭代周期極大縮短,各種異構的集群級大數據產品造成了多種多樣的運維模式,給我們團隊帶來了相當大的壓力,大家明顯感到傳統的運維方式,已經遠不能滿足快速的業務發展。如何破解,我們選擇建設一個能夠長期發展的自動化平台,這就是Tesla的由來。
什麼是Tesla,我們希望它首先是一個創新、高效的自動化平台,還希望它是一個通過數據驅動由自動化向智能化轉變的平台,借助Tesla體係的不斷完善提升我們運維的價值。
雲棲社區:Tesla開發過程中,有沒有遇到什麼困難,又是怎麼解決的?
池楓:Tesla的建設過程對我們整個大數據SRE團隊來說是一個非常巨大的機會和也是挑戰。碰到的許多困難,最重要的一塊就是團隊內部產品研發的組織模式,換句話說我們對傳統工具團隊開發模式進行了優化,Tesla 分兩部分的研發人員完成,一部分提供框架級別的服務開發,另一部分提供了業務邏輯實現的服務,我們摒棄了傳統B2C模式,采用了C2C共享協作的開發模式共建我們的Tesla平台。這種方式使Tesla從無到有,從小到大,發展的速度大大加速,迭代的目標更加明確,質量控製更容易達成,也保證我們以現有的人力做到今天的規模的。
雲棲社區:Tesla能解決哪些典型問題?哪些地方可能還需要繼續完善?
池楓:Tesla 麵向的場景都是最典型的的運維運營場景 ,我們產品幾乎打通了所有關鍵的運維環節:例如應用環境管理 ,變更操作執行,需求智能處理,事件關聯處理,故障分析診斷,運維數據挖掘。我們希望沉澱運維經驗的決心非常堅決,因為我們認為這種沉澱好比是對運維的格式化存儲,隻有格式化的數據將來才能被機器所學習和挖掘,積累這樣的數據的能力是智能化的關鍵。
所有我們正在建設的產品都仍然有很大的進步空間,尤其是與智能化相關的如:問題的分析、故障的預測、行動的決策,對我們來說仍然處在探索關鍵期,能夠給與我們借鑒和幫助實踐特別少,所以這塊今年我們集中了團隊中最優秀人員去整合我們運維、運營數據,期待在這塊有突破性的成果。
雲棲社區:目前Tesla內部的應用情況是?
池楓:Tesla目前服務所有的阿裏大數據產品研發團隊和運維團隊。產品線覆蓋ODPS ,HBase ,ADS,Galaxy,tt,datahub等集團核心的大數據產品,覆蓋上十萬級業務服務器規模,運營站點PV 5000+p/日,平台自動化事件:近百次/日,自動化時間近萬分鍾/日(此處的近萬分鍾是指單人順序執行需要的耗時),是整個部門的運維工作的根基。
雲棲社區:Tesla未來的發展計劃是什麼?
池楓:關於Tesla未來發展方向 ,近1年的思考中已經非常明確:就是成為更+的智能化。
我們不僅希望在Tesla上運維事務絲滑平順,而且希望自然人對整個業務產品線的決策影響越來越少,所有的服務運行,更依賴於對格式化數據的分析驅動。具體到落地詳細的計劃,我們會分兩個方向齊頭並進,分別為“內和外”,對內我們強調數據倉庫的完善,運維模型訓練,借助內部海量的數據資源完成我們智慧化演進。對外 我們會借助大數據專有雲項目的推進Tesla在私有雲場景 的企業化支持能力,並且我們會在2017年完成Tesla核心子產品集成版本的開源目標,希望能推動運維智能化做一份貢獻。
雲棲社區:你認為一個完善的大數據運維自動化體係應該具備哪些特征?其工作中的重點、難點是什麼?
池楓:“完善”的定義各有所見 ,我理解一個體係必須發源於其服務的業務產品,能夠靈活適應“變”和快速的實現“通”。抽象不同產品中各種運維環節,具備層次化服務產品結構,能夠連接 資源、事件,人各個維度的產品體係。
如何設計一個能夠兼顧多種異構的大數據產品的運維平台體係是首先要解決的重點,另一個是人的因素,傳統Ops需要轉型,Ops+Dev+Data 人才的聚集是完成智能化運維的充要條件。

池楓演講提綱:
- 大數據SRE 運維產品的發展變遷;
- 智能運維產品體係理念;
- 分享核心套件的設計思路,使用場景及案例展示;
- 對自動運維生態的生態的展望。
聽眾收益:
- 複雜運維事務自動化沉澱方案。
- 智能運維模式的實踐案例。
歡迎報名,聆聽幹貨:https://yq.aliyun.com/webinar/join/167
最後更新:2017-04-01 17:00:39