481
搜狐
阿裏巴巴雙11上任AI調度官達靈,數據中心資源利用率提升至90%以上
【AI WORLD 2017世界人工智能大會倒計時2天】
“AI達摩”齊聚世界人工智能大會,AI WORLD 2017議程嘉賓重磅發布
在2017年11月8日在北京國家會議中心舉辦的AI World 2017世界人工智能大會上,我們邀請到阿裏巴巴副總裁、iDST副院長華先勝,剛剛當選ACM MM 2020 大會主席的華院長有什麼跟大家分享,歡迎關注。
搶票鏈接:https://www.huodongxing.com/event/2405852054900?td=4231978320026
大會官網:https://www.aiworld2017.com
新智元報道
作者:胡祥傑
【新智元導讀】雙十一來臨前,阿裏發布了數據中心AI調度官“達靈”,達靈”通過應用強化學習、組合優化等技術,可以在複雜環境中自行學習判斷,作出一係列比如錯峰排布、碎片規整等聰明的決策,從而全局最優化集群的資源利用率以及穩定性,使得數據中心的效率利用率維持在 90% 以上。達靈涉及到強化學習和智能決策等,與DeepMind、OpenAI的核心技術方向非常相似。我們專訪到了“達靈”的負責人朱勝火博士,他對最新的AlphaGo Zero的工業化之路提出了一些思考。金榕對朱勝火博士的評價是“沒有任何算法能夠難倒他”。
AlphaGo Zero 橫空出世讓大家開始驚歎 DeepMind 在人工智能技術上所取得的進展超乎想象。穀歌當年以超過4億美元的價格買入Deepmind,現在也看到了一些實際的回報。
此前,穀歌使用DeepMind提供的AI技術,在數據中心機房的能耗上獲得了大幅的削減:他們使用機器學習,對機房的PUE指標趨勢進行預測,從而指導製冷設備的配置優化,減少了閑置的用於製冷的電力消耗。據說,這項技術能夠為穀歌減少15%的數據中心整體耗電量。
穀歌數據中心15%的電量是怎樣的概念,有媒體報道說,換算出來是上億美元。AI公司不僅是技術的創造者,更是技術的使用者,並且已經成功地從這些技術中獲得豐厚的利益。
阿裏巴巴年度重頭戲“雙11”來臨前,11月6日,阿裏巴巴數據中心AI調度官“達靈”正式上任,準備迎接天貓雙11的挑戰。
據介紹,“達靈”的職責包括:為各類應用快速分配計算資源;監督是否有服務器偷懶,不斷搬運應用確保均衡;準確殺死存在異常的機器等。
阿裏巴巴iDST機器學習算法負責人朱勝火博士在接受新智元的專訪時介紹說:“達靈“是阿裏巴巴iDST智能決策團隊的一個產品,這個團隊專注於與機器智能決策相關的深度學習、運籌優化技術的研究改進,已在集團內外電商、物流、計算資源等多個領域得到應用。“達靈”的工作首先是在集群監控數據之上,建立起很多個深度學習、在線學習的模型,由此對集群內每一台機器、每一個應用,當前和未來的狀態都了然於胸。在此基礎上,“達靈”通過應用強化學習、組合優化等技術,可以在複雜環境中自行學習判斷,作出一係列比如錯峰排布、碎片規整等聰明的決策,從而全局最優化集群的資源利用率以及穩定性。
朱勝火博士是2014年阿裏巴巴iDST的初創成員。目前的主要的工作方向是機器學習及優化技術方麵,他帶領團隊把智能決策應用到計算資源優化、新零售、智慧物流等各個行業。之前,他工作於NEC北美實驗室和亞馬遜公司,2004年畢業於美國羅切斯特大學獲計算機博士學位。他有25項專利發明,並發表100多篇學術論文,在統計機器學習方向及其應用於機器視覺、數據挖掘、信息檢索、自然語言處理、機器人、數據管理、分布式係統等領域。
頂尖刺客“達靈”,殺死異常機器準確率94%,讓工程師“喝茶過雙11”
考慮一道數學題:有10萬件大小不同的商品,要平均的放到1萬個箱子裏,應該如何分配?
對於人類來說,這還是一個可解的問題。如果問題更難一點:這10萬件商品會隨時變大變小,而且還有“礦泉水不能壓在薯片上”等一大堆限製條件,如何在幾秒鍾內給出最均衡的裝箱方案?
阿裏巴巴的工程師每天都會麵對這類問題。無數個應用對服務器的需求每時每刻都在變化,還有新的應用不斷加入,如何才能把這些應用均衡的分配到數萬台不同規格的機器上。
打開手機淘寶,首頁可以看到“有好貨”、“猜你喜歡”等這樣的常用功能模塊。以前,要人工為每一個模塊分配服務器數量以及監督運行情況。去年雙11,就有近20名工程師負責這樣的工作,還需要設置組長、總指揮居間協調。即便如此,資源利用率依舊很低。
為此,阿裏巴巴搜索團隊對“達靈”進行了大量訓練和工程化,在實習期“達靈”就完全替代了人工,將資源利用率提高了一倍,這相當於節省了一半的機器。
“這套算法能夠快速給出最優的部署方案,並且根據訪問量不斷搬運應用和數據,確保沒有一台機器偷懶”。阿裏巴巴資深搜索研發專家鄭南說,我們要做的就是不斷用數據喂養她,提供表格數據大小、訪問量以及目前的部署方案等信息,省下的就是喝著茶看她的表演。“她甚至可以在線上克隆一個真實的服務,自己進行壓力測試,以判斷方案是否最優。”
朱勝火博士說:“雙11”帶來巨大的訪問量,尤其,峰值的訪問量是對數據中心的重大挑戰。在這種情況下,決策反應速度要非常迅速。集團經過多年的實戰演練,工程師們總結了很多寶貴的經驗。這些“雙11”的運維經驗都是靠“人肉”堆出來的,工程師們很辛苦。今年我們CTO提出“喝茶過雙11”,就是靠經驗的積累和機器智能來確保機器的穩定性,讓運維工程師們輕鬆一些。機器學習在現狀的識別,需求的預測,決策優化上都做了一些工作,比如,對應用使用率的峰值穀值的預測可以有效地把應用錯峰排布。
阿裏巴巴遍布全球的數據中心如果有一台機器發生異常,未被及時處理,會帶來什麼損失?天貓雙11期間,可能會是近百萬用戶下單失敗。
為了避免這種情況,每年雙11都會有大量的工程師緊盯著集群的健康情況。如果發現有不正常的機器,馬上進行手工隔離,甚至直接下線,業內俗稱“殺機器”。
但從出現異常、被發現到處理完成,整個過程有時會長達10分鍾。阿裏巴巴調度係統資深專家丁宇說,“之前我們已經做到了人能夠做的極限。去年,我們開始探索用人工智能技術尋求突破,把時間、負載、服務狀態等不確定因素通過數據算法關聯,最終找到了問題的解法”。
今年丁宇團隊和“達靈”合作,對“達靈”進行深度改裝,實現了對異常機器更精準、快速的探測。算法每天會采集29億條機器運營狀態,在之前的測試中,日均殺死異常機器1000次左右,在大促期間調度準確率達到94%,時間隻需要2秒鍾。
據介紹,“達靈”將數據中心資源利用率可以提升到90%以上,並能準確發現異常機器。在行業中,數據中心90%的資源利用率是怎樣的一種概念?
朱勝火博士介紹,在這一階段,“達靈”將各個環節管理的資源利用率累計提高了一倍,並且實現無人化分配數據資源,大量節省了人力資源。由於環境各異,目前這個在行業中沒有一個標準的衡量方式。為了獲取可對比的效果,阿裏巴巴開放了集群管理係統數據,同時他們也在準備相關任務的天池競賽。
目前“達靈”僅僅做了初步的工作,下一步他們會將“達靈”深入到數據中心的各個環節,從應用的優化,容器的調度,機架的管理,能耗的控製,等等。優化空間很大,挑戰也很大。同時,也會將“達靈”的夥伴們推向其他的行業,比如,新零售,物流,製造業,交通等等。
“其實達靈的前身真的是倉庫管理員,就是為了解決包裹裝箱的難題”,阿裏巴巴iDST團隊主任工程師楊森透露。
一年前,iDST和菜鳥網絡的算法工程師共同研發了一套算法,能夠在顧客下單的瞬間,對商品的屬性、數量、重量、體積,甚至擺放的位置都綜合進行計算,可迅速地與箱子的長寬高和承重量進行匹配,並且計算出需要的幾個箱子,商品在箱子裏麵如何擺放最節省包裝。整個計算過程,不足1秒。
AI介入後,菜鳥網絡的倉庫較過去減少5%以上的包裝材料。這是什麼概念呢?以2015年天貓雙11當天產生的約4.67億包裹數來算,如果用上這個技術,一天能節省2300萬個箱子。
楊森說,基於同樣的理念,我們將這套算法帶到了數據中心,研發出了服務器調度官“達靈”。達靈會利用深度學習技術對集群機器的係統狀態進行建模,可以預估接下來數小時內對CPU、內存等核心資源使用量,以及是否即將出現異常。在此基礎之上,利用運籌優化的技術,實現最優化利用率與穩定性的決策控製。
解密“達靈”:與AlphaGo的同與不同
雖然同樣是用於數據中心,但是可以看到,阿裏巴巴的方向和穀歌有些不一樣:穀歌的AI主要目的是降低能耗,而阿裏巴巴則是提高資源利用率。
強化學習算法是穀歌DeepMind的的一個強項,在多個版本的AlphaGo中我們都看到了這一點。朱勝火博士對新智元說,強化學習是他們實現最優化決策時的一種重要技術,特別是在一些涉及到大量複雜的依賴、互斥等組合關係的場景,它背後的數學模型本質上擁有一個無窮大的決策空間,這時候強化學習可以幫助我們很好的解決這一類問題。
“達靈”看起來更多的涉及“決策”層,與目前大熱的識別等任務和應用相比,決策是一個更為複雜的過程。現在人工智能中“決策”你認為做到什麼程度了,難點在哪?
朱勝火博士對新智元說,智能的體現就涉及決策。目前一些識別的任務使用簡單規則的決策。另一類大熱的任務,比如AlphaGo,使用強化學習算法,獲取基於價值函數的決策。針對數據中心的計算資源問題,“達靈”包括對現狀的識別,對未來需求的預測,對複雜問題的決策。對大規模組合問題的決策是一個複雜的問題,往往可擴展性非常不好,這對人類智能也是一個挑戰。機器智能在複雜決策的成功案例還是很少,更不用說通用的決策算法。把“達靈”定位在數據中心的決策優化上,我們可以就具體問題做更好的假設。
他說,DeepMind 在深度學習領域做了很大的努力,對圍棋這類複雜的遊戲構建了一個合適的深度網絡來逼近其價值函數,利用穀歌強大的計算能力有效地解了這個問題。AlphaGo Zero把這個解決方案進一步的推進,使用了更合適的深度網絡模型,利用有效的計算找到其合理的參數。
但是,工業界的問題往往不能利用像圍棋這樣一個封閉空間的假設。難點有很多,比如,第一,協作問題。圍棋是一個零和問題,對手是對抗性。簡單的零和問題在上世紀五十年代就有很好的研究。複雜的零和問題在於計算量的問題上,AlphaGo在圍棋的場景下有效地逼近這個解。除了一小部分零和問題,現實的問題大多數是非零和的,比如協作問題,包括人機協作和機器間的協作,我們希望獲得雙贏的結果。但是現實情況非常複雜。第二,不確定的問題。在非對抗的環節下,合作夥伴或環境存在未知的因素。因此,我們需要對其建立一些假設,基於假設設計模型,通過數據來估計模型,等一係列統計機器學習要解決的問題。在現實情況下,一些假設經常存在很多問題,需要長時間人類經驗的參與和調優,這些經驗包括業務運營的經驗,算法專家的經驗,等等。還有很多其他的難點。
日前,國際計算機學會ACM(Association for Computing Machinery )正式宣布,阿裏巴巴iDST副院長、IEEE院士華先勝博士成為 2020年ACM Multimedia(簡稱ACM MM)大會主席,並由阿裏巴巴與意大利佩魯賈大學和香港中文大學共同舉辦ACM MM 2020。
華先勝是視覺識別和搜索領域的國際級權威學者,曾獲選國際電氣與電子工程協會院士(IEEE Fellow)、美國計算機協會ACM2015年度傑出科學家。
2天後,在國家會議中心,由新智元主辦的AI World 2017 世界人工智能大會上,華先勝博士將出席並發表演講。這位 ACM MM 2020大會主席將會帶來哪些精彩分享,歡迎關注。
深入了解AI 技術進展和產業情況,參加新智元世界人工智能大會,馬上搶票!
【AI WORLD 2017世界人工智能大會倒計時 2 天】點擊圖片查看嘉賓與日程。
搶票鏈接:https://www.huodongxing.com/event/2405852054900?td=4231978320026
AI WORLD 2017 世界人工智能大會購票二維碼:
最後更新:2017-11-06 19:23:10