全浸沒式液冷集群?沒錯,這東西被阿裏搞成了
2012年,我受邀去美國德州TACC超算中心參觀當時位居全球TOP10的一台超級計算機。在參觀的間隙,我偷喵了一眼隔壁房間,發現了一個神奇的存在――全浸沒式液冷。
話說,雖然早就知道有這麼一種散熱方式,但第一次看到的時候我還是懵X的,畢竟這個東西還隻是“傳說中”的產品,還是概念機。
後來參加超算大會多了,從德國的ISC到美國的SC大會,每年都有幾家廠商展示全浸沒式液冷。雖然這些產品大多基於單機設計,這樣的散熱方式依然是陽春白雪,但至少意味著它已經走下“神壇”,開始進入大眾的視野。
直到前年,在SC15上,大量服務器廠商展示浸沒液冷概念機,我才真正覺得全浸沒的時代已經可以看得到了。不過又是兩年時間過去了,如今絕大部分數據中心還在使用風冷散熱,部分高端的設備雖然采用了冷板式的液冷,但是全浸沒的方式距離應用還有很長一段時間。
PUE逼近1.0 阿裏巴巴全浸沒液冷集群現身
直到我看到一篇報道,說是阿裏巴巴已經開始了這方麵的小規模集群應用。
阿裏技術官方微博全浸沒液冷集群照片
日前,一條全浸沒液冷的消息引爆了大嘴哥的朋友圈,許多圈內的朋友紛紛轉發了阿裏巴巴構建全浸沒液冷集裝箱數據中心的消息。據報道,這是阿裏巴巴應對未來高密度、高能耗的大規模計算的一種嚐試,也代表了未來數據中心行業發展的大趨勢。
剛看到這則消息的時候,我有點震驚:莫非這種傳說中的黑科技真的被阿裏投入商用了?但是轉念一想,如果說中國真正能夠將黑科技轉化為商用的,恐怕也隻有阿裏這樣級別的企業了。
在過去的18年中,阿裏在電商取得的成績,離不開技術的支持,由此才有“阿裏巴巴也許是一家被電商才華掩蓋的科技公司”這種說法。。就在前不久,阿裏啟動了一項內部代號為“NASA”的計劃,組建強大的獨立研發部門,為服務20億人的新經濟體儲備核心科技。這些核心技術包含了人工智能、量子計算與通信、生物識別、區塊鏈、金融級數據庫等。就像馬爸爸說的那樣,“我們必須突破、必須創新”。就這樣,阿裏把技術跟著業務走的模式,轉變為真正的技術驅動模式,以“解決10年20年後的困難” 。
全浸沒式液冷服務器作為支撐“NASA”行動計劃的基礎架構正在其中。有數據顯示,僅在2015年,全國數據中心的耗電量就高達1000億度,年耗電量超過全社會用電量的1.5%,相當於整個三峽水電站一年的發電量。因此,如何降低數據中心的能耗已經成為全行業關注的問題,而全浸沒模式液冷的出現也為數據中心創造了新的發展前景。
帶著太多的疑惑與期待,憑借著對全浸沒液冷的認知與興趣,我有幸采訪到了該項目負責人:阿裏巴巴服務器產品高級專家鍾楊帆(花名“熾平”)。
事情還要從4月5日說起。當天,阿裏技術官方微博發布了一條消息並配圖3張,稱這是一款黑科技產品,會創造多個業界記錄,並將支撐阿裏巴巴的“NASA”行動計劃。
阿裏巴巴全浸沒液冷服務器集群
“你們怎麼想到做這個產品?在許多人看來,全浸沒隻是一種未來的概念而已”,我問熾平。
“你知道的,如今數據中心的能耗已經成為了大家關心的問題,不僅僅是服務器、存儲、網絡設備的功耗,包括空調、供電等等係統的散熱都是大家關心的問題。我們正處於從IT時代到DT時代的轉變,可以預見的是未來能耗問題將會越來越突出。我們這個項目就是希望前瞻性的解決能耗的問題。”
說起來容易做起來難。就像開頭我曾經提到的,雖然全浸沒式液冷已經不算是什麼“黑科技”,但是真正應用還是非常遙遠。受限於技術實現的難度,目前參與浸沒液冷服務器設計的企業,對浸沒液冷的應用也僅局限於單機測試、單機展示階段,從目前公開的信息看,並無服務器集群部署先例,更別提搭建數據中心了。按照熾平的說法,他和他的團隊成為了“第一個吃螃蟹的人”。
其實,熾平這個想法由來已久。早在2015年年初,熾平和團隊就意識到了能耗製約的關鍵性問題,並且積極嚐試解決的辦法。為此,他多次與供貨商溝通,按照全浸沒式液冷的應用需求定製主板、線纜和機箱設備。就這樣,這個不到20人的團隊忙了足足兩年時間,才有了我們今天看到的成績。
起初,我以為熾平他們采用集裝箱的方式或許是迎合未來發展的需求,或者是出於應用的考慮。後來我才知道,對於這樣前瞻性的項目來說,如何搭建數據中心是一個懸而未決的問題,作為業界的先行者,項目組也沒有成熟的案例可供參考。”集裝箱簡單嘛,不需要太多的設計,方便快捷“,熾平說。
阿裏巴巴全浸沒液冷服務器集群近照
就這樣,經過2年時間的努力,熾平在阿裏巴巴西溪園區的樓頂部署了這款世界第一個服務器集群。集群中的服務器全部是定製化產品。經過測試,全浸沒式集群的散熱效果相比傳統風冷實現了飛躍式的提升, 係統PUE逼近理論極限值1.0
“我們的係統PUE逼近理論極限值1.0,說起這件事的時候,熾平表現得很自豪。PUE是Power Usage Effectiveness的縮寫,是評價數據中心能源效率的指標,也是數據中心消耗的所有能源與IT負載使用的能源之比。一般情況下,PUE的基準是2,越接近1表明能效水平越好,IT係統的運行更高效。
如今,業內采用風冷模式的數據中心大概都在1.8-1.9的水平,PUE低於1.6的數據中心就已經算是“節能高效”的代表了。那麼逼近理論極限值1.0是什麼概念呢?就相當於所有的散熱設備功耗都已經可以忽略不計了。
這的確是一項了不起的成就。雖然現在IT係統的計算性能已經非常強勁,咱們家裏的電腦早就已經沒有性能上的更新需求,但是對於許多企業級應用來說,IT基礎設施提供的性能還是遠遠不夠的,比如在超算領域。
阿裏巴巴全浸沒液冷服務器集群液體達到沸點的樣子
大家或許知道,從天河一號A開始,中國在國際超算的舞台上就頻頻奪冠,天河二號超級計算機曾經六次榮膺全球超算TOP500榜單的第一名,如今的神威太湖之光也已經梅開二度。但是它們的計算性能還遠沒有滿足人類的需求。在實現百億億次計算的道路上,人類麵臨了許多的問題,無論國內還是國外,一堵”能耗牆“就已經擋住了整個業界前進的腳步。能否解決能耗問題,成為了人類能否邁向E級時代的關鍵因素之一。
如今,阿裏巴巴找到了通過”能耗牆“的金鑰匙――全浸沒式液冷。據熾平透露,雖然看起來全浸沒式液冷需要重新定製特殊規格的服務器,需要重新設計供電與散熱模式,還要考慮到冷卻液如何循環運行,但是從總體擁有成本來說,全浸沒式液冷可以大大節省用戶的投資。
不僅如此,麵對這樣飛躍式的發展,阿裏巴巴甚至打算重新定義“PUE”的內涵,也正在醞釀全新的公式法則。或許很快將成為新一代全浸沒液冷的新型計算標準,實現更精準化的綠色節能。
全浸沒液冷的三大門檻
除了硬件外,阿裏巴巴還同期設計了一套適合浸沒液冷的監控管理係統,這樣管理起來也更加高效。當然,熾平也沒有一味的誇獎全浸沒式產品的優點。事實上,也並非每個公司或數據中心都有能力采用這樣的技術,全浸沒式液冷的準入門檻也很高。
首先是硬件基礎設備的定製――不僅僅是服務器產品,未來包括存儲、網絡等其他IT基礎設施都要為全浸沒式液冷實現專門的定製化。
其次是高效的管理和運維――在全浸沒式液冷係統中,原有的風冷環境管理軟件已經完全不適用了,從係統監控到維護,都需要有單獨開發的軟件。因為全浸沒式係統是密封結構,所以對於係統內部的液體溫度、氣壓也都需要重新監控,要依賴專門開發的軟件來實現。
最後是數據中心的建設――全浸沒式液冷的特性在於散熱效果好,係統密度高,延遲低。而要實現這些特性,就需要單台係統中盡可能容納更多的計算、存儲節點,進而需要機房承重、供電係統的同步配套。
由此看來,全浸沒式液冷雖然更安靜、更省錢、更高效,但是對於應用者的設計能力、技術能力和自建機房的能力也都提出了更高的要求,非大型公司、有技術實力的客戶不能應用。就當下的態勢來說,也就是這幾家互聯網巨頭可以實現全浸沒式液冷。
熾平表示,目前阿裏巴巴已經在整機櫃服務器技術規範上形成了原創設計思想積累,在結合自身需求以及在自研數據中心的積累後,也將快速設計出符合自己需求的浸沒液冷服務器整套解決方案,並進行集群化實踐。
當然,這也並非是憑借阿裏巴巴一己之力就能夠實現的,阿裏更多是站在未來發展視角,整合產業資源去實現前瞻性的創新,再通過阿裏雲等業務平台讓更多人享受到液冷的收益。而對整個產業來說,更需要開放的標準來推動產業的發展,也需要更多人的加入讓整個產業實現普惠效果,進而影響到更多的人,讓更多的企業參與其中,從而實現行業的變革。
阿裏巴巴工作人員將手伸進沸騰的液體中
“阿裏巴巴進行了浸沒液冷的新材料技術研究,液冷服務器架構設計以及液冷數據中心整體方案重構”。據熾平介紹,在看到全浸沒式液冷如此高效的運行能力之後,阿裏巴巴準備在未來幾年內大規模的采用這種技術,預計可能在張北數據中心內部署上千個節點用來運行實際業務。
“我們目前完全是摸著石頭過河,但是我們堅信這條路是正確的,而且是應對未來DT時代數據大爆發的最佳方式。當然,全浸沒式液冷係統還需要整個產業鏈的支持,我們也希望聯合包括BAT在內的其他企業和供應商,從硬件設計到平台管理到機房設計打造行業應用標準,實現產業聯盟”,熾平說。
寫在最後的話
盡管對於熾平的采訪隻有半小時的時間,但是給我留下的印象卻非常深刻,特別是我早已經了解這項技術的情況下。做一台係統可能不難,做十台係統可能也簡單,但是一百台、一千台、一萬台呢?數量的增長可能帶來的是幾何倍數的問題,或許也隻有阿裏巴巴這樣高科技的企業能夠應對巨大未知的挑戰。
我們處在一個技術創新的臨界點,(發展方向)將從工程技術到核心科技――阿裏巴巴集團首席技術官張建鋒
近年來,阿裏巴巴一直致力於綠色數據中心的技術創新,實現對能源的節約。2015年投入運營的華東某數據中心采用深層湖水製冷,年均PUE低於1.3。近日由阿裏雲對外開放服務的華北3數據中心則充分利用環境優勢,大麵積采用新風自然冷和水側自然冷技術,年均PUE低於1.25。此次的浸沒液冷,更是將PUE推向理論極限值1.0。有些人可能擔心全浸沒式液冷的安全問題,事實上這種來自於3M的氟化液已經成為了業內許多企業和玩家的最佳選擇,並且經受了事實的檢驗。
在我看來,全浸沒式液冷的大規模商用會為全國數據中心乃至全球打開一扇全新的大門。就像我們之前提到的,這種商用模式被證實可行,將對現有的數據中心運營模式、數據中心基礎設施造成毀滅式的衝擊,會帶來摧枯拉朽式的行業變革,我們也必然會迎來全新的液冷應用時代。
如果能耗的問題可以得到遏製乃至解決,現有的計算能力將會實現大幅度的飛躍。可能到時候不僅僅是省下幾個三峽大壩的電量,而是計算力得到解放,更高主頻、更多核心處理器、更大規模的超級計算機將會出現,從而帶來科技飛速發展,乃至於人類社會的大踏步前進。
你好,全浸沒式液冷時代。
原文轉自IT大嘴巴
最後更新:2017-05-09 12:02:12