閱讀393 返回首頁    go 阿裏雲 go 技術社區[雲棲]


帶你了解超大規模數據中心究竟有何不同?

本文是作者Mary Branscombe在參觀完微軟公司位於華盛頓州昆西的超大規模數據中心之後所撰寫的一篇手記,從文中,我們可以看出雲數據中心在過去的十年中究竟走了多遠。

一處超大規模的雲數據中心看起來與一般的企業級數據中心是不同的,甚至與一家大型的托管服務提供商也是不同的。他們所麵臨的問題不同於您企業數據中心所麵臨的問題。而您企業數據中心所采用的各種方法:包括從如何選擇一處數據中心站點,到如何管理電源,再到服務器的運行使用壽命該有多久都與您企業的數據中心是不同的。

如果您企業正在考慮采用一款混合雲服務,其涉及到運行Azure堆棧或一款超融合的基礎設施,那麼,如下的幾大重要的差異是您企業亟待重點考慮的:

當硬盤驅動器出現故障時,幾乎總是緣於振動的問題。一處雲數據中心是在如此精心設計的係統中運行的,因此其發生故障的主要原因是濕度。

您需要關心維護性問題,並定期計劃仔細的修補,逐一集群或乃至逐一服務器的實施維護性修補;一處雲數據中心重視自我管理,自動化的自愈,其被以標記(stamp)為單位,可能至少管理著800台服務器。

虛擬化的工作負載得以充分利用處理器;他們在一處雲數據標記(data stamp)的800台服務器中保留了20台,用於運行管理軟件。

隨著服務器的老化,您企業可以在其之上運行要求不太高的工作負載;一處雲數據中心所采購的服務器是具備機架和堆棧所同時一起交付的,通常位於集裝箱容器內,在三到五年後,它們將被整體更換為具有較低運營成本的新的服務器機架。

您關心電源和冷卻的成本,而對於電力資源的獲得可能會妨礙您企業擴展工作負載;一處雲數據中心所選擇的地理位置較為特別,因為該地理位置將有助於降低冷卻成本,其將會擁有一條直接來自水力發電廠的電力供應線,並能夠支持數據中心規模的不斷擴張——甚至能夠作為數據中心遷移到采用新一代硬件和一種新的數據中心布局方式的機會。

您可能會擔心從兩家不同的供應商連接到您的數據中心的問題;而一處雲數據中心則投資於其自己的水下數據電纜。

然後還有規模方麵的問題......

“我們必須持續的擴展我們的網絡,一直2020年。”微軟數據中心高級主管Rick Bakken告訴我們說。

即使物理基礎設施的規模也是相當巨大的:微軟最新的華盛頓昆西數據中心設施正在建設中,該數據中心擁有24000公裏長的網絡電纜,這一長度幾乎足以環繞地球,而其位於新加坡的Azure數據中心所擁有的網絡電纜長度則是前者的兩倍;以及足夠的混凝土,其足以能夠鋪設從倫敦到巴黎的人行道。

Azure數據中心的零距離探訪

零距離探訪一處像昆西這樣的超大規模數據中心的內部是讓那些公共雲服務的安全性懷疑論者們閉嘴的一種最快最有效的方式。而具有諷刺意味的是,正是基於安全性的考慮,才讓我們對於這處數據中心的親曆探訪變得相當困難。甚至不能派您企業的審核團隊來檢查其設備。

最近,微軟公司為CIO.com網站的記者們提供了一次零距離探訪其位於華盛頓州昆西數據中心的機會,而作為十年來首批被批準允許進入其Azure數據中心內部一探究竟的記者,我們在參觀全程過程中均受到相當嚴格的限製:禁止拍照或錄像、不提供任何可能會危及設備安全的信息(故而本文中的圖像照片均由微軟公司所提供)。

微軟華盛頓昆西數據中心的外麵是高原平原,每年擁有超過300天的日照時間,每年隻有八英寸降雨(和一英尺的降雪),在一年大部分時間平均溫度為50華氏度,夏季中的兩三個星期溫度最高值可達80華氏度。該地區幹旱的氣候非常適合當地的水果種植,也使得數據中心的冷卻非常有效。而附近的哥倫比亞河澤產生了大量的電力,這就是為什麼微軟在2006年選擇了昆西作為數據中心站點的原因(戴爾和雅虎,以及數據中心提供商如Vantage和Sabey也將其數據中心選址在此)。


微軟位於華盛頓昆西的數據中心鳥瞰圖

這些建築是匿名的,沒有樹立微軟的標誌。最新的建築設施已經在一個凸起的護堤上安裝了一個防護柵欄,所以您根本不能開車進入,也就無法看到其是如何布局的了(當然如果您曾經參觀過微軟的園區,您會發現個別建築的標誌看起來很熟悉;這些建築沒有打上微軟的名稱或logo,通過圍欄籬笆您根本看不見他們)。

內部的安全措施是相當嚴格的:普通員工進出要通過生物識別和雙門 ——而且對那些員工都會進行背景檢查,涉及指紋和查看是否有警方備案記錄。即使是運輸和接收部門,其擁有一個巨大的,天花板高的貨架,正如您可以想象的如同在商店倉庫一樣,其安裝有不能同時打開的內外門。更多的生物識別鎖保護個別房間(舊建築物中采用手持式安檢儀,新的建築設施中則采用指紋掃描器)。

在建築物內,您會遇到各種不同的檢查站點,相關的警衛安保人員會用掃描棒來確保您為將任何禁止的東西帶入或帶出。微軟采用了Rick Bakken所謂的“白手套移除(white glove removal)”的過程中,拆除舊設備並對其進行回收——以確保沒有任何一款硬盤能夠離開數據中心操作建築大樓。如果這些硬盤被用來存儲重要級別較低的業務數據,那麼將被使於內部循環,而如果他們儲存的是重要級別較高的業務數據(一些服務器機架將被標記為HBI),那麼這類硬盤將被送往粉碎機。粉碎後,“其碎塊顆粒大小還沒有一顆BB子彈大。”

更少的工作人員和維護

您企業的數據中心絕對沒有這麼長的走廊,以至於操作人員如若要去到另一處遙遠的操作房間的話還需要借助踢滑板車。而即使企業級的數據中心的規模比超大規模雲數據中心要小得多,但您數據中心所雇用的員工數量卻可能要多得多。Azure數據中心的核心運營團隊成員規模要遠遠小於您所想象的(像微軟所說的那樣,基於數據中心的規模,一般精確到十到幾十人不等),盡管他們擁有前者三倍的安保警衛人員的數量,但這些核心運營團隊成員則擁有非常不同的技能。

他們不更換故障的網卡和硬盤驅動器,更新固件或計劃維護窗口。他們正在運行自動化,並忽略硬件故障,因為這些是自動處理的。

“發生中斷、人為錯誤、軟件有bug漏洞。”Bakken說,“我們會讓其自愈,如果有什麼破壞事件發生,我隻需要知道其發生了,但我們有一套保護和治愈係統來規定和意外突發事件。至於OpEx運營成本,對於較新的數據中心而言,我們會更換冷卻係統中的過濾器,這是我所擁有的唯一維護。我們已經轉向了一種彈性配置,使得我在每個箱子中放置的服務器比我們所需要的要更多,故而如果一台服務器被破壞,我們隻需將其關閉離開,等待直到下一個更新周期的到來。”

從數據中心建築到容器——再回歸

對於數據中心架構而言,這種更新周期通常也意味著巨大的變化。當您為數據中心采購服務器時,您可以從像戴爾或惠普這樣的OEM廠商處購買服務器。微軟以前就是這樣做的,一次性的大量購買,甚至是一次一個容器。現在,該公司正在設計自己的服務器,以便以更低的成本精確的滿足其實際所需,從ODM訂購,並將服務器設計貢獻給開放計算項目(OCP)。


微軟設計的服務器機架行

昆西數據中心的各種設施可以說是這些變化的一個縮影。微軟將這裏最老的兩幢建築稱為第二代數據中心,其看起來像一處傳統的數據中心,但是與普通的企業數據中心不同,並不是擠滿機架和服務器。隨著微軟在這裏轉換到采用新的OCP服務器,路由器和負載均衡器消失了,以便有利於虛擬化網絡,而該操作房間過去曾經有18行機架,而現在隻有8行,因為其計算機和功率密度非常高。 “我們的功率預算不變,但卻安置的服務器的數量卻大大增多了;由於功率預算的限製,使得機架密度更高。”Bakken解釋說。

熱通道(高達106華氏度)被絕緣的工業製冷區域的透明塑料麵板隔離。該屋頂最近被噴塗成白色,以提高電力效率——這是一個特別值得強調的細節,其根源可追溯到十年前,彼時,Bakken還在史蒂夫·鮑爾默的容量能力規劃團隊工作:“我們認識到,我們正在建設真正大型的空調;我們從事的是工業空調業務。”

解決方案並不是采用AC交流電源。微軟能夠大量減少其所需的冷卻功率首先是通過轉換到采用用外部空氣冷卻的方法,然後再采用絕熱冷卻,其工作原理與“沼澤冷卻器”相同,即將水噴射到風扇前麵的空氣中,以保持操作機房空間更涼爽,因為熱量會蒸發水,而不會加熱空氣。

降低冷卻成本

如果您企業在過去幾年中采用了最新設計來構建您的數據中心,那麼您數據中心的電力使用效率(PUE)值可能為1.6或甚至1.4,就像微軟在2007年和2008年建立的第2代數據中心一樣。這意味著您隻使用了一個額外的40%至60%的功率來運行服務器和網絡、降低您不間斷電源(UPS)的的電池電壓,而大多則用於保持服務器冷卻。

如果您是在十年前建立了您企業的數據中心,或者您使用了一種更傳統的設計,那麼您企業將使用兩到三倍實際上用於運行您的工作負載的功率來進行冷卻。

微軟在思考方式方麵的變化導致了該公司在2011年建成了其第四代集裝箱式數據中心(該公司采用了ITPACs為其命名),平時大部分時間使用外部空氣冷卻,而隻在最熱的日子裏使用絕熱冷卻,使PUE值下降到1.2或1.12。

而即將在昆西開設的第五代數據中心設施的PUE值為1.1(其在一年中的某些時間段下降得更低)。

ITPAC容器

ITPAC設計將幾千台服務器集成到一款容器中。微軟公司向兩家大型服務器OEM廠商提出了規格要求,希望他們能夠通過掛接一根440v的電源線和一根網絡電纜來提供一個可插入的容器。兩家公司提出了截然不同的設計:一個適合標準的集裝箱,其擁有有獨立的冷熱通道;另一個是具有單一的、共享的熱通道的定製pod。

ITPAC設計顯示了百葉窗屏

這兩種設計都是用起重機把它們提升到厚的混凝土基座上,然後微軟公司在上麵建了一個屋頂。第二天,四英尺的雪飄進了建築物。這並不會對服務器的運行造成任何問題,但人員在裏麵很難行走,所以他們添加了百葉窗屏來擋雪,並讓外麵的冷空氣得以進入。

空氣通過多組過濾器,以便去除灰塵和汙垢,而在最熱的日子裏,室外空氣在被吹過容器之前,會被噴水冷卻。

後期版本的ITPAC設施完全免除了屋頂和牆壁,通過在集裝箱下麵運行它們或將它們埋在混凝土下來保護電力和網絡電纜。

不同於企業的數據中心,後者具有發電機和飛輪來保持電力供應,該ITPAC設計不連接到備用發電機。整個數據中心設施有多處電力來源,但如果其失去電力供應,ITPAC上運行的工作負載將自動切換到其他數據中心。其故障也不是您企業的典型的故障。Bakken稱其為“全球分布式地理彈性係統—它不是一個主要和次要的,它是一個全球性的網格。”

整個建築是一個容器

微軟剛剛完成建設的第五代數據中心設施是昆西數據中心站點上所有其他數據中心設施規模大小的三倍,其回歸到了刷新建築物,而不是堆疊的容器,但它們看起來並不像您所熟悉的數據中心。沒有高架地板;隻是ITPAC在同一水泥板上。高機架內預先填充了微軟OCP設計的服務器,並用送貨卡車安裝到位。他們連接到一個公共信號背板,“所以他們共享冷卻,網絡和電源。”Bakken說。這使得微軟可以靈活地應對不同的服務器類型或不同的數據中心架構。

微軟第5代數據中心設施

在建築物的一側,風扇吹空氣冷卻,由一個封閉的循環水係統使用循環水(甚至收集在數據中心的雨水),其由外部空氣冷卻,而不是一個冷水機組。發電機補充電力供應線,在大壩運行從數據中心現場收集回收的廢水的甲烷。微軟也在研究薄膜太陽能,甚至研究天然氣的燃料電池,以便可以用在機架上。

即使是依靠其來供應一般的服務器機房,也還有很長的一段路要走,更何況是這種超大規模的雲數據中心,隻有兩三家雲提供商可以整合在一起。當然,其並不是微軟唯一的數據中心。

微軟在全球範圍內運營著100多處數據中心,提供200種雲服務,並為超過10億的客戶和超過2000萬家企業處理雲工作負載。 “我所提供的處理服務包括了從Xbox到Office 365和Azure在內的一切服務。”Bakken自豪的說。而他所麵臨的客戶的要求則更高。 “在微軟,唯一可以運行生產工作負載的地方便是我的其中一處數據中心。”


:Mary Branscombe

最後更新:2017-09-01 11:33:18

  上一篇:go  機器學習和統計學的“愛恨情仇”
  下一篇:go  圖文教程,8步教你變身數據科學家