閱讀121 返回首頁    go 搜狐


阿裏巴巴基礎設施事業群總經理周明:阿裏巴巴基礎設施的挑戰與機遇

2017年8月22日,開放數據中心委員會主辦,百度、騰訊、阿裏巴巴、中國電信、中國移動、中國信息通信研究院、英特爾承辦的"2017 ODCC開放數據中心峰會"在京隆重召開。在上午大會的主會場上,阿裏巴巴基礎設施事業群總經理周明針對阿裏巴巴基礎設施的挑戰與機遇做了演講。

我們作為整個阿裏巴巴的基礎設施的團隊,支持了來自整個淘寶、天貓為基礎的電商的集團,以及以螞蟻金服、支付寶為核心的金融集團,以及以菜鳥網絡為核心的物流的板塊,整個三大集團基礎設施的服務。對於我們來講會遇到一些壓力和挑戰。

對於阿裏巴巴來講,第一,我們會有一個國際化的全球的基礎設施。第二,我們有一個全球化的網絡,背後我們有非常大量的服務器的保有量以及每年有相當數量新增的服務器量。這麼大的規模,表示我們有一個大的挑戰,如何去運營,如何提供技術,都是一個非常大的壓力。正是因為有了這麼一個規模,才帶來一個更加明顯的挑戰,同時也帶來了基礎設施發展的機遇。首先如何來降低成本,是最原始的驅動力,但是光降低成本其實不夠,還有一個更重要的,如何構建技術競爭力。

我們如何應對這些挑戰,我們總結了一下,我們基本上是通過三個方麵來做。首先是白盒化,最大的好處是我們把很多技術share起來,事實上白盒化並不是簡簡單單說為了一個成本。第二個方麵是架構一體化,我們需要從上麵的業務到下麵中間的應用,到基礎軟件平台,到我們硬件甚至到芯片,整個一體化設計。另外,智慧化,我們不僅僅提供一個設備、提供一個技術、提供一個軟件,我們還提供一個7×24小時、365天的不中斷的服務,Online的服務會帶來對基礎設施穩定性的挑戰,我們需要智慧化的手段來應對挑戰。

下麵從數據中心本身的風火水電、服務器、網絡,這三個層麵上來分享一下我們如何在白盒化、架構一體化以及智慧化層麵的一些思考。

首先講一下數據中心,數據中心領域也是從白盒化的思想來做的,我們一直以來無外乎在兩個方麵解決我們的一些問題,首先是降低PUE,另外一個是提高用電效率。從阿裏巴巴來講,從很早以前我們租用數據中心,到我們的定製,到我們後來在千島湖通過湖底的水作為冷源,來冷卻我們整個的數據中心。到後來在張北建立數據中心,從部分的風冷到全部的自然風冷,通過自然界的溫度來降低我們的能耗。到未來,我們是不是有可能在自然條件下差一點的地方來做事情,降低PUE,比如在南方、華東、華南也能把PUE降下來,未來液冷會是我們的一個方式,阿裏巴巴已經在液冷方麵做出了一些探索,也有一些落地的東西,這些是我們不斷在追求的一些目標。在另外一個層麵,用電效率,從我們最開始的雙路市電到UPS等等,這些都是在用電效率上的探索,我們所有數據中心風火水電的工作無外乎圍繞這兩個方麵,我們做了非常多細致的工作。

接下來講一下服務器,服務器也是這樣的,我們從最開始購買一整台服務器,到從整機櫃,背後是從一個整的服務器到部件、到芯片,都逐步在做白盒化的工作。我們不斷從一個整機變成CPU的定製,最初規格的定製,到微架構的定製,包括我們越來越多的智能網卡,因為現在很多的網絡已經開始從交換機逐步落到服務器,最後落到網卡上,這也是服務器白盒化。結合AI,比如像FPGA,包括NPU等等,這些也是要考慮的範疇。

接下來講一下網絡,我們會從最開始網絡的一些基礎設施,從最下麵的傳輸到模塊的自研,到上麵交換機,包括OS層麵的自研,再往上我們還會有一些基礎的軟件,比如涉及到一些VPC的、虛擬網絡的以及涉及到服務化QoS,包括整個流量的調度,包括進行DDoS攻擊的一些軟件的平台,把每一項技術從最開始使用集成的解決方案,到深入到每一層來白盒化的解決方案。

事實證明白盒化其實是不夠的,光白盒化隻是解決了一部分工作,我們的目的是架構一體化,實現競爭能力。比如把PUE降低了夠不夠?不夠!還需要跟我們的服務器、網絡,包括服務器的用電量,怎麼有機的結合起來。事實上我們看到我們做一些硬件,可能想象的我們做一些硬件以後,隻是把硬件本身的白盒化,再往上可以做一些軟件的適配層,通過IO讀和寫更細致的工作,更上層比如塊存儲,再往上分布式存儲係統等等,再往上數據庫等等的應用,能夠做到一體化的架構設計,最終是實現整個係統極致化的性能。大家前麵也聽到講AI,AI下麵FPGA和GPU,假設我們要做一些NPU這樣的計算單元,我們如何來思考,用什麼樣的機型,有些公司在做一些高密度的GPU的機型,這些都是在考慮的一些事情。整個從白盒化到架構一體化,這是我們非常重要的核心,也是我們體現技術競爭力。

最後講智慧化,前麵講到我們作為一個提供7×24小時的服務,我們會麵臨很多現實的問題,不是把設備起來、軟件做好就好了,可能麵臨著部署,物理的部署要部署好,軟件的部署要部署好,要保證7×24小時的服務,這裏麵會出現很多問題和故障,有了故障之後我們會對業務造成什麼影響,如何快速的發現我們的故障,快速的定位故障,快速的修複故障,這些數據中心就會帶來一個非常現實的演進的過程。最開始部署來講,規模小的時候員工手工搞定就可以,規模大了一定是不行的。怎麼樣實現信息化,這是第一步。第二步,實現信息化以後要實現自動化,隻有自動化才能提高我們的效率,信息化到自動化是提高我們效率的一塊。走向未來是智慧化,我們如何在數據中心裏麵讓我們用電的效率更高,如何在數據中心裏麵能夠實現無人值守,如何能夠在網絡、服務器發生故障的時候我們能夠快速定位root cause,到能夠快速恢複。

總結一下,基於我們大規模成本以及我們在整個的技術競爭力的考慮,我們用了三個方麵的原則和手段,通過白盒化,通過技術架構一體化,通過數據中心的智慧化,來解決我們的問題。謝謝大家!

直播渠道現已開通!

直播間

最後更新:2017-08-25 00:08:06

  上一篇:go 國內首創!阿裏巴巴的超級倉庫被智能機器人接管了
  下一篇:go 互金委:很多區塊鏈項目都是炒作、濫竽充數;阿裏巴巴已經正式投資國內農村電商平台“趕街網”;找油網完成3180萬美元B輪