985
搜狐
阿裏巴巴陸睿:下一代數據中心光互聯技術的思考
提
要
2017年8月22日,開放數據中心委員會主辦,百度、騰訊、阿裏巴巴、中國電信、中國移動、中國信息通信研究院、英特爾承辦的"2017 ODCC開放數據中心峰會"在京隆重召開。在上午大會的主會場上,阿裏巴巴光網絡架構師陸睿針對下一代數據中心光互聯技術的思考做了演講。
我的分享題目是下一代的數據中心光互連技術的思考。2016年以前我們阿裏巴巴就已經使用在服務器到交換機這層,使用實際的開放的AOC.當時因為我們考慮到光互連在交換機連接承載的業務量比較大,所以我們開放的角度慢一點。我們在2016年做了40G光模塊的試點,整個結果看上去還不錯,也堅定了我們在開放光模塊AOC這個路線往下走的決心。到今年我們阿裏的網絡應該說全麵的開始部署開放的25G、100G、10G、40G,都在用開放的AOC以及光模塊。
後麵我會稍微分享一下我們在這塊的經驗。首先我講的是在過去的一年,我們的雲計算、互聯網、AI的各種發展,使得我們數據中心的發展非常快,無論是數據中心的建設量還是數據中心性能提升的需求都變得越來越迫切。到2019年我們的數據中心光模塊的發貨量達到1000萬,2021年市場規模達到49億美元,增長非常的迅速。從以往的技術主要的驅動力,是在電信的網絡,大家知道像路由器、光傳輸,對帶寬的增長需求更迫切。但是從我們現在看到的情況來看,以100G為例,在路由器和傳輸上麵出現會比數據中心的交換機上出現早好幾年。但是400G這一代,CFP的模塊,去年有產品出現,但是數據中心100G的光模塊有望在今年年底出現,差距就變成了一年時間,到未來的時間需求可能會一樣。從另外一個角度來說數據中心對光模塊的特性需求跟電信網絡不太一樣,它對小型化、高密度、低功耗、低成本都有更高的要求。也就是說我們認為數據中心現在已經成為了推動光通訊技術發展的另外一個引領。
另外,我們看到數據中心的硬件、軟件,都呈現了全麵開放的趨勢。數據中心的基礎設施對於我們的最終用戶來說越來越趨向於白盒化,不再是我們看不見的黑盒子。這個好處除了有成本的降低以外,也使我們更加能觸摸到內部的技術,從而也能夠把真實的需求更快的反映到上遊的供應商,把我們的需求變成現實,這也是為什麼到了100G時代各種各樣的MIC標準出來,不像以前的標準了,就是因為數據中心的用戶需求也變得多樣化起來。
我們在開放的光模塊AOC的經驗分享是五點,第一個就是技術規範的製定,我們認為這點很重要。大家雖然也知道像光模塊、AOC都有標準組織製定了所有的光電參數,或者是定義。我們在集成的時候還是經常會發現有光模塊或者AOC插到係統設備利,要麼就是不識別、不工作、不穩定,或者是訪問信息發現上來的都是不正確的。原因就是雖然標準在那裏,但是大家在實現的過程中,設備商和光模塊的供應商他們會有理解不一樣的地方,或者為了快速推出產品,標準上麵並沒有做到全部的適配。比如說對內容的理解造成的差異,或者是高速信號之間的匹配,尤其到了像25G這個時代光模塊AOC裏都有CDR,還有均衡,這些參數的配合造成的問題都比以前像10G、1G的光模塊來說來的多。還有有的不支持400K,或者(英),導致獲取信息的錯誤,這些都是我們在不斷的摸索當中要製定的規則,使大家在集成的過程中出現的問題更少。
第二個重要,就是集成測試的重要性。要結合到規範一起來做的。我們集成設計中發現的問題要快速的反饋到我們的規格當中,這兩條能夠使得整個的光模塊用在係統設備利變得更加的順滑。
再一個就是性能、穩定性、可靠性的挑戰。大家知道阿裏的雲計算業務都是非常關鍵的,在光通訊的整個速率的提升過程中,效率不斷的提升,1×10的負2次方的馬力,是16分鍾多,10G的時候可能是100秒,100G的話就是10秒。同樣的霧碼率的情況下,數據增長的情況下會被人為感知的越來越明顯。實際上我們數據中心不願意看到任何的霧碼,尤其是現在的存儲業務對丟包來說越來越敏感,所以我們對光模塊的性能其實要求是在提高,而不是降低,同時我們的業務對穩定性、可靠性要求更高,我們對光模塊的廠家有2000小時的這種測試的要求。
再一個就是我們使用開放的光模塊的過程中,我們也要麵臨這種建設運維的挑戰。因為在過去我們對光模塊都是由係統設備提供,現在全部是由用戶自己進行建設和運維,出現任何問題,我們自己要有定位問題的能力,同時也要有責任的劃分,以便於快速明確到責任方。
更重要的是我們在實踐當中要不斷的去總結,怎麼樣去發現這些問題,流程上的問題、技術上的問題,最終理清整個的流程思路,使得整個開放的第三方的光模塊的AOC在數據中心不會出現任何的問題。
接下來講一下我們阿裏的數據中心網絡演進的方向。這個圖是典型的數據中心網絡的架構圖,這裏我們的光互連技術分為兩塊,第一塊是從服務器到接入交換機,這層通常用AOC作為傳輸介質。然後到核心交換機這塊,我們用的一般是光模塊。這個速率可以看出,它們的速率倍數是4倍的關係,之前可能是千兆和萬兆,是10倍的關係。但是10G以後,也麵臨速率提升的瓶頸,所以我們都是4倍的關係。因為服務器到接入交換機的距離相對比較近,一般是用線纜的方式,就是AOC.到交換機和交換機的連接距離通常比較長,我們是采用光模塊加光纜的方式。過去大家的部署是10G、40G,今天部署的是25G、100G,未來我們希望到100G、400G的網絡,接入的100G,到上麵交換機的互聯是400G.單通道25G往下一代是50G,為什麼我們去跳過了50G和200G,因為我們覺得無論是上遊的供應商還是用戶,我們投入了這麼多的精力提升這個速率,如果帶來的好處隻有兩倍,這是我們覺得不太好的。我們希望一步跳到400G、100G的速率。
這頁是數據中心網絡的演進時間表,在OFC上麵曾經預測過數據中心網絡的速率提升應該是三年一代,從實際開始我們開始比較符合這個演進的方向。大概2013年、2014年左右開始部署10G、40G,三年之後的今年開始批量部署25G、100G,我們預測到2020年可能會批量部署100G、400G的網絡。
這頁我們介紹一下未來400G光模塊可能的封裝,大家知道光模塊的封裝有大有小。比較大的封裝便於容納更多的光元器件進去,可以提供更多的接口,可以容忍的光模塊等級也更高一些。CDFP和CDP8就是這樣的,這是早期使用的方式,像CDFP和CFP8隻能放16個,功耗可以到12W,每U的帶寬最高提供6.4T.這兩個封裝因為過大,我們不認為它會是數據中心交換機的選擇,更多應該是電信網絡裏麵的選擇。電信號的通道數是16個25G,也就是說以現在的service的能力就可以使用這樣的光模塊。我們數據中心的400G光模塊更可能的封裝應該是OSPF和QSFP-DD,相對來說大一些,都是8×50G的電信號接口,尺寸上麵每U可以容量的端口數差異不大,32個和36個。整體上來講它們在每為U提供的帶寬,12.8T和14.4T.我們更傾向於QSFP-DD,大小和遺忘的QSP28是一樣的,對於我們數據中心的駐場人員來說,這個光模塊的大小、外形沒有大的變化,對於我們運維的人來講更容易識別,也不存在另外的風險。同時它依然是小型化,對於係統設備商來說設計可以維持以前的力度,對於我們架構設計上來說可以沿襲以往的。QSFP112是100G的,短期內應該還很難做到實現這樣的低成本的4×100G的電通道的方案。這了這些可插拔的模塊封裝之外,還有板載的方案,這對於數據中心用戶來因為不可以現場操作,這是比較大的痛點,除非是我們這種可插拔的封裝實在搞不定,否則我們不會選擇這種板載的方案的。
這張圖是阿裏的數據中心從去年的10G、40G,到未來的25G、100G的方案。10G是AOC,40G主要是ESR4,2013年部署的。25G、100G是今年部署的,但是由於100G隻能到100米PSM4,所以要解決100米以外的更長的距離。未來的100G、400G網絡,我們初步的規劃是接入層用100G的SSFP56-DD.整個演進過程很清晰,從接入數據10G到100G,端口的密度在交換機上都可以保持不變,同時帶寬的密度增加了2.5倍和10倍。
接下來介紹一下具體為什麼選擇這樣的方案,在10G、40G時代,其實標準不是很多,主要就是40G的SR4、ESR4,還有LR4,對數據中心的連接來說300米已經覆蓋了絕大多數的連接場景,這也是為什麼我們在40G這個時代大多數都是在選擇多模的方案。極少數的超過300米選用40G的LR4lite或者LR4單模方案。10G接入主要以AOC方案為主,距離的限製小,成本也是可以接受的程度。
到了今天的25G、100G的時代,我們現在看到的是100G的SR4多模塊的方案技術也比較成熟,但是它隻能解決最長到100米的距離,這個距離是覆蓋了大多數的場景,但是還有很多超過70米、100米的連接,我們選擇PSM4,這個更有優勢。對於中國的多數數據中心可以接受多模和單模的混合,極少數采用單一的結構化的,在美國那邊更多的采用的是結構化布線,可能會用全單模的方案。25G接入,我們現在看到的是AOC目前的成本還是比較高的,但是在一個快速下降的通道當中。DAC無論是在性能還是運維界麵不及AOC的方案,但是成本目前來看比較低,所以某些地方還有應用的空間。
到了下一代的100G和400G的網絡,我們的高速信號實現變得越來越難。我們以前知道整個光連接提升帶寬的方法其實總的來說有兩種,第一種就是我提高每個通道的比特速率,第二種就是增加我們的通道數。提升比特速率有兩個方法,第一個就很簡單,我們直接提升波特率,第二種可能就是保持波特率不變,我們使用更高的調試編碼的格式。在千兆,不到萬兆的時候,因為這時候技術的瓶頸還沒到,我們直接就提升波特率。但到了10G以上,我們整個無論是電也好、光也好,提升波特率變得越來越難,所以不得不采用編碼的方式增加帶寬。另外一種就是增加波長通道和增加光纖通道,這會帶來成本的增加。
未來的100G接入的解決方案,我們分析大概應該會有三代的演進過程。第一代也就是現在了,現在我們其實也有少量的100G接入的應用場景,按照現在的技術而言不得不選用QS28的電信模塊,第二代我們會配合下一代的IC芯片,無論是電也好,光也好,都變成2×50G的實現方式。未來的第三代,就是單通道的100G,對於這個100G的接入來說都有各自的應用場景,AOC主要負責比較長一點的,銅纜負責短一點的連接。
到400G的解決方案,發展分為四代,通常來說光的速率提升比電快一點,第一代可以看到現在已經有產品出現,就是用CPF8這樣的光模塊封裝,電信化仍然是16和25G,光信號在這塊在多模還是16和25G,光的話現在已經有8×50G的FR8和L8的方案。第二代的話整個電信號升級到50G,8個通道。單模有FR8,LOR8,電信號和光的數據完全配合上。第三代的產品電信號還是50G,光可以提升到100G,有三種方案。SR4的話要取決於多模的技術到底有沒有潛力能夠提升到單通道100G的方案。到最後第四代從電到光都提升到單通道100G.過去不存在光電信號不匹配的時候成本應該是最低的,現在如果出現光電信號不配合的話,需要增加gearbox的技術。
在阿裏下一代100G的接入方案,目前來說傾向於在接入層用100G的SR2AOC,這種AOC主要能解決最長到25米到30米的接入連接,優點很明顯,距離長,整個限製少。缺點就是因為芯片和模塊開發,標準化進展會比較慢一點,涉及到的初期成本也會比較高。銅的連接方案主要的優點可以用25G的DAC的,很快開發出產品,缺點也明顯,距離短,整個的纜會更粗,大規模部署的性能也會是一個風險。400G的光互連方案先看看多模的,有的方案是SR4.2或者SR8,現在的潛力已經很難挖掘了,但是VCSEL本身的成本優勢非常大,如果在50G可以實現的話還是有應用成本的,模塊的成本可以控製的很低。SR16不太建議使用這個。SR8和SR4.2雖然符合我們的要求,但是從我們以往的運維來看,還是希望傾向於用4.2,需要兩個通道的多模,這樣的話可能會使用寬帶多模光纖,光纖成本哪個更低,我們認為還是八星的寬帶多模更低一些。所以多模的方案在400G的時代能不能進行下去,關鍵是在光纖,如果光纖加上光模塊整體成本比較單模有優勢的話,還是有它的生命力的。
接下來是400G的單模方案,單模讓按我們認為比較清晰簡單,因為我們的數據中心裏麵最大長度500米能夠覆蓋絕大多數的應用,所以DR4應該是主力的單模方案,可以用在PSM4的8芯的單模光纖,光纖成本可接受,不需要合波分波的器件,實現DR4裏麵也有更多的優勢。FR4也有應用場景,超過500米的跨樓的應用可能會用到,這兩個方案是我們認為未來數據中心主要的方案。
接下來是我們要選擇的400G光模塊的封裝,封裝剛才前麵也提到了,QSFP-DD是是一個選擇,支持可插拔,保持和以往一樣的運維習慣和密度,而且可以向下兼容,也可以向上平滑,升級到未來的400G的,演進路線非常清晰。
100G接入模塊的封裝,因為變成了兩通道,兩通道的話如果還沿用以前的4通道封裝,不利於小型化。我們阿裏也是在SFP的基礎上做了一下創新,聯合了一些供應商一起推動並建立了SFP-DD的MSA組織,增加了一倍的高速信號。最重要的意義在於填補了現在光模塊封裝裏麵兩通道的空白。選擇它的理由就是因為封裝比QSDB更小,適合我們的數據中心,也保持了兼容性,可以兼容25G、50G,可能有些客戶會需要這樣的應用。
所以整個來說我們看到這是阿裏未來的100G、400G的規劃,整個我們的方案目前來說並沒有成為最終的未來真正落地的方案,但是我們希望能拋磚引玉,能夠使在ODCC的環境下和上遊的供應商一起討論,在一起溝通,能夠在未來的100G、400G網絡裏確定大家共同的方向,謝謝大家。
直播二維碼
不要錯過
最後更新:2017-10-07 22:50:15