866
魔獸
雙11背後基礎設施軟硬 結合實踐創新
阿裏巴巴作為全球領先的互聯網綜合業務平台,其遍布全球的數據中心中海量IT硬件設備(服務器和網絡)承載了世界上最全的業務體係。一方麵各種互聯網服務種類之廣、應用類型之多、對硬件能力需求之差異,另一方麵連續7年的雙11狂歡節這類世界級的玩法,對於整個集團整體業務、產品、技術體係的挑戰雖不絕後,但一定空前。由此要求與之一體兩麵的基礎設施技術能力必須要解決世界級的問題,建設世界級的架構,掌控核心的關鍵部件技術。
在廣義數據中心總體擁有成本(TCO)模型分析下,其中IT硬件設備通常是資本費用(Capex)和運營費用(Opex)投入方麵最重要的組成部分。受驅動於特征各異的應用需求(雲計算和大數據、電商、普惠金融服務、智能物流平台、生活綜合服務),服務器硬件設備在核心部件、係統架構、能效成本方麵的技術挑戰一直是阿裏基礎設施競爭力構建方麵“節流”環節的重中之重。
在快速發展變化的技術領域,阿裏巴巴如何不斷變通調整策略適應新的挑戰,製定相應的硬件發展策略,通過源源不斷的技術驅動力確保為業務提供質量穩定、技術先進、高性價比的解決方案,本文將從x86核心部件、閃存部件、係統架構等方麵的實踐創新進行分享。
廣義的數據中心產業生態是一個年需求接近千億美金的生態,其中以大型互聯網行業為代表的的大型數據中心其核心生態圈本質上是Intel一手打造、經營的x86生態圈。下圖以粗線條勾勒了服務器產業典型的價值分層情況。
通過上圖產業價值結構的簡要分析可以得出我們的判斷:
1)傳統行業鏈在生態演進過程中已經形成相對穩定的角色分工和附加值模型;
2)隨著大型互聯網行業需求差異化演進,價值鏈末端中玩家已經出現縱向或者橫向的轉型和產品延伸(例如ODM的OEM化,以及OEM的ODM能力加持),價值鏈高端的玩家則表現出核心產品技術與節奏的差異化(例如Flash顆粒技術已經在技術路徑和產品化節奏上差異顯著),以及端到端解決方案封裝化(例如WD收購Sandisk(後者收購FusionIO)後成為顆粒、閃存部件產品、硬盤、存儲係統的解決方案提供商);
3)阿裏巴巴基於最基礎的“開源節流“的邏輯,在節流領域選擇白盒化的方式對產業鏈和係統產品進行解構。即明確工程節奏策略為“從整到零”à“從零到整”。
進一步解析來看,“從整到零”與“從零到整”貫穿始終的驅動初心圍繞著客戶價值(服務產品化、高效穩定、解決方案競爭力)和技術價值的長期競爭力構築(資源安全、技術安全、成本競爭力),並基於此來指導技術架構方向思辨、技術路徑取舍、技術產品規劃。結合不同技術領域產業發展狀態和阿裏在不同技術領域的技術儲備現狀,我們需要對於硬件策略進行不斷的思考、不斷地調整。基於硬件團隊過去三年的實踐及思考,我們總結為三句話:“人無我有”、“人有我優”、“人優我快”。簡單講就是:人無我有:第一個想到、實現、用起來;以及構建技術壁壘,模仿及複製成本高。人有我優:用得最好,業務價值最顯著,技術紅利充分挖掘,具備比較優勢。人優我快:敏捷迭代、合理取舍、不求完美、最快落地並拿到產業紅利。
正如周知的RFC 1925中提到的 "Good, Fast, Cheap: Pick any two (you can't have all three)",我們需要辯證的理解3條(人x我y)之間的關係亦是如此,取舍無時無刻不存在於其中。與此同時3條(人x我y)本質上暗示了競爭力構築的背後是沿著戰略方向長期、持續、且不斷反思與調整策略的研發投資。
x86生態的莊家兼操盤手英特爾始於2006年的Tick-Tock*處理器發展模式像鍾擺一樣嚴格且精準的發生了十年,尤其確立了其在數據中心領域x86通用處理器的絕對壟斷地位。(注*,Tick指半導體工藝(semiconductor process)升級年,Tock指處理器核心架構(core micro architecture)升級年,即處理器的核心架構和製程工藝隔年升級,兩年實現新架構和新工藝的更新迭代)。而十年後的當下,矽基半導體製程工藝逐漸逼近其瓶頸,曾經嚴謹的tick-tock鍾擺停止,原計劃17年Skylake一代之後的CanonLake取消,英特爾將延長每一代半導體製程生命周期為3年,改為P-A-O模式:即製程升級(Process)à架構升級(Architecture)à優化升級(Optimization);各大媒體的憂心忡忡都在重複一個觀點:摩爾定律舉步維艱、越來越難以為繼。而阿裏巴巴作為重度和深度用戶,我們無意評說英特爾在工藝和製程方麵遇到的挑戰,我們更多回到基本盤從性能、能效、成本幾個直接界麵問題入手。即代與代之間core同質化(通常個位數性百分比能提升)、performance/watt(能效比)持續下降、以及通用處理器大量存在的“水份”(例如普適業務場景vs阿裏業務場景,各種margin等)。
限於篇幅我們在此不詳細展開闡述完整的前因後果,簡要提煉幾條邏輯主線。
1. 集團TCO模型收益為導向硬件策略所要求的單機scale-up關鍵在於處理器性能、能效;
2. 結合阿裏業務多樣性的綜合性能評估體係,創新性定義並重建speccpu測試指標及權重因子。即以阿裏價值評估體係反向定價,而非Intel主導的普適評估體係普適定價;
3. 曆時一年與Intel團隊深入合作,實現業務級優化,以及性能功耗比vs上架密度vs TCO收益最大化機型置換比等多維度之間相對最優解。
該項目幫助阿裏有效沉澱了x86處理器定製從0到1的寶貴經驗,產出了Broadwell處理器性能功耗比Top3 的高頻高核心AliCPU E5-2682 V4,工程節奏上實現了亞洲第一款定製處理器大規模應用於生產,嚴格同步Intel官方發布節奏, AliCPU 穩定承載了2016雙11大促,成為保障奇跡背後的關鍵力量。
注:曆時50年,預計2018年單HDD盤容量可達約20~30TB(3~5年),受限於機械硬盤結構,單盤IOPS上限大約在250~300,接口吞吐不超過300MB/s.
注:曆時10年,閃存固態盤容量增長了超過30萬倍,而2017年部分閃存盤容量可達到驚人的60TB,部分已量產PCIe接口閃存盤更是突破了單盤百萬IOPS的能力。
眾所周知,閃存(Flash)介質的能力在過去5年中以超摩爾定律的速度飛速發展,無論是性能、容量、抑或壽命,從而在基礎設施硬件層已經越來越成為變革架構釋放新存儲介質性能、係統能效比提升、以及整體TCO優化的戰略機會點。阿裏巴巴早在3年即開始了閃存介質的相關技術規劃和布局。其中今年雙11大促如絲般順滑的用戶體驗就有AliFlash(阿裏自研SSD)的給力表現,從規模應用承載大促的實踐而言,阿裏巴巴基礎設層對於Flash介質的自主掌控力已經完成了從整到零拆解,首次實踐了從零到整的重構的階段。
我們同樣從know-why、know-what、know-how幾個層麵來簡要總結自研SSD之路。Know-why層麵從“如果不做如何保障“技術安全、供應安全、成本競爭力來辯證思考。1.核心技術、架構、源碼自主掌控 2.關鍵顆粒直采、生產質量及供應鏈管控 3.軟硬件打通、提升業務能力性價比和能效比、降低係統TCO、以及支持最新技術
M.2
SATA 2.5寸
NVMe U.2盤
NVMe PCIe 卡
PCIe add-in 卡(host-based)
Know-what層麵我們規劃了多層次的工程目標點和落地節奏,目前從M.2、SATA 2.5寸、NVMe U.2、以及PCIe add-in Card多種規格形態均已完成。其中PCIe Card形態Aliflash采用Host-based架構,即SSD的關鍵邏輯(垃圾回收,FTL映射等)由Host主機通過驅動直接在內存裏進行管理,因此隻要修改Host端的AliFlash驅動即可進行軟硬件聯合調優,具有編譯、驗證、debug方便的優點。接下來我們將以host-based架構AliFlash在軟硬結合調優的know-how具體案例進行提煉分享。
- 容量vs壽命,夠用就好。CDN二級Cache容量優化:CDN的二級Cache需求大容量、低延遲、廉價的SSD方案。由於CDN整體業務壓力較低,寫入量較小,因此可以調整AliFlash的OP,釋放更多空間到用戶區域。AliFlash的Nand裸容量為8.6TB左右,標準用戶空間為6.4TB,通過調整CDN的AliFlash容量到7.8~8TB,既滿足CDN的性能、壽命需求,又顯著提升了容量,降低了單位GB成本。
- 結合業務特征取舍,場景優化。阿裏媽媽Tair-ldb延遲優化:阿裏媽媽從C7服務器升級到H41服務器(三塊AliFlash卡),希望能在讀寫混合的場景下,讀的延時能有很好的保證(500MB/s寫入的同時,讀延時5ms的超時率控製在萬分之一以內)。由於業務的吞吐量要求不高,因此可以調優AliFlash的IO落盤路徑,降低一定的吞吐量,用來提升延遲的QoS。AliFlash的IO落盤路徑有兩條,直接寫Nand和SRAM buffer write(延遲較低)。通過關閉直接寫Nand,強製所有IO寫SRAM buffer write,能使業務讀IO超過4ms的比例僅為萬分之0.27,遠遠低於萬分之一,同時也滿足業務的吞吐量需求,此項調優超出業務預期。
- 軟硬件協同,提升業務能力/¥性價比。集團DB原子寫優化:MySQL默認使用雙寫(double write)來保證數據的一致性,此特性會造成兩次IO,帶來性能和容量的額外開銷。通過開啟AliFlash原子寫功能,從硬件層麵保證了業務寫入innodb的page時,不會產生跨頁寫入,保障數據的一致性。由於關閉了雙寫,在高IO壓力下,對於邏輯卷(LVM),響應時間降低了8%左右。對於裸盤,性能提高約5%左右,RT上降低了18%,約0.3ms。另外,關閉雙寫降低了30%~45%的業務寫入量,能顯著提升AliFlash的使用壽命。
除了上述典型場景,AliFlash host-based整體技術白盒化的掌控還能enable debug模式的的個性化需求,極大提升了業務延遲分析、運維穩定性定位、壽命預警健康管理等產品化的配套能力。限於篇幅,該領域還有大量值得專題研討的內容,恕不一一羅列。
在後續的規劃中,AliFlash V2家族將繼續在新介質適配、核心控製器自主掌控、結合業務場景深度挖掘軟硬協同提效方麵保持高質量、技術先進性、配套完備的產品化交付物。
傳統存儲領域有一個非著名行業規則稱為克萊德法則,它類似摩爾定律,可表述為每12~18個月同一價格的硬盤存儲容量將會翻一番。與此類似在存儲消費行業也流行著一種趨勢判斷,認為存儲價格下降一半,則存儲需求增加一倍。實際上無論是摩爾定律還是克萊德法則,其內生關聯在於技術發展驅動了計算和存儲資源的單位成本持續降低,而雲計算與大數據技術則持續推動了用戶獲取、使用、甚至二次開發這些資源的成本持續降低。
2015年馬老師最早提出DT時代研判,阿裏巴巴是世界上最早研判數據將作為未來關鍵生產資料的商業公司,即雲計算和大數據作為集團戰略聚焦方向之一。前文提到與之一體兩麵的基礎設施建設與競爭力構建上,基礎設施團隊必然將相對應的高效能存儲硬件解決方案作為戰略項目進行推進。貔貅(項目代號)產品化方案則是軟硬結合優化高密度存儲解決方案的典型,下文將從存儲模型和係統架構設計兩個維度來闡述。
勾勒存儲係統的邊界來看,TCO¥/單位存儲容量和TCO¥/IOPS|吞吐是其中關鍵指標。細分存儲係統數據訪問頻度的不同層次(例如熱、溫、冷、冰),在滿足一定存儲性能SLA(服務等級承諾,service level agreement)前提下,關鍵設計目標聚焦在最優的TCO¥/單位存儲容量。
我們以HDD目標介質為例進行模型分析。首先約定邊界條件,1)IDC標準機架物理空間40U,電力容量8kw。2)TCO簡化為硬件采購成本Capex + 分攤至每套係統的Opex,後者包含IDC機架租金/kw/月,每網絡端口成本/port等費用。
其次定義三個維度係數,分別衡量物理密度、功耗利用率、有效成本係數幾個指標。
• 存儲密度係數SDE (Storage Density Effectiveness):硬盤數/單位U空間;例如12x HDD/U指每單位U空間內可容納12片HDD的密度度量, 越高則表示空間利用率越好
• 有效存儲功耗係數SPE (Storage Power Effectiveness):有效存儲介質的功耗/機架付費功耗;例如0.7指8kw中70%用於存儲介質HDD的operation功耗消耗,越高則付費功耗利用率越好,理想模型趨於接近1
• 有效存儲成本係數SCE (Storage Cost Effectiveness):有效存儲介質成本/總係統成本;例如0.85指係統成本每一元錢中,85%用於采購有效存儲介質HDD,越高成本占比越優,理想模型趨於接近1。
至此基於該模型我們簡要進行如下量化對比,標準2U存儲機型vs貔貅不同配置、以及vs理想模型之間差異。這幾個抽象的係數本質上代表了係統架構設計在空間密度、能效比、適配業務特征進行資源能力定製幾個維度之間進行求解相對最優解的過程。
注:敏感數據以X|Y|Z|Z+替代。
*:40U已經達到標準機架的物理空間極限。即使8kw功率配額尚未用完,也無法提升上架密度。
當然實際係統架構設計還需要考慮滿足業務需求SLA的適當計算能力、網絡能力、內存容量等方麵的配比,兼顧係統可運維性、部署供應顆粒度等某個維度的邊界條件, 而這些局部邊界條件將會反向修正係統架構設計時在具體實現可行性上的tradeoff。
下圖是基於Alirack整機架一體化設計的貔貅節點計算機頭與存儲機尾俯視圖。通過深度結合業務場景的取舍和優化,單位存儲容量TCO優化比例高於50%;模塊化以及高密度的係統實現,疊加整機架一體式集成交付,極大提高了部署以及運維的效率;節點內部支持閃存介質與硬盤介質的硬件tiering,便於為業務軟件兼顧性能與成本提供靈活性。
貔貅機頭
貔貅存儲機尾(JBOD)
隨著貔貅架構的逐步擴大規模應用、新介質技術的發展,新軟硬件架構優化的持續演進;例如計算與存儲分離架構演進中,存儲集群的資源池化、存儲能力服務化、存儲側專有計算能力嵌入化等課題仍然需要軟硬件團隊更深入的研討,持續優化模型並拉通硬件模型和業務模型一體化思考,持續演進並不斷提升業務體驗和產品競爭力。
基礎設施團隊4年前開始啟動“車同軌”、“書同文”的標準化工作,對應到服務器硬件領域則首當其衝為機型的收斂與標準化。從硬件基礎設施的資源屬性、成本屬性、技術屬性幾個層麵來看,2012年第一期的標準化工作主要針對資源單元的標準化(係統規格、部件規格、運維界麵的feature等),旨在提高資源準入、運維、流轉等效率。而標準化本身是一項持續的活動,在不同的發展階段也將有不同戰略重點,因此具體的內涵和工作抓手也會不同。而本節提到的下一代(即Intel Purley平台,預計17年7月發布)平台通用底盤所處時期,我們將之定位在通過技術白盒化來確保質量和成本的白盒化,項目代號(雷神,Aliserver)。
唿應文章開篇提到的RFC 1925所表述 "Good, Fast, Cheap: Pick any two (you can't have all three)",從標準化vs質量vs成本的維度辯證思考來看,前者是手段,後者是杠杆,中間是結果。雷神項目旨在打造完全自主知識產權的通用服務器底盤,實現三大目標:
1)Purley平台最極致的配置靈活度以覆蓋90%以上 機型配置;
2)底盤目標成本管理;
3)同步Intel官方發布Purley平台即支撐業務規模上線。
而要達成上述三大目標則需要以端到端全流程質量管理活動標準化掌控為前提,下圖嚐試提煉整個硬件體係全麵質量管理活動的端到端全流程和關鍵環節。創新、成本、質量是硬件領域永恒的根本,雷神項目承載的Purley平台一代硬件質量大盤,將會在第九次雙11中以實際擔當詮釋基礎架構事業群“堅若磐石,精益求精”的組織使命。
硬件係統涉及領域眾多,相互依賴度複雜,研發及測試周期長,投入資源與產出效果存在顯著滯後性。這些客觀工程規律決定了基礎設施層競爭力構建是一項長期、艱苦、技術密集的過程。同時麵對技術快速發展的外部產業環境和集團業務與時俱進的內生需求迭代,主觀上要求基礎設施技術團隊要沉澱出終身學習、不斷反思、不斷求變的意識定位和心態。
篤定客戶價值和長期技術競爭力構建的初心,阿裏巴巴基礎設施技術團隊承諾不斷挑戰自我、勇於創新、持續交付便捷高效優質的硬件基礎設施解決方案。
最後更新:2017-06-28 14:01:52