阿裏雲ECS最強計算陣容到底長啥樣?

日前,阿裏雲在2017雲棲大會·深圳峰會上宣布,華北3地域超大規模數據中心正式對外開放運營,雲服務器ECS全係列降價20%。毫無疑問,這是阿裏雲技術紅利和技術創新再次集中釋放的表現,也是雲計算規模效應的體現。作為這其中的主角,雲服務器ECS“功不可沒”。近日,筆者和兩位阿裏雲資深產品經理就雲服務器ECS的研發工作做了深入溝通,首次披露阿裏雲十餘種基於最新平台計算實例背後的那些研發秘密。
據了解,阿裏雲通過八年的努力,打造了麵向不同企業規模、不同應用場景的實例,根據其業務場景,大致分為以下幾類:
-
其一,通用型計算實例。通用型計算實例是覆蓋一般業務使用需求的實例規格族,具有相對比較均衡的CPU,內存,存儲和網絡的能力。對於一般的企業雲上業務來說,如各種類型的Web服務器、數據分析、緩存服務、批量處理等業務都可以使用並選擇到適合自己業務的規格。目前阿裏雲能夠提供的通用計算實例包括麵向站長和中小企業的通用共享型實例N1/N2、XN4/N4/MN4,具有選擇豐富,性價比高的特點;和麵向業務嚴肅的中大型企業的通用獨享型實例SN1/SN2,具有高性能且計算能力穩定的特點。N5為下一代麵向通用場景的實例類型,采用阿裏雲定製的Skylake Xeon CPU,最多可提供96 vCPU的處理核心,同樣搭配DDR4內存,相比上一代,單實例處理能力上限提升高達60%。
-
其二,計算優化型實例。計算優化型實例覆蓋了高計算性能、密集計算場景。用戶業務在這一場景下對於內存的大小並不需要過高的配置,轉而更關注CPU的計算能力,比如高並發的web應用、批量處理、高性能分布式分析、多媒體處理等業務都可通過計算優化實例獲得更好的計算性價比。其中,C4規格族(C4/CM4/CE4)為阿裏雲當前一代主力售賣的高主頻實例規格族,采用Intel Xeon E5-2667 v4處理器,實例默認打開turbo,睿頻可達到最高3.5GHz的處理頻率,相對比當前覆蓋通用場景的中主頻機型,計算頻率提升達到40%。下一代的C5規格族將在2017年中發布,相對於這一代,單實例的計算能力上限將有超過100%的能力提升。
- 其三,內存優化型實例。麵向內存優化場景的實例與計算優化實例剛好相反,用戶業務在這一場景下對於內存的大小和性能更為關注,而CPU計算的壓力並不是整個計算通路的瓶頸點,一般用戶運行各類緩存係統、搜索業務、內存數據庫、高I/O數據庫和Hadoop集群都可通過該類型實例獲得相對較優的性價比。阿裏雲當前一代主售的麵向內存優化場景的規格族為SE1,提供最大480GB的DDR4內存,最大56 vCPU計算能力,相比上一代的內存優化規格族,計算能力和內存提升到接近2倍。
- 其四,存儲優化型實例。存儲優化場景下的ECS實例規格族以提供給用戶最好的存儲性能和最高的單位存儲成本性價比為最根本的設計原則以不同的規格族來滿足用戶對於IOPS、吞吐、容量、穩定延遲的需求。比如,I1規格族為麵向I/O密集型的優化實例,采用最新的NVMe SSD磁盤,單實例IOPS可以達到48萬,並可提供穩定在200us左右的低IO延時,搭配56vCPU和 244GiB DDR4內存。可廣泛適用於關係型數據庫、數據倉庫及NoSQL數據庫場景。D1規格族為麵向大容量存儲、大吞吐量的優化實例,單機可提供最大168TB的存儲空間,總吞吐可以超過5000 MBps,依舊搭配56vCPU和 244GiB DDR4內存。廣泛適用於MapReduce分布式計算如Hadoop、Spark等、分布式文件係統、日誌係統。
不難發現,從通用型到各個麵向應用場景的優化型實例,阿裏雲ECS將計算實例劃分得非常細致,這樣的好處是顯而易見的,無論是初創企業,還是大中型企業,不管是做計算還是存儲,企業都能輕易的找到適合自身業務的ECS實例,這有助於阿裏雲能夠覆蓋到更加廣泛的客戶。這也並非是一日之功。據阿裏雲事業部高級專家倪波(竹霧)回憶,兩三年前阿裏雲ECS還僅有寥寥數款產品“打天下”,但是經常會遇到很多問題,如IO、CPU計算能力不足等等。
“哪些場景用戶痛點多、需求量大,我們就會學到那個場景裏麵的關鍵問題和我們的不足”,竹霧說,這個時候要麼是出一個新的規格,要麼就是把缺點補足,逐漸積累出如此多的麵向不同應用場景的計算實例。
除了上述的通用型、計算型、內存型和存儲型ECS實例,阿裏雲在今年1月發布了異構計算實例,包括GN4實例規格族、GA1實例規格族和F1實例規格族。之所以我將“異構計算實例”單起一章,因為在我看來,異構代表著計算技術新的演進方向,也更加符合未來的趨勢,阿裏雲搶先推出ECS的異構計算實例,算是緊緊扣住了時代的脈搏。

“人工智能”並不是新的理念和技術,數十年前,“人工智能”就已經被科學家們提出,並被嚐試和驗證。“人工智能”在近兩年能夠大熱,一方麵得益於大數據的蓬勃發展,另一方麵得益於雲計算、HPC以及異構計算的有力推動。人工智能、深度學習對計算能力的需求非常高,需要比傳統計算架構更加強大的計算能力和每瓦特性能,而異構計算相比單純的CPU計算架構,更能滿足人工智能、深度學習對強大計算性能、計算能效以及計算實時性的需求,推動和加速了整個人工智能、深度學習生態的迅速發展。
今年1月21日,阿裏雲發布了異構計算解決方案,包括GPU實例和FPGA實例。GPU解決方案比較擅長做AI領域的模型訓練,能夠達到非常高的批量計算能力;而FPGA的解決方案比較適合做AI領域的在線的預測/分類,能夠達到非常高的吞吐量和非常低的延遲:
首先是GN4實例規格族,單實例最大提供了2顆 NVIDIA M40 GPU,總計6000 個並行處理核心、共計24 GiB的 GPU 顯存,14 TFLOPS 單精度浮點運算處理能力,依舊搭配56vCPU和96GiB DDR4內存。適用於機器學習、流體力學計算、基因組學、地震分析、分子建模、金融計算以及其他需要強大並行浮點計算能力的服務器端業務場景。
其次是GA1規格族,為渲染及計算優化實例,提供了4 顆 AMD S7150 GPU,總計 8192 個並行處理核心、32 GiB 的 GPU 顯存、15.08 TFLOPS 單精度浮點運算能力和 1 TFLOPS 雙精度峰值浮點能力。適用於依賴 GPU 進行非線性編輯、深度學習、VR、3D渲染、金融分析、氣象分析、地質分析、計算化學、動力學模擬、基因工程等領域。
最後是F1規格族,搭載FPGA實例,使用戶可以基於公共雲創建特有的硬件加速器,單塊FPGA配有16GiB 受 ECC 保護的內存(2 x DDR4),專用 PCI-Express x8 接口,具有近1518個數字信號處理(DSP)引擎,近115萬個邏輯元素,針對目前應用廣泛的視頻轉碼、圖像處理、深度學習、基因預測、金融分析等場景具有非常高的計算性價比。
對此,阿裏雲事業部產品專家胡曉博(藏暉)表示,阿裏雲的異構計算實例,一方麵降低了客戶的使用門檻,一方麵降低了客戶的試錯成本。比如GPU、FPGA計算,實際上門檻很高,一般的客戶知道用起來好,但是自己搞不定。所以,阿裏雲推出異構計算實例,實際上也是在將自身的能力“抽象”出來,以更具性價比的方式分享給客戶。
“任何一家抱有成長成獨角獸的企業初創團隊是可以信任阿裏雲”,在竹霧看來,阿裏雲的發展過程,以及ECS實例的演進過程,實際上給初創企業建立了很好的模型。

從通用型、計算優化型、異構計算,從單個實例,到大規模橫向擴展,阿裏雲ECS的一係列實例實際能為客戶成長的每一個過程提供理想的解決方案,阿裏雲一直所希望的,是將阿裏的能力抽象出來、以合適的價格給到用戶。
正如竹霧所言:“阿裏雲把自己的能力貢獻給社會,這有點像開源精神。”這句話非常值得琢磨。古典經濟學理論認為,一個社會通過市場能夠最好地確定其需要,如果企業盡可能高效率地使用資源以提供社會需要的產品和服務,並以消費者願意支付的價格銷售它們,企業就盡到了自己的社會責任。
然而,隨著社會的發展進步,如今“社會責任”的含義早已不僅限於最初的供求關係,誠信、規範、環保、慈善、推動科技發展等等,企業肩負著更為廣泛的社會責任,商業上的成功,並不是一家成功企業的唯一衡量標準。
在我看來,阿裏雲能夠在中國公有雲市場一枝獨秀,並能在全球和AWS、Azure形成“3A”競爭格局的一個重要原因,就是在於阿裏雲能夠不斷將自身能力輸出,為不同階段的企業提供合適的雲計算工具,將世界頂級的計算能力,變成普惠科技,不但推動了企業的雲化過程,進而也推動整個雲計算生態的發展。從這個角度來看,阿裏雲在商業道路上披荊斬棘的同時,也在用產品和技術詮釋著社會責任。在這個過程中,阿裏雲ECS無疑起到了關鍵的助推作用。
來源:申耀的科技觀察公眾號 作者:思考人生的申斯基
最後更新:2017-04-15 13:00:49