閱讀161 返回首頁    go 阿裏雲 go 技術社區[雲棲]


異構計算與高性能計算,是打開未來的兩把鑰匙

來自IT圈兒裏人的精彩分享。
最初見到“超算平民化”的概念是在2009年《紐約時報》網絡版刊登的一篇文章:
“雲計算的快速發展不僅對行業趨勢產生了影響,甚至有望改變科研院所的研究方式。目前有多家科研機構都在嚐試通過雲計算來提供大量科研數據和超級計算機的運算能力,以便推動科研平民化的進程。”

當時,雲計算剛剛興起,超級計算機開始大量采用標準化硬件架構,這兩個趨勢讓HPC通過雲服務的形式來提供計算力的新模式成為可能。在當時看來,“雲上超算”並不遙遠,其所帶來的“超算平民化”亦將帶來超算發展的一場新的變革。

在後續的這些年中,“超算平民化”的進程一直在持續,尤其隨著互聯網時代的來襲,超級計算機已經逐漸走出實驗室,進入企業應用之中。在近年的中國TOP100榜單中,有超過半數的超算所從事的都是互聯網應用——互聯網服務、大數據應用、雲計算、電子商務、視頻服務等等。相比過去,超算這個主要用於科研機構的係統已經在“平民化”上邁進了一大步。

然而,“雲上超算”的願景一直未實現,更未曾進入規模商用。其中一個主要原因在於,雲是一個虛擬化環境,很多對計算力、I/O有著苛刻要求的HPC用戶對此嗤之以鼻。另一個問題是,到底是應該將HPC雲化,還是應當做雲化的HPC?亦或者說,“雲上超算”這個目標,是該由雲計算廠商來實現,還是應該由超算廠商來實現?

還好,現在已經有了答案。

為何是阿裏雲?

9月12日,阿裏雲發布了彈性高性能計算平台E-HPC,這是中國首個公共雲上的“HPC as a Service”產品。阿裏雲首先將HPC放到了雲上,邁出了“雲上超算”規模化商用的第一步。

那麼,對於“雲上超算”這件討論了很多年的事情,為何是阿裏雲邁開了第一步?

原因有三,其一是需求驅動,其二是本錢足夠,其三是基因傳承。

先看需求。

在過去,高性能計算用戶為了獲得HPC集群計算能力,需要花費大量人力物力財力在服務器購買、運維、軟件開發和軟件許可上。這是一個龐大的係統工程,昂貴且周期漫長。

當然,不是所有HPC用戶都有自建HPC集群的實力,過去大多數情況是用戶租用超算中心的計算資源,但中國對外開放的超算中心著實不多,其中有些已經投入使用多年,計算力不足,任務作業經常需要排隊,HPC用戶無法獲得理想的計算效率和靈活性。

所以,若能以雲服務的模式來提供HPC的計算力,無疑能帶給更多用戶應用HPC的機會,大大拓寬HPC的應用範圍,進一步推進HPC的平民化進程。

再看本錢。

在E-HPC發布當天,阿裏雲還發布了新的異構計算實例家族,涵蓋GPU、FPGA在內等6款異構實例,這為“雲上超算”的構建打下了雄厚的異構計算基礎。此外,阿裏雲還具備豐富的彈性計算ECS資源、虛擬專用網VPC、高性能高可靠和橫向擴展的NAS資源、HPC軟件棧等資源。綜合來看,對於構建“雲上超算”,阿裏雲已經有了足夠的技術和產品資本。

還有基因。

阿裏雲曾經在多個場合、不止一次的強調“使能”這個詞。就如阿裏雲近年來不斷升級ECS家族,其目標是為了“使能”更多的企業客戶,讓客戶和阿裏雲ECS一同成長壯大。而阿裏雲推出彈性高性能計算平台E-HPC,其目的是降低HPC應用門檻,讓更多的用戶能夠應用HPC,和阿裏雲的“使能”基因一脈相承。

對於E-HPC,阿裏雲資深專家何萬青博士做了一個形象的比喻:如果把傳統超算中心比作“珠穆朗瑪峰”,那麼阿裏雲的E-HPC則是將高性能計算做更普惠的覆蓋,是高性能計算的“青藏高原”。“我們既需要‘珠穆朗瑪峰’,也要讓更多的人在‘青藏高原’上做創新。”

所以,阿裏雲在首先推出“雲上超算”這件事兒上,可謂萬事俱備,東風亦至。

**輕輕一點,生成“雲上超算”**

來看看阿裏雲E-HPC的一些具體情況。

據何萬青博士介紹,E-HPC基於阿裏雲異構計算平台在高性能虛擬化、並行計算、低延遲網絡和HPC軟件棧等方麵的特性,幫助生命科學,氣象預報,石油勘探,工業設計和航空航天等領域的客戶,快速獲得高性能計算集群計算能力、調度能力和軟件能力,按需組建自己的“雲上超算中心”,並可實現一鍵部署和彈性伸縮。
11

E-HPC有著四大特點:便捷、互通、彈性、安全。

在發布會現場,何萬青博士現場演示了“雲上超算”的搭建過程——隻需三步:硬件配置、軟件配置、基礎配置,即可生成一套用戶專屬的HPC集群,時間不過幾分鍾。“你不用了解超級計算機是怎麼設計的,隻要點幾下鼠標,然後得到的就是超級計算機。”

用戶從E-HPC不僅能夠獲得並行計算能力,還能獲得常用的開發工具、性能庫和常用的HPC應用。如gcc、g++、gfortran等基礎軟件,NetCDF、MPICH、OopenMPI、OpenBLAS等高性能運行時庫,以及計算化學、氣候氣象、生命科學、材料力學、分子動力學等領域行業軟件,用戶登錄E-HPC直接可用。
111

何萬青博士強調,E-HPC本身作為一個PaaS平台,所有的資源隨著阿裏雲的產品豐富是不斷的往上迭代的,E-HPC會隨著產品的不斷豐富而進化。未來阿裏雲會聯合行業合作夥伴打造行業解決方案交付給用戶,讓E-HPC實現平台化,不斷擴大“雲上超算”的應用生態。

在彈性方麵,E-HPC用戶不僅可以根據需求自動增減節點,還能將本地HPC集群通過虛擬局域網專線接入E-HPC,通過一種混合雲的方式來擴充計算能力,這種靈活性是傳統HPC集群無法實現的。

由此可見,通過阿裏雲提供的“雲上超算”,企業就能快速獲得高性能計算集群能力、高性能計算調度能力和軟件能力,按需組建自己的“雲上超算中心”,再也不用一次性巨額資金投入,從而大幅降低計算成本,同時獲得雲服務的彈性和靈活度,“魚”和“熊掌”可兼得。

而在安全方麵,E-HPC采用了多項安全設計來保證安全訪問和數據可靠性。例如,E-HPC采用了安全組訪問控製,並提供了VPC專有網絡,通過管控空間和用戶空間分離,保證多租戶間數據安全隔離;同時E-HPC的NAS平台提供了10個9的數據可靠性。

回到最初的話題,降低超算應用門檻、實現“超算平民化”是整個HPC產業的共同願景,雲計算技術的進步讓這個願景有了成為現實的可能;而阿裏雲首先推出“雲上超算”E-HPC,又將超算平民化的願景拉近了一大步。

10月12日,E-HPC將在全球同步上線,未來整個HPC產業是否會出現新的變局?非常值得期待。

異構計算能力再升級

阿裏雲新推出E-HPC、構建“雲上超算”,實際上是阿裏雲異構計算在HPC領域的一次全新實踐。9月12日,除了發布E-HPC,阿裏雲還發布了新一代GPU實例GN5i和新一代FPGA計算實例F2。

至此,阿裏雲異構計算家族已經包括GPU、FPGA在內的6款異構實例,已經能夠滿足圖形渲染、人工智能和高性能計算等領域的複雜計算需求,阿裏雲異構計算能力再度升級。
11111

如圖所示,如今阿裏雲異構計算家族已經全麵覆蓋GPU和FPGA實例。GPU方麵包括AMD和NVIDIA實例,FPGA方麵包含Intel和賽靈思實例,6款異構計算實例能夠全麵覆蓋圖形圖像、機器學習、科學計算等異構計算應用場景。

GA1:今年1月推出,專為圖形渲染計算而設計的實例,提供最高4顆AMD S7150 GPU的配置,最高達到15TFLOPS浮點計算能力,其亮點在於兼容OpenGL DirectX等主流圖形渲染API,同時支持GPU分片虛擬化,從而達到成本和計算力的平衡。在大部分視覺渲染計算中,GA1能夠將成本降低 50%。

GN4:也是在今年1月推出的GPU異構計算實例。單實例最大提供了2顆 NVIDIA M40 GPU,達到14 TFLOPS 單精度浮點運算處理能力。適用於機器學習、流體力學計算、基因組學、地震分析、分子建模、金融計算以及其他需要強大並行浮點計算能力的服務器端業務場景。

GN5:今年6月推出,麵向深度學習和高性能計算的實例,具有強大計算力。最高支持8顆NVIDIA P100 GPU,浮點運算最高75TFLOPS。相比上一代的異構實例GN4,GN5的雙精度浮點性能提升了94倍(適用於科學計算),單精度浮點性能提升5.4倍(適用於深度學習),兼容TensorFlow、Caffe等主流深度學習框架。

GN5i:阿裏雲新發布的異構實例,主要適用於深度學習的在線推理(Inference)階段。配置NVIDIA P4 GPU,INT8 整型計算能⼒達45TFLOPS,可一鍵部署TensorFlow等主流深度學習框架,提供智能調度、自動運維、實時擴容等服務。人工智能產業用戶可通過GN5i搭建微秒級響應的AI服務,在線服務成本減少50%以上。

除了GPU實例,阿裏雲也將目光投向了不斷升溫的FPGA。阿裏雲高級技術專家龍欣表示,GPU本身的數據位寬是固定的,相比GPU,FPGA更適合非標數據位寬的深度學習、金融分析、基因匹配、物聯網數據庫等領域。FPGA就像專用計算中的多麵手,堪稱搭建任意數字器件的“雲上積木”。

F1:是今年1月阿裏雲推出的首款FPGA異構計算實例,現已全麵升級。采用Intel A10芯片,單塊FPGA配有16GB DDR4內存,專用 PCI-Express x8 接口,具有近1518個DSP引擎,近115萬個邏輯元素,單精度浮點計算最1.5TFLOPS、INT8整數運算最高4.8TOPS。升級後的F1實例提供了開發組件的全麵支持,增強了安全保護機製,並從原來的隻能支持RTL的開發升級為支持RLT和openCL的開發。

F2:新發布的FPGA異構計算實例,基於Xilinx(賽靈思)硬件可編程芯片打造,具有145萬個邏輯單元,5520個DSP引擎,16GB 4通道內存,單精度浮點計算最高1.5TFLOPS,INT8整數運算最高5.25TOPS。F2實例可在雲上實現FPGA加速業務的快速研發、安全分發、一鍵部署和彈性伸縮,為人工智能產業提供加速服務,在特定場景下的處理效率比CPU高30倍。

相對GPU,FPGA開發有著更高的門檻。為簡化用戶使用FPGA、分發FPGA、部署FPGA、運維FPGA的業務流程,阿裏雲還推出了FPGA鏡像市場,在雲上提供了在線的開發模擬調試的環境,廠商和用戶可以在市場上分發、部署定製化加速算法,阿裏雲的安全能力為鏡像保駕護航。目前,已有數十家廠商正在進駐。“這是阿裏雲構建FPGA生態的重要一環”,龍欣表示。

憑借這六款異構計算實例,阿裏雲已經能夠覆蓋大部分的異構計算場景,但對於雲上的異構計算服務來說,僅有豐富的實例還不夠。阿裏雲異構計算負責人張獻濤表示,要在雲上提供異構計算服務,除了異構計算實例外,業務永續、高性能、性價比、彈性,缺一不可。

從去年開始,阿裏雲整個基礎設施層麵全麵升級,IDC可以達到5個9的可用性,讓客戶業務永續;為支持客戶業務的全球化的部署,阿裏雲在全球部署了一張高可用的骨幹網,通過多線的BGB接入保障網絡不中斷,同時讓客戶的業務全球互聯互通。在軟件服務層,阿裏雲網絡虛擬化也已經升級到第二代,適應了25Gb網絡,能夠支撐阿裏雲業務在網絡方麵獲得極高的PPS和帶寬。

張獻濤表示,阿裏雲在海外已經部署了多個數據中心,美國、澳洲、德國、新加坡,異構計算服務也隨著IDC的全球化部署覆蓋到全球;在國內,華為、華南、華東、香港數據中心也做了異構計算服務的部署,阿裏雲希望從計算服務、引擎、平台、服務、場景解決方案、生態等方麵,全方位“使能”用戶。

**打開未來的大門**

異構計算與高性能計算,是打開未來的兩把鑰匙。

第四次工業革命正在到來,這次革命將以大數據為核心,以人工智能為代表;而在即將到來的智能社會,高性能計算與人類生活的關係也將更加密切,從天氣氣象、生物製藥、基因工程、航空航天等科研領域到新興的深度學習和人工智能,高性能計算都將扮演關鍵角色。

不管是人工智能,還是高性能計算,都需要強大的計算力作為支撐,而異構計算則是提升計算力最為可行的途徑。不難預見,未來異構計算將覆蓋更多的應用和更多的行業,也將有越來越多的用戶需要異構計算——這勢必將掀起一輪異構計算平民化的新浪潮,而雲計算則是成就這次變革的基石。

打造全麵的雲上異構計算服務、首推“雲上超算”E-HPC,阿裏雲可謂是已經找到了這兩把通往未來的鑰匙。
來自IT圈兒裏人的精彩分享,了解更多,可以進入:https://mp.weixin.qq.com/s/zL1aErgyEUItDP57xrPylg

最後更新:2017-09-19 17:32:38

  上一篇:go  9月19日雲棲精選夜讀:阿裏雲MVP Meetup極客開跑,與MVP一起玩轉雲計算
  下一篇:go  雞蛋究竟宜不宜生吃——看阿裏雲計算怎麼破?