閱讀705 返回首頁    go 阿裏雲 go 技術社區[雲棲]


阿里雲異構計算平台——加速AI深度學習創新

雲棲TechDay第36期,阿裏雲高級產品專家霽榮帶來“阿裏雲異構計算平台——加速AI深度學習創新”的演講。本文主要從深度學習催生強大計算力需求開始談起,包括GPU的適用場景,進而引出了彈性GPU服務——EGS(Elastic GPU Service),重點講解了EGS的優勢、EGS監控以及EGS產品家族,最後對EGS支撐AI智能創新進行了總結。以下是精彩內容整理:

 

基於大數據的深度學習催生強大計算力需求

怎樣加速AI深度學習支撐,幫助大家搭建模型,支撐大家業務運營等等。

b930e711ea7211ac44d8412b7a200f5a7a23cf79

如圖,深度學習出來之後,過去很多人做機器學習是用小數據做,到了大數據時代,我們有了更多的數據樣本,再加上我們的計算力,使得深度學習成為可能。所以說計算能力是深度學習應用的基礎,深度神經網絡模型複雜,神經元可達百萬級別,每層具有億級參數空間,且訓練數據多,需要的計算量巨大,周期也是非常長的。計算能力對於深度學習的撐與推動作是不可替代的,計算能力越強,同樣時間內積累的經驗就越多、模型訓練迭代速度也越快。

GPU具有好的並行計算能力

9964b9724057e27289c676758e3019d4129f4153

提到計算力,過去大家都在用CPU,深度學習最開始也是用CPU,但是CPU是麵向控製流的,尤其是X86,是複雜指令機,它更多的片上神經元裏麵是一些控製邏輯和一些緩存,這樣會更好適合日常桌麵等IT辦公,麵向產品的,所以它是典型的SISD就是單指令流、單數據流,主要是串行,並行程度也不高,在過去幾十年是OK的,但是真正到了超算,到了深度學習,我們就會發覺,CPU的計算力越來越是瓶頸。而GPU從一開始設定的時候,目標非常單一,它當時是做圖形渲染,在設計的時候就把很多控製邏輯包括緩存等等都去掉,因為很多數據進來是大規模並行的,它是SIMD單指令流、多數據流,這時候它是完全並行來計算的,所以它可以達到幾千個處理核,而傳統的CPU現在可能最多幾十個處理核,所以GPU在深度學習時代就很受歡迎了。

GPU用的領域及業務場景

GPU 的特點:實時高速、並行計算、浮點計算能力強.

878d2820e85a7907d2a6f6078f68c71bbc424bdb

GPU可以做3D渲染,視頻電解碼,這是GPU的老本行,計算效率非常高,現在仍然在大量的使用。繼而就是GPU尤其以CUDA為代表,並行計算框架大大降低了編程模型和門檻之後迅速普及起來,它在高性能計算包括AI的深度學習上,得到了非常廣泛的應用。但是在使用GPU的時候,因為GPU價格比較貴,而CPU已經非常普及,所以GPU使用起來,使用關心的問題有很多,比如:

首先會看一下是做渲染的任務還是做深度學習的任務,是做可視化計算還是深度學習,另外會考慮到底怎麼來建設它,這會涉及到一些性價比對比等問題,哪有可用的GPU資源?我們會從這些角度考慮來設計我們的產品和場景。

當你真正用起來的時候,你會發現GPU還挺好用,對業務加速確實有效果,但是業務量上來了,就需要擴容,這時候又涉及到底怎麼擴,做業務可能會有數據存放,比如大家在做深度學習的時候有非常海量的數據,可能幾百個T,甚至已經達到了PB級別,怎麼存儲呢?可能有多個節點之間的交互,有的節點需要做視頻抽幀,有的節點專門來做GPU計算,那麼就會涉及到網絡之間的交互,節點和節點之間會有網絡交互,包括節點和存儲之間都有網絡交互,這時候該怎麼辦呢?

再進而你的業務發展壯大了,原來可能就在上海提供服務,現在要在美國提供服務,要在東南亞提供服務,如何多地域線上服務?最後還有GPU的工作怎麼樣,因為GPU現在功耗比較大,發熱也是比較高的,所以經常會出現工作不正常,這個時候 GPU監控是非常必要的。

 

彈性GPU服務(Elastic GPU ServiceEGS

c80580fbbba821d1ffc98d67eb925f663f132984

在線下使用GPU的時候會有那麼多考量的因素,所以我們在雲上提供服務的時候,也不是簡單的把它搬上來,裏麵還有很多工作要做。阿裏雲現在推出了彈性GPU的服務,它是和阿裏雲所有其他服務是打通的,包括我們的雲盤、負載額均衡等等,完全是天然一體化的,所以在使用的時候和使用別的ECS雲主機並沒有太大的使用差異。麵對的場景就是我們現在客戶比較關注的,EGS是基於GPU應用的計算服務,適用於深度學習、視頻解碼、圖形渲染、科學計算等應用場景,具有實時高速,並行計算跟浮點計算能力強等特點。

EGS優勢

0411d14275fd897371942b3516c3ca6b3bc6db6a

EGS具有係列化規格族,可以根據AI深度學習計算力的要求,按需選擇合適的規格,分鍾級即可完成實例的創建;根據運算力需求進行GPU實例Scale-out水平擴容或Scale-up垂直變配。

我們並不是簡單的把GPU從線下搬到線上。搬上來之後,我們有很多的優勢:

第一個優勢是彈性。大家在使用GPU的時候,以深度學習為例,當你累計到一段時間或者說你的模型升級,訓練數據增加很多的時候,你會發現計算量的需求會突增。在雲上很容易注意,然後當你用完可以選擇釋放。這是彈性和線下最大的好處,我們應對臨時的需求增加爆增是非常有好處的,。

在線更加是這樣,當你的模型訓練好,把它放在線上提供服務給大家,包括圖象識別服務或者語音服務等等,或者說你現在不是提供這種服務,可能提供的是一個圖象的APP,裏麵使用了深度學習來完成這裏麵一些業務邏輯,隨著訪問量爆增的時候,在線的服務能力也需要動態伸縮。

使用線上的彈性雲EGS服務,規格比較多。客戶在使用單卡、兩卡、四卡、八卡的都有這樣需求,入門級客戶可能使用單卡就夠了,對於一些業務量比較大或者是研發能力比較強的,需要多卡,這個時候我們可以根據你的規格來選擇,並且整個創建過程也是非常快的,分鍾級就可以完成。水平擴容線下也可以買,但是我們可以隨時變配,這都是在線下使用過程中,隨著業務的增長要具備的一種彈性能力。

49be8f2f2e67583afa39febfae4d848d3aff588c

第二個優勢是極致性能與安全。實現GPUDirect支持,GPU卡之間點對點通信,可以讓GPU之間在無需CPU幹預下,直接通過PCIe的總線進行高帶寬低時延的互聯通信,極大地提升了AI深度學習訓練中模型參數交換效率;彈性GPU多租戶安全隔離 ,通過Hypervsior的授權和管理,在隔離的安全性和允許多塊GPU靈活配置互相高速通信。

06a90d7e77d55540255f6b49a262f369f87f1297

第三個優勢是與阿裏雲生態深度整合。企業用戶除了GPU之外,阿裏雲有OSS對象存儲,它有著非常低的價格,具備非常海量的存儲能力,我們還有NAS文件存儲,可以把要訓練的樣本照片,或者文本資料傳到這兩個上麵來。當你的容量需求量沒有那麼大的時候,放在我們雲盤上麵也OK的,當你需要幾百T或者更大,而且成本要求更低,完全可以放在NAS或者OSS上麵,這樣可以天然打通你的訓練數據存儲和我們之間的問題。我們還提供EMR,因為現在都是大數據,海量的數據在訓練之前都要做一些預處理,這些預處理可以定一些EMR的任務來幫你完成,然後把數據先處理最後傳到這邊來處理。處理之後模型就好好的訓練出來,達到業務的要求,接下來就會考慮業務上線,上線之後會有一些前端等跟EGS相配合,另外會和我們彈性伸縮、負載均衡等相配合,以及我們剛才提到的監控等等。不管你是一個小規模業務還是大規模,你可以利用阿裏雲上眾多的服務組件和能力來完成一個以深度學習為核心或者以差異化競爭為核心點的關鍵技術,包裝支撐了整個業務的服務平台,我們也支持容器的方式來交付,使得整個方式更加便捷。

第四個優勢是成本節約。 EGS實例支持靈活的使用方式:

用戶可以按年支付以獲得最高的使用折扣;

月付費降低用戶的計算資源使用一次性投入成本,並且具有相對較低的單位小時使用價格;

小時的付費使用戶以最低的單次使用成本來應對臨時性的短期使用需求。

彈性GPU服務監控

c6472488cc2fbfa7b027a2c09d0f400e126734f5

715c4fc76e5eada7a1d18f2c23c77076e54d4007

我們還會對GPU做一個監控,會知道整個GPU的使用率、內存、溫度等等,而且溫度可以使用告警,你可以預先做一些保護性措施,從你的業務層麵聯動起來,基本就是免運維直接使用。

8b86c1c1e101958bf09d67bc944912c446c4d5c5

總結下來看,使用這種GPU雲服務器自建,因為很多客戶都在考慮自建,我們可以分級創建,而且我們可以變配,就是實例裏麵可以改變你的配置;在性能方麵我們用的是專業級的GPU卡。而且我們會有一些多卡的支持,包括安全防護以及部署,部署對企業用戶來講是非常重要的。很多的客戶現在整個業務都是布在阿裏雲上,所以他在布GPU的時候,首先會首先考慮部署在阿裏雲上。

EGS產品家族

4bd0118421898bee606be4eee009acc7d24e1d6c

上麵就是作為異購計算平台來講,因為整個深度學習也好,科學計算也好,它實際上是分層的,有些人是做業務,有些人是做算法,還需要有一些人出來做平台加速的,而我現在說的產品就是定位在最底層做平台加速的,我們目標是提供一個高性價比、非常好用的GPU雲組機給大家,讓大家把自己的算法及業務部署在雲組機裏麵,更好的支撐業務的發展。

那麼,當前我們提供什麼樣的能力呢?具體來講,整個阿裏雲EGS彈性GPU服務現在包含兩大類,從我們的業務場景出發,一類是可視化計算,另外一類是通用性計算。

可視化計算有共享型和獨享型。通用計算已經上線了GN4 GN5

GA1–可視化計算型

fa41df9c86c91ba5be75f372cd35b6b3a68be284fa41df9c86c91ba5be75f372cd35b6b3a68be284

對於可視化計算,我們對它的定位或者我們看到客戶在線上使用它的時候主要在做一些圖形渲染,就是跟圖形交互的可視化相關的一些事情,在我們規格組上,我們會看到,我們過去沒有這個規格,就是說我們可以做到0.5GPU卡,現在做了一個共享GPU實例。很多廠商在雲上麵提供GPU的時候是提供了以GPU為單位做分割,但對於在訓練場景下,因為你是計算密集型的,計算能力是越高越好,你不會把它進行分割,但是你在進行可視化尤其是遠程桌麵場景下,它其實計算能力是足夠的,大家關心的是成本,是性價比,所以我們就做了這個共享GPU實例,我們可以把一個物理GPU卡變成多個,通過虛擬化技術,我們可以保證性能損失可以忽略不計,而且我們基於硬件的輔助虛擬化,底層的隔離線也非常好。

所以,最小的規格我們可以從0.5個卡,從技術來說我們可以做到更小的力度,但是你會發現更小力度之後,別的能力可能會很弱,可能在使用起來實際意義不大,所以我們把當前規格定在此,到現在最大我們是4個卡的支持,我們會配一些本地的SSD,保證整個端到端的性能取得最佳。

GN4 – Nvidia Tesla M40用計算加速型

ca7903319fb91d649df99712029d325566667545

GN4實例規格族是企業級異構計算ECS,提供了高性價比深度學習和視頻處理能力M40因為整個能力不突出但是也夠用,很多場景底下,包括我們實際售賣中,發現很多客戶也在用它做訓練,更多的是拿它來做一些推理,我們不否認很多客戶在線下用消費級的卡來做訓練,但是在線上提供服務的時候,就必須要考慮選擇一個雲平台。很多客戶跟我們反饋說,我現在是GPU密集型的,我的CPU做的事情非常少,高CPU是用不完的。用不完就是一種浪費,因此,我們用自己平台的能力把它進一步的切小,也就是說當你在一塊卡的時候,給你三種CPU memory的選擇,使得多種選擇之後就極大降低你的使用成本。我們兩卡的機型也是一樣的,過去我們隻有固定一種,現在我們通過技術實現把它整個CPU memory降下來,使得你的整體擁有成本更低,更靈活。

GN5 –Nvidia Tesla P100用計算加速型

82dc8dd251df9daa022343123cd32fe66723d5f2

GN5實例規格族是企業級異構計算ECS,提供了超高性能深度學習和視頻處理能力。

重點跟大家推薦當前使用的Tesla P100,也是國內共有雲廠商裏第一家推出P100的商家。P100現在市麵上可以買到最好的卡,我們可以最大支持8卡。在我們雲上可以用到單機8卡,而且可以以一種按量的方式。如果線下會受限於你的環境,買8卡的服務器還是比較貴的,但是在線上你可以按量買。它的整個計算能力是非常高的, GN5這一代的實力相比基於GN4能力,單精度浮點能力提升了5倍。

 

彈性GPU服務支撐AI智能創新

feb8a55855eb1f55f02b523abbeee0ea83ff18c3

介紹完產品本身的規格能力之後,最後回到這張圖上來。GN4 M40兩卡和GN5 P1008卡的能力都是夠用的,最重要取決於本身計算力的需求。在多媒體條件裏麵,用的比較多的是視頻編解碼和渲染,根據大家業務的要求都可以選擇。EGS會負責完成底下從硬件到虛擬化到操作係統實例這一層,然後在這之上阿裏雲會提供容器的服務,再往上我們會做一些擴展深度學習的框架能力,這些可以開源直接部署在我們容器裏麵的服務,阿裏雲也在做一些相應的框架,包括人臉識別等等。

阿裏雲的整個模型訓練和線上的推理都是在彈性GPU之上,那麼當你從訓練的時候來看,過去是CPU後來用自建的GPU,主要遇到問題還是彈性、資源問題等等,現在都是放在我們共有雲的GPU服務之上,包括對外提供服務。因為對外提供服務一定是在共有雲之上,他們開發模型訓練包括整理線上的服務都在這個上麵,這是深度學習場景;第二個場景就是阿裏雲還有自己的視頻編解碼服務,這裏麵也用到了彈性GPU

我們作為異購計算重要組成部分,我們可以使得業務使用方更加關注本身的模型和算法,還有你提供業務本身邏輯之上,而底下的東西完全由我們來完成。我們提供這樣的服務之中還會有別的考量,包括現在基於GPU做一些性能方麵的優化,包括可靠性、網絡能力的提升。

 

 

 

 

最後更新:2017-08-21 16:33:04

  上一篇:go  徽州區數字城管平台智慧管理城市
  下一篇:go  什麼是物聯網的思維