226
技術社區[雲棲]
【幹掉英偉達?】DeepMind CEO哈薩比斯投資的AI芯片,性能超越GPU 100倍
被DeepMind聯合創始人哈薩比斯投資的AI芯片公司 Graphcore,宣稱自己的IPU芯片相比市場同類產品性能提升10~100倍,並且在訓練和推理兩方麵都同樣出色。現在他們發布初步的測試基準證實他們的宣言,對比GPU,在某些任務上IPU的性能提升甚至超過200倍。
Graphcore 的 IPU(Intelligence Processing Unit,智能處理單元)是一種新的AI加速器,為當前和未來的機器學習工作負載帶來了前所未有的性能水平。它的獨特的大規模並行多任務計算、單個IPU或跨多個IPU的同步執行、創新的數據交換結構和大量片上SRAM的組合,在各類的機器學習算法中同時為訓練過程和推理過程提供了前所未聞的性能。
這家公司的投資人包括DeepMind聯合創始人哈薩比斯、Uber首席科學家Zoubin Ghahramani,OpenAI的Greg Brockman等。企業投資則來自Atomico、戴爾、三星等。
Graphcore的目標是成為“機器智能處理器市場的領導者”,這家公司的產品叫做IPU(intelligence processing unit)智能處理單元。Graphcore首席執行官Nigel Toon曾經在2011年把當時的公司賣給英偉達,現在,他們正式走上舞台與英偉達展開競爭。
在昨天發表的官方博客中,Graphcore表示,當我們在2016年10月公布我們的A輪融資時,我們就IPU的性能作了3點聲明:
- 與其他AI加速器相比,它的性能提升了10倍至100倍
- 它在訓練和推理兩方麵都同樣出色
- 它讓機器學習開發者得以在模型和算法方麵進行創新,這些模型和算法即使在當前最好的替代架構上也不工作
自那時起,我們一直被要求提供更多關於這些聲明的細節。今天,我們很高興地分享3個證實這些早期目標的初步基準。
我們從一開始就明白,一個完整的解決方案需要的不僅僅是新的芯片設計。軟件基礎設施需要全麵、易於使用,以便機器學習開發者能夠快速使硬件適應他們的需要。因此,我們一直致力於提供一個完整的軟件堆棧,以確保IPU從一開始就可以用於實際的應用程序。
我們的 Poplar® 圖形編程框架和應用程序庫提供了這些功能。我們已經開發一個 TensorFlow 的端口以使 Poplar 庫支持其他機器學習框架。有了這些軟件工具,我們可以通過周期精確的芯片模擬和真正的硬件來運行各種各樣的實際應用。
有了這個實驗平台,我們可以執行一係列不同的機器學習應用程序,並從IPU係統的初步性能結果的粗略估計得到改進,當我們有生產係統時,IPU 係統將能夠進一步改善。
CNN 模型訓練
卷積神經網絡(CNN)在圖像處理任務中有廣泛的應用。一個典型的CNN模型包含執行多個卷積運算的幾個層。卷積運算具有必須從訓練算法學習的參數。訓練通常通過隨機梯度下降法進行,包括在圖像數據上反複地運行模型,計算模型的梯度,然後更新模型的參數。
在訓練機器學習模型時,batch size是需要與當前參數組並行處理的數據項數。batch size 限製了更新這些參數的頻率,因為必須在更新之前處理整個批。過大的 batch size 可能不適合訓練你的模型。IPU係統的一個特性是,即使對於較小的 batch size,它們的性能也很好。
下麵的圖表顯示了在 ImageNet 數據集訓練 ResNet-50 這個神經網絡來學習圖像分類時的估計性能,以每秒訓練的圖像數量計算:
即使在較小的 batch size 下,性能提升也很可觀。當我們擴展到使用8個C2加速器卡時,隻使用了 batch size=64。
在這個空間的任何一點上,使用IPU係統的性能相對於現有技術都是巨大的飛躍。例如,使用300W GPU加速器(與C2加速器相同的功率預算)的話,有記錄的最佳性能是每秒約580張圖像。
LSTM 推理
循環神經網絡(Recurrent networks)用於處理序列數據,例如在語言翻譯或文本轉語音(text-to-speech)的應用中。LSTM(long short-term memory,長短期記憶)網絡是循環神經網絡的一種形式,它包含幾個不同的元素,用於選擇在產生輸出時是否要記住或忘記正在處理的序列的曆史數據。
所有循環神經網絡都具有對當前芯片架構來說是一個挑戰的數據依賴(data dependency)。數據依賴限製了可用的並行數量,並且從內存中獲取的每個數據的操作數量也受到限製。IPU 和 Poplar 庫可以更好地處理這些限製,因為它們可以獲得大量片上內存,並且IPU中計算和數據移動具有靈活性。
對於執行推斷的服務器,將會有時延約束,即從請求推斷到獲得結果所需的最小時間。下麵的圖表顯示了IPU與GPU相比,對於不同的時延約束,單層LSTM網絡的性能:
這個單層LSTM的參數來自百度DeepBench套件,該套件描述了在深度學習應用程序中使用的典型循環神經網絡層。
生成網絡
最後我們來看一下生成神經網絡。這是每次產生新的數據的循環神經網絡。具體來說,WaveNet網絡每次會生成一個音頻波形,以提供文本轉語音的功能。以下我們會討論 Deep Voice,這是 WaveNet 的一個變體。
我們的應用實驗已經考慮了兩類性能指標。首先,樣本的生成速度怎麼樣?具體來說,樣本需要足夠快地生成,以形成實時音頻流(例如16Khz)。如果可以生成實時音頻流,我們就可以考慮一次可以產生多少個頻道(生成不同的語音)。
下麵的圖表顯示了IPU與原始論文的其他平台相比,Deep Voice 生成算法的性能:
這些應用都僅是初嚐者。IPU和Poplar軟件棧提供了一個完全靈活、可編程的平台。我們很期待用戶在未來幾年將會為這個平台帶來什麼樣的應用。
隨著產品發布的臨近,我們開始與早期客戶共享Poplar 框架,我們將在接下來的幾個月裏公開文檔和代碼。
原文發布時間為:2017-10-27
本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號
原文鏈接:DeepMind CEO哈薩比斯投資的AI芯片,性能超越GPU 100倍
最後更新:2017-10-27 15:05:17
上一篇:
1111
下一篇:
WCF並發(Concurrency)的本質:同一個服務實例上下文(InstanceContext)同時處理多個服務調用請求
[ssh ][異常]The type org.springframework.dao.support.DaoSupport cannot be resolved........
QColor與Int類型相互轉換
Android使用Ant技術打包詳解
結構體、枚舉
9月5日雲棲精選夜讀:智能語音交互:阿裏的研究和實踐
僅為代碼實際運行資源付費 解構阿裏雲函數計算
iPhone與iPad開發實戰——iOS 經典應用剖析視頻--觀看地址
阿裏雲優惠券 – 新用戶199元享受1核2G ECS 1年
整理對Spark SQL的理解
Apache DataFu: LinkedIn開源的Pig UDF庫