閱讀97 返回首頁    go 阿裏雲 go 技術社區[雲棲]


穀歌發論文披露TPU詳細信息,比GPU、CPU快15-30倍


0?wx_fmt=jpeg

自從Google去年透露自己開發了一款名為TPU的專用芯片,用於提高人工智能計算任務的執行效率,關於這種新芯片的猜測就從未停止。

今天,Google終於披露了關於TPU的更多信息。除了發表一篇有75位聯合作者的論文《In-Datacenter Performance Analysis of a Tensor Processing UnitTM》外,文章的第四作者David Patterson還在美國國家工程院的活動上發表了演講。

關於TPU的論文將正式發表於今年6月在多倫多召開的計算機體係結構國際研討會(International Symposium on Computer Architecture, ISCA),Google目前已經在Google Drive上將其公開。

640?

△ TPU的印刷電路板


該公司從2015年開始就一直在內部使用TPU,並在去年5月的Google I/O開發者大會上,對外公布了這種芯片的存在。

TPU是一種ASIC(專用集成電路),Google將其用在神經網絡的第二個步驟。使用神經網絡首先要用大量數據進行訓練,通常在使用GPU加速的服務器上進行。之後,該公司便會開始使用TPU加速新數據的推斷。穀歌表示,這比直接使用GPU或基本的x86芯片速度快很多。

他們在論文中寫道:“盡管某些應用的利用率較低,但TPU平均比GPU或CPU速度快15至30倍左右。”其中的GPU或CPU具體指的是英偉達的Tesla K80 GPU和英特爾的至強E5-2699 v3芯片,後者可以成為TPU的底層平台。

過去5年,英偉達等公司的GPU已經成為經濟型深度學習係統的默認基礎架構,而穀歌也對此做出了貢獻。但穀歌和微軟等公司還在探索其他類型的人工智能芯片,包括FPGA(現場可編程門陣列器件)。穀歌的項目因為其來源和使用範圍而受到關注,該公司工程師Norm Jouppi在博客中寫道,這套係統已經應用於穀歌圖片搜索、Google Photos和穀歌雲視覺應用API等服務。

640?

該論文稱,一個TPU的片上內存容量達到Tesla K80的3.5倍,而且體積更小。每耗電1瓦的性能則高出30至80倍。穀歌目前可以將兩個TPU安裝到一台服務器中,但這並不表示他們不會開發其他更強大或更經濟的硬件係統。

穀歌對人工智能網絡的重視高於很多科技公司,他們2013年就認定這項技術廣受歡迎,可以將其數據中心的計算需求擴大一倍。如果完全使用標準芯片,成本將十分高昂,難以承受。所以穀歌開始開發自己的技術,希望實現10倍於GPU的成本效益。

“我們沒有與CPU密切整合,為了減少延遲部署的幾率,TPU設計成了一個PCIe I/O總線上的協處理器,使之可以像GPU一樣插到現有的服務器上。”論文還寫道,“另外,為了簡化硬件設計和調試過程,主服務器發送指令讓TPU來執行,而不會自主執行。因此,與TPU更加接近的是FPU(浮點單元)協處理器,而非GPU。目標是在TPU運行完整的推理模型,降低與主CPU的互動,並使之足以靈活地滿足2015年及之後的神經網絡需求,而不僅僅適用於2013年的神經網絡。

論文稱,通常而言,在TPU上運行代碼跟使用穀歌領導的TsensorFlow開源深度學習框架一樣簡單。

提示:Google在論文中提到的測試結果,都是基於該公司自己的測試標準。

原文發布時間為:2017-04-06

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-19 14:05:01

  上一篇:go  聊聊Zookeeper-快速開始
  下一篇:go  使用 Cockpit 方便地管理容器