965
技術社區[雲棲]
對標穀歌TPU,比特大陸第一代深度學習專用處理器全球首發
在芯片領域,有真貨在手和沒有真貨,差距很大。
這也是比特幣獨角獸比特大陸(Bitmain)最新發布的芯片Sophon(算豐)如此引人注目的原因。
憑借其在比特幣礦機方麵全球領先的優勢,比特大陸從2015年起進入人工智能領域。在今天的新智元AI World 2017世界人工智能大會上,公司聯合創始人兼CEO詹克團發表演講《AI驅動的又一個星球級計算》,親自揭幕了公司首款麵向AI應用的張量處理器——Sophon BM1680,這也是繼穀歌TPU之後,全球又一款專門用於張量計算加速的專用芯片(ASIC),適用於CNN / RNN / DNN的訓練和推理。
實際上,當比特大陸在2015年底決定進軍人工智能時,就啟動了BM1680項目研發。2017年4月,BM1680流片。6月底,拿到BM1680樣片。現在,BM1680已支持主流Caffe model和Darknet model的編譯和優化,支持AlexNet、GoogLenet、VGG、ResNet、Yolo、Yolov2等網絡。
BM1680單芯片能夠提供2TFlops單精度加速計算能力,芯片由64 NPU構成,特殊設計的NPU調度引擎(Scheduling Engine)可以提供強大的數據吞吐能力,將數據輸入到神經元核心(Neuron Processor Cores)。BM1680采用改進型脈動陣列結構。值得一提,穀歌TPU也使用了脈動陣列結構。
Sophon BM1680內部的加速器內核采用了與穀歌TPU類似的架構,采用改進型脈動陣列(Systolic)架構技術。據介紹,Sophon運行軟件的性能在基準測試和成本方麵比傳統GPU更加出色。
在會上,比特大陸還推出了兩款新產品:深度學習加速卡Sophon SC1和智能視頻分析服務器Sophon SS1,並同步發布SOPHON.AI官網,現係列產品在官網中已經麵向全球發售。

比特大陸(BITMAIN)成立於2013年,是世界上最大的比特幣礦機芯片公司,成功開發並量產了多款ASIC定製芯片和整機係統,擁有先進工藝28nm,16nm,12nm的集成電路全定製設計的量產經驗。其中,最具代表性的是用於加密數字貨幣礦機中的BM芯片係列。據官方資料顯示,比特大陸自主研發的第五代芯片BM1387是全球功耗最低、性能最高的運算加速芯片,單片每秒可完成800億次的算法計算,量產規模達數十億顆。
從研發數字貨幣芯片、礦機到設立礦池,比特大陸自主研發,自主布局完善產業鏈,而AI則是他們最新找到的應用領域。不過,ASIC設計周期特別長、成本貴、應用範圍窄,研發風險比較大,比特大陸做深度學習ASIC的膽識從何而來?詹克團表示,實際上ASIC的設計比起GPU、CPU相對要簡單很多,而不是更困難,而深度學習算法又非常適合ASIC實現,所以,比特大陸決定開始做深度學習芯片,並繼續發揮比特大陸做高性能計算芯片的優勢。
至於如何與英偉達已經構建起來的健壯軟件生態係統相競爭,詹克團認為,生態不是規劃上來的,而是在市場上打出來的。“首先我們要有優秀的團隊,在架構設計、產品設計留下足夠的空間,讓自己跟舊的產品兼容——如果你自己跟自己都不兼容,就不可能是生態。”
“另一個就是產業之間要合作,今天這個時代商業的合作是大於競爭的,尤其在人工智能領域,有無數的處女地等待我們去開發,大家應該共同把這個蛋糕做得更大。更多和合作夥伴進行深度合作,包括開源,慢慢就可以把生態做起來。”
對於國內的幾家芯片公司,比如地平線、寒武紀、深鑒,詹克團說,他最早是看著寒武紀陳天石老師的論文才進入芯片領域的。“大家應該基本上處於同一起跑線,我很尊敬他們,他們也做得非常好。”
詹克團說:“比特大陸雖然是新進入這個領域,但我們從2013年就開始做,如果一定要說我們有什麼優勢,那就是我們可能會跑得比較快一點,畢竟我們的公司的市場管理、研發管理、財務,還有很多東西我們已經在虛擬貨幣市場上經過戰爭般的洗禮,虛擬貨幣這個市場又是發展非常快速的市場,所以相對來說比特大陸可能會動作會更快一點點。”
以下是比特大陸聯合創始人、CEO詹克團在新智元AI World 2017世界人工智能大會上的演講:《AI驅動的又一個星球級計算》。
詹克團:謝謝新智元的大會,非常周到。前麵幾位老師的分享非常精彩,學習了很多東西,接下來我要給大家報告的題目是《由人工智能驅動的又一個星球級的計算》。
首先,我介紹一下比特大陸的情況,2013年成立,在過去的幾年我們主要都在做虛擬貨幣方麵的芯片,目前全球的員工大概1000多人,分布在世界各地的十多個辦公室,國內的幾個主要城市,包括香港,國外的美國矽穀、以色列特拉維夫、荷蘭阿姆斯特丹、新加坡都有我們辦公室和研發工程師。
我們用全定製的芯片設計方法去設計高速低功耗的芯片。在今年16納米節點上,我們芯片出貨量已經超過10億隻,我們商業模式非常簡單,最核心就是賣比特幣等虛擬貨幣的挖礦機,在比特幣、萊特幣這些主要的虛擬貨幣市場上,我們的占有率應該是超過80%,甚至可能超過90%。除了研發和銷售礦機,我們還會去建設和部署大型的數據中心,我們建設了上百兆瓦的數據中心。
在比特幣上小有成就之後,我們感覺自己手裏好像拿著一把錘子,到處看哪裏都是釘子,就在找釘子的過程中,我們發現深度學習是非常適合用錘子對付的釘子,所以我們開始做這個深度學習計算芯片。
首先,我們來說一個市場容量比較小的機會,就是互聯網的小視頻。今天,全球有34億個互聯網用戶,假設每人每天產生20分鍾的視頻,假設每秒鍾的視頻取兩幀出來做分析,保守一點,1幀需要0.1T做計算,就是10個Exa Flops。
下麵我們再看規模大一點的應用,依然假設每個人每天30分鍾的語音,每一秒鍾的語音大概需要用1T的算力來做處理,這樣算下來就是70個Exa Flops。這已經是比特幣全網算力將近一個數量級的提升。

在這兩個互聯網小視頻裏麵,我們都做比較樂觀的假設,並沒有考慮語音和視頻在時間和空間上的不均勻性。所謂時間上的不均勻,就是說我們沒有辦法假設全球的人都在24小時裏麵均勻分布著去說話,然後錄視頻,但我們依然這樣區別假設。
其實,大部分情況下,大量的人會聚集在某一個晚上,或者聚集在某一個集群裏麵,那過一會又切換到另外一個集群,這種空間上的不均勻性我們也不會考慮。
我們再看一個大一點的需求,左邊這個圖,Chris Rowen教授剛才也分享了這張圖,這是他給我的。橘色的線表示全球的攝像頭的數量,藍色的線代表全球的人口,2015年攝像頭超過了人口的數量,並且呈指數級上漲。也就是說,在2017年全球的攝像頭數量達到了140億隻,然後年複合增長率200%。
這裏麵我們抽取一小部分來做分析,就是這標紅色監控的攝像頭,在2017年,監控攝像頭僅占所有攝像頭的3%,大概也就是4-5億隻的樣子。一路的攝像頭用0.5T的計算,2017年就需要210個Exa,用來處理全球的監控攝像頭。按照現在的趨勢,監控就成了一個很合理的硬需求,所以我們做這樣一個假設是合理的。這是7×24小時在計算的,這200多個Exa就是比特幣網絡兩個數量級提升。
前麵舉了三個例子,加起來的計算量大概是300個Exa,這300個Exa是什麼概念?這裏我列了人類已知的全球四大計算種類。我們先看一下PC和筆記本,PC芯片全球年出貨是2.5億隻,假設每個CPU是兩個core,主頻2.5GHz,加上PC和筆記本壽命是2-3年,應該是有3.8個Exa。手機出貨量是每年15億隻,假設使用壽命是兩年,那麼這個全球的手機折合下來就是9個Exa,比特幣我們剛才講了10個Exa,剛才我們講到了300個Exa跟這一比,已經是兩個數量級提升,這是非常有意思的東西。

這麼大的計算能力,它的功耗又會是什麼樣子呢?下麵我們看一下功耗,首先我們還是看一下PC筆記本,假設PC和手機的時間都是30%,不用的時間是70%,假設server是80%,還有比特幣,就是用我們最好的機器來做假設,大概是100兆瓦左右。這樣算下來,應該在1000-3000個兆瓦之間。這時我們把Deep Learning的功耗加進來,假設10瓦1T這應該是很容易做到的,加3000個兆瓦,是什麼概念?這是我們盧宇彤老師他們做的天河二號100倍的規模。
前麵舉了三個例子,顯然很多東西是沒有被列舉進來的,這裏漏掉了最大的一個東西,就是這個智能駕駛,根據IHS的數據的話,到2035年會有1000多萬輛的自動駕駛汽車,假設每秒鍾會產生大概200個MB/sec數據,再加上4個小時,就是1000多個Exa,又進了一個數量級。但是時間到了2035年,我覺得在1000個Exa還算是小事情,不算是大的事情。
摩爾定律走向終結,從現在往後看,我們是否還能實現性能1000倍的提升?
在人類過去的30年裏麵,對於超級計算來說,基本上都是每十年翻1000倍,從今天往回退的五/六年都是我們中國人拿第一,例如天河二號。
隨著摩爾定律的減緩,甚至終結,從現在開始往後麵看十年,我們是否還能實現1000倍的性能提升?這個問題值得我們做計算的朋友去思考。對於深度學習計算,最大的挑戰依然是功耗,包括大規模集群的功耗,芯片的功耗。另外一個很大的挑戰就是Memory wall,我感覺都快窮途末路,現在有這種在跟Memory wall結合在一起的計算,可能也不能解決所有的問題。
肯定算法上麵要出現更多支持並行處理的計算。此外,到目前為止,編程軟件技術都不是特別成熟,這一塊我覺得也值得學術界和產業界一起來做更多的探索。
深度學習做的,實際上是多維矩陣計算,雲端深度學習往張量(Tensor)處理靠攏非常自然
深度學習要做什麼事情?它要做的計算本質上是一個多維的矩陣計算,因此我們可以說,所謂的Deep Learning計算,站在做芯片的視角來看,非常簡單,就是做多維矩陣的各種計算。怎麼來做Tensor的計算?這麼大的計算量在計算機的體係結構上麵要做一定的創新,傳統的CPU顯然不合適。因此,從各種產業和論文都可以看到,其實深度學習用在Cloud端高性能芯片的體係結構,都已經慢慢往Tensor架構靠攏。
從Cloud端看Deep Learning計算非常簡單,一個是性價比和能耗比,對於Deep Learning來說,確實在這兩個方麵會表現的相當好。因此對於雲端的Deep Learning計算,我認為穀歌提出“TPU”張量計算處理器,Tensor這個名字是很合適的。
終端深度學習更加困難
但Deep Learning計算還有另外一種芯片應用,就是終端,我個人認為這是更加困難的,做這種架構由於不得不受限於單芯片的功耗,不能太大,一般來說這種芯片很難超過10瓦,所以設計這種的體係結構是非常有挑戰的一件事情。
在這種芯片裏麵,一般來說,CPU是一定要參與到數據的搬運和計算任務的調度裏麵去的,所以剛才前麵寒武紀也講到了它的市場方向,我覺得寒武紀確實是一家非常偉大的公司,當年進入這領域就看著他們兄弟兩個的論文進去的。他們現在依然是去啃Deep Learning這個領域裏麵最難啃的這塊骨頭,真的是非常厲害。
穀歌TPU重拾脈動陣列,計算機架構發展循環往前
下麵我們來看一下什麼是Systolic,Systolic就是脈動陣列,它用來處理Deep Learning運算有得天獨厚的優勢,用硬件實現多維的數據搬運和計算任務的調度,就可以獲得非常高的性能,比較適合用在雲端做加速。我們都知道穀歌的TPU是基於Systolic的架構,但Systolic並不是一個太新的東西,Systolic的年齡有可能比我都大。我隨便查了一下,能查到的比較早的就是1984年的文獻裏麵,就把Systolic描述得比較清晰,之後也有一些論文對Systolic做各種各樣的描述。
其實計算機的發展一直都是這個樣子,每次有一個新的計算任務出現的時候,就會有很多的專家教授還有工程師去提出各種各樣新的解決方案來應對這個問題。
比特大陸第一代Deep Learning計算的芯片發布
下麵給大家報告一下我們做的產品,BM1680是我們第一代Deep Learning計算的芯片,我們從2015年的年底開始設計這個芯片,在2017年的4月份推出,2017年6月份經過前麵幾個月的測試開發,今天說這個芯片已經可以開始量產了,或者說個別指標再快一下就可以量產了。
這是用我們芯片做的深度學習加速卡,在這個卡上麵我們把這些Googlenet、VGG等等這些經典Net也都跑起來了,這是對於性能指標,如果大家比較關心的話,可以上我們的網站看一下具體的資料。
這是用我們芯片做的雙芯片卡,功耗也基本是加倍的。這是把卡插在裏麵做的這樣一個Server,在這Server上麵,我們實現人臉檢測、行人的檢測和屬性的分析、人臉識別。
下麵我們給大家做一下演示。這個演示做深度學習算法的大家都很熟悉,沒有什麼新鮮的,都是車在跑,然後用一個框框把它框住,這裏我告訴大家一個秘密,我們今天這個新鮮之處,不同之處在哪?就在於這裏的算法,凡是涉及到神經網絡計算的這些算法,全部都是跑在我們前麵介紹的BM1680這個芯片上麵的,這是唯一的秘密,其他的都是一樣的。
下一個環節是人臉識別的演示,早上有在我們的展台做過注冊的朋友,一會可以上來充當一下誌願者,看能不能認出來?謝謝!已經認出來了。
下麵進行最後的廣告環節,首先我給大家報告一下,我們後麵的第二代芯片1682下個月發布,也是采用16納米工藝,功耗差不多還是30瓦,計算能力大概是3T。第三代芯片會在明年的9月份發布,會采用12納米工藝,功耗還是涉及在30瓦,計算能力到60T,應該沒有什麼問題。這個芯片我們會隻持更多的數據精度,把16位和8位給支持起來。再往後第四代、第五代我們還會努力的遵循快速迭代、精益求精這樣一個路子,繼續往下,一代一代的把它做好,希望大家跟我們有更多的合作。
比特大陸在Deep Learning,在AI領域的使命,或者說我們的目標,和我們在數字貨幣上麵做的事情一樣,通過一點一點的、一代又一代的芯片,一代又一代的產品不斷迭代,把產品做到極致,做到最好,服務好需要用到深度學習加速服務的用戶和應用。謝謝!
原文發布時間為:2017-11-8
本文作者:AI World 2017
本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號
原文鏈接:對標穀歌TPU,比特大陸第一代深度學習專用處理器全球首發
最後更新:2017-11-09 10:33:57