拿著錘子找釘子,數字芯片領導者比特大陸進軍人工智能
占領了虛擬貨幣芯片80%以上的市場後,比特大陸開始拿著高性能計算芯片設計的“錘子“探索新的”釘子“,而深度學習計算芯片無疑是其中最大的一顆。
隨著大數據發展、深度學習算法和計算技術的突破,人工智能掀起了新的時代浪潮。同時,全球科技巨頭如Google, Facebook, Microsoft,國內BAT都在搶占布局AI市場。而芯片和算法,被視為是人工智能產業的重要技術支撐。
近日,北京比特大陸科技有限公司(以下簡稱“比特大陸”/BITMAIN)推出了人工智能品牌SOPHON(算豐),並重磅發布了麵向人工智能應用的專用定製芯片SOPHON BM1680,深度學習加速卡SC1和SC1+以及智能視頻分析服務器SS1。同時,筆者注意到,“算豐”的官網SOPHON.AI已正式上線,比特大陸的芯片、加速卡和處理器都已經進入量產階段,11月8日在官網全球發售。
“人工智能驅動了又一個星球級的計算體量。”比特大陸聯合創始人、CEO詹克團在發布會上表示。
比特大陸發布的三款產品標誌著其正式進軍AI芯片領域。作為今年人工智能領域的重要賽道之一,盡管“人工智能芯片”相比於語音識別等技術,在消費級市場並沒有得到大眾的特別關注,但是作為人工智能的基礎硬件設施,其已經成為諸多公司搶奪人工智能市場、占據風口的一大戰略製勝點。
國內,相關初創公司戰況愈烈:上個月,主打“嵌入式”的地平線機器人獲得來自英特爾的戰投,預計年底前將完成A輪融資;同月晚些時候,深鑒科技宣布已完成約4000萬美金的A+輪融資,將加大對安防和相關研發投入;今年8月,寒武紀完成一億美元A輪融資,成為人工智能芯片領域的首個獨角獸。而英特爾等國際大公司也在陸續進入這個炙手可熱的領域:英特爾陸續收購Altera、Mobileye等多家公司,拿下相關技術;芯片大廠英偉達則憑借在GPU上的優勢走在了人工智能芯片的前列,前幾個月,黃仁勳在GTC技術大會上還發布了一款針對深度學習而打造的芯片Tesla V100;微軟則把重心放在FPGA人工智能芯片上,目前已經被用在Bing搜索的支持上。
入場人工智能領域,是比特大陸的重要一步。而這家全球最大的數字貨幣芯片及硬件公司入局人工智能領域也無疑對這個賽道產生了不可置疑的巨大影響。
拿著錘子找釘子,現在是進軍人工智能行業的最佳時機
在第三次的人工智能浪潮中,作為讓人工智能技術更快、更好運行的基礎硬件設施,人工智能芯片必然是未來智能化時代的重要底層技術。也因此,雖然人工智能芯片相比於其他人工智能技術和應用顯得低調得多,但它的布局依舊是眾多廠商眼中不能錯過的“機遇”。
比特大陸顯然也看好這一機會,而多年來在芯片應用領域多積累的專業經驗,也讓其在切入這一新領域的過程中深入且高效:匯聚了世界各地對AI懷抱無限激情的工作者,比特大陸的研發團隊中有全球芯片設計領域的一流專家,有深度學習算法領域的頂級高手,有計算機視覺領域的超級大師,這個團隊亟待在具有強大競爭對手的AI領域開辟出一片前所未有的天地。
數字貨幣芯片出身的比特大陸成立於2013年,詹克團稱在比特幣、萊特幣這些主要的虛擬數字貨幣市場上,比特大陸的占有率已經超過80%,甚至可能超過90%。比特大陸用全定製的芯片設計方法去設計高速低功耗的芯片。在今年16納米節點上,其芯片出貨量已經超過10億隻,而其商業模式非常簡單,最核心就是賣比特幣等虛擬貨幣的挖礦機。除了研發和銷售礦機,比特大陸還在建設和部署大型的數據中心。
“在比特幣上小有成就之後,我們感覺自己手裏好像拿著一把錘子,到處看哪裏都是釘子”,就在找釘子的過程中,我們發現深度學習是非常適合用錘子對付的釘子,所以我們開始做這個深度學習計算芯片。
比特大陸很早就意識到,不斷提升的計算量在計算機體係結構上麵要做一定的創新,傳統的CPU顯然不合適。因此,從各種產業和論文都可以看到,其實深度學習用在Cloud端高性能芯片的體係結構,都已經慢慢往Tensor架構靠攏。
從Cloud端看Deep Learning計算非常簡單,一個是性價比和能耗比。對於Deep Learning來說,確實在這兩個方麵會表現的相當好,因此對於雲端的Deep Learning計算,我認為穀歌提出“TPU”張量計算處理器,Tensor這個名字是很合適的。
“但Deep Learning計算還有另外一種芯片應用,就是終端,我個人認為這是更加困難的,做這種架構由於不得不受限於單芯片的功耗,不能太大,一般來說這種芯片很難超過10瓦,所以設計這種的體係結構是非常有挑戰的一件事情。”詹克團稱。
“在數字貨幣領域經過戰爭般的洗禮,進而奠定我們的優勢,我們會跑的快一點。”
“我們從2013年就開始做,如果一定要說我們有什麼優勢,那就是我們可能會跑得比較快一點,畢竟我們的公司的市場管理、研發管理、財務,還有很多東西我們已經在虛擬貨幣市場上經過戰爭般的洗禮,虛擬貨幣這個市場又是發展非常快速的市場,所以相對來說比特大陸可能會動作會更快一點點。”在發布會上,詹克團如此描述入主人工智能芯片領域的優勢。
據了解,比特大陸基於自研的數字貨幣芯片,研發和量產了高性能、高密度的服務器係統礦機,且在全球多個地區建立數據中心,並基於此搭建雲計算服務及大規模並行計算資源調度服務平台。
成立四年多來,比特大陸的產品已銷往全球100多個國家,且在海外多個國家設置銷售和客服團隊,提供24小時支持服務,覆蓋中文、英語、俄語、韓語等。對標穀歌TPU,麵向全球交付采用改進型“Systolic脈動陳列”技術的AI芯片
隨著數據量級的迅速增大,深度學習在硬件執行上一直麵臨瓶頸。
大概3年前,CPU還是人們在應用機器學習算法時最常用的硬件芯片。CPU基於其構造,70%的晶體管都被用來構建Cache,還有一部分用來控製單元,計算單元少,適合運算複雜邏輯複雜的算法,對程序員來說非常友好。但是,隨著數據量和運算量的迅速增加,CPU執行機器學習的缺點也逐漸暴露。CPU為了滿足通用性,很大一部分的芯片麵積用於複雜的控製流,犧牲了運算效率,並且,CPU也不支持張量計算。
這時候,GPU進入了機器學習研究者的視野。GPU晶體管大部分構建計算單元,運算複雜度低,適合大規模並行計算。以圖像渲染為目的的GPU支持SIMD架構,這一點對機器學習算法非常有效。因此GPU的SIMT架構雖然能遮蓋內存訪問實現高吞吐量,但是能效比(即執行完單位運算需要的能量)並不好。但是,目前能效比正在成為越來越重要的指標。對於移動應用,能效比不好意味著電池很快就會被用完,影響人工智能的普及;對於雲端數據中心應用,能效比不好則意味著數據中心需要在散熱投入許多錢,而目前散熱已經成為數據中心最大的開銷之一。
在去年的穀歌 I/O 開發者大會上,穀歌宣布發布了一款新的定製化硬件——張量處理器(Tensor Processing Unit/TPU),這一新想法的提出令業內人士激動不已,但穀歌遲遲沒有公布細節。直到今年4月份,Google發表論文,詳解了神經網絡推斷專用芯片TPU的架構,還展示了一些性能數據,比如說:在推斷任務中,TPU平均比英偉達的Tesla K80 GPU或英特爾至強E5-2699 v3 CPU速度快15至30倍左右。
TPU作為一種人工智能技術專用處理器,在種類上歸屬於ASIC(Application Specific Integrated Circuit,為專門目的而設計的集成電路)。相比人工智能技術常見的另外幾種處理器CPU(中央處理器)、GPU(圖像處理器)、FPGA(陣列可編程邏輯門陣列),ASIC天生就是為了應用場景而生,不會有冗餘,功耗低、計算性能高、計算效率高,所以在性能表現和工作效率上都更加突出。
以下是Google硬件工程師 Norm Jouppi 在Google雲計算博客上透露的部分性能信息:
1、在神經網絡層麵的操作上,處理速度比當下GPU和CPU快15到30倍;
2、在能效比方麵,比GPU和CPU高30到80倍;
3、在代碼上也更加簡單,100到1500行代碼即可以驅動神經網絡;
這要歸功於ASIC本身的特點:處理器的計算部分專門為目標數據設計,不需要考慮兼容多種情況,控製配套結構非常簡單,間接提升了能效比;可以在硬件層麵對軟件層麵提前進行優化,優化到位的情況下可以極大減少API接口的工作量。
在穀歌的TPU處理器中,最大的創新點之一就是采用了Systolic(脈動式)數據流。在矩陣乘法和卷積運算中,許多數據是可以複用的,同一個數據需要和許多不同的權重相乘並累加以獲得最後結果。因此,在不同的時刻,數據輸入中往往隻有一兩個新數據需要從外麵取,其他的數據隻是上一個時刻數據的移位。在這種情況下,把內存的數據全部Flush再去去新的數據無疑是非常低效的。根據這個計算特性,TPU加入了脈動式數據流的支持,每個時鍾周期數據移位,並取回一個新數據。這樣做可以最大化數據複用,並減小內存訪問次數,在降低內存帶寬壓力的同時也減小了內存訪問的能量消耗。
Systolic事實上並不是一個太新的東西,在1982年,H. T. Kung首次在論文中提出了這一設計,對於為什麼要設計這樣的架構,作者給出了三個理由:要真正理解脈動陣列,首先要問的就是發明者的初衷。這正好也是1982年H. T. Kung論文的題目。對於為什麼要設計這樣的架構,作者給出了三個理由:
對於為什麼要設計這樣的架構,作者給出了三個理由:
1. Simple and regular design:簡單和規則是脈動陣列的一個重要原則。
2. Concurrency and communication:並行性和通信的重要。
3. Balancing computation with I/O:平衡運算和I/O,這是脈動陣列最重要的設計目標。
總結來說,正如一位知乎大v唐杉所說:脈動架構是一種很特殊的設計,結構簡單,實現成本低。
脈動架構有幾個特征:
1. 由多個同構的PE構成,可以是一維或二維,串行、陣列或樹的結構(現在我們看到的更多的是陣列形式);
2. PE功能相對簡單,係統通過實現大量PE並行來提高運算的效率;
3. PE隻能向相鄰的PE發送數據(在一些二維結構中,也可能有對角線方向的數據通道)。數據采用流水線的方式向“下遊”流動,直到流出最後的PE。
值得一提的是,和穀歌TPU的內核一樣,SOPHON BM1680內部的加速器內核也采用了脈動陣列(Systolic)架構技術。Systolic在處理Deep Learning運算上有得天獨厚的優勢,用硬件實現多維的數據搬運和計算任務的調度,就可以獲得非常高的性能,適合用在雲端做加速。
據了解,SOPHON BM1680可適用於CNN、RNN和DNN等多網絡的預測和訓練,這也是繼穀歌發布TPU之後,又一款專門用於張量計算加速的專用芯片(ASIC)。
最後,比特大陸也給出了SOPHON的迭代時間線:第二代芯片BM1682下個月發布,也是采用16納米工藝,功耗差不多還是30瓦,計算能力大概是3T。第三代芯片會在明年的9月份發布,采用12納米工藝,功耗30瓦,計算能力到6T。
《三體》中的超級機器人SOPHON:服務器+軟件全棧+應用API的全套解決方案
SOPHON的名字來自劉慈欣的小說《三體》。在《三體》中,SOPHON是被三體人製造出來鎖死地球科技的強人工智能體。比特大陸對SOPHON的厚望也如此,除了作為芯片提供方,SOPHON致力於擁有軟硬件全棧開發的能力,和各個層次的工具鏈能力。從硬件、驅動、指令集、線性代數加速核心數學庫,RUNTIME庫,BM Deploy的Inference部署工具,FFT加速庫,針對SOPHON芯片優化的深度學習框架(Caffe,Darknet, Tensorflow,MXNet等),以真正實現軟件、硬件的協同設計和一體化的優化,實現深度學習應用在硬件上的最佳優化性能。
從SOPHON官網的參數介紹中可以了解到,BM1680現已支持Caffe Model和Darknet Model的編譯和優化,適用於Alexnet,GoogLeNet,VGG,ResNet,YOLO,YOLO2等網絡。
BM1680芯片架構圖(摘自BM1680 DATASHEET文檔)
基於BM1680芯片,比特大陸還推出了兩款新產品:深度學習加速卡SOPHON SC1和智能視頻分析服務器SOPHON SS1,並同步發布SOPHON.AI官網。會上,比特大陸通過該服務器成功演示了機非人結構化demo,人體/人臉檢測Demo,這兩者廣泛應用於安防視頻監控、公安、交通、金融等領域。
SC1和SC1+的架構類似,都是PCIE的總線連入係統
據介紹,SOPHON SS1提供了一整套針對視頻和圖像識別技術的深度學習解決方案。係統核心組件是兩張SOPHON SC1(或SC1+)深度學習加速卡,通過PCIE接口實現與應用係統的連接。SS1的應用係統基於X86 CPU打造,以供啟動、存儲管理及深度學習SDK協調之用。SS1的整個係統被濃縮進一個4機架單位(4U)機箱中,集電源、冷卻、網絡、多係統互聯及文件係統於一體,客戶可以在此基礎上實現快速的二次開發或係統集成,最大程度上方便了用戶對深度學習係統的利用。
“比特大陸在深度學習、AI領域的使命,或者說目標,和我們在數字貨幣上麵做的事情一樣,通過一點一點的、一代又一代的芯片,一代又一代的產品不斷迭代,把產品做到極致,做到最好,服務好需要用到深度學習加速服務的用戶和應用。”詹克團稱。
比特大陸“千唿萬喚始出來”的人工智能芯片終於麵世於眾,其在人工智能領域激起的新波瀾已然不容置疑。然而,在此次發布的第一代產品基礎上,未來的產品迭代和相關生態建設可能是更加值得市場關注的問題。
原文發布時間為:2017-11-14
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“大數據文摘”微信公眾號
最後更新:2017-11-15 15:05:04