“中國版英偉達”深鑒科技完成4000萬美金新一輪融資,螞蟻金服三星領投
(《麻省理工科技評論》中英文版APP現已上線,年度訂閱用戶每周直播科技英語講堂,還有科技英語學習社區哦~)
過去美國的矽穀借著晶體管、半導體站到世界科技的中心,不過,現在由人工智能(AI)發動的新一代半導體芯片大戰,中國企業特別是創業公司,已經是不容忽視的角色了。
當 AI 成為眾人追尋的新邊疆後,各式各樣的商機跟著顯現,其中一個就是半導體,昨日在台積電舉辦的 30 周年大會上,科技大佬們的話題始終離不開人工智能,不過要讓 AI 應用執行的又快又好,傳統的 CPU 恐怕難以滿足,而這恰恰給了新創公司一個大好的機會:要從根本上改變計算機的運作方式,就得開發更適合深度學習等算法的新芯片架構。
圖丨在昨日舉行的 30 周年慶論壇中,台積電邀集了蘋果、英偉達、高通、ARM、博通、ADI和ASML等主要合作夥伴,一起暢談半導體產業的下個 10 年
現在不僅矽穀已經重新興起了一股新的“矽公司”誕生潮,將場景拉到中國,更是有過之而無不及。“在 AI 芯片的戰場中,中國創業公司堪稱是熱鬧非凡!”研調機構 CB Insights 相當生動的描繪這一個正在蓬勃發展的局麵,芯片創業公司在今年的募資金額有望達到16 億美元,比起 2016 年的13 億美元、 2015 年的8.2 億美元增加不少。但在這之前,芯片創業公司被視為“有毒”,風投們生怕一碰就受傷,會有此巨大的轉變就是他們從 AI 芯片看到了龐大的商機。
中國一直以來積極推動半導體自主化,現在看來,“中國芯”這個目標極有可能率先在 AI 領域實現。而有一家新創公司,讓全球知名的 IC 設計公司聯發科、Xilinx、以及三星願意掏錢投資,甚至放話要挑戰 NVIDIA 的 TensorRT,這就是深鑒科技(DeePhi Tech)。
今天下午,深鑒科技在北京召開新品發布會,首次展示了深鑒的一係列全新產品,包括基於深鑒DPU平台的一站式智能 IPC 解決方案、視頻結構化方案,麵向DPU平台的深度學習開發套件DNNDK等。
圖丨深鑒科技 2017 新品發布會
同時,深鑒科技也正式公布完成 A+ 輪融資。此次融資總額約 4000 萬美元,由螞蟻金服與三星風投領投、招商局創投與華創資本跟投。本輪融資一部分將繼續用於安防和大數據領域的產品開發和市場銷售,落地更多安防監控的終端產品和服務。
據深鑒科技 CEO 姚頌向 DT 君表示,螞蟻金服的戰略資源注入,會幫助深鑒進一步開拓包括金融在內的更多應用場景;與三星之間,則側重於存儲等方麵的合作,為 AI 芯片打造以深度學習處理器為核心的智能化解決方案和高效的整體係統,以便多領域拓寬和產品落地,加速深鑒科技邁進商業化階段。
圖丨深鑒科技 CEO 姚頌
本輪融資跟投方之一、華創資本合夥人熊偉銘先生向DT君表示:“深鑒科技在稀疏計算領域的研究是世界領先的,他們在FPGA領域的口碑也得到了國際大廠的認可,而且從產品演進角度考慮更加容易走向ASIC應用,所以我們非常看好深鑒在人工智能領域的發展。”
憑借深度壓縮算法在競爭中成功突圍
在深度學習領域,過去一直都是由 GPGPU 架構領跑市場的發展,但如今 FPGA 和基於 TPU 架構的加速方案也不斷冒出頭,這些產品不約而同的具備可程序化的能力以及極佳的計算效能。然而,對 AI 產業而言,計算硬件最終效率都會因為彼此學習而走向一致,那麼決定整體方案優劣的關鍵因素何在?答案就是軟件環境了。
深鑒作為近兩年最受矚目的 AI 創業公司,發布了不少硬件計算架構,也打進了不少應用環節中,然而深鑒之所以被格外重視,並非僅靠這些硬件方案而已,其重點在於基於完全自主的深度壓縮算法。
這個算法有多重要?要知道目前 AI 分成雲端和終端,當然還有部分邊緣計算,這些數據的收集,模型的建立、存儲,到把模型傳送到應用終端上,其間需要多少存儲空間,以及消耗多少帶寬,相較於計算硬件本身的固定支出,這些變動成本累積起來隻會更龐大,且模型容量因為存在太多不必要的信息,傳輸過程會額外消耗不少時間,即便隻是做個終端的簡單 AI 模型更新,都會讓消費者感到漫長無比。
所以深鑒的核心概念就是,通過壓縮法把神經模型中的冗餘部分去除,幫模型大幅瘦身,這樣一來可以減輕對帶寬的傳輸負擔,二來降低模型存儲的空間需求,對於現有的網絡環境,以及雲端服務設備,都可大幅減輕相關的營運與維持成本。
另外,深鑒也配合專利算法開發相關深度學習方案硬件,包含視覺辨識平台、語音識別平台,以及針對 CNN 計算的 Aristotle 平台,通過片上存儲的技術,來存放壓縮過後的模型,減少對內存的讀取,不僅可大幅降低功耗,同時也能強化效能表現。
揭露最新進展
深鑒在北京時間 10 月 24 日下午舉辦的發表會上,公布了其在深度學習領域的最新進展,發表了多款包含圖像識別以及語音識別的新方案。
圖丨深鑒三大核心競爭力
圖丨憑借深度壓縮能力,深鑒可以把深度學習應用推廣到更邊緣的計算終端裏
圖丨深度壓縮的特性
圖丨 DNNDK 是國內首款針對深度學習開發環境的 SDK
圖丨人臉檢測識別模塊,可以讓打造人臉識別相機更簡單
圖丨 DP-2100-F16 則是針對性能需求較高的大批量人臉識別計算方案
圖丨 DP-2100-O16 則是作為較”通用”的視頻結構化分析計算方案
圖丨全新的 CNN 處理 Aristotle 平台
圖丨語音識別加速方案,目前已經在 AWS workplace 上線
為了應對深度學習所針對的各種越來越複雜的數據類型和量級,各家廠商的深度學習計算硬件在本身計算能力的強化之餘,重點幾乎都擺在係統本身的帶寬改善上,比如說使用的內存從 DDR3 升級到 DDR4,而且從雙通道增加到更多通道,亦或者是在計算芯片上集成了 HBM 內存。
當然,這種尋常硬件發展思維下的做法本無可厚非,然而,這麼一來不但成本增加,二來功耗也變得更難看,且更重要的是,很多時候瓶頸不是在係統計算核心的部分,而是來自於數據傳輸的過程,也就是說,這些硬件廠的作法並沒有對症下藥,反而在某種程度上加重了病情。
例如,提供 FPGA 邊緣計算服務的企業常會麵臨幾個挑戰,不論是在學習的過程,或者是學習後的模型建立,很多時候都卡在帶寬上,這會造成兩個結果,一個就是在學習的過程中,係統來不及把數據喂給計算硬件,導致計算硬件空轉。第二個是學習完建立的模型非常龐大,不僅提高了存儲的成本,也增加係統傳輸的負擔,模型很難被下放到一般儲存空間有限的智能終端硬件,限製了應用可能性。
也正因為此,“未來深度學習的應用成敗關鍵,就在於有沒有好的壓縮算法可以降低帶寬的負擔。”深鑒科技 CEO 姚頌一語道破。
壓縮算法帶來效能提升,比換硬件架構更劃算
圖丨在不同網絡下的性能比較
如果可以把模型直接壓縮到幾十分之一,權重數量減少到三分之一,那就意味著你可以減輕帶寬負載到數十分之一,並同時把性能提高到 3 倍。目前市場上的 AI 計算硬件,鮮少有企業敢宣稱自家相鄰兩代的計算硬件性能在同等芯片/計算密度下,可以有 3 倍性能提升。但是,深鑒單純借由壓縮算法的導入,就可大幅改善現有計算硬件的效率,這對於業界而言,帶來的影響是革命性的,因此深鑒甚至被譽為是中國版英偉達。
圖丨物體識別的效率並不因為壓縮的過程而有明顯減損,但可省下九成的模型存儲空間
英偉達開創了深度學習時代,而深鑒則是革新了深度學習的模型建立邏輯,狠狠踩破了傳統計算硬件的發展思維。
這個算法倒底強在哪裏?
這個算法是由深鑒科技的聯合創始人韓鬆博士所發明,借由稀疏化來加速深度學習的過程,並且大幅為學習後的模型瘦身。其算法結構用上了剪枝(Pruning),量化(Quantization),權重共享(WeightsSharing)以及霍夫曼編碼(HuffmanEncoding)等深度學習專用壓縮技術。
圖丨深鑒的壓縮算法擁有不同的粒度設定,可針對不同規模的學習模型自適應調整出最佳設定
類神經網絡就好像人類的大腦一樣,每個神經元能連結其他神經元的數量有限——也就是說,當類神經網絡在“思考”的時候,其實是包含了很多沒有任何意義的冗雜信息,以及對結果判斷沒有影響的權重,而最簡單的作法,就是為這些權重的絕對值設立一個閾值,隻要小於這個被預先定義的範圍,我們就直接把相關數值舍棄,隻保留絕對值較大權重對應的連接。
圖丨通過 DECENT 神經網絡壓縮工具可在不損失算法精度的前提下,將網絡模型的計算量和規模壓縮幾分之一到幾十分之一
憑借這種壓縮邏輯,最終產生的模型規模可獲得大大的縮減,不僅改善帶寬占用,同時也能強化後端平台使用此模型的 AI 應用執行效能。當然,韓鬆所發明的這套算法擁有專利,雖然業界要避開專利發展類似算法不是不可能,但難度非常高,且前麵還有深鑒這堵高牆存在。
DNNDK 直接對標英偉達的 TensorRT
圖丨深鑒的 DNNDK 借由更有效率且更彈性化的開發環境,解決開發者在產品開發上的問題
深鑒之所以被稱為中國版英偉達的另一個原因,就是在深度學習的開發 SDK 方麵,直接和英偉達才剛發布不久的 TensorRT 打擂台。
TensorRT 作為探索 GPU 計算潛力的必備軟件工具,不僅設計上簡單易用,且能夠將深度學習中的推理算法更好的發揮出來,作為英偉達布局深度學習的第二個階段,那就是把 GPGPU 從單純學習,增加推理計算應用,其重要性不言自明。
那麼 DNNDK 又是怎麼回事?這套 SDK 是深鑒針對自行發展的 AI 異構計算平台 DPU(Deep-learning Processor Unit)所推出,提供全自動的壓縮與編譯工具鏈等流程的支持,涵蓋了神經網絡推理(Inference)階段從模型壓縮、異構編程、編譯到部署運行的全流程支持,幫助深度學習算法工程師和軟件開發工程師輕鬆利用 DPU 的深度學習計算能力,實現 AI 計算負載的加速。
圖丨 DNNDK 與自家 DPU 平台緊密結合,帶給業界更高效,且一致性高的開發環境
舉例來說,依靠 DNNDK 提供的輕量級 C/C++ APIs,開發一個 ResNet50 圖像分類應用,大概隻需要兩百行左右的代碼量,其中與 DPU 編程相關的代碼隻有五十行左右,大大減輕了程序開發者的工作負擔。當然,最重要的壓縮功能,DNNDK 已經做到全自動化的地步,完全不需要人力介入。
目前, DNNDK 已經支持了主流的 Caffe 框架神經網絡模型,另外對 TensorFlow 和 MXNet 框架的支持很快也會在後續的改版補上。
吸引業內巨頭三星、聯發科等大咖投資
正因為深鑒的定位極為特殊,剛好又站在 AI 計算生態興起的風口上,從創立之初就極受關注。
聯發科和三星同樣都對 AI 的應用和技術發展有著濃厚的興趣,尤其是三星,其 Bixby 以及延伸出來的自然語音服務體係,已經貫穿整個三星企業的核心產品,但尷尬的是,三星還沒有自己的終端 AI 計算方案,雖然已經開發一段時間,但是看到蘋果的神經引擎,以及基於寒武紀的華為 NPU 在 AI 計算效能上技驚四座,維持閉門造車的作法恐怕不能再和這些方案競爭。
也因此,為了在相關的 AI 終端能夠卡到更好的位置,擁有絕佳專利的深鑒開發方案就成為首選。三星風投並沒有加入深鑒 5 月的 A 輪募資,相反的,是在 8 月以個別投資的方式加入深鑒的股東行列,目前投資金額不明,但預估不會少於 A 輪募資中幾大首要投資者。而值得一提的是,深鑒也是三星風投對外投資的第二家 AI 方案公司,可見其對深鑒的重視程度。
聯發科的處境和三星有點類似,同樣是想通過移動方案加入 AI 計算能力來提升整體方案的競爭力,並且希望能擴及到更多的產品應用。但與三星不同的是,聯發科的 AI 發展基礎相當薄弱,目前該公司也還沒有任何 AI 服務形成生態。因此對於聯發科而言最快的方法,就是導入目前業界已經被普遍使用的 AI 架構,直接取用現成的生態。
值得關注的是,深鑒目前在語音與圖像識別方麵已經擁有不少客戶,相關的開發資源也算得上豐富,若直接集成深鑒的 AI 技術,對於往後方案的競爭力,以及提升方案的應用廣度上將有正麵幫助。雖然聯發科在 AI 技術領域還沒有太顯眼的結果,但聯發科在其汽車方案的圖像識別技術上,正是選擇了深鑒作為合作對象。
當然,除了三星風投和聯發科以外,Xilinx 是另一個重要的核心支持者,這家 FPGA 方案公司在深鑒開創之初就已經了解到其應用上的潛力,因此 Xilinx 不但在方案供應上與深鑒有相當緊密的合作,並且還借助深鑒的深度壓縮算法,改善市場競爭力。
深鑒、地平線以及寒武紀
DT 君用簡單的描述來區分這三家方案公司,深鑒的團隊多由清華出身,特色是用專利深度壓縮帶領其 DPU 方案打入市場,其強大之處在於借用壓縮手段,可以把 AI 的推理判斷帶入更多、更細微的終端應用。雖然目前是基於標準 FPGA 架構,但不久後也會推出自己的 ASIC,借以進一步優化性能與功耗表現。
地平線則是在應用的算法上有其獨到之處,尤其是針對自動駕駛的視覺判斷算法上,可達到低功耗與高效能表現。地平線的團隊是從百度出來,著眼於算法加上自有芯片的開發,但市場麵向較深鑒更有針對性,目前主要業務目標是針對汽車 ADAS 或自動駕駛需要的視覺判斷方案進行開發,與視覺判斷相關的智能家居、安防也有涉獵,並於日前宣布完成由 Intel Capital 領投的 A+ 輪融資。
而搶下全球 AI 芯片第一隻獨角獸封號的寒武紀,定位比較特殊,主打高“通用性”的深度學習方案,與前兩者“針對性”較高、方案隻能一個蘿卜一個坑的作法不同。由於寒武紀投入開發的時間較早,目前主流的深度學習標準幾乎都有支持,且雖然強調通用,但其理論性能非常強大,與國外方案相較之下甚至有過之而無不及,現階段最為人所知的應用案例,就是華為在其最新的高端手機方案麒麟 970 中集成了寒武紀的 NPU 計算單元。
由於三者針對的市場領域各有不同,所以 DT 君也不做技術優劣的區分,事實上,硬要比的話隻會落入關公戰秦瓊的尷尬局麵。總之,這三家廠商都在各自的領域成功打下一片江山,技術層次與市場競爭者相較之下,毫不落後。
圖丨三家強勢崛起的中國 AI 芯片公司
自 2016 年 2 月成立至今,深鑒科技得到了來自金沙江創投、螞蟻金服、三星風投、聯發科、Xilinx、華創資本、高榕資本等多家重量級機構的注資,成為國內發展最快的 AI 整體解決方案創業公司之一。
在各家深度學習方案先後崛起的情況下,深鑒方案依靠著深度壓縮算法,著實卡在一個相對有利的位置,憑借這個算法,有機會達成他們賦予萬物智能這個遠大目標,但光靠一個成功的算法還沒辦法成就偉大的事業,深鑒在方案的多樣化,以及開發環境支持的完整性其實也還有改善空間。
但作為一家成立不過兩年的公司,深鑒獨特的技術切入角度,的確給全球 AI 產業發展造成思維上的巨大衝擊,DT 君也樂見深鑒的崛起能為中國 AI 產業帶來更好的激勵作用,甚至如同當初英偉達帶起 AI 計算革新,由我們”中國英偉達”掀起下一波 AI 產業的革命。
而深鑒科技對此也信心滿滿,深鑒科技 CTO 單羿在發布會上所說:“深鑒科技有信心引領前沿技術,希望能助力中國人工智能行業實現彎道超車。而此輪融資的完成,將為深鑒產品研發與市場推進注入強大動力,實現深鑒科技在人工智能領域的穩固發展,加速完成市場布局。”
最後更新:2017-10-24 15:45:31