閱讀78 返回首頁    go 阿裏雲 go 技術社區[雲棲]


【獨家】曠視科技CTO唐文斌專訪:純做技術的公司無法持久

沒有什麼技術是不能被取代的,曠視科技Face++聯合創始人唐文斌認為,算法技術隻是手段,最終是產品價值讓用戶買單。日前,唐文斌接受了新智元專訪,談了曠視科技Face++的商業模式、公司定位以及人才和發展觀。他表示曠視不是一家技術公司,而是一家產品公司,一家以人工智能技術為核心的產品公司。

0?wx_fmt=gif&tp=webp&wxfrom=5&wx_lazy=1

“沒有什麼技術是不能被取代的。”唐文斌說:“算法也好,技術也好,都是手段,最後能夠提供出去的是產品價值。”這位三十剛出頭的曠視科技Face++聯合創始人,對這家中國人臉識別獨角獸有著很清晰的定位:“曠視不是一家技術公司,曠視是一家產品公司,是一家以人工智能技術為核心的產品公司。”他認為客戶最終一定是為產品價值買單。曠視的團隊人數從去年到現在翻了一番,增長到600多人,其中擴張速度最快、人數也最多的就是產品部門。

相比曠視更常出現在人們視野中的另一位聯合創始人印奇,唐文斌說他們的搭配是“印奇仰望星空,我腳踏實地”,更加側重工程的他關注如何選擇場景結合技術,給用戶帶來最大增值,“不是nice to have,而是must have”。他認為曠視工程團隊要做的事情是把算法邊界內能夠自動化的任務全部交給機器去完成。他在尋找的也是複合型AI產品經理,以及能夠隨時轉變為researcher,時刻想著如何把research沒有價值的工作砍掉的懂算法、懂編程、更懂體係結構的全棧AI工程師。

日前,唐文斌接受了新智元專訪,談了曠視科技Face++的商業模式、公司定位以及人才和發展觀。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

唐文斌在曠視科技Face++北京辦公室

曠視不是技術公司,是產品公司

新智元:目前在人工智能領域尤其是深度學習技術落地,你認為真正的壁壘在哪裏?

唐文斌:我認為深度學習技術的落地,核心的一個關鍵詞是“結合”。我們有一些很好的算法,比以前的性能提高了很多,但一定要找到合適的場景,把算法用進去解決問題,給用戶帶來明確的價值,這些價值不是“nice to have”,而是“must have”。

我們內部有個說法,叫“用戶價值增量”——當你把技術用在場景中後,給用戶帶來的價值和用他原來的方式相比增量有多大,如果很大,那麼這就是一個非常好的場景,如果增量隻有一點,說明這要麼不重要,要麼你沒有看清本質。以人臉識別為例,就是要不斷去思考,人臉識別到底是在哪些場景下,給誰、通過什麼樣的方式,帶來了多大的價值。

賣技術的話,今天你能賣,明天他也能賣,所以一定要做深,深入行業,把產品做好,形成完整的一套業務服務,這並不是從用戶價值的角度去思考,而是公司生存的角度。極端一點說,我認為沒有哪家公司是無法取代的,客戶為什麼選擇你而是不選擇另一家,一定因為你給他帶來的價值更大,他買單的是你產品的價值。

新智元:曠視如何找到這種技術跟場景價值增量高的結合點?

唐文斌:我們經曆了好幾個階段。最早的時候,作為一家純技術公司,我們做了一個麵向開發者的開放平台,叫Face++,通過API的方式提供互聯網服務,美圖秀秀、快手等APP都用了我們的技術。第二個階段,我們開始關注技術到底在哪些場景下能給客戶帶來重要的價值——去尋找那些用戶需求感知非常強烈的場景。我們找了很多,最終決定在兩個場景進行業務的深入。

第一個是互聯網金融,通過人臉識別進行遠程身份認證,把線下業務線上轉化,讓用戶有更便捷的體驗,銀行這邊也實現了安全,這個增量是非常大的。第二個場景是安防,現在有大量的安防數據,人根本看不過來,而用機器去看,可以識別裏麵每一個人是誰,還可以識別逃犯,根據觀察到的人物行為模式進行預警,這是原本做不到的事情,這個業務價值增量也是巨大的。

同樣一個技術,比如人臉搜索(或者叫圖像搜索),你既可以用在搜索視頻看哪個影星出現在哪些電影片段中,也可以檢索監控攝像頭視頻,在後麵一個場景你可以解決老人、小孩走失的問題。所以,我們在這兩種場景下,一定選擇後者,因為後者價值更大。

曠視的人臉識別做到什麼程度了?

新智元:曠視現在的人臉識別做到什麼程度了?

唐文斌:這個要取決於具體的場景和數據庫。在不同的場景下需求是不一樣的,比如說用人臉識別來做開門,員工走過來門就開了,這種個場景下要求召回率非常高,每個人都得識別出來,並且速度要非常快。我們給阿裏集團做刷臉門禁,阿裏現在幾萬人,基本上一天可以識別幾十萬次,大概誤報1~2次。

在安防場景下,數據庫會大很多,公安識別嫌疑人的訴求,最重要的一點就是不能老喊“狼來了”,這就要求識別出的盡量都是對的,我們一般會控製一個誤報率。現在我們在安防場景下識別嫌疑人,基本上路過的嫌疑人都能夠識別出來,並且誤報不會超過30%。目前業界還沒有一個基準,但我們參加了很多樓宇、安防競賽,都是業界的最高水平。

現在經常聽到99.9%,這隻是在某個數據集上的表現,真正現實的問題和場景要比測試數據集難太多太多。其實最早是我們引領了刷benchmark這個風潮,後來我們又不怎麼刷了。我們最早刷LFW,已經基本刷到頂了,最後即使出錯,感覺好像也不是本質問題,所以我們就沒有去管這個事情了。但現在大家還很瘋狂地在刷99.9%後麵的位數,這沒有任何意義,LFW隻有6000對數據,那個數據集早就已經過擬合了。我認為大家要更關注的點,應該是更結合實際場景去解決問題。

新智元:曠視現在很多行業落地都跟政府有著很強的相關性,ToG是否是人工智能發展的一個重要方向?這是否是曠視發展的一個重要方向?

唐文斌:麵向政府絕對會是人工智能發展落地的一個新方向。就像我剛才說的,我們要做什麼,不做什麼,選擇的邏輯是用戶價值,圖像識別或者人臉識別對於城市治理和公共安全能夠帶來非常大的價值增量,我們是非常願意去做的。政府現在是我們最大客戶之一。當然,政府也非常支持現在的人工智能產業發展,在這種需求裏麵也給我們提供了很多的機會。

Research負責尋找算法之外的東西,邊界裏麵的全部通過工程實現自動化

新智元:曠視的核心優勢是什麼?

唐文斌:深度學習有三個核心要素,算法、數據和係統,這三者是相乘關係——你有一個好的算法,用有很多數據去催它,當數據變多、算法變複雜後,還需要有一套很好的底層架構和引擎來支撐。

從算法的角度講,我們請來了孫劍老師,希望孫劍老師帶著同學們在現有算法基礎上找到新的東西。算法就像人的智商,數據就像人的見識,見識決定了你能走到多高,而智商決定了你能走多遠,兩件事情都非常重要。我們的研究團隊其實就在智商這個方向上探索。而數據是一個更產品或者更工程的事情,我們需要在產品中設計一個好的方式,形成數據的循環,讓產品中的數據回來,不斷加深算法的訓練,讓它變成更強的算法。

我們也非常重視係統的建設,我們有自己研發的MegBrain深度學習引擎和Brain++平台。如果說研究的價值在於去探索邊界之外的東西,那邊界之內的,比如網絡結構的搜索,都應該用機器來完成。我們的產品中常常會有的定製算法的需求,很多時候大框架都差不多,數據工程師把數據整理和準備好以後,就直接用係統把各種類型的模型都嚐試一遍,最後挑選出一個不錯的。

新智元:你提到了數據工程師,現在曠視在數據方麵投入多少?有多少人標注數據?

唐文斌:全職標注的大約有300人,不算在600多人的團隊裏麵。我們還有很多工作是外包完成。我們內部有標注的數據庫是PB級別。

新智元:你曾在清華擔任科協主席,也帶過中國奧林匹克信息學競賽團隊,可以說你是曠視最開始的首席人才官。你認為目前人工智能人才應該有什麼樣的特點?曠視在選擇的時候看重什麼特質?

唐文斌:我覺得人才的類型是很多樣的,每一種類型的人才都是人才,光會寫paper的人才也是人才,雖然價值沒有那麼大。在現在的人工智能發展態勢下,我們最需要的是複合型人才。做產品的時候會有產品經理,但人工智能場景下的產品經理需要更加複合。

我們團隊最早的一位同學,員工工號No. 5的“卿爺”,我們現在提供給小米、VIVO人臉解鎖的產品線都是他帶著團隊來做的,他需要有什麼樣的能力?第一,懂算法,不一定要懂算法具體是怎麼做的,但一定要懂算法的邊界在哪裏——堅信這件事情一定能做到,但同時也要了解現在的算法有些東西是真的做不到。第二,有很好的工程判斷力,用算法的方式是從本質去解決問題,而有些東西你會通過工程的方法去“不本質的解決”,倒推出一個一個設計。第三,也是更為重要的,需要不斷從用戶的需求、用戶的場景、用戶的價值角度出發思考問題。這樣一個產品經理,他需要比以往的產品經理有更多工程上sense,更多算法上的sense。

從工程師的角度來講,我們有一個詞,叫“全棧AI工程師”,我們希望這位同學不僅數學好,懂算法,編程很強,還非常懂係統;算法編程都很懂才能做引擎,懂體係結構你的引擎才能在不同的平台上都跑得很好很快。這樣的人非常難找,但也是最強的。比如說我們做Brain++平台的那幫人,他們提供的是訓練平台,給到研究人員使用,他們知道Research是怎麼使用這些東西,他們自己也隨時都能轉變為Researcher。同時,他們考慮Researcher做的哪些事情是沒有價值的,要把它工程化、係統化,最終的目標是消滅Researcher——所有在邊界範圍內的Research都由係統來完成,而Research真正要做的事情是突破邊界,探索邊界之外的東西。

曠視在選擇人才的時候也是按照這個標準。如果有這樣的人,我們特別特別希望你能夠加入我們,我們團隊裏有很多這樣的人,你跟他們在一起一定會非常愉快。其次,我們也很看重學習能力,現在領域發展很快,你需要非常快速地跟上節奏去嚐試你的新想法,所以學習能力和動手速度非常重要。我們也有實習生項目,總之歡迎你來,孫劍老師帶你飛對吧(笑)。

新智元:曠視的算法、軟件如何與硬件相結合?

唐文斌:我們有自己的深度學習引擎MegBrain,這個引擎在不同的品牌上做了非常多的底層優化,能夠跑得非常快。我們最近做的一款智能相機產品,這個相機是業界第一款全幀率、全畫幅(1080P)智能人像抓拍機。

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy

曠視的全幀率、全畫幅(1080P)智能人像抓拍機

全幀率的意思就是說,每秒30幀,每幀都去抓取,在業界這個指標是最高的。有的嫌疑人員有很強的反偵察意識,一看到攝像頭會馬上低頭,如果相機不能以非常快的速度做出截取,可能隻有100毫秒,一兩幀之後這人就消失了。同時,每一幀都檢測,也能確保總是能抓到質量最好的一幀,為後續應用服務。以往的相機在畫麵中抓拍做檢測,基本上最多隻能抓拍畫麵中10到20個人,再多就抓不到了,因為計算量不行。我們可以做到128張人臉,很大的人流也能跟蹤得很好。

我們用的是自己設計的FPGA芯片,在算法層麵也做了很大升級。硬件也好,算法也好,引擎也好,這幾個東西是要聯合優化的。這也是自己做引擎的廠家好的地方,我的引擎可以根據算法的需求去調整。

唐文斌:我們分幾個組,研究院大概10%~15%的力量可能在解決2~5年的問題,更多的人在解決一年以內的問題,因為創業公司要務實聚焦。在介紹產品時候也講過,比如說我們為什麼做相機,並不是因為覺得相機賺錢,而是我們想當視頻大數據平台,發現源頭數據不好,後麵再怎麼分析也沒用,所以我們要在源頭上通過自己的方式把質量控製好,讓後麵的分析能力能夠更強,形成端到端的解決方案和業務價值。


我們希望未來一年左右,在金融和安防這兩個場景下能夠站深、站穩,希望在這兩個行業形成全係列的產品,端到端的解決方案,給用戶一套完整的價值鏈條。我們內部有個說法是“4+2+X”,在微型場景下,把臉人車文字這4個要素識別做好,再後希望能夠形成機器人的手和腿,做一些限定場景的機器人應用。“X”是指通過Brain++這個平台快速做技術的定製,讓這個場景真正的能夠形成一個完整的產品鏈。但真真實實地講,領域發展這麼快,未來3~5年,我真的不知道!

11月8日,在新智元 AI World 2017 世界人工智能大會上,曠視科技首席科學家、曠視研究院院長孫劍博士將發表演講,聚焦人臉識別等視覺前沿技術和問題,為我們帶來計算機視覺最新技術和應用的精彩分享。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy


孫劍博士目前在曠視科技(Face++)擔任首席科學家、曠視研究院院長。2003年畢業於西安交通大學人工智能與機器人研究所,畢業後加入微軟亞洲研究院 ( Microsoft Research Asia),任職首席研究員。自2002年以來在 CVPR, ICCV, ECCV, SIGGRAPH, PAMI 五個頂級學術會議和期刊上發表學術論文 100+ 篇,Google Scholar 引用 25,000+次,H-index 60,兩次獲得 CVPR Best Paper Award (2009, 2016)。孫劍博士於2010被美國權威技術期刊 MIT Technology Review 評選為“全球35歲以下傑出青年創新者”。

孫劍博士帶領的團隊於2015年獲得圖像識別國際大賽五項冠軍 ( ImageNet分類,檢測和定位,MS COCO 檢測和分割),其團隊開發出來的“深度殘差網絡”和“基於區域的快速物體檢測”技術已經被廣泛應用在學術和工業界。同時孫劍帶領的團隊的研究成果也廣泛被應用在微軟 Windows, Office, Bing, Azure, Surface, Xbox 等多條產品線上。目前孫劍博士正在帶領曠視科技的研究團隊推進計算機視覺技術的進步和探索其在工業和商業上的實踐。


新智元:

原文發布時間為:2017-10-25

本文作者:聞菲

本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號

原文鏈接:【獨家】曠視科技CTO唐文斌專訪:純做技術的公司無法持久

最後更新:2017-10-25 11:04:07

  上一篇:go  讓“鏈式調用(方法鏈)”更加自然一點
  下一篇:go  學習ASP.NET Core,怎能不了解請求處理管道[1]: 中間件究竟是個什麼東西?