阿裏華先勝問依圖朱瓏,“ 萬一阿裏雲免費了,你怎麼辦?”
加速是件很恐怖的事
在人工智能的賽道上,初創公司總是免不了要與大公司競爭。萬一有數據、有人、有錢的大公司要免費了,初創公司的日子還好過麼?
這個經常在行業內被提出的問題,也出現在了2017年的綠公司年會上。問這個問題的人是阿裏巴巴集團人工智能研究機構的資深總監華先勝,而回答這個問題的是則是計算機視覺初創公司依圖的CEO朱瓏。
“ 萬一阿裏雲免費了,你怎麼辦?” 類似這樣的問題我們也很感興趣,於是也對對話中一些有意思的部分進行了整理。
以下為對話整理內容。
主持人:北極光鄧峰
對話嘉賓:依圖CEO 朱瓏;阿裏巴巴集團人工智能研究機構的資深總監華先勝
主持人鄧鋒:請來了我們學界很資深的一個人士,是人工智能領域的,美國計算機協會2015年的傑出科學家,IEEE Fellow院士,阿裏巴巴集團人工智能研究機構的資深總監華先勝,我們請華先勝來給我們朱瓏一起對話。中國人工智能是一個不是很大,全球都不是很大的圈子,現在說招一個人工智能的人才,那給的工資都極高極高的,兩位之前也很熟悉,華先生您聽了朱瓏的演講的話,您有什麼想挑戰朱瓏的。
華先勝:我經常說一句話,叫人工智能風生水起,視覺計算遍地開花。剛才朱瓏前麵講的更多的是視覺內容,就是這些花開了能不能結果其實是很難講的。我們回憶一下這個人工智能的發展,人工智能其實不是一個年輕的概念,大概60年前1952年的時候提出來的,那個時候大家也非常的興奮,十年以後人工智能就要超越人類了,大概過了十幾年以後發現不行,這個人工智能不下去了,到了80年代的時候,因為這個神經網絡的出現,而不是今天的深度學習網絡,包括這個一批算法的出現,大家又很激動很激動,這個人工智能來了,又要來了,過了十幾年以後又進展不下去了。那麼我想問朱瓏一個問題就是,這一次人工智能起來以後,我怎麼能知道它不是一個虛假的春天呢?今天有什麼不一樣呢?
朱瓏:我自己的理解,首先講不一樣的程度吧。我覺得說今天人工智能比肩或者超越工業革命毫不誇張。
很多人在談論的時候是用了這個詞匯,但實際行動上並不是這麼大定義的,他實際嘴上說說,如果是這麼大的,你應該把房子賣了都放進來對吧,但是實際行動是跟不上說話的這個程度,這個是講定義的程度。
第二個事情跟以前不一樣,以前講的概念,或者是30年前人工智能比較熱的時候,今天2012年那場會,2013年深度學習熱起來,深度學習我在那個實驗室待著,就是剛才說了很多科學家或者是年輕人並不愛學這個,它是一個冷門。
概念其實在那裏躺著,已經躺了超過10年時間,算法和模型並沒有本質的變化,今天熱起來是從結果來說的,是所有的領域的結果讓大家感覺到信心,比如穀歌把錢給砸下去了。以前的熱是說有錢人跑到MIT說,聽說你在做腦科學,1000萬美金給你,我們一定要參與一下這種腦科學計劃,或者是飛躍計劃,能不能做成。
今天是因為商業價值,看到了商業巨大的進展,這跟過去十年、過去30年所有的熱門的東西,不僅是概念,是在實驗數據上,工業級的實驗數據上看到非常深遠,或者說這種科學意義上的統計意義上的,我覺得這是最重要的不同。
華先勝:OK,這個我覺得是有道理的,跟以前不一樣了,我們現在看到了一些結果,盡管我們看到的結果其實也是一個局部的,當然還有這個關於深度學習技術真正在大規模的計算環境下能夠計算,這個深度學習技術的發展,計算能力的提升,網絡的提升,網絡帶寬的提升,數據產生的容易,包括這個用戶的參與,用戶的參與本身就是一個強的反饋,是看到的成果可能會更向前發展,真正產生作用。
那麼第二個問題是想問問你這家創業公司,視覺技術,因為我本身也是做視覺技術的,在高手之間,算法的差別幾乎是越來越小,對於數據而言一家創業公司跟BAT相比好象也毫無優勢,從計算平台的角度來講小公司更沒有計算平台了,阿裏雲有計算平台,穀歌、百度,百度有沒有不好說,至少微軟這些公司都有大的計算平台。從商業的角度來講,創業公司跟這些公司比商業也是很難比的,那麼怎麼樣讓一個創業公司在這裏麵能夠勝出呢?我打一個比方,假如有一天,微軟、阿裏雲免費了,這些技術免費了,大家注意媒體同事請注意,我沒有說阿裏雲免費我隻是打一個比方,不然我回去就被炒了,假如有一天這些大公司免費了,你怎麼辦呢?
朱瓏:這個問題在我創業的第一天就被問過。因為我自己的身份還是有一定的立場能講這句話,什麼意思呢?我在全球最好的人工智能實驗室待過,所以我天生回來的時候就很平靜的。有人問我,問百度就是問穀歌說做的怎麼怎麼樣,我知道我師弟幾斤幾兩在那邊做的,不是因為穀歌強他就牛逼了,這是由做人工智能領域最強的那個人決定的。
有數據有錢,1億美金給他,他會做成不見的,這個差很遠的,但我這個觀點不代表是為所有的創業者說話,而是說,這個事情的本質是由最強的那個人決定的,大的公司之間的博奕,微軟和穀歌之間誰有那1億美金呀,大家都有,現在創業公司1億美金都很輕鬆,錢也不是問題。
資源、數據、都有錢,你說大的公司敢投1億美金嗎?找不到那個人的時候,有錢也不敢投。
主持人:剛才我理解,聽出點火藥味來了,我們這兒人還是很牛,但是數據是關鍵,人家比你數據多。
朱瓏:首先數據是非常關鍵的,但是這裏談技術的時候,我經常被同事們問。技術有幾個層次,其中有一個叫做技術的遠見或者技術的insight,大家是不談的,大家隻是談算法,遠見是什麼意思呢?
技術未來在哪裏,就是說其實技術的理解能夠知道數據在哪裏,繼續值錢到哪裏,這不是大公司就一定知道的,大公司太多了,你看BAT跟穀歌對數據的理解還千差萬別,他敢投這個人工智能科學家,敢投5000人3000人下去,BAT是不敢投這麼多人的,他不知道business在哪裏,也不知道技術的預測。其實最一流的高手他差距就是非常大的,最牛的人之間反而有可能是差距越來越大。
創業公司有數據的瓶頸,四、五年前數據是約束我們的,這個倒是真的。但還要看你要進入哪個市場,比如醫療市場,醫療是一個非常分割的市場,今天沒有哪個大公司把這個數據通吃或者壟斷了。
哪一些市場是特殊的?有用戶場景的。有大量用戶場景是大公司的強優勢,我覺得小公司基本沒戲,既使是你有技術。這要區分來看,有一些領域,比如說人臉,大家都做人臉識別,那用網絡上的數據,其實大公司小公司都沒有太大差異,都能收集到1億、2億的數據,但是到比如剛才說的ATM機刷臉取款的那些場景,既使是非常大眾化的人臉識別這個領域,BAT也沒有ATM機的數據,你也得從最簡單的開始做起。越垂直、越分散的領域,大公司不見得有優勢,這是創業公司很大的機會。
華先勝:看來你對於自己的科學家的團隊還是很有信心的,實際上我覺得大家都知道這個智能的發展,人工智能這個技術落地確實是有很多的因素在裏麵,有科學家,或者叫算法,算法是由科學家發明的,所以我把他混在一起來談,有數據,有平台,有商業模式,有用戶,這些因素基本上是缺一不可的,他可能應用強調這部分更多一點,有一些應用可能強調另外一個因素更多一點,其實我有些同意剛才朱瓏的一些看法,特別是講到要深入一個行業去,我覺得是非常重要的。人工智能遠遠還沒有到我想到一個算法然後就work,不是這樣的。還差的遠的很。
第三個問題,剛才講到很多監控的問題,智能的發展對將來會不會產生一些負麵的影響?比如安全方麵,隱私方麵,這些將來帶來的問題,帶來的困擾。就相當於計算機發展的過程當中剛開始PC的時候有病毒,後來網絡有木馬,現在數據和web2.0、3.0等等這些概念出來,假新聞等等之類的都會帶來負麵的一些因素。我想問一下,雖然跟你的創業公司不見得有直接相關,我想問一下你在這方麵有什麼樣的看法。
朱瓏:技術帶來的社會影響其實是一個長久的話題,人工智能可能今天因為超越人的智能邊界的時候,會更加敏感。我覺得兩個方麵,第一個方麵就是它其實不是安全問題,或者不止是安全的問題。“智能”大了之後的社會分工,我覺得十年之內有巨大的動蕩,不僅是中國,全世界都會麵臨這個問題。我為什麼是我?我大學上了到底有沒有用?大家如果家裏有小孩,今天可以開始思考到底學什麼。這個課題在過去的教育學家的課題可能這一頁應該翻過去了,要重新開始思考。
沒有人是特別知道應對30年後的世界,現在學什麼才是對的,因為今天我們開始重新認識自己。未來20年,人類社會分工,或者經濟形態會有巨大的變化。以前大家都學車,那以後無人車都有了,你學車就被人笑話對不對。
第一個層麵是說,這個會有非常不平衡的情況出現,而且政府一定是滯後的,因為這個時間越長,沒有人有特別強的預測能力和管控能力,所以這是第一個層麵。
第二個事情是,目前AI技術並沒有跟其他的互聯網技術,或者是其他信息技術在安全性上,或者是其他層麵上帶來的威脅有本質的區別。技術都有兩麵性,一定會出現有利的地方和不利的地方,在過去因為有黑客互聯網就不發展了?不太可能。我覺得AI並沒有特別強的特殊性。
華先勝:剛才朱瓏講到了一個非常有意思的關於人臉識別技術,機器識別的能力,但是其實還有另外一點,機器識別的局限性。比如我們對一個人的時候,哪怕這個人的側麵,哪怕是一個背影,哪怕是燈光灰暗的,哪怕是有人遮擋的,人是能夠識別的,機器很多情況下就歇菜了,也就是說這個機器是在某一個方麵是強的,在某一方麵是弱的。
比如說,現在還有一個例子就是對話這件事,你在某一個行業裏麵,或者說你隻是問他一些,告訴它訂機票,查天氣,叫個車,那是很好的,你要隨便跟他聊聊天,說這個北京天氣怎麼樣,飯館怎麼樣,或者是杭州呢?它就說杭州有美麗的西湖,就不知道你的聯係到說杭州的天氣怎麼樣。那麼人工智能的局限會不會限製將來的發展?到底怎麼樣結合人的智能和機器的智能的這個長處去產生真正的影響?
朱瓏:剛才這個問題也比較一般難見到。我本來給大家解釋那條曲線,稍微有點複雜,我剛才跳過去了。那條曲線,橫軸是不同的年限,縱軸是錯誤率,大概是這麼一條下滑的曲線,曲線上不同的點是什麼呢?就是每一萬人當中把你識別出來超過95%的這種點,再往下一個點就是1000萬,100萬人1000萬人,1億人,10億人。技術是這樣子發展的,什麼意思?
剛才1萬人、10萬人對應的是算法的識別性能,也是對應算法適用的場景性能在10倍、10倍的提高。場景是不斷被解鎖的,而且這個過程是一個非常大非常大的加速的過程。
過去我們很難想象ATM機這種邊界是可以做的,實際的應用場景有的時候是超越你想象的。我們是業界最前沿的,有時候都會受到驚訝,舉個例子,警察拿著人臉識別去辨認屍體,這不是設計者最初能夠設計到的,我也不是這麼弄的,警察說這個也可以,屍體不知道身份,他就可以查出來。他應用於這個事情的時候,大大超越設計者的想象。今天的智能,我們的想象已經跟不上人工智能發展的速度了,所以千萬不要擔心人工智能還做不到你剛才說的那些事情。
華先勝:我舉一個例子,你雖然做的很準,但是你很難應用。拿醫學圖像處理來說,大家知道照X光,或者是各種各樣的CT,MRI,你可能有很多東西,如果你的影象科醫生是很好的,醫生他看的比較準,不好的醫師可能看不好,經驗不豐富看不了那麼準。人工智能來做非常好,現在這個準確率也有提高,但是問題在哪兒呢?因為我們用了深度學習的方法,導致什麼呢?他看的圖片以後,他可能看了幾百萬的圖片,其中有可能有幾十萬是病人,他就告訴你這個可能是有癌症,或者說準確率多高有癌症,但是他解釋不出來為什麼。你要給到這個臨床醫生他給你看,他說,你這個左胸和右胸的這個紋理不夠清晰,或者是哪兒不夠清晰,結節的形狀,結節的大小等等,他會說一些這個東西,可是人工智能給你回答的隻是說你這個疑似癌症。這怎麼在實際當中用?你沒法跟病人解釋怎麼辦?
朱瓏:我來解釋一下,剛剛那個片子可能大家沒有細節看,我沒有展開。我剛才有一個CT的片子,我們出的報告恰恰是你說的,裏麵對結節的大小,它的體積、可疑性等都有描述,我們會出病理報告,就是診斷報告,醫生隻要在這個病理報告上做一些診斷。就是說它是可以被解讀、可以跟醫生交流的,他是做一個描述性的東西,不是隻回答患癌或健康。
主持人鄧鋒:你已經不是簡單的深度學習了,你已經走到結合其他的東西來做的方向了。
朱瓏:可以這麼說吧。剛才說的問題是有一部分存在的,甚至是大部分存在的。時間就是2017年比2016年快太多,2016年比2015年快太多。
我舉一個例子,2016年我們的產品能夠被部署到醫院,就用了半年時間。在公安係統同樣的這個事情我做了兩年半的時間。
就是說技術在商業化落地的過程,商業跟技術結合的過程越來越加速。當然這個可能是我們一家公司的特例,或者說不是現在市麵上的公司都這樣,但我覺得總體趨勢是這樣的。
主持人鄧鋒:加速是最恐怖的一個事兒。
來源:36kr 作者:石亞瓊 原文鏈接
最後更新:2017-04-26 20:00:17