797
機器人
百度矽穀AI實驗室主任:人工智能研究和產品各有各的坑
唐旭 編譯整理
量子位 出品 | 公眾號 QbitAI
Adam Coates是百度矽穀AI實驗室的負責人。自2014年5月以博士後身份離開斯坦福大學後,Coates便一直負責百度矽穀AI實驗室的工作至今,主導開發了百度的深度學習語音識別係統Deep Speech。
最近,Coates被請到了YC播客的直播間,在那裏談了談自己過去、現在和未來的工作、遇到的挑戰以及行業的現狀和未來趨勢等等方麵的問題。
關於百度矽穀AI實驗室的工作
主持人:哈嘍大家好,你正在收聽的是Y Combinator的播客,我是主持人Craig Cannon。今天請到的嘉賓是Adam Coates,百度矽穀AI實驗室的主任。Adam,你能給那些不了解的人簡單介紹一下百度嗎?
Coates:當然……(此處省略兩百字)
主持人:OK,那麼你主要負責什麼工作?
Coates:我是矽穀AI實驗室的主任,矽穀的實驗室是百度研究院內部四個實驗室之一。(量子位注:矽穀AI實驗室、深度學習實驗室、大數據實驗室、虛擬現實實驗室)
隨著百度逐漸成為一家AI公司,需要有一支處於領域最前沿的團隊來弄明白所有目前的研究,並且能夠自己進行大量基礎性的研究,同時還要考慮如何將這些東西轉化到業務和產品的影響力上。這些事情變得越來越重要,這就是百度研究院存在的原因;尤其是在AI實驗室,我們第一次意識到這些問題將會變得多麼棘手。
鑒於當下的深度學習研究和AI研究正在如此迅速地向前飛躍,對於同時具有這兩方麵素質的團隊的需求就變得更為急迫。因此我們就建立了AI實驗室,來幫助這家公司更快地進步。
主持人:對於基礎性研究和產品的落地這兩項工作,你們的時間是如何劃分的?
Coates:這個問題沒什麼硬性或固定的規則。我們每天都會提醒自己:我們是任務導向的。準確地說,AI實驗室的任務就是創造能夠對至少1億人產生深刻影響的AI技術。我們用它來不斷地提醒自己回到最終的目標上,即我們所做的所有研究最終要落在用戶手中。
有時候這意味著,我們會發現某些必須要發生、能夠真正讓技術進步、同時能夠幫助百度的東西,但卻沒人知道如何把它搞定,這就出現了一個基礎性研究的問題,需要有人出來解決,我們會站回到更高的立場上,為長遠考慮,然後投入研究。
在這上麵獲得成功之後,我們會將注意力轉移到另一個問題上。我們會負責將所有成果輸入一個真正的應用,並且會確保放進去的東西不是隻解決了90%,那隻夠寫論文——我們會解決到99.9%。
我給你舉個例子。我們過去在語音識別上花費了大量的時間。語音識別在幾年前是那種“已經非常好但還是不夠好”的技術之一。傳統上,語音識別係統已經為移動搜索這類的東西做過很大程度的優化,如果你把自己的手機放到嘴邊,提一個短點的問題……
主持人:會得到一個非人類聲音的回應。
Coates:就是這樣。係統能夠把這個問題搞定,並且它們已經做得相當不錯了。我認為我們在百度做出來的語音引擎,叫Deep Speech,在處理這些短問題上的水平其實已經超越人類了。因為這種情況缺乏語境,人類還可能帶有濃重的口音。
其實,那個語音引擎一開始是個基礎研究項目。
當時我們看著這個問題,心想蒼了個天啊,要是你用過的每一種產品上的語音識別都能達到人類水平會是什麼樣子啊?不管是在家裏還是在車裏,你拿起電話,或近或遠,如果我在廚房裏,我的孩子在衝我嚷,我還能用語音交互嗎?它能像人類一樣理解我們嗎?
主持人:推動它進步的基礎性研究是什麼樣的呢?
Coates:我們有一個假設就是,在語音領域阻礙了大量進步的,可能隻是規模問題。
我們可以去看看那些已有的研究文獻,學習它們的基本方法,將研究規模大幅擴張,放入多得多的數據,在解決計算問題上投入了更多時間,並最終構建了一個比任何已有模型都大得多的神經網絡之後,我們基本就能收獲更好的表現。
你看看,在大量的努力之後,我們就得到了這個令人驚奇的語音識別模型,就像我說的,至少在漢語上,它已經比人類更強了。
假設你們正在聽某個人的一條語音搜索請求,然後一群本地人在那巴拉巴拉爭個你死我活,你在想“這人到底說的是毛啊?”。這時語音引擎給出來一個正確答案,然後所有人恍然大悟——那隻是一句來自中國某鄉村地區的濃重方言。
關於數據量上的技術挑戰
主持人:那你們有多少數據來對這個模型進行訓練?我覺得在上麵那個場景裏可能隻有英語和漢語吧?要是我想要德語的呢,我需要給它多少數據?
Coates:在這類事情上最大的挑戰之一,就是它們需要成噸的數據。我們的英語係統使用了10000到20000小時的音頻,為了達到最好的效果,漢語係統甚至用了更多。
這就意味著這些技術處於這樣一種狀態:想要獲得超越人類的表現,你就真的需要在上麵花費很大的心血。
百度的語音搜索、地圖這些都是公司的旗艦產品,我們可以將資本和精力投入其中。
但接下來,它也引出了基礎研究領域一個令人興奮的問題——我們該如何繞過這些障礙?我們該如何用小得多的數據量,來在每種產品上開發出超越人類表現的係統?
主持人:你有沒有關注Lyrebird公司的產品?他們說自己不需要那麼多的時間、那麼多的音頻數據就能對聲音進行仿真,或者叫模仿。你們也有類似的項目在進行,對吧?
Coates:對,我們有文本轉語音方麵的工作。
主持人:為什麼他們能用很少的數據做到這個效果?
Coates:我認為要解決所有這些東西背後的技術挑戰,我們能做的有兩方麵。
其一是盡量在許多不同的應用之間共享數據。拿文本轉語音這件事舉個例子,如果係統學會了模擬許多人的各種聲音,然後你給它第1001種,它已經通過之前的1000種聲音學會了關於語言的一切,剩下的隻是一些非常特殊的變化,隻需要很少的數據就能學會。
另一方麵就是,對於很多類似的係統來講——比如我們剛剛談到的語音識別,重要得多的問題是我們希望能從監督式學習轉移到無監督學習上,我到時隻需要給它大量的原始音頻,它就能在我要求它學習一門全新的語言之前學會語音的機製。這種方式也很有希望減少我們所需的數據量。
主持人:你前麵提到自己的團隊會去解析那些大學做出的研究成果,然後弄明白如何應用它,那你們會把所有新出現的東西都測試一遍嗎?
Coates:其實應該是某種程度上的混合。我們的角色不光要考慮AI研究,還需要考慮AI產品以及如何讓這些東西發揮效用。我覺得,很顯然每天都有那麼多的AI研究在發生,我們不可能把每個都過一遍。但當下最大的挑戰之一,並非隻是簡單地把所有東西消化掉,我們還要辨別出那些真正重要的東西。
語音產品的難題和趨勢
主持人:所以什麼產品能影響更多人?
Coates:我們選擇的是語音識別,因為總的來看,我們認為它有這樣的潛力。
隨著我們迎來AI產品的浪潮,我認為我們接觸到的東西會從這些正在不斷發展的AI特性轉變為真正沉浸式的AI產品。
如果你去看看幾年前那些手機輸入法是如何設計的,你會發現人們隻是在鍵盤上加個麥克風圖標,然後連上他們的語音API。
在當時的技術水平下,這感覺還不錯。但現在,隨著技術變得越來越好,我們現在可以把語音輸入頂到前頭去了,我們可以創造一個語音優先的輸入法,事實上我們的AI實驗室一直在做這樣一個原型。你可以把它下載到自己的安卓手機上,它叫TalkType。
我一直在用它,以前我從沒想過會這麼做。我們會發現它是如何改變用戶習慣的,我們能夠理解語音識別如何從隻是產品中的一種特性,到更為深刻地影響人們。
這激勵著我們開始注重全領域內需要解決的語音問題,語音識別的場景從湊近手機說一個搜索詞,到讓人隨時隨地都能和設備交互。
主持人:所以你們會把它推向一大群用戶,然後收集他們的反饋?我知道許多人在談論它,一些人說它根本沒意義。有沒有那種特定的使用場景,你會驚訝於它是如此的有效,或是某些你拿不準會產生什麼效果的場景?
Coates:很顯然,發消息是最受歡迎的用途。反饋的話,對我而言最有趣的部分是,那些有著濃重口音的人會評論說:“唉,我從小到大就帶著這麼野的口音,啥東西都對我無效,但我嚐試了這個新輸入法之後,它把我亮瞎了!“
現在所有的東西都適用於不同的口音了,因為它完全是數據驅動的。我們不用考慮要如何去服務這些不同的用戶,如果他們能在數據集中被反映出來,我們能夠得到一些文本,我們就能以一種手工做不到的方法來服務於他們了。
主持人:語音識別、合成這些功能以後會在本地完成嗎?還是會一直需要調用API?
Coates:我認為在本地計算是一定的。
有件事情很有意思,你看那些不怎麼了解科技的普通人,他們在和AI技術交互的過程中,經常會做出一些把對方當做人類的反應。
也就是說,我們為“愉快的”AI產品定下了一個很高的標準,希望和產品的交互能像和人交互一樣。
當我們把Deep Speech作為產品推出的時候,就遇到了一個問題:延遲。
50-100毫秒的延遲,和200毫秒的延遲在感知上有明顯區別,降低延遲對用戶體驗有很大的影響,於是我們的研究人員和產品團隊一起,尋找降低延遲的方案。
主持人:在技術層麵上,怎樣讓它反應更快呢?
Coates:最開始,我們為Deep Speech做基礎研究、寫論文的時候,選了個準確率最高的模型。後來我們發現,這個模型非常不適合用在產品裏。
後來我們從產品需求的角度來考慮這個問題,尋找那種性能差不多,但不需要那麼多未來語境信息的模型。
我們原來的模型需要聽完整句話,才能給出一個準確的反饋,這樣準確率很高,但延遲也很高,用在產品裏用戶體驗就不好。因為你和語音係統交互的時候,會需要它隨時能給你個反饋,讓你知道它在聽。
所以,我們需要修改神經網絡,讓它不聽完整句話就能先給出一個還不錯的答案,聽完整句話、了解了後麵的預警信息,再去更新這個答案。
主持人:我發現最近幾年,我們已經學會去遷就這些AI係統了。比如說我和Siri說話,就會盡量用正確的語法;旅遊的時候用Google翻譯,會盡量讓它翻譯單詞,不讓它翻譯句子。
你有沒有覺得我們和機器交流的時候應該遷就它們一點?還是說你的目標就是要造一個像人類這樣完美交流的機器?
Coates:至少在高價值的應用上,我其實希望能達到人類水平,我覺得通往這個目標的路上也沒有什麼特別大的障礙。
我們還有很多研究要做,但我真誠地相信,語音識別過幾年就能完全不成問題了。
主持人:現在最困難的事情是什麼?你覺得哪些地方還不夠穩?
Coates:對於我們能夠獲得大量標注過的數據的問題,我們還有一點可以提升的空間,但最終可以把那些問題解決掉。但是還有很大一部分人類能做的事情,通常是不假思索的,目前的語音引擎就是處理不了。
我們能夠在幾個人同時說話或者有大量背景噪音的情況下完成交談,如果你從屋子的另一邊和我對話,即便會有很多回聲,我們的對話仍然能夠繼續進行,基本上這不會對人造成很大影響。但在這一點上,現在的語音係統經常會表現得十分掙紮,但對於下一代的AI產品來講,你就必須解決這些問題。
因此我們現在在做的許多事情就是在解決這些問題。要如何解決人們彼此之間的對話?多個不同的講話者非常隨意的對話要怎麼辦?我要如何轉錄演講這類很長的結構,在演講的過程中,能夠意識到自己錯誤地理解了某些東西?我還要搞懂、轉錄一些行話術語。這是我們在對產品的革新上做得非常有用的一個地方。
我們最近剛剛發布了一個名為Swift Scribe的產品版本,來讓速記的工作更有效率,它的目標就包含了理解那些需要很長形式記錄的場景。
關於AI的前景與人才
主持人:談到摹仿某人的聲音,你對偽造這件事有什麼擔憂嗎?你看過那種人臉的仿真沒?把視頻和音頻都灌輸給機器,你就能憑空製造出一個人談話的場景。對於一個這樣的世界,我們應該如何麵對?
Coates:不,在某種意義上,我覺得這是個社會性問題。從文化上講,我們都會去做很多批判性思維的訓練。我們都會去閱讀別人的文章,如果看不清寫作風格的話,就沒法判斷它是從哪來的。我覺得在如何處理這樣的場景方麵我們已經形成了習慣,我們能夠去合理地懷疑;同樣,我認為我們會找出方法來適應這個新世界的。
我會去考慮那些不斷出現的巨大挑戰,但我同樣會想到AI將會帶來的很多積極影響。我一般不過多地去談論它。
事實上,我的母親患有肌肉萎縮症,在iPad上打字這件事對她而言很難,語音或語言的交互界麵,對於他們來講會非常有價值。這些都是平常我們不會去過多地思考的問題,但卻是這些技術在未來幾年會真正解決的問題。
那作為用戶,要如何麵對這些已經出現的挑戰?我覺得,在過去麵對這些事情時,我們已經做得非常好——在未來我們會繼續做得一樣好。
主持人:你認為AI會為人類創造全新的工作嗎?還是說我們隻是會機械地去給係統喂數據?
Coates:我說不好。這就像美國每個季度的失業率都非常高,這對我們的勞動力市場是種衝擊。我認為這個進程在變得越來越快。我們在AI實驗室裏談論這種現象,深度學習研究在這發展得飛快,我們一直在讓自己跟上這種步伐,以確保自己能夠不斷創新。我覺得這其實對每個人而言都是一點啟示,未來繼續學習將會變得越來越重要。
主持人:所以為了工作不被AI搶走,你是如何讓自己保持學習的?
Coates:我認為,現在我們的工作還沒有被機器人取代的風險。事實上,這很有趣。關於這些事情將會如何影響自己的職業生涯,我們已經想過很多。有一件事是真的:你要是想開個新的實驗室,要做的第一件事就是把那些AI專家拉進來,讓那裏成為他們每天生活和唿吸AI技術的地方。我認為這非常重要。
對於基礎性研究來講,你需要做到那種專門化。但因為這個領域正在如此迅速地發展,我們現在需要不同種類的人才。我們同樣需要那些靈活善變的人,既能理解並為科研項目做出貢獻,還能同時轉到另一方麵,考慮如何同GPU軟件以及生產係統進行交互。很多時候,今天的產品團隊並不能告訴你,要如何在機器學習算法上進行改進,才能讓用戶體驗變得更好。
邊界是個很難去量化的東西,你必須在調整算法的過程中去考慮這些。你同樣要留意科研社群,考慮什麼是可能的,什麼是就要出現的。最後,一個棒極了的全棧機器學習工程師就出現了。
主持人:這部分人從哪來?假如我隻有18歲,我想成為這樣的人,現在我應該如何準備?
Coates:這些人現在很難找。在AI實驗室裏,我們在嚐試自己創造這類人才。我們需要首先找到幾個這樣的例子,看看這群人是有多屌,然後想想辦法讓人們去學習並最終成為那樣的專家。事實上我們團隊的一個文化就是去尋找那些自我導向的、對學習保持饑餓感的人。
我們需要那種真正把1億人目標的責任掛在心上、真正自我導向、能夠去處理那些不確定的因素,並真正願意去學習那些東西的人,不光是AI研究,還要從自己的舒適區域中跳出來,學習GPU和高性能計算相關的東西,以及一個產品經理是如何思考問題的。
主持人:666。如果有人想了解更多跟你們工作相關的東西,甚至是對你們而言非常重要的東西,你會推薦他們去網上看什麼呢?
Coates:哎呦,這我得想想。我覺得實際上對我影響很大的東西其實是一些創業方麵的書。在創業圈裏我覺得其中一個非常棒的想法是,你在做的事情裏其中有很大一部分都是學習。要有一種傾向,特別是,如果我們想要打造一個什麼東西,對於那些工程師而言,我會把自己看成他們的一員。
因此,我們必須要記住的一條很重要的原則是,我們的頭腦必須十分清晰,隨時想想什麼東西是現在自己還不知道的,並且集中精力去盡可能快地學習,去找到那些AI研究領域正在發生的、最重要的部分,找到現實中人們體驗中最重要的痛點,並迅速將它們串聯起來。
我覺得對我自身想法的那些影響,其中很大一部分都來自創業圈。這是我的經驗。
—完—
量子位QbitAI
վ'ᴗ' ի 追蹤AI技術和產品新動態
最後更新:2017-08-23 10:29:06
上一篇:
人工智能時代:這7個職業容易被取代,細思極恐!
下一篇:
機器人展絕技,無影手玩魔術,強勢破吉尼斯記錄!
機器人都可以做羞羞的事了,那要我們人類還有何用?
人工智能+特斯拉+蘋果,W底確立突破頸線,或超京東方成11月妖王
史上最強人工智能出世:阿爾法狗再進化,自學3天就100:0完敗李世石版舊狗
友情提醒:人工智能“玄玄”目前還是個寶寶!
完勝人腦!機器人實時盯盤0.1秒寫稿,你放心讓虛擬機器人理財嗎
人工智能持續升溫,遊資合力入場封板,目標價:8連板!
人工智能+特斯拉+蘋果,黃金坑突破頸線,或碾壓京東方成新妖王!
機器人總動員 美國挑戰日本巨型機器人
百度2017Q3淨利同比增156% 人工智能能否幫助百度走出業務“泥潭”?
庫克:蘋果會做無人駕駛,自動化係統將是所有“人工智能項目之母”