792
機器人
傅盛:人工智能的破局點是技術和產品結合獵戶星空發布小雅語音 OS
今天,獵戶星空聯合喜馬拉雅等發布首款全內容AI音箱——小雅AI 音箱。作為獵戶星空AI生態鏈上的第一款產品,小雅音箱是一款技術和產品結合的智能硬件,其背後的核心是獵戶星空所提供的語音交互係統,從有唿必應、優質點播體驗和海量內容等多方麵打造極致的用戶體驗。在發布會現場,我做了一個簡單的演講。
以下是演講實錄:
剛剛上台時,我突然想起了一個場景:有一天早上醒來,女兒跟我說:爸爸我每天都跟Siri聊天。我說,Siri是誰?她說:蘋果手機有一個Siri,每天我都會打開它,跟它聊兩句。我說Siri多笨。她說:它雖然笨,但可以隨時陪我。
當時女兒的回答,讓我心裏挺不好受的。創業以來,我很少有時間陪伴她。我在想,如果我作為一個產品經理,一個對技術有依賴的人,我有什麼機會去做出一些產品,讓你的孩子、家人,包括你自己,都能真正享受科技的樂趣?
我想,這是我當初對人工智能那麼瘋狂摯愛的原因之一。
因為,我在人工智能技術上看到了以前不可能突破的邊界。當然,我去年也說過,願傾家蕩產做機器人和人工智能。所以,我在這個行業中花了大量時間去尋找。包括我遇上了獵戶星空聯合創始人賈博士。我們決定以語音和AI為切入點,重塑整個行業對產品和技術的理解。
我覺得,真正的AI不應該僅僅有技術,不應該是一個大學教授的論文,更不應該是網站上刷分的選項,而是真正能和我們生活結合起來的產品。
今天的AI,我們看到太多炫技、PPT和Demo。太多為演示而存在的產品。太多為概念而存在的公司。太多隻做技術,而不知怎麼把產品落地的、形形色色的創業者。我並不是批評他們。我認為這是一群對AI行業起到巨大推進作用的先驅。
在人類曆史上,任何行業的崛起,曆來都是——技術先導,產品跟上,商業閉環,從而形成推動人類社會一波又一波向前發展的浪潮。
做AI時,我仔細想過:我是一個非技術專業的人,本科學校大家可能也沒聽過,對技術的理解極其有限,我有什麼機會去找到這樣的一個點,讓AI和產品結合起來?於是,我反過來想,也許AI今天是一門高深的技術,但它跟曆史上出現的形形色色的技術是一樣的。
當我們研發出來一個瓦特蒸汽機時,研發出一個汽車引擎時,我們會想,我們有一個引擎能幹什麼?但大家最後發現,真正當引擎技術普及化的時候,我們其實反過來要想的是——我需要造一輛車。我可以把這些技術,跟用戶的需求點真正結合。
那個時候,我突然想起來,原來在技術和用戶需求之間還隔著一個產品。這正是今天AI產業有機會變成一個產業的真正落地點。而不隻是發布幾篇論文,或做一個專題化解釋。
我意識到——產品就應該是圍繞細節,把技術發揮到極致,打造出感動用戶的體驗。這是我在這個行業裏可產生的價值。
喬布斯曾經說過:做產品設計,就是要把5000個細節同時做好。他說,蘋果需要技術,但蘋果不是一個純粹體驗技術的公司,蘋果最需要的是偉大的產品。他希望把技術發揮到淋漓盡致,最終用產品去改造大家的生活。
這是我們當時啟動獵戶星空這家公司,開始投入AI產品和技術時的初衷。我們堅信——要有技術上的大投入,但要真正做出讓用戶感動的產品,要做一家有偉大產品的公司。
一年前,我喊了一聲機器人,很多人說太不靠譜了。我說,其實去火星也很遠。但今天Elon Musk就在一艘一艘地發射他的火箭。盡管我們的目標是做一個能讓人類從重複勞動當中解放出來,隻需要關注詩和遠方的機器人,但我們同樣可以把這個偉大的夢想變成一個一個落地的產品,變成一個一個在人們生活中解決需求的產品。這可能是當時我們想要一起參與小雅音箱的核心原因。
雖然,我們是一家新公司,但在技術的起點上,我們一點都不低。那時候,我們想,先把一個產品落地,把整個技術和用戶需求結合起來。我當時想,如果是做一款Echo產品,肯定需要先去找內容商,去了喜馬拉雅才發現,他們正想做這款產品。我說,太好了,抱團取暖打天下。
因為,真正的人工智能產品,一定是技術、內容、產品、設計的跨界複合體,單靠某一塊很難做出真正感動人心的產品。
就這樣,我們一拍即合。
如果人工智能技術的成熟還需要五年、甚至十年的時間,那我們至少可用手上的技術,讓小雅變成一個真正好用的音箱,讓用戶擁有從未體驗過的音箱體驗。當我們把這個定義點想清楚的時候,眼前豁然開朗。
我們開始圍繞這個產品,不停思考,需要怎樣的技術點,什麼是對用戶來說是最好的音箱?
好在,我們很幸運。獵戶星空雖然隻有一年的曆史,但它有一支技術上非常牛的團隊。有一批超過30個博士,上百個在行業內有五年以上工作經驗的工程師。獵戶最幸運的還不止是這幫工程師,或他們的博士學位、工作經驗,而是他們很重視用戶體驗。
與此同時,我們又找到了一群特別尊重技術的產品經理。我覺得,這不是一個簡單用技術來刷分或刷指標就能做出來的產品,也不是產品經理想個點子,就能讓這個音箱解決所有的孤獨症,關鍵在於——我們要把產品的定義想清楚。
所以,我們定義了三個點,叫做:有唿必應、點播體驗、海量內容。
我們拿這個點和喜馬拉雅碰了以後,他們特別認同。但你知道,做出這樣的產品定義是不太容易的事情。因為,擺在你麵前,似乎有無數種可能。如果你隻想做一個炫技的Demo,可以讓它在各種場合顯得智能,那目標就很簡單。但我覺得應該把我們的技術聚焦在用戶體驗。
如果用戶麵對一個音箱喊不響它,無論這個音箱有多麼海量的內容,也不可能用它。為了有唿必應,我們投入了大量技術資源。產品和技術一起,克服了非常多看似不可能逾越的困難。今天我們的有唿必應在行業裏應該可以排到第一。
也有很多人問:為什麼這麼短的時間,你們就能做出有特色的產品?其實不是因為我們的工程師就比大公司多,也不僅是因為我們今天有一些技術,而是我們真的專注在用戶體驗的痛點。
比如有唿必應。我們試用了世界上所有的智能音箱產品,基本你喊它的時候和錄像裏麵完全兩個產品。什麼情況呢?就是你的嗓子經常容易喊破,還不理你,有時它可能會突然開始跟你說話或播音樂。剛才樊登說,他買了某產品,半夜突然開始給你唱歌,這個真是讓你更孤獨,而且還容易被嚇到。
圍繞這些問題,我們堅信單點極致,決定把喚醒這一個看上去非常簡單的點做好。我們也沒有炫技。沒有把喚醒變成“小雅”兩個字,而是“小雅小雅”四個字。因為我們知道,沒有小雅這兩個字的話,會大幅增加誤喚醒,增加用戶使用的不便利性。
當然了,在這裏就有很多技術。比如今天在全行業能做6+1(指 6+1 環形麥克風陣列)硬件的公司可能不超過兩三家。包括我們在內。我們在這點上大力投入,幾乎和亞馬遜Echo匹敵。我們能做到5米之外喚醒,而且比較沒有壓力的喚醒。你不需要大著嗓子喊,隻需要一個正常的語調。
我們還做到了軟件上的提升。其實我也不太懂,但我知道是一個很牛的技術,基於漢字整體建模的CNN喚醒技術,它實現的效果是什麼?
第一,高清度喚醒。我們能在正常的情況下實現95%以上的喚醒,今天做不到100%,但95%,用戶是可以接受的。絕大多數時候,我們給各種用戶演示,包括和我們很多合作夥伴看,他們覺得喚醒特別精準。
第二,業內最低的誤報。每天晚上,我們辦公室都環繞著各種聲音,做誤喚醒報告。如果我們隻是為了炫技,我們可把喚醒預期標到更高。比如98%、99%,甚至每喚必醒。但問題在於,每天就可能出現突然喊你一嗓子。所以,為了壓低自己的誤喚醒,就需要調整我們的喚醒,這是個矛盾,大家能理解嗎?在這方麵,我們投入了大量精力。不斷拿著指標,跟著競爭對手一個個對比,直到我們認為超過。
此外,實現大音量下的喚醒。你開著電視的時候,人聲嘈雜,我們的喚醒都能做到行業裏最好的水平。就在這些看上去的很小的點上,我們投入了大量的精力。讓我特別感動的是,當(小雅回複)“誒”的時候,很多人都在鼓掌,這是我們行業內第一個做到人聲回應。
大家可能不知道,為什麼業界首個人聲喚醒這麼難呢?
因為,當你說“我在”的時候,那個回音會在音腔裏環繞,造成下一句話解析時出現誤識別。為了要把這個誤喚醒的誤識別去掉,你要付出很多努力。但我們為什麼做呢?除了溫暖之外,還有一點,我們假設是一個原廠喚醒,在這種情況下,音箱上的光帶是看不見的。如果用戶喊了以後,它沒有響聲,用戶就傻了。不知道該不該說話。這就會給用戶造成局促感。
有一段時間,我們這個指標一度上不去。後來我說算了,把這個回聲砍掉吧。亞馬遜也沒做人聲回應。沒有人做。因為做這個點的確還是有難度的。
我們的產品經理說,所有用戶測試都對這個點非常喜歡。我們的工程師團隊說,這個功能我們一定要做,付出再多努力也想把它做得足夠好。
今天大家可以看到,就這麼一個小的點,我們付出了很大努力。但這個小的點對用戶來說非常關鍵。當你去喊一個人喊不醒的時候,就像永遠無法叫醒一個沉睡的人。有時候我叫我們家小朋友,她不理我,我恨不得踢她一腳。大家都有這樣的心理。
這是解決今天智能音箱行業和用戶距離的第一道坎兒。這個坎兒非常關鍵。雖然看上去就是一句話,因為隻有把它喊醒了,你才能夠真正開始跟它溝通。
所以,這是我們做產品的一個技術和產品共同投資的極致點。
第二,點播體驗足夠爽。
當時我們認認真真地分析用戶在怎麼使用這款產品,或者怎麼使用Echo。我們發現,講再多的情感陪伴,都不能達到用戶預期。但一個更好的音箱是什麼呢?叫——想聽什麼聽什麼,想說什麼就放什麼。這需要很強大的技術攻堅。
我們跟喜馬拉雅一起,把整個查詢體驗做了大量優化,這裏麵也包含了非常多的技術。
首先,我們把內容深度定製。什麼意思?開始你隻是放一個歌曲庫的SDK,然後你接自己的SDK,每一個SDK都有自己的音樂。這時候,你點一首歌,隨便在一個SDK裏麵下載,可能是五年前的版本,也可能下載過來的時候需要五秒鍾、十秒鍾。
我們沒有這樣做。我們是把喜馬拉雅的內容和音樂曲庫,以及各個合作夥伴的音樂曲庫,不僅是集成在一起,還做了服務端優化。做到什麼細節呢?比如說你想聽一個歌曲,可能是周傑倫1999年世界巡回演唱版live版,這個標題念出來就會非常長。我們做了優化,讓你聽起來就是很簡潔的標題截取。
再舉一個例子。我們作點播指令時,比如我說“下一首”,但我們知道用戶會說“再來一首”,“還有一首”、“再來一個”,我們就為這一個指令準備了上百種指令泛化。這些泛化,今天純靠人工智能是不可能的。
大家對人工智能可能還是有誤解。覺得人工智能上來,世界就和平了,其實不是的。人工智能,有多少智能,就有多少人工,核心是你要把人工花在哪兒。
我們在這樣的指定詞上,不是一個Demo,而是每個用戶得對著手冊念“上一首”、“下一首”。我們當時做的標準是要求隨便找個用戶,隨時站在音箱前,對我們的音箱發布指令,就能被識別出來。我們為了遙遙領先競爭對手,對指定詞的容忍要到90%以上,就讓用戶說“再來一首”、“再聽一首”、“下一首”,反複說,由此來搜集了用戶大量這樣的需求和體驗。
我們的工程師付出了巨大的努力。剛才賈磊博士在錄像裏說,這個也是世界首創的,叫LSTM。非常非常牛。這個核心技術的價值在於我們在中英文混排識別上達到了前所未有的成績。
要知道,有的歌曲裏有英文,你在做Demo的時候,可能永遠碰不到這樣的問題,但作為一個用戶產品,當他喜歡英語歌曲的時候,你就沒有辦法使用這款產品了。此外,我們還做了口語化極致表達、點播,做了很多音頻編解碼,自己重新寫,保證音頻的上傳速度。
此外,關於喚醒時間。當時亞馬遜推出Echo,貝索斯說這個音箱要1.5秒喚醒。當時世界上所有的音箱,除了Echo之外,都在3秒。我說,我們也要做到1.5秒喚醒。為這個1.5秒,也是投入了巨大精力。它不僅是一個人工智能,還有各個地方都要進行優化。做到1.5秒後,用戶問時就能快速反應,真正做到點得爽。
第三,我們還希望做到這個星球最溫暖的AI。
為了讓小雅音箱更有情感,我們做了很多工作。大家覺得隻要能聽懂它說什麼就夠了。但我覺得如果是一個陪伴孤獨的產品,不能越聽越孤獨,我們一定要溫暖。
公司團隊剛剛開始創業時,和喜馬拉雅一起在這方麵投入了非常多的資金和人力。比如用戶想播首英語歌曲,困難在於:所有中文的發音當中,中文和英文合拍念出來是很難的,為什麼呢?因為往往錄音的人。錄中文是一批人,錄英文又是一批人。兩種語言結合起來,再用機器學習學出來,聲音就會變得非常怪。
坦率講,我們這個當時也沒有錄音。後來,我為了找到一個聲色很像的英語發音人,眾裏尋他千百度,終於找到了一個能夠和中文發音很像的女孩子,錄了很多英語的音。
我們剛才說200小時,大家想一下,200小時要錄多久?一個人全力以赴地錄一天大概也就是2、3小時。必須60天不停,中間還沒有休息。我們大概用了3個月的時間打造了這樣一款音庫。
這個音庫不是錄音,是你輸入文字自動產生的效果。每句話都會有這樣的情感。包括在技術實現上,我們沒有選擇最先進的。反而是從用戶的角度出發,使用拚接技術,實現了人的標注和聲音效果的結合。
這些不是炫技,而是真真切切打造用戶喜歡的產品。
當然,海量的內容也是關鍵。今天,喜馬拉雅已經成為聲音平台最大的提供商。聲音本身就是一個最好內容的分發體係。所以,我們配合喜馬拉雅發布這款產品,給用戶提供真正的知識和音樂,真正讓用戶在百無聊賴的時候,還能夠不斷聽到更多的內容,這才是我們這個產品真正的價值。
未來,我們肯定會用互聯網的方式不斷地和喜馬拉雅一起為這個小雅產品增加新的技能。這些技能會像一個長大的孩子一樣,每天都在更新。除了鬧鍾、天氣的技能,我們馬上會發布一款技能。比如有的人聽到雨聲才能入睡,類似這樣一些背景聲技能的發布,能夠讓小雅真的不斷讓用戶感知到小雅的陪伴。
除了產品上想清楚用戶需要的是什麼,我們在整個語音體係上也投入了差不多100個工程師。全力以赴。因為今天這個產業不成熟,隻能靠自己從前端的麥克風陣列到語音識別,再到後端的一些語義理解,都全部做起來了。
我認為,真正能夠讓AI真正普及最重要的一點,就是讓用戶用到一個以AI為功能的產品,並形成一種爆款。為了這個爆款,我們不怕辛苦,自己研發,一點一滴,把這個係統打造出來。這些技術以及我們對產品的理解,最終形成獵戶星空的整個技術鏈條。
回想當初,我為什麼選獵戶星空作為這家公司的名字呢?因為,它是我在星空中唯一認識的星座,它也是在星空上非常明亮的星座。
我相信,每一個做AI產品的公司,不管我剛才講了再多同行做得好或者不好的地方,其實都有一個星辰大海的夢想。我們願意腳踏實地為用戶打造一款又一款感動人心的產品。
以下小雅功能演示視頻僅供參考:)

最後更新:2017-10-08 00:20:44