演講實錄丨黃偉 AI已來,未來已來
AI已來,未來已來
黃偉
雲知聲董事長、語音識別技術應用專家
黃偉:大家下午好!非常感謝邀請。我覺得前麵山世光對公司有一個非常好的定位,介於學術和產業之間。我可能是唯一一個做雲技術,第二我們可能長期在工業界。今天人工智能熱潮十多年比較冷的一個方向,這樣我更多從工業界角度來看,我們可能對AI的看法和認知。今天題目是雲知聲的成長之路。
其實AI在過去60年裏麵,我們經曆過高潮和低穀,在過去兩次相對比較失敗低穀裏麵,確實是當時一個技術條件,產業條件可能沒有達到那個需求。要麼是運算能力不足,要麼是沒有大數據,當然不可能有新的理論算法所支撐。今天第三次高潮,這三個要素相對比較具備。今天我們學習方法有相對比較成功的算法,深度學習。另外這個PC互聯網和移動互聯網,人和人之間,設備和設備之間,設備和人之間產生大量的海量數據。
同時,今天有更的強運算單元,不光有CPU,還有GPU,使得我們可以用一些具備運算資源。我們一方麵不能忽視用戶習慣的養成。在中國10多年互聯網發展過程當中,用戶養成非常好的用戶習慣,這個技術成熟用戶之間形成一個非常好的集合點,某些領域裏麵今天這個AI技術使得更加成熟,做成產品化和商業化。在家具、醫療等很多領域,今天AI已經產品化和商業化。
簡單介紹一下機器學習算法的演進。上一代基於統一學習,我讀書的時候進實驗室開始學,用統計學方式進行描述,使得這個模型對於未來產品數據進行比較準的預測。在雲方麵2011年的時候,微軟研究員最先把深度學習用在雲識別係統裏麵。C2C這些技術使得我們在過去4年前,我們的技術水平得到進一步的提高。4年前語音識別已經進入領域,4年前不光算法本身還是迭代從當時90%提高到今天97%,今天在日常對話,說100個字不再需要修改什麼內容,這就是算法和數據提升的巨大的進步。
今天看到深度學習幾乎我們可以說學習領域裏麵顛覆了,包括像語音合成,包括翻譯等等,為什麼取得這些突破?我們之前所謂深度學習,人類、科學家一些知識,事先設定一些結構,使得模型結構對這個數據進行的描述,麵對一些真實的產品的時候,依然具有非常好的能力。人最歸有限,麵對海量數據的時候,頂級科學家實驗室的知識都是不夠的。深度學習從數據終學習特征,我們可以看到橫坐標是數據規模,縱坐標是數據精度。
基於統計學習數據規模到一定程度以後,這個性能不再增加了,相對比較平坦,說明統計模型對大數據模型是有上限的。其實這個數據本身對這個性能影響非常大的,剛參加工作的時候,摩托摩拉在手機做語音識別係統,當時做一國語言所用數據大概100小時左右,但是今天做一個國家語言是以10萬為單位,數據增長可以完成很多不可能完成的任務。
這個是我們在過去幾年裏麵,雲知聲在技術上的演進,2012年雲知聲成立,發布了免費的開放的語音指標,當時是做到了85%,今天我們說你說100個字裏麵有15個字錯,基本上覺得這個係統是不可用。4年前85%的指標已經是業內最高水準,超過很多上市公司水準,這個是當時我們用統計模型做到了極限。三個月之後,在2012年年底時候把深度學習同樣用800小時數據做了深度學習係統,從25%提升到90%,比同行業高了10個點。
一個算法層麵突破會在係統上帶到質的超越,帶到產業落地。當然後麵隨著一方麵算法不斷優化,一方麵數據不斷迭代,2016年7月份之前我們準確率已經達到97%,中間還有一些其他的特點出來,包括2014年的時候推出了雙麥克一個降噪,這些過去在四年裏麵應用和技術方麵做的不斷突破。
這裏講雙麥克(音譯),因為我代表工學界。我們知道10月份的時候,穀歌發布雙麥克,我們看到亞馬遜推出的7+1麥克風。他們做到降噪等等,很重要一個點,雙麥克風隻有一個麥克風,間距不到5公分,這樣很便捷應用在各種產品下麵。不管這個產品是電視劇還是冰箱等等都可以用。雙麥克風再一個低成本下麵滿足了大部分使用場景,我們有可能以雙麥克風為載體,使我們技術盡快走到千家萬戶,使用戶能夠使到AI技術,一方麵養成用戶使用習慣,第二使得更多數據,使得係統更多進一步的優化空間。
另外,我們對於雲理解什麼?雲不光是聲音和文字,還是文字之後我們對它的意思理解,這個夠了嗎?語言是一個非常博大精深,字麵意思不能表示正式意圖。還有另外一個進展,提供了雲計算,我們有時候從語音到文字,或者從文字不一定看到最準確的意圖。舉個例子,我對著機器人,我說今天天氣真冷,這個字麵意思大家知道溫度比較低。比如汽車裏麵能不能把空調調高一度,但是戶外說可能需要加外套,這個實際上把字麵意思和物理環境,甚至和人的知識匯集在一起,應該是一種綜合計算。讓機器變的更加智能,對用戶需求有一種更加精確的把握。
這個今天在很多產品裏麵已經用到了。第二個前麵山世光老師說到了,運算能力。我們今天有兩種做法,我們以人的大腦做對比,我們今天AI係統一方麵缺少很多數據,在語音也好圖片也好,跟我們人的大腦無論遺傳還是後天是完全不能成比例。我們運算能力,人的大腦是非常複雜一個運算單元,可以用數以億計的神經元,一個龐大的處理器,每個神經元不一定能夠計算。計算服務器搭建成一個計算集群,每個運算單元並不是很強,但是規模很大,把很多運算單元有機結合一起,使得它能完成非常複雜的任務。
這個圖,傳統做法我們先構建一個專用訓練集群,然後訓練出非常好係統之後,把這個係統部署到外網為用戶提供智能服務雲。這個係統運行一段時間以後,肯定會存儲很多數據,把這個數據弄回來做內網和數據開發,是這樣一個過程。這個數據不是時時的,也不能及時對很多進行計算。上層是把智能服務和智能學習結合在一起,這樣使得集群白天可以服務,晚上可以工作,類似於AlphaGo和李世石下棋的時候,白天下完棋了,李世石非常累回去睡覺了,但是AlphaGo還再不斷迭代這樣就使我們後台和用戶之間實施用戶交互。
通過我們產品服務體係,搭建了一個基於雲端新的服務體係,所以需要我們很多場景裏麵選擇一些垂直行業切入,做好這個服務,智能化不斷提高。當然這種服務通過雲,通過終端,通過芯片方式選擇一些行業切入。到今天為止,我們每天平台量已經接近兩個億,這個數據不是特別新,有超過一個億的終端機服務。12年相比服務增長量在18%以上,前兩天看了一個數據,其中一塊業務從過去的每天的大概幾十萬次調用,增長到今天一億次調用。一方麵我們確實今天用戶對使用語音習慣變的越來越強烈,第二個方麵技術水平越來越高,使得用戶願意用,經常用。在用戶和服務之間數據是流動,使得服務變的越來越好,使得數據能夠幫助我們開發出更好的水平,隻有這樣我們所謂人工智能服務真正進入我們的家庭。
這個是我們大概發展曆程,雲知聲四年公司了,因為我們一直用比較新的思路做一個企業。可能說在中國公司比較深的感觸,我們不光在工業界、學術界,跟國外還有一個差距,中國和國外環境不太一樣。首先,在座很多朋友我們一般雖然我們受過高等教育,我們不願意為技術買單,當然這個環境在改變。第二個,技術離商業化比較遠,可能商業公司隻願意做後麵事情,但是我們一些學術團體隻能做前麵,中間學術沒有往前走,但是商業這一塊不願意往後來,這是中國的現實。
我們用比較新的做法,比如我們在12年6月份成立,三個月之後發布國內第一個免費語音平台,當時環境下麵語音算是一個門檻非常高的技術,當然也有比較不錯的議價能力。我們認為人工智能其實它的生存與發展不依賴於收多少費用,而是多少用戶,和多少數據。正是因為我們認識到這個數據對技術驅動重要意義,我們三個月以後發布國內第一個免費開放平台,付出代價是成本。我們團隊管這個平台,我們獲得了用戶的口碑,用戶數據,這些能夠幫助我們引擎不斷提升和迭代。
這是我們再一個模式上的創新,在技術方麵我們算國內比較早的把深度學習應用到工業界裏麵。在12年12月底把深度引擎服務給廠商。最最值得我們創業公司去分享一點,在四年裏麵通過我們努力,探索怎麼把技術變成產品,而且這個產品能夠給用戶創造價值,而且還能在夾縫中求生存。我們看到人工智能領域不光說國內巨頭,都在做。我們做創業公司,無論語音還是圖象還是文本,這裏麵哪裏是你的優勢,讓你飛的更高。我們認為選擇比較適合我們的路,今天選擇一些方麵,我們恰恰形成我們先發優勢。
第一,通過商業探索塑造了時間壁壘和技術壁壘。第二,大家談概念的時候,雲知聲芯片產品已經在市場上開賣。人工智能非常高大上,但是人工智能需要落地,需要我們在座企業界朋友們,不光追求技術的鼎天,我們還要做好商業的落地。這個是我們的智力方案,基本上是雲端芯,可以靈活的組合,某些手機APP廠商可能隻需要一個AX(音譯)不夠,還需要本地化的服務,就是雲加端。我是一個機器人離的很遠的時候,可以通過聲音打斷他,喚醒他,就需要把芯片組合到裏麵。
這個今天完全不是概念,這個已經產品化一些東西。比如說左邊像一個球一樣,美的發布第一款壁掛式空調,可以全程遠距離交互。格力空調是親自給苗部長親自演示,獲得今年產業最高獎。右邊是孩兒空調,去年開賣的樂視電視。這裏麵現象比較容易,但是還是比較難的,大家體驗過的在手機端上的雲識別之外,很多問題距離比較遠的時候,聲波在衰竭怎麼辦?我距離比較遠不可能讓人按紐,能不能通過聲音喚醒他。還要考慮是不是符合低成本標準,低功耗標準。
我們大家知道,我們能夠看到用這種技術做交互的公司和廠商少之又少。我們大家看到隻有亞馬遜那個AlphaGo,我們一方麵看到未來,我們一方麵看到這個技術難度非常大。這個車裏麵,後視鏡、導航儀等等,在車裏麵做到全程語音交互,手不用參與,眼睛不用參與。這個也是大概做的非常不錯,這個是我們去年和中國的最好醫院,北京協和醫院合作,把雲技術做進了大家都認為很封閉的醫療係統,而且這個今年在協和醫院推廣。今天醫生不再需要用手用病例,這個可以提高效率。好醫生在中國是非常稀缺的資源,醫生每天平均節約3.8個小時,增加商業價值。
這個我們在商業方麵取得的成績,我們除了訊飛百度之外,我們是國內第三大語音服務提供商。今天我們國內很多非常Topo醫院已經開始使用雲知聲服務。雲知聲通過我們的技術,通過我們的努力,使得我們一起智享未來。我們非常看重人工智能技術,我相信人工智能會在未來像水電跟我們一起無處不在。最好的技術能夠成功,離不開這個過程當中每一點每一滴,雲知聲成為水電煤之前,通過我們努力改變我們的生活,改變我們的車、醫療,讓我們相信人工智能就在我們身邊。謝謝大家!
本文來源於"中國人工智能學會",原文發表時間" 2016-10-26 "
最後更新:2017-05-23 16:04:22