104
王者榮耀
演講實錄丨胡鬱 從“能聽會說”到“能理解會思考”-以語音和語言為入口的認知革命
從“能聽會說”到“能理解會思考”
-以語音和語言為入口的認知革命
胡鬱
中國人工智能學會企業副理事長、科大訊飛輪值總裁
胡鬱:我主要分享三個方麵內容:關於人工智能、關於訊飛的人工智能、機器人和人工智能之間的聯係。
人工智能這個詞非常熱,今年是人工智能六十周年,讓我們再次向這些人工智能的先驅致敬。十年前五十周年,這些耄耋老人都成為圖靈獎創始人和諾貝爾獎獲得者,但是在五十年前,他們都是像我們一樣的年輕的研究學家,美國在這方麵的前瞻性,在六十周年這個時候,當時提出的所有人都去世了,但這是一個時代的結束,也是下一個新的時代的開始。
人工智能有幾次浪潮,為什麼有這些浪潮?因為人類的期望,每個新技術來的時候,都期望它能夠取得非常快速的發展,但事實上沒有大家想象那麼好。為什麼第三次浪潮能來?取決於幾個因素:這些科學家持之以恒不停地探索。第三次浪潮是人工神經網絡給我們帶來的,因為包括以前很多專家持之以恒不放棄的努力,才有了今天。另外我們要看到整個人類信息工程體係的完善,因為有互聯網、移動互聯網,有連接、有雲計算、大數據,當前深度學習網絡的人工智能才有可能。
前兩天在北京開世界人工智能大學,請到的一些人都是中科大的,怎麼做人工智能的都是中科大的。做人工智能前幾年很慘,聰明點的人看到這個勢頭不對都轉行了,中科大的人比較蠢,覺得這個事情要做下去,就沒轉行。所以反應比較愚鈍的人有時候也有好處,就看看你跨到那個周期了。
既然是研究人工智能,得研究腦,非常可惜的是腦值得研究,除了哲學、心理學,隻能從定性上來研究以外,定量上無法研究,因為人腦太複雜。當前隨著人腦科學技術的發展,現在我們有可能從腦裏麵去研究,我們可以把大腦皮層所有的神經元構造理論上畫出來,功能也可以畫出來。腦驅動人工智能的發展,當前在美國、歐洲、中國都啟動了計劃。工業界比較著急,現在就要結果,工業界利用大數據、深度神經網絡,大數據人工智能成為另外一條重要的分支,五到十年,大家已經看到很多的結果了。
很多人有不同的觀點,在過去兩年中我們也討論了很多,很多人認為如果把大腦搞清楚以後,可以做一個超級計算機,把人腦每一個思維都用超級計算機模擬,就像模擬核聚變一樣,就可以得到一個真正像人腦一樣的智能。但是有可能會同時得到自我意識,因為把腦子全模擬,腦子裏麵同時充斥著智能和意識的。我們不一定要把腦子裏麵每個東西模仿出來,可以找到裏麵智能的東西,創造出更好利用機器優勢的神經網絡。現在的神經網絡跟人腦神經網絡差距不是一個量級,還是有很大很大差別的,雖然在理論上有些接近的地方。
過去兩年中,自從IBM提出認知計算以後,大家都腦洞大開。科大訊飛2014年發布會上提出的計算智能、感知智能和認知智能分類概念,非常榮幸得到了整個產業界認可,現在很多分析報告按照這個寫,但寫的是計算智能、感知智能和認知智能,後來李德毅院士說計算智能不能說,因為計算是一種智慧型工作,計算機裏的運算和存儲不能講計算。
人工智能何時到來?德勤分析:2018年超過300萬員工要向機器人老板報告。德勤分析裏,把人類現在所有的職位,每個職位所需要的功能,全部對應分析了一下現在人工智能可以代替到什麼程度。其實最擔心的可能應該是在座各位,因為他們分析出來以後,發現CEO和老板隻有20%的工作能夠被代替,因為他們有大量工作是要創新,做綜合性決策,機器代替不了。園丁和保姆的工作隻有5%能夠被代替。真正有威脅的是情報分析師、文員,包括今天有很多記者、翻譯,我不是威脅大家,人工智能可能替代的比較快。
人工智能來自何方?現在講人工智能太多了,大家都講自己做人工智能,既然講它的基點爆發,它的基點在什麼地方?2015年3月份楊靜的《靜沙龍》裏,我們有一群人研討,大家覺得《人類簡史》裏提到人類在地球上有三四百萬年曆史,真正變聰明是在七萬年到兩萬年之間。尤拉馬上要寫一本書叫《未來簡史》,《人類簡史》是從動物到上帝,將來人工智能如果突破以後,人類可能就完蛋了。我跟他觀點一致,我們經常講我們創造人工智能不一定會有自我意識,不會想到毀滅我們,但就算沒有自我意識,人類也完蛋,因為所有事情它們都給你做好了,人類變成享受者,沒有存在的意義,大家就會自殺。人類為什麼能夠變聰明,因為7萬年到2萬年前語言得到了把法,有語言可以八卦,組織更大的隊伍,可以發明一些虛擬的概念。在7萬到2萬年前,人類經曆了認知革命。
人類跟動物的區別,因為有語言,所以有知識、有邏輯推理,但機器離這一點有多遠?它們要成為一個智慧的生物,必須越過這一關。從某個角度上來講,訊飛現在提出訊飛超腦的設計,就是為了讓機器能夠實現認知革命。就是從能聽會說道能理解會思考。能聽會說就是感知方麵,機器人都有這種能力,在這個過程中,基於人腦同樣一些原理,如果把人腦最外部大腦皮層展開的話,有餐布這麼大,有處理係視覺、聽覺、觸覺,會把這些東西會聚到處理概念和感知情況裏,當我們看到一隻貓或聽到貓的叫聲,摸到貓的皮毛時,其實我們大腦皮層某一個地方都有貓的概念的神經元在閃爍。訊飛超腦整個計劃也是分成感知和認知兩個層麵,這些邏輯推理都依賴於深度學習的進展。
在前幾天世界人工智能大會上,鄧莉將神經深度網絡一起應用於語音識別和圖象識別,他們2010年到科大訪問,我們就開始做人工智能深度神經網絡東西,鄧莉說:“訊飛是中國最早做深度神經網絡的研究機構,並且是世界上最早把深度神經網絡技術用於現實產品的。”在過去幾年裏了,我們不斷把它用在合成、評測、語種識別、聲紋識別、自然語言理解等很多方麵。現在最新的按照一個語音識別技術的進展,原來大家認為語音是一維持續的波形,我們耳蝸自動把這種聲音波形轉為圖片,耳蝸裏有很多不同長度小的纖毛,聲音不同頻率會引起它們的共振,真正在神經裏麵看到一個魚骨圖,橫坐標是時間、縱坐標是頻率,有點像雷達的圖象,不同頻率結果是不一樣的。當前最先進的係統是用卷集神經網絡做語音識別,今年微軟研究院於棟研究院,寫了一篇文章,世界上今年在雲識別領域最大的突破就是穀歌、微軟和科大訊飛,同時提出用圖象識別的方法做語音識別,整個語音識別進入讀圖的時代,從一個側麵驗證一個腦神經裏麵,聽覺和視覺神經工作原理類似。一個盲人的聽力會特別發達,因為借用原來視神經元裏的神經係統。
在認知智能方麵,現在最新的是Attention,當我們看一幅圖片時,注意力不是在整個圖片上均勻分布,會集中在中間。左圖跟自動駕駛有點關係,是男人開車時的關注點和女人開車時的關注點,利用這個技術,我們可以做一係列事情,在認知智能方麵做了大量工作,一個最新成果就是Blizzard Challenge,世界上有一個暴風雪計算評測,從2006年我們參加這個評測,連續11年英文語音合成我們都是第一名,在今年7項主要指標中我們全是第一。今年穀歌發布一個新的語音合成技術,其實我們技術比穀歌的技術還要領先,但是我們保密,沒有太多發布,我們畢竟沒有穀歌聲音大,但是今年科大訊飛在11月23號發布會上正式向大家披露,給大家帶來驚喜,我們已經可以完全讓每個人的聲音惟妙惟肖在虛擬世界裏麵體現出來。2014、2015年主辦方可能都覺得絕望了,我們每次都拿第一,後來主辦方想出一招,把語言從英語變成了印第語,但是非常遺憾,我們還是第一,因此我們在印度也有團隊合作,包括跟印度一流的學校都有合作。
今年還有一個非常重要的測試,如果講人工智能的話,我們都繞不過圖靈測試,圖靈測試有一個非常重要的缺點,測試過程容易被欺騙,計算機總是給你回答一些模棱兩可的事情,讓你自己去猜。有一個笑話,讓你猜一個數字,你想好了沒有,我想好了,數字是多少?回答者說你猜我會回答多少數字。現在他們想出更好的是Win game,這個測試很簡單,測你的常識,一個6歲的小孩都能答出來的問題,對機器來講是一個登天的事。題目叫“爸爸沒法舉起他的兒子,因為他太重了。”問“誰重?”這樣的問題對機器來說是巨大的挑戰。上大學、上中學、小學對人類來講是一個巨大的挑戰,因為我們上學很痛苦,人類在0-6歲之前是天真燦爛地玩,我們學會了說話、推理,機器人是反過來的,0-6歲對機器是所有的智慧、智能、邏輯推理的形成期,機器一旦越過這個坎,就無所不能。現在在這個方麵是我們更多的重點。
今年還有一個比賽叫CHiME,目標是放一個Pad,坐在第四排的人講話都能識別出來。科大訊飛英文識別係統,我們在三個比賽中都全部是第一名,而且比去年成績提高了百分之百。這個會議最後是在穀歌開的,我們沒打算去開會,後來他們發了一封信,說你們成績非常好,但為什麼不派人來開會。後來我們趕緊派人去參加了一下。
人工智能與機器人。我認為人工智能和機器人是不同學科的專家從不同角度來分析一個人工智能係統所看的角度,兩者一體兩麵,一個在虛擬世界,一個在物理世界。在這個過程中,我們需要利用到當前的互聯網和移動互聯網,特別是在物聯網時代我們能夠利用現在三個深度神經網絡、大數據和漣漪效應,漣漪效應就是利用所有人在使用程序過程中,就像機器學習,越多人使用,機器人就越多學習,變得越來越聰明。
我們下來通過訊飛語音雲向用戶每天提供超過30萬次服務,連接9億設備。
AIUI,通過AIUI它可以很自然地和機器人和人工智能係統進行交互。
(演示)我們交互過程中不需要每次都喚醒,可以隨時打入和插斷,會判斷對錯,然後加以糾正。以後我們的交互在任何有屏幕的地方不用去觸碰它,說就可以。
今天在底下的機器人已經有在用我們這個技術了,今年11月23號,今年訊飛年度發布會會有更多驚喜帶給大家。謝謝!
最後更新:2017-05-24 16:32:18