閱讀600 返回首頁    go 技術社區[雲棲]


劍橋AI公司:7天精通一門新語言,未來將學會7000種語言

11月11日,劍橋AI公司Speechmatics正式上線其機器學習平台Automatic Linguist,能在一周內掌握一門新語言。該平台沿用劍橋大學研發的技術,能夠識別並應用語言中的不同模式。目前,該平台能夠識別28種語言,實現從語音到文字的準確轉錄。

2a49d62f223cf47727f7d94aae47bcabd6ab34d7

圖示: Speechmatics將28種語言逐漸加入其係統中。


一個大公司客戶要求Speechmatics兩周內學會印地語,該公司發布了一個係統,根據測試,該係統比市場領先者的錯誤率少23%。

Speechmatics首席執行官Benedikt von Thüngen在接受Cambridge Independent采訪時表示,“印地語非常簡單。我們發現它在發音方麵與英語非常相似,所以我們可以使用一個叫做‘適應’的過程。它從我們擁有的不同數據集中學習。”

“每種語言都有各自有趣的地方。韓語、土耳其語、芬蘭語、德語等語言都是粘著構詞,詞語結合起來構成新的詞匯。這是一個有待解決的有趣問題。”

“越南語、漢語等變調語言,也是一個很有意思的挑戰。要教會係統去處理這些語言。”

fd93a9d49c6fb63e12bc6dec01c55cac2d0cf5ab

Speechmatics首席執行官Benedikt von Thüngen。


語言識別的傳統路徑要經過繁瑣、昂貴的人工過程,專家要手動收集、清理海量數據。這是一個一次性係統,因此隻關注使用最廣泛的幾種語言才算經濟實用。

但是經過劍橋大學博士、Speechmatics首席技術官Tony Robinson數十年對神經網絡的研究,Speechmatics可以通過識別基本聲音和語法結構,在一天之內掌握一門語言的基礎。

7d9ca2d8dc0e5841af3277791ad16c6cf9aa6e66

劍橋大學博士、Speechmatics首席技術官Tony Robinson。

 

該軟件的主要用途之一是為電視提供準確、實時的字幕,並增加了專業個性化詞典,如足球員姓名。

Benedikt說金融機構能夠使用這一技術進行通話錄音,以證明合規性和對PPI不當銷售進行審查。他預言:“語音將成為與設備互動的主要機製。”

該公司白皮書提到,“我們的終極目標是為所有語言提供一個語言包。鑒於世界上約有7000種語言,這將是一個雄心勃勃的目標,我們希望有朝一日能夠全部掌握這些語言。”


原文發布時間為:2017-11-16

本文作者:Cecilia

本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號

原文鏈接:劍橋AI公司:7天精通一門新語言,未來將學會7000種語言

最後更新:2017-11-16 14:34:26

  上一篇:go  8Manage SPM:隨時隨地掌控采購管理
  下一篇:go  [Phoenix文檔係列] 二、數據類型