695
YY.com
Booking.com聯手哈佛優化翻譯係統,流暢度逼近人工翻譯水平
Booking.com利用哈佛大學提供的OpenMT開發框架打造機器翻譯(NMT)係統,研究表明利用NMT技術可以大幅度降低翻譯成本和提升翻譯效率,其流暢度接近人工翻譯水平。Booking.com目前提供40個語種的語言翻譯服務。
【環球旅訊】(本文編譯自Slator)重塑語言技術領域發展的三個主要趨勢在Booking.com平台得到了體現:未來對本地語言內容、便宜且幾乎無限製的雲端運算能力,以及開源的神經網絡機器翻譯框架的需求將越來越高。
Booking.com利用這三個趨勢打造了產品層麵的神經網絡機器翻譯係統(neural machine translation system,以下簡稱NMT係統),Booking.com稱“這一係統正成為一個非常具有吸引力的解決方案,是對傳統的人工翻譯服務的補充。”
今年7月25日,負責此項目的團隊在康奈爾大學運營的開放科學網站Arxiv.org發布的一份研究報告中宣布此NMT係統上線。
該研究報告的合作作者Pavel Levin、Nishikant Dhanuka、Maxim Khalilov都是Booking.com的高管,他們稱研究重點在於對早前針對兩個重要的互譯模式(英語到德語和英語到法語)和兩個通用在線引擎(統計和神經網絡)的統計機器翻譯係統(statistical machine translation system,簡稱STM係統)進行了NMT基準測試。
報告作者在該研究摘要中寫道:“研究展示了SMT和NMT係統提供的翻譯輸出的自動評估和人工評估結果,分析了句子長度對這兩個係統的輸出質量的影響。”
該研究還獲得了施普林格歐洲機器翻譯協會(Springer European Association for Machine Translation,簡稱EAMT)在今年5月於捷克首都布拉格舉辦的第20屆年度EMAT峰會上頒發的最佳機器翻譯用戶研究獎。
研究結果
該研究使用BLEU(雙語評價替補,Bilingual Evaluation Understudy,簡稱BLEU)作為翻譯質量評估的主要自動測量方法,披露了三個主要結果:NMT技術一致優於SMT;英德互譯模式中,企業內部的NMT結果優於在線通用NMT引擎;NMT翻譯的流暢度接近人工翻譯水平。
研究者不僅引用了早前一些說明NMT在翻譯長句時的翻譯質量大幅下降的研究,還使用BLEU測試了長句如何影響NMT和SMT在英德和英法互譯模式中的表現。
長句對NMT和SMT在這兩種語言互譯的影響主要有兩點:“翻譯質量在長句翻譯的表現有所下降,但對於兩種語言的互譯,NMT的表現依然比SMT要好。”
大幅降低翻譯成本
Booking.com對機器翻譯很感興趣,這幾乎是意料之中的事情。據公布數字顯示,其平台每天預訂房間量達140萬。該公司總部位於阿姆斯特丹,在全球多個國家和地區設立了辦公室。
研究顯示,該平台提供40個語種的語言翻譯服務。研究指出:“其中一個主要的使用案例是將酒店描述信息從英語翻譯成其他語種(包括酒店、公寓、住宿加早餐酒店、旅館等)。”
通過整合這些公司內部開發的機器翻譯解決方案,Booking.com認為這可以提升翻譯效率。
研究表明,“通過提高翻譯速度、減少一個酒店的介紹從翻譯到上線的時間和大幅降低相應翻譯成本”,翻譯效率可以得到提升。
聯手哈佛,開發NMT係統性能
Booking.com商務負責人以及該研究合作作者之一的Maxim Khalilov表示,Booking.com花了半年的時間內部開發NMT的內部性能,其中不包括花在統計機器翻譯開發和測試的時間。
據Khalilov透露,他們使用的開發框架是由哈佛大學提供的基於Torch的編程解決方案OpenMT,這一解決方案還得到語言翻譯軟件商Systran的支持。
哈佛自然語言處理機構的Alexander Rush在去年12月OpenMT上線時接受了Slator的采訪,他表示:“希望能有不同的研究者研究如何提升翻譯,並期待業內人士能夠越來越熟悉新的人工智能技術”。
當被問到Booking.com是否在其自己的服務器上運營NMT時,Khalilov表示,盡管他們在某些實驗中使用自己的圖形處理器(graphical processing units),Booking.com目前主要還是依靠亞馬遜雲服務(Amazon Web Services)運營NMT。
研究指出,Booking.com未來的研究方向將會是內部NMT係統的提升,主要有兩個方向——提升未知詞和生僻詞的處理;提升對商業敏感內容翻譯錯誤的識別。
Khalilov說:“我們已在公司內部識別出10種機器翻譯使用案例,根據我們的優先計劃,我們將反複關注這些使用案例。”(Nic編譯)
最後更新:2017-08-22 15:04:44
上一篇:
萌係動畫《Comic Girls》公開視覺圖製作陣容及PV
下一篇:
殺手機器人 is coming!馬斯克攜26國AI專家向聯合國發出警告
Company is the greatest comfort in the world
Nat Commun:糖代謝如何誘發癌症
Compressport占據半壁江山,Kona世錦賽壓縮腿套排名出爐
對應諸多終端:“好租”域名hzu.com近10萬元結拍!
雙拚域名shuao.com在西部數碼小五位結拍!
Nat Commun:自噬影響壽命和血管健康的機製被揭示
百事通收購域名bestone.com為品牌升級做準備?
景德鎮啟用haoci.com上線好瓷網!好建小程序域名升級用haojian.cn
三字母域名EZY.com以39萬元結拍!“虎撲”域名賣出小六位數!
1.8秒能破百 土豪們的新玩具is coming!