閱讀695 返回首頁    go YY.com


Booking.com聯手哈佛優化翻譯係統,流暢度逼近人工翻譯水平

Booking.com利用哈佛大學提供的OpenMT開發框架打造機器翻譯(NMT)係統,研究表明利用NMT技術可以大幅度降低翻譯成本和提升翻譯效率,其流暢度接近人工翻譯水平。Booking.com目前提供40個語種的語言翻譯服務。

【環球旅訊】(本文編譯自Slator)重塑語言技術領域發展的三個主要趨勢在Booking.com平台得到了體現:未來對本地語言內容、便宜且幾乎無限製的雲端運算能力,以及開源的神經網絡機器翻譯框架的需求將越來越高。

Booking.com利用這三個趨勢打造了產品層麵的神經網絡機器翻譯係統(neural machine translation system,以下簡稱NMT係統),Booking.com稱“這一係統正成為一個非常具有吸引力的解決方案,是對傳統的人工翻譯服務的補充。”

今年7月25日,負責此項目的團隊在康奈爾大學運營的開放科學網站Arxiv.org發布的一份研究報告中宣布此NMT係統上線。

該研究報告的合作作者Pavel Levin、Nishikant Dhanuka、Maxim Khalilov都是Booking.com的高管,他們稱研究重點在於對早前針對兩個重要的互譯模式(英語到德語和英語到法語)和兩個通用在線引擎(統計和神經網絡)的統計機器翻譯係統(statistical machine translation system,簡稱STM係統)進行了NMT基準測試。

報告作者在該研究摘要中寫道:“研究展示了SMT和NMT係統提供的翻譯輸出的自動評估和人工評估結果,分析了句子長度對這兩個係統的輸出質量的影響。”

該研究還獲得了施普林格歐洲機器翻譯協會(Springer European Association for Machine Translation,簡稱EAMT)在今年5月於捷克首都布拉格舉辦的第20屆年度EMAT峰會上頒發的最佳機器翻譯用戶研究獎。

研究結果

該研究使用BLEU(雙語評價替補,Bilingual Evaluation Understudy,簡稱BLEU)作為翻譯質量評估的主要自動測量方法,披露了三個主要結果:NMT技術一致優於SMT;英德互譯模式中,企業內部的NMT結果優於在線通用NMT引擎;NMT翻譯的流暢度接近人工翻譯水平。

研究者不僅引用了早前一些說明NMT在翻譯長句時的翻譯質量大幅下降的研究,還使用BLEU測試了長句如何影響NMT和SMT在英德和英法互譯模式中的表現。

長句對NMT和SMT在這兩種語言互譯的影響主要有兩點:“翻譯質量在長句翻譯的表現有所下降,但對於兩種語言的互譯,NMT的表現依然比SMT要好。”

大幅降低翻譯成本

Booking.com對機器翻譯很感興趣,這幾乎是意料之中的事情。據公布數字顯示,其平台每天預訂房間量達140萬。該公司總部位於阿姆斯特丹,在全球多個國家和地區設立了辦公室。

研究顯示,該平台提供40個語種的語言翻譯服務。研究指出:“其中一個主要的使用案例是將酒店描述信息從英語翻譯成其他語種(包括酒店、公寓、住宿加早餐酒店、旅館等)。”

通過整合這些公司內部開發的機器翻譯解決方案,Booking.com認為這可以提升翻譯效率。

研究表明,“通過提高翻譯速度、減少一個酒店的介紹從翻譯到上線的時間和大幅降低相應翻譯成本”,翻譯效率可以得到提升。

聯手哈佛,開發NMT係統性能

Booking.com商務負責人以及該研究合作作者之一的Maxim Khalilov表示,Booking.com花了半年的時間內部開發NMT的內部性能,其中不包括花在統計機器翻譯開發和測試的時間。

據Khalilov透露,他們使用的開發框架是由哈佛大學提供的基於Torch的編程解決方案OpenMT,這一解決方案還得到語言翻譯軟件商Systran的支持。

哈佛自然語言處理機構的Alexander Rush在去年12月OpenMT上線時接受了Slator的采訪,他表示:“希望能有不同的研究者研究如何提升翻譯,並期待業內人士能夠越來越熟悉新的人工智能技術”。

當被問到Booking.com是否在其自己的服務器上運營NMT時,Khalilov表示,盡管他們在某些實驗中使用自己的圖形處理器(graphical processing units),Booking.com目前主要還是依靠亞馬遜雲服務(Amazon Web Services)運營NMT。

研究指出,Booking.com未來的研究方向將會是內部NMT係統的提升,主要有兩個方向——提升未知詞和生僻詞的處理;提升對商業敏感內容翻譯錯誤的識別。

Khalilov說:“我們已在公司內部識別出10種機器翻譯使用案例,根據我們的優先計劃,我們將反複關注這些使用案例。”(Nic編譯)

最後更新:2017-08-22 15:04:44

  上一篇:go 萌係動畫《Comic Girls》公開視覺圖製作陣容及PV
  下一篇:go 殺手機器人 is coming!馬斯克攜26國AI專家向聯合國發出警告