超級實習生Ian Goodfellow留給穀歌地圖的算法被完善，識別800億街景圖文字（附論文）

0?wx_fmt=jpeg

識別並提取圖片有效信息是穀歌地圖發展的新方向之一

穀歌地圖每天都會向數百萬人提供有用的向導、實時交通信息和商業信息。為了提供最好的用戶體驗，這些信息必須不斷地反映持續變化的世界。雖然街景汽車每天收集數百萬張圖片，但是無法手動分析迄今為止收集的超過800億張高分辨率圖片，以便為穀歌地圖找到新的或更新的信息。Google地麵實況團隊（Ground Truth team）的目標之一是使我們可以自動從含有地理位置信息的圖片中提取信息，從而改進穀歌地圖。

在《從街景圖片中提取基於注意力的結構化信息》論文中（後台回複“穀歌”下載論文全文），我們描述了在許多國家使用深度神經網絡自動地從非常具有挑戰性的街景圖片中準確讀取街道名稱的方法。我們的算法在具有挑戰性的法國街頭標誌（FSNS）數據集上實現了84.2％的準確性，顯著優於以前的最先進的係統。重要的是，我們的係統很容易擴展，以便從街景圖片中提取其他類型的信息，現在，它可以幫助我們從商店門麵圖片中自動提取商店名稱。 我們很激動地宣布，這個模型現在是開源的！

0?wx_fmt=png

來自FSNS數據集的街道名稱示例，由我們的係統正確標記。同一個標識最多提供四個視圖。

自然環境中的文本識別是一個具有挑戰性的計算機視覺和機器學習問題。雖然傳統的光學字符識別（OCR）係統主要集中在從掃描的文檔中提取文本，但是由於自然場景獲取的文本存在視覺偽像（如失真，遮擋，方向模煳，雜亂的背景或不同的視角）而更具挑戰性。解決這一研究挑戰的努力源自2008年，當時我們使用神經網絡來模煳掉街景圖片中的麵孔和車牌，以保護用戶的隱私。從這個初步研究中，我們意識到，使用足夠多的帶標簽的數據，我們不僅可以使用機器學習來保護用戶的隱私，還可以通過獲取最新的相關信息來自動改進穀歌地圖。

實習生牽起街景數字數據集閱讀方法項目

2014年，穀歌的地麵實況小組發布了最新的街景數字（SVHN）數據集閱讀方法，該方法由當時的暑期實習生（現為Google員工）Ian Goodfellow實施。這項工作不僅具有學術意義，而且對製作更為準確的穀歌地圖至關重要。今天，全球有三分之一以上的地址由於采用了這一係統而得到改進。在一些國家，如巴西，該算法已經改善了穀歌地圖中90％以上的地址，大大提高了我們地圖的可用性。

理所當然地，下一個步驟是將這些技術擴展到街道名稱。為了解決這個問題，我們創建並發布了法國街名標誌數據集（FSNS），這是一個超過100萬個街道名稱的大型訓練數據集。 FSNS數據集是一項多年努力，旨在允許任何人在具有挑戰性和真實用途的情況下改進其OCR模型。 FSNS數據集比SVHN大得多，更具挑戰性，因為對街道標誌的準確識別可能需要組合許多不同圖片的信息。

0?wx_fmt=png

這些是由我們的係統通過選擇，或結合對圖片的理解而正確標記的具有挑戰性的標識示例。第二個例子本身是極具挑戰性的，但該模型在之前學習了一種語言模型，使之能夠消除模煳性並正確閱讀街道名稱。

通過這個訓練集，穀歌實習生Zbigniew Wojna 2016年花了一個暑假，開發了一個深度學習模型架構，自動標注了新的街景圖片。 我們的新模型有一個非常有意思的優點，它可以將文本標準化，與我們的命名習慣保持一致，並且可以忽略無關的外部文本。

0?wx_fmt=png

在這個例子中，模型並沒有被混淆，因為有兩個街道名稱，正確地將“Av”標準化為“Avenue”，並正確地忽略了數字“1600”。

項目觸角仍在不斷延伸中

雖然這個模型是準確的，但確實顯示了15.8％的錯誤率。然而，在分析錯誤案例後，我們發現其中48％是由於地麵實況錯誤，突出表明該模型與標簽質量相一致。（對錯誤率的完整分析可以在我們的論文中找到）。

這個新係統與提取街道號碼的係統相結合，使我們能夠直接從圖片創建新的地址，我們以前不知道街道的名稱或地址的位置。現在，隻要街景汽車在新建的道路上行駛，我們的係統就可以分析成千上萬的被捕獲的圖片，提取街道名稱和數字，並在穀歌地圖上自動正確創建和定位新地址。

但是，自動創建穀歌地圖的地址是不夠的——我們還希望能夠通過店鋪名稱為商家提供導航。在2015年，我們發表了《街景圖片大規模發現商家》的文章，提出了一種在街景圖片中準確識別商店店麵標誌的方法。然而，一旦檢測到商店門麵，仍然需要準確地提取其名稱以供使用——模型必須確定哪個文本是商家名稱，哪個文本是不相關的。我們將其稱為從圖片中提取“結構化文本”。它不僅僅是文本，它還是附有語義的文本。

使用不同的訓練數據，用於讀取街道名稱的模型架構也可用於從商家外觀圖片中精確地提取商家名稱。在這種特殊情況下，我們能夠僅僅提取商家名稱，來驗證穀歌地圖中是否已經存在該商家，從而使我們能夠獲得更準確和最新的商家列表。

0?wx_fmt=png

缺失位置信息的情況下，係統能夠預測圖片中商店的名稱為“Zelina Pneus”。模型沒有被商店所賣的輪胎品牌(Firestone)所迷惑。

在超過800億的街景視圖圖片中應用這些大型模型需要大量的計算能力。這就是為什麼地麵實況團隊是今年早些時候宣布的穀歌 TPU的第一個用戶，這樣大大降低了我們的計算成本。

人們依靠穀歌地圖的準確性來獲得幫助。在保持穀歌地圖與城市不斷變化的環境保持一致的同時，道路和商家提出了一個遠未解決的技術挑戰，地麵實況團隊的目標是推動機器學習中的劃時代的創新，為十多億穀歌地圖用戶創造更好的體驗。

原文發布時間為：2017-5-4

本文來自雲棲社區合作夥伴“大數據文摘”，了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新：2017-05-16 17:31:17

超級實習生Ian Goodfellow留給穀歌地圖的算法被完善，識別800億街景圖文字（附論文）

上一篇：馬雲阿根廷講跨境貿易：沒有什麼是事前準備好的

下一篇：技術再好，能阻止暴力視頻的瘋傳嗎？

相關內容

熱門內容

最新內容

超級實習生Ian Goodfellow留給穀歌地圖的算法被完善，識別800億街景圖文字（附論文）

上一篇： 馬雲阿根廷講跨境貿易：沒有什麼是事前準備好的

下一篇： 技術再好，能阻止暴力視頻的瘋傳嗎？

相關內容

熱門內容

最新內容

上一篇：馬雲阿根廷講跨境貿易：沒有什麼是事前準備好的

下一篇：技術再好，能阻止暴力視頻的瘋傳嗎？