閱讀847 返回首頁    go 機器人


人類獨特的三維感知能力,人工智能能學會嗎?

計算機和人看到的是一樣的嗎?

編者按:憑借一張平麵圖,人類能夠毫不費力地推斷出其潛在場景下完整的三維結構。將平麵圖像轉換為三維圖像是一項複雜的工作,所以我們必須要依賴之前的視覺經驗。我們的視覺經驗其實完全是由三維(3D)世界中的二維(2D)投影所組成的,因此,我們的三維感知能力的學習信號很可能是來源於3D現實中與不同視角所建立起一致的聯係。在本文中,我們提出了一些預測3D模型係統的方法,這些方法建立起的係統同樣能夠以類似的方式進行三維感知學習。

建立單張圖像三維結構推斷的計算模型,是計算機視覺界長期存在的一個問題。早期的一些嚐試,比如Block World,都是利用了對幾何線索的精確推理來優化3D結構的。近年來,監督學習使之前的方法在許多更現實的情境中也適用,還能推斷出定性的3D表示(如Hoiem等)或定量3D表示(如Saxena等)。大規模地獲取3D監督的成本非常高,所以我們希望我們的計算係統能夠像人類視覺係統一樣,在沒有3D監督的情況下同樣可以學習3D預測。

帶著這個目標,我們探索了另一種學習3D結構的監督形式——多視角觀察。有趣的是,我們研究工作雖然不同,但都有著共同的多視角監督目標;並且我們采用的方法也遵循著同樣的原則。這些方法都是建立在學習與幾何學的相互作用之上的,在這個過程中,學習係統做出的預測與多視角的觀察應該是具有“幾何一致性”的。因此,幾何學充當著學習係統和多視角訓練數據之間的橋梁。

通過幾何一致性進行學習

我們的目的是去學習一個能夠從單張平麵圖像推斷出3D結構的預測器 P(通常是一個神經網絡)。在監督環境下,訓練數據包含來自不同視角的多種觀察結果。正如之前所說的,幾何學就是一個橋梁,它使用訓練數據來學習預測器 P。這是因為我們清楚地知道在幾何方程的形式下,一個3D 表征與其對應的 2D 投影之間的關係。因此我們可以訓練預測器 P ,使其進行3D結構預測。

為了詳細地說明這個訓練過程,我們設置了一個檢驗器 V。我們首先給預測器 P 提供了一張圖像 I,然後它預測出了一個 3D 形狀 S。接著,我們給檢驗器V提供了這個預測結果S,以及從C視角得到的觀測圖O。檢測器V會用幾何方程式來驗證它們是否一致。我們讓 P 去預測一個能夠通過V驗證的3D結果S。這其中的關鍵在於由於預測器 P 並不知道(O,C)是用於驗證其預測結果的,所以它需要預測與所有可能觀察結果一致的 S(與未知的真實值 Sgt 相似)。

l 隨機選取一張訓練圖像 I和從視角 C 得到的觀察圖O。

l 預測 S=P(I),用 V 來檢測(S,O,C)的一致性。

l 更新 P,使用梯度下降,使 S 與(O,C)更一致。

l 重複上述操作,直到達到收斂。

最近采用多視角監督進行3D預測的方法都是遵循這個規律的,其差異就在於被推行的 3D 預測形式(例如深度或形狀)和所需多視角觀察結果的種類(例如彩色圖像或者前景模板)。我們接下來將要看兩篇能夠推進多視角監督模型的論文。第一篇論文利用經典的射線一致性公式介紹了一個通用的檢驗器,這個檢測器可以測量 3D 形狀與不同的觀察圖 O 之間的一致性;而第二篇論文說明了我們甚至可以進一步放寬所需要的監督,並且提出了一種無需視角C就能學習從平麵圖到得出3D結構的方法。

可微分射線一致性

在近期的論文中,設置了一個檢測器V來測量3D形狀與2D觀察圖之間的一致性。通用的公式能夠利用不同類型的多視角觀測結果來學習體積式3D預測結果。

設置檢測器V的原因之一是觀測圖O中的每個像素都與一條帶有相關信息的射線相對應。這樣一來,我們就不需要計算觀測圖O與形狀S之間的一致性了,我們隻需要判斷形狀S與射線r之間的一致性。

上圖介紹了指定射線一致性的各方麵的基礎。a) 3D預測形狀射線與樣本射線一致性的測量;b,c)通過3D形狀來追蹤射線,並計算概率;d)可以測量終止射線和信息射線之間的差異;e)通過將射線一致性成本定義為預期的事件成本,我們可以計算梯度,並調整和更新至更具一致性的預測。在這個案例中,我們將一個深度觀測圖O可視化了,這個公式的優勢之一在於它能夠通過簡單地定義對應事件的成本函數,組合各種觀察結果(如顏色圖片、模煳場景等)。

下圖是在不同的情境中,二維圖像通過我們的框架進行三維預測的結果。需要注意的是,所有的預測都是從預測器 P 訓練的單張 RGB 圖像中獲得的。

從未標記的視頻中進行深度和視角學習

在上述步驟中,輸入至檢測器V中的是一張從已知視角得到觀測圖。從一個具有感覺功能的有機體的角度看,這是非常合理的。但是在非結構化的數據源(比如視頻)的應用中,這就不那麼合理了。在近期的另一篇文章中,我們介紹了視角需求是可以放寬條件的,甚至,我們可以聯結單張圖像進行3D預測的學習。

具體而言,在這個案例中的檢測器V是建立在一個可微的深度視角合成器的基礎之上的,這個深度視角合成器會用預測的深度投影和來自源視角的像素來輸出一個目標視角。這裏的深度投影和攝影視角都要被預測,而其一致性是由像素重建失誤定義的。通過場景幾何學習與攝影視角的結合,我們能夠在未經標簽的視頻片段上,無需直接的監督,就能完成對係統的訓練。

我們是在KITTI和Cityscapes數據集上訓練和評估我們的模型的,這兩個數據集中包含了大量汽車行進中捕獲的視頻片段。下麵的視頻中一幀一幀地展示了我們的單視角深度網絡做出的預測。

令人驚喜的是,我們的單視角深度模型雖然未經過實際標簽的訓練,但是與成熟的SLAM係統達到了持平的效果。

在計算機視覺下,沒有3D監督的情況下學習單張圖像的3D結構是一個激動人心的話題。把幾何學作為學習係統和多視角訓練數據間的橋梁,讓我們輕鬆地避開繁瑣的操作程序和高昂的操作成本。更寬泛地說,我們可以講幾何一致性是理解元監督的一種形式。我們相信這樣的方式對訓練其他數據缺乏的解決問題的模型都能夠發揮起作用。

注:文章首發於36氪,轉載請注明。

最後更新:2017-10-07 22:45:52

  上一篇:go 人工智能Ai如何建立物業管理中的巡更係統、保潔登記、設備維護日誌?
  下一篇:go 繼科大訊飛後又一“人工智能”崛起,主力大舉加倉,望成8月首妖