864
機器人
人工智能的時代我們如何教電腦看圖像?
沒有人教導孩童如何去看世界,孩童是直接從真實世界的經驗中學習,到三歲左右時,孩子們已經看過了真實世界中數以百萬計的照片,這樣的訓練範例是很大量的,因此要教導機器辨識圖像或許該是如此:兼以質與量,提供訓練的數據給計算機,而非一味追求更好的程序演算。
視覺始於眼睛,但真正使它有用的,卻是大腦
我們的終極目標就是教導機器能夠像人一樣理解所見之物,像是識別物品、辨認人臉、推論物體的幾何形態,進而理解其中的關聯、情緒、動作及意圖。
要計算機達成這個目標的第一步,就是教導計算機如何辨別物品,這是視覺的基石。簡單來說,我們教導的方法是給計算機看一些特定物體的影像,以貓咪為例,貓咪由一些幾何圖形和顏色所組成的,我們用數學語言告知計算機演算方法,貓就是有圓圓的臉、胖胖的身體、兩個尖尖的耳朵和一條長尾巴。那困難點在哪裏?但如果貓咪造型改變,全身都卷起來了,這下子我們就要在原來的模型加上新的形狀和不同的視野角度,又如果貓咪是躲著的呢?我們發現,即使簡單如貓這樣的家庭寵物,也會有相對於原型以外、數也數不清的其他形態表征, 而這隻是其中一樣。
不過,就在八年前,一項簡單而深刻的觀察,改變了我的想法,我發現沒有人教導孩童如何去看世界,特別是在孩童早期發育階段,孩童是直接從真實世界的經驗中學習,到三歲左右的年紀時,孩子們已經看過了真實世界中數以百萬計的照片,這樣的訓練範例是很大量的,因此直覺告訴我應以孩童學習經驗法則,兼以質與量,提供訓練的數據給計算機,而非一味追求更好的程序演算。
有了上述的觀點,我們必須要搜集大量資料,普林斯頓大學的李凱教授2007年開始ImageNet項目。2009年起,ImageNet已經是個擁有涵蓋了2萬2千種不同類別,多達150億幅圖像的數據庫,這樣的規模,不論是質或量都是史無前例的。有了這些資料,我們可以教育我們的計算機,結果我們發現:ImageNet所提供的豐富信息恰巧與機器學習演算的其中一門特定領域不謀而合,我們稱它為卷積神經網絡──在70、80年代,辛頓和勒丘恩等學者為該領域的先驅。
視覺始於眼睛,但真正使它有用的,卻是大腦
卷積神經網絡就在眾人的意料外開花結果了。在一般的神經網絡中,我們用作訓練的物品辨識模型就有2千400萬個節點、1億4千萬個參數,以及150億個連結。正如同人類的大腦是由無數個緊密連結的神經元所組成,而神經網絡的基本運作單位是一個類神經元的節點。ImageNet的運作方式是從別的節點得到數據,然後再傳給其他的節點,這些數不清的節點擁有層層的組織架構,就好像我們的大腦一樣。現在,計算機不僅能告訴我們圖中有隻貓,還能告訴我們貓在哪裏
有時候,如果計算機不確定自己所見到的東西時, 我們已經將它教到可以聰明地給一個安全的答案,而非莽撞地回答,就像一般人能做到的那樣。更有些時候,計算機的運算竟能夠精準地辨別物體品項,例如製造商、型號、車子的年份。舉例來說,Google將這個演算程序廣泛地運用在數百個美國城市的街景裏,也因此我們從中得到了一些有趣的概念。首先,它證實了一項廣為人知的說法,也就是汽車價格和家庭收入是息息相關的。然而令人驚訝的是,汽車價格也和城市中的犯罪率以及區域選舉模式,有一定程度的關係。
那計算機已經趕上、甚至超越人類了嗎?還早得很呢!到目前為止,我們隻是教導計算機辨識物品,就像小孩子牙牙學語一樣,雖然這是個傲人的進展,但它不過是第一步而已,很快地,下一波具指標性的後浪就會打上來,小孩子開始進展到用句子來溝通。因此,他已經不會用「這是貓」來描述圖片,而是會聽到這個小孩說:這是躺在床上的貓。
視覺始於眼睛,但真正使它有用的,卻是大腦
因此,要教導計算機看到圖並說出句子, 必須進一步地仰賴龐大數據群以及機器的學習演算。現在,計算機不僅要學習圖片辨識,還要學習人類自然的說話方式,就如同大腦要結合視覺和語言一樣,我們做出了一個模型,它可以鏈接不同的可視物體,就像視覺片段一樣,並附上句子用的字詞和詞組。約四個月前,我們終於把所有的元素全部兜起來了,做出了第一個計算機版的模型,它可以在初次看到照片時說出像人類般自然的句子。
這是第一次人類的眼睛不是唯一可以用來思考和探索世界的工具,我們不僅可以利用機器的智能,更可以運用更多你想象不到的方式攜手合作。這也是我想追求的目標,給予機器智能之眼, 為整個世界創造更美好的未來。
文|公子量
最後更新:2017-08-31 21:28:34