計算機視覺入門基礎——計算機如何‘看’圖片。
更多深度文章,請關注:https://yq.aliyun.com/cloud
計算機視覺是一門研究如何使機器‘看’的科學,我們都喜歡看美麗的圖像,但是你有沒有想過計算機是如何看這些圖像的?接下來,我會詳細介紹說明計算機如何處理圖像的。
看到上麵的圖像,一個正常的人可以很容易地知道,圖像中有一隻貓。但是,計算機可以真正看到貓嗎?答案是否定的,計算機看到數字矩陣(0到255之間)。一般來說,我們可以將圖像分類為灰度圖像或彩色圖像。首先,我們先討論灰度圖像然後再討論彩色。上圖是灰度圖像,表示每個像素表示像素的亮度。了解更多關於像素。讓我們先來看看上麵圖片中計算機是怎麼看的。
我已將上麵的圖像大小調整為18 * 18,以便於理解。與我們不同的是,計算機將圖像看作2D矩陣。你可能聽說有人說這幅畫的大小是1800 * 700或1300 * 700,這個大小顯示了一個圖像的寬度和高度。換句話說,如果大小為1300 * 700,則水平方向為1300像素,垂直方向為700像素。這意味著總共有910000(1300 * 700)像素。如果圖像的大小為700 * 500,那麼矩陣的維數將為(700,500)。這裏,矩陣中的每個元素(像素)表示該像素中的亮度強度。這裏,0表示黑色,255表示白色,數字越小,越接近黑色(數字大小決定黑的程度)。
在灰度圖像中,每個像素表示僅一種顏色的強度。換句話說,它有一個通道。而在彩色圖像中,我們有3個通道RGB(紅,綠,藍)。標準數碼相機都有3(RGB)通道。
如上圖所示,彩色圖像由紅色,綠色和藍色三個通道組成。現在的問題是,計算機如何看待這個形象?同樣,答案是他們看到矩陣。現在下一個問題應該是,我們要如何在矩陣中表示這個圖像,因為它有3個通道,與我們隻有一個通道的灰度圖像不同。在這種情況下,我們利用3D矩陣來實現表示彩色圖像。我們有一個通道的矩陣,但在這種情況下,我們將有三個矩陣堆疊在一起,這就是為什麼它是3D。700 * 700彩色圖像的尺寸將為(700,700,3)。假設第一個矩陣表示紅色通道,則該矩陣的每個元素表示該像素中的紅色強度,同樣為綠色和藍色。通常,彩色圖像中的每個像素具有與其相關聯的三個數字(0至255)。這些數字表示該特定像素中的紅色,綠色和藍色的強度。至於為什麼是紅綠藍這三色,想必大家都知道色度學的最基本原理,即三基色原理。大多數顏色都可以通過三色按照不同的比例混合產生。
計算機將圖像看作矩陣。灰度圖像具有一個通道(灰色),因此我們可以在2D矩陣中表示灰度圖像,其中每個元素表示該特定像素中亮度的強度。記住,0表示黑色,255表示白色。灰度圖像有一個通道,而彩色圖像有三個通道RGB(紅,綠,藍)。我們可以在深度為3的3D矩陣中表示彩色圖像。
本文由阿裏雲雲棲社區組織翻譯。
文章原標題《How do computers see an image ?》,作者:Savan Visalpara
作者個人網站:https://savan77.github.io/,可以與作者交流。
譯者:袁虎,審閱:
文章為簡譯,更為詳細的內容,請查看原文
最後更新:2017-06-29 09:02:48