數據科學:以信息為載體的精確體係
引言:數據科學存在於生產和生活的各個方麵,貫穿於人類社會發展的始終。數據科學作為科學,首先應該滿足科學的基本定義。在此基礎上,數據科學兼具數據本身的一些特性。
本文內容整理自《數據科學家養成手冊》認知篇。
數據科學是一個巨大而抽象的概念,要想清晰地認識這樣一個概念,就需要對其進行拆解。
什麼是科學
科學是一種泛指的領域,包括數據科學、計算機科學、社會科學、經濟科學、語言科學、生物科學等都是小、窄而深的認知領域,這些領域的科學有各自的體係、規範及認知特性。科學,不管是某個領域的科學,還是泛指的科學認知體係,都有最基本的要求——精確性和體係性。
精確性
太陽東升西落,四季夏熱冬冷,這種事情不足為奇。通過觀察星辰運動,得出這些天體都在圍繞地球轉動(至少看上去是這樣)的結論,也不值得稱道。而能夠把這一切通過量化的(尤其是精確量化的)描述進行闡釋和計算的人,確實比常人的觀察層麵更廣、更深。這種精確描述的過程與狀態的現實指導意義遠比從大方向上指出一個性質要大。
體係性
體係性就是指“自圓其說”的框架。所謂“自圓其說”的概念是指一種科學理論要有完整的對象定義,以及對象之間的換算與轉化的條件和量化值的確切關係,通常表現為各種各樣的計算公式或者統計概率的確切描述。而且,這一切有一個前提——需要“可應驗”,嚴格地說是“高度應驗”才行。體係框架的成立會形成一個封閉的討論邊界。在討論邊界內部的所有觀察對象都會以各種量化結果呈現在換算公式的因子裏,它的完整性會直接支持體係本身,並支持所有在該體係下進行的性狀判斷與預測。
從信息到數據
數據無處不在。在網絡上、報紙上、書籍上,在家用電腦的磁盤上,在我們的腦海裏,數據大量且廣泛地存在。圍繞數據,人類已經做了很多數據科學的研究和應用工作,其中最為基礎的就是數據的存儲和傳輸。數據的價值在於數據上所承載的信息,信息的價值在於其消除不確定性時的成本及其直接和間接的作用,而這一係列的價值使得我們對數據的價值予以空前的重視,這就是我們熱衷於研究數據科學的原因所在。
數據作為信息的載體,通過在介質上的落地和傳輸,以及數據之間體係性的計算,給人類帶來了“消除不確定性,降低試錯成本”的巨大利益。
著名信息學家克勞德·艾爾伍德·香農(Claude Elwood Shannon)曾經在1948年於《貝爾係統技術期刊》上發表論文《通信的數學理論》(A Mathematical Theory of Communication),其中有一段描述大意是“信息是用來消除隨機不確定性的東西”。香農在這篇論文中不僅給出了信息的含義,還給出了信息量計算的公式,也就是信息學相關專業最為常用的公式之一 —— 信息熵公式。
其中,P(xi ) 代表消息 xi 產生的概率。
數據作為介質承載信息的形式,實際上是一種將信息抽象後的符號表示。所以,究其本質,不論是磁帶上的語音數據,唱片上的音樂數據,磁盤上的文件數據,還是紙張上的文字數據,都具有如下特性。
- 作用:承載信息,消除不確定性。
- 形式:抽象過的符號記錄。
- 定義:符號的含義經過約定,不會或至少不易產生二義性。
信息的流傳需要通過存儲介質實現持久化。現在我們一提到存儲,通常都會想到計算機硬盤,包括傳統的機械硬盤及技術越來越成熟的固態硬盤(SSD硬盤)等。
眾所周知,目前的電子計算機使用的計算與存儲介質都是二進製的。這不是偶然的結果,而是由電子計算機的實現原理造成的。在ENIAC的設計過程中,馮·諾依曼(John von Neumann)根據半導體電子元件的二穩態特性,將計算機的計算邏輯設計為二進製方式(即隻有“0”和“1”兩種狀態),在電子管上體現出來的特性就是“截止”和“導通”。而人類喜歡使用十進製也主要是因為人有10根手指,在日常生活中用十進製進行計算最為便利。
電子管
在計算過程中,計算機將“與門”、“或門”、“與非門”、“或非門”等邏輯元件組合在一起,模擬計算進位的過程,進而形成完整的計算實現單元。用電子計算機實現的任何一種運算都是由這些邏輯門組合而成的,而這之後在電子計算機領域不斷進行的技術改進都是基於同樣的原理。盡管元件的體積越來越小,集成的程度越來越高,計算的速度越來越快,但從計算邏輯和實現的數學層麵來說,其原理沒有本質的變化。
邏輯門
在硬盤技術方麵也同樣不斷進行著量變的積累。無論盤片容量是500GB還是1TB甚至更高,都是通過磁頭機械臂在盤片上滑動的同時高速轉動盤片來實現磁性材料持久化和材料狀態感應。計算中使用的“0”和“1”,就可以通過這種持久化以磁介質疏密(磁通量的高低)寫入磁性材料層。
機械硬盤及其讀寫原理
展望未來,量子計算機和光子計算機的研發已經展開。這些新型計算機盡管實現原理不同,但隻要成本足夠低,而且與目前的電子計算機采用相同的工業標準,使雙方在存儲介質、信息傳輸等多個方麵能夠毫無障礙地互聯互通,其未來就非常值得期待。
加拿大D-WAVE公司的量子計算機
信息經過抽象、建模,落實到介質上成為數據。數據與不同特性的介質結合,在各種介質上落地的形式也不完全一樣,而這種結合通常是數據去迎合介質的特性。有意義的數據落在介質上,才能形成可以傳遞的信息,這就是信息產業賴以生存的基礎。
數據科學的本質
在了解科學和數據的定義後,我們基本可以給數據科學下一個完整的定義了——數據科學是一種研究信息感知、抽象、保存、建模、傳輸,以及數據之間的邏輯、數量統計、計算和轉化關係的綜合應用科學。數據科學的本質就是表述和指導對事物認知的關係量化,把普適性的科學思維方式應用到數據上,使其成為一門窄而深的、精確的、擁有完整體係的學科。這就是數據科學要解決的本質問題。
如果嚐試對數據科學這個龐大的體係進行細分,可以分成很多專注於數據某一方麵處理的專項學科。例如,數據貯存學研究數據存儲中的數據體積、存取效率、可靠性問題等,數據傳輸學研究傳輸速度、傳輸質量問題等。在這兩個大的領域中,所有可能影響數據存儲和傳輸的因素都會被討論和研究,計算機硬件製造、光電信號傳輸、數據有損/無損壓縮、數據冗餘與高可用、數據校驗等都是研究的對象。
此外,還有研究如何在數據中進行信息抽象、計算、查找、分析等諸多度量與換算問題的數據算法學,以及其他一切能夠對數據的感知、抽象、保存、建模、傳輸,甚至是數據的可視化、數據之間的辯證邏輯提供支持的學科等。其他分類同樣會由於產業分化的需要而隨時產生。這種平衡中的變化不斷發生,一些小的分支和分類也會由於科研工作者潛移默化的努力而逐漸融合為一個大的分支。這些方式同樣是仁者見仁,智者見智,不一而足。
本文內容整理自《數據科學家養成手冊》認知篇,點此鏈接可在博文視點官網查看此書。
想及時獲得更多精彩文章,可在微信中搜索“博文視點”或者掃描下方二維碼並關注。
最後更新:2017-05-25 11:31:34