閱讀814 返回首頁    go 阿裏雲 go 技術社區[雲棲]


相關性和因果性:周扒皮原來是大數據應用的先驅者


0?wx_fmt=gif

在大數據時代,相關關係似乎替代了因果關係。然而世界具有複雜性,大數據時代世界似乎被數據統治,是混沌的。


相關關係是指當一個數據變化時,另一個數據也可能隨之變化,不論是這兩個數據也沒有必然聯係。相關關係有可能是正相關也有可能是負相關,有可能是強相關也有可能是弱相關。


因果關係是指當一個作為原因的數據變化時,另一個作為結果的數據在一定程度發生變化,這兩個數據存在著必然聯係。因果關係可能是線性關係,也可能是非線性關係。


大數據來了,相關性的凸顯,使我們看到了以前不曾注意的聯係,掌握了以前很難理解的複雜係統。通過相關性的研究,可以幫助企業賺錢,幫助政府決策就夠了,不要講究“為什麼”,至於因果關係就讓科學家們慢慢琢磨去吧。


相關性倒不是什麼新鮮話題,於是乎我想起了地主周扒皮。上世紀四十年代,中國農村某地有個地主叫周扒皮,他雇傭了幾個長工為他種地,周扒皮不可能懂得相關關係和因果關係,但他很狡猾,他悟出了兩個現象之間的聯係,公雞一叫,太陽不久就會升起。舊時中國農民有個習慣,日出而作,日落而息。於是,每天半夜他到雞窩旁學雞叫,引得雞窩裏的公雞一起打鳴,然後周扒皮到長工屋大喊:雞都叫了,快下地幹活。


顯然,公雞叫,太陽升這兩個事兒之間並沒有什麼因果關係,他們之間僅僅是相關關係,因為不能認為公雞叫是太陽升的原因,太陽升是公雞叫的結果。如果把天下的公雞都殺了,太陽從此不升起來了,因果關係才能得到驗證。但周扒皮利用相關關係延長了長工的勞動時間,達到了剝削的目的。


0?wx_fmt=jpeg


古時候沒有天氣預報,人們往往根據蛙鳴預測有沒有雨,但雨水不應是蛤蟆叫出來的。地震前動物往往有異常表現,但地震不應是阿貓阿狗鬧出來的。但是了解這些現象之間的相關關係往往有用處。


有些學者用世界的複雜性解釋大數據複雜性,認為這個世界是混亂的,世界上大多數發生的事是碰巧出現的,完全不受定律和因果性的支配,但這個世界又是數據的,混亂性隻有使用大數據才能進行說明。這些觀點又用蝴蝶效應進行了說明。據說地球一端更多一隻蝴蝶煽動了一下翅膀能引起地球另一端一場暴風雨,並將這一現象引人複雜性科學,是指在一個動力係統中,初始條件下微小的變化能帶動整個係統長期巨大的連鎖反映。我們不懷疑複雜適應係統理論的科學性,但實在無法驗證中國哪一場暴風雨是由美國的哪一隻蝴蝶的翅膀引發的,更無法分析其相關性。


科學研究的現象都是可重複的,重複考研在實驗室中複製,也可以在現實世界中產生。蝴蝶翅膀和暴風雨的關係顯然不能在實驗室中實驗,但我們也無法在現實世界中取得它們相關性的數據。我奶奶和我講過她父親的故事,有一天我奶奶的父親在祖墳裏看到了一隻狐狸,第二年我奶奶的父親便娶了一個美如妖的媳婦,就是我奶奶的母親,但這種事情以後再也沒有發生過,不能重複。千年一現的事物隻能是傳說,不是科學研究的對象。實驗室中的實驗結果每一次都會有差異,我們通過統計平均,在變化中研究規律,因而千年不變的事物也不是科學研究的對象。現實世界產生的大數據在一定條件下是可以重複和多變的,給科學研究提供了基本條件,也對科學研究提出了新的挑戰。


幾千年來,探討事物之間的因果關係是理、工、農、醫、文幾乎所有科學研究的重要目的。相關性和因果性是哲學問題,哲學家、數學家、統計學家、物理學家、醫學家、經濟學家大都將尋找自身研究領域中的因果關係當做一生的追求。古希臘哲學家說:“我寧肯找到一個因果關係的說明,不願獲得一個波斯王位。”千百年,雖然哲學家思辯方式已深入人心,老百姓還是相信事出有因,宗教人士宣傳因果報應。


在研究相關關係和因果關係方麵,統計學做出了巨大貢獻。統計學提出了相關係數,通過計算相關係數判斷事物之間的相關關係,對相關係數教學統計檢驗,若通過檢驗,證明事物之間的相關程度高,便可以進一步做回歸分析。在計算相關係數時,首先要通過理論研究和定性分析篩選變量,對有內在聯係的數據做相關分析。與大數據思維不同,統計學認為公雞叫與太陽升、蛙鳴與下雨,它們之間沒有內在聯係,即無因果關係,屬於虛假相關,盡管相關係數可能很高,也沒有做回歸分析的必要了。


在回歸分析中,設xi為自變量,設yi為因變量,統計學的研究幾乎窮盡了因果關係的所有可能。對一因一果的現象,可以建立一元回歸模型;對多因一果的現象,可以建立多元回歸模型;對一因多果的現象,可以建立路徑分析等模型;對多因多果的現象,可以建立聯立方程等模型。


顯然,回歸模型比相關係數進了一步,它可以解釋數據之間作用機製和作用的大小。但回歸模型即使通過了各種統計檢驗,也可能隻在一定程度上說明事物之間的因果關係。模型的自變量不一定是原因,因變量不一定是結果。Xi與yi之間的因果關係是否成立,還要由統計學所應用領域的專家來判斷,如經濟學家、管理學家、生物學家、醫學家等,並大量的實踐得到檢驗。統計模型隻能說包含真正因果關係的可能性較大,二真值在哪裏?上帝知道。


大數據可理解為大而複雜的數據,具有異母體、噪音累積、虛假相關、內生性、時變性等,我們幾乎被數據包圍。在這種數據環境下,尋找數據之間因果關係非常困難,也有觀點認為在大數據時代,探索因果關係幾乎不可能,因而因果關係消失了,相關關係替代了因果關係。但我們也應看到,在大數據環境下,做相關性的研究也非常困難,幾十萬個樣本規模,幾十萬個維度,甚至更多,怎麼計算相關係數?如果不用相關係數,用什麼方法?


相關關係是比因果關係更寬泛的概念,事物之間有相關關係不一定存在因果關係,有因果關係必定有相關關係。相關分析是因果分析的基礎,因果分析是相關分析的深化。大數據的相關關係不僅沒有替代因果關係,反而給因果關係的研究提供了更廣泛的發展空間。


醫療大數據、藥物研發大數據、基因大數據給精準醫療、藥物研究等領域帶來一切變革,但僅靠相關關係很難找到病因,無法對症下藥,藥物的研發也很難針對各種病症,當然也不需要建立起因果模型後再實踐。阿司匹林是治療感冒的藥,後來人們發現這種藥對預防心腦血管疾病有療效,經過大量臨床,發現阿司匹林對預防心腦血管疾病療效顯著,有相關關係。而後,對阿司匹林進行藥理分析,才發現阿司匹林中含有治療心腦血管疾病的藥物成分,建立了因果關係。


那麼我們期望大數據引來因果分析的一場革命吧。

 原文發布時間為:2016-12-03


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-27 11:02:41

  上一篇:go  《Python極客項目編程 》——1.2 所需模塊
  下一篇:go  PLM調研第四天