559
gooseeker集搜客
大數據的問題07:啤酒和尿布的故事是偽造的
所謂“仁者見仁,智者見智”,大數據作為新生科技,會迷茫,會悲觀,然而這向來是機會所在。這個係列故事開始幾個還算容易牽動讀者去思考探索,從上個故事《大數據的問題06:大數據預測得準嗎?》開始,會讓更多持懷疑態度者加入到質疑和嘲笑大數據的行列來。這次講的故事更加顛覆。啤酒和尿布:經典故事是偽造的,你知道嗎?
這是一個關於零售帝國沃爾瑪的故事。 在一次例行的數據分析之後, 研究人員突然發現: 跟尿布一起搭配購買最多的商品,竟是啤酒!尿布和啤酒,聽起來風馬牛不相及,但這是對曆史數據進行挖掘的結果,反映的是數據層麵的規律。這種關係令人費解,但經過跟蹤調查,研究人員發現,一些年輕的爸爸常到超市去購買嬰兒尿布,有30%~40%的新爸爸,會順便買點啤酒犒勞自己。隨後,沃爾瑪對啤酒和尿布進行了捆綁銷售,不出意料,銷售量雙雙增加。
上麵這個案例,出自於塗子沛先生的所著的大數據暢銷書《數據之巔》,在這個案例中,要情節有情節,要數據,有數據,誓言旦旦,不容你置疑。但是,這個故事雖經典,但是讓你意想不到的是:案例是編造的
這個經典的“啤酒和尿布” (Beer and Diapers)的案例,不僅是《大數據》類圖書的常客,事實上,它更是無數次流連於“數據挖掘”之類的書籍中,特別是用來解釋“關聯規則(Association Rule)”的概念,更是“居家旅行,必備之良藥(周星馳語)”。當前,基本上所有講大數據應用,都會捎帶講上這個經典案例,要求大家多研究“相關性”,少研究因果關係!但實在掃興的是,這個案例僅是一碗數據分析的“心靈雞湯”——聽起來很爽,但信不得!
實踐是檢驗真理的唯一標準。如果這個故事是真的,按理說,應該給超級市場以無限啟發才對,可實際上,不管是中國,還是在美國,在超市裏麵觀察一下,就會發現,根本沒有類似的物品擺放,相近的都很少。
故事性強,事出有因。據吳甘沙先生透露,它是Teradata公司一位經理編出來的“故事”,目的是讓數據分析看起來更有力,更有趣,而在曆史上從沒有發生過,感興趣的讀者可以自己參閱文獻。但公平地講,這個故事對數據挖掘的普及意義重大,僅從教育意義上看,仍不失為一個好故事。
相關性並非什麼大事
即便真的有這個案例,也不說明數據分析出來的“相關性”,有什麼特別的神奇之處。舍恩伯格教授的《大數據時代》核心觀點之一就是:趾高氣揚的因果關係光芒不再,卑微的相關關係將被“翻身做主人”,知道“是什麼”就夠了,沒必要知道“為什麼”。但需要我們更為深入了解的事實是:
“要相關,不要因果”,這個觀點其實並非舍恩伯格首先提出的。最早的提出者應為《連線》(Wired)主編Chris Anderson ,2008年他在題為 “理論的終結:數據洪流讓科學方法依然過時(End of Theory: the Data Deluge Makes the Scientific Method Obsolete)” 文章中,率先提出:在PB時代,我們可以說,有相關性足夠了(Petabytes allow us to say: "Correlation is enough)"。
“要相關,不要因果”的觀點,並不受學術界待見。甚至,《大數據時代》的中文版翻譯者周濤亦在序言裏說,“放棄對因果關係的追求,是人類的墮落”。對於這個觀點,李國傑院士認為:在大數據中,看起來毫不相關的兩件事同時或相繼出現的現象比比皆是,相關性本身並沒有多大價值,關鍵是找對了“相關性”背後的理由,才是新知識或新發現。
大數據分析的第二個功能,或者說更為核心的功能在於,預測。預測主要用於對未來進行籌劃,大到產業的布局,小到流感的預警,均可用預測。但是對未來的預測,能準嗎?
全文:深度|十個段子反思大數據
最後更新:2017-01-09 14:08:07