閱讀216 返回首頁    go gooseeker集搜客


大數據的問題04:蓋洛普抽樣的成功——大小之爭

       讀了上一個故事《園中有金不在金——大數據的價值》才知道目前玩大數據的就像小蜜蜂,釀的蜜不足為題,產生的價值竟然主要是傳粉。雖是無心插柳,總比白幹強,先放一放吧,我們要探討一個新問題:“大”數據一定勝過小抽樣嗎?
蓋洛普抽樣的成功——大小之爭,“大”數據一定勝過小抽樣嗎?
       1936年,民主黨人艾爾弗雷德·蘭登(Alfred Landon)與時任總統富蘭克林·羅斯福(Franklin Roosevelt)競選下屆總統。《文學文摘》(The Literary Digest)這家頗有聲望的雜誌承擔了選情預測的任務。之所以說它“頗有聲望”,是因為《文學文摘》曾在1920年、1924年、1928年、1932年連續4屆美國總統大選中,成功地預測總統寶座的歸屬。


       1936年,《文學文摘》再次雄赳赳、氣昂昂地照辦老辦法——民意調查,不同於前幾次的調查,這次調查把範圍拓展得更廣。當時大家都相信,數據集合越大,預測結果越準確。《文學文摘》計劃寄出1000萬份調查問卷,覆蓋當時四分之一的選民。最終該雜誌在兩個多月內收到了驚人的240萬份回執,在統計完成以後,《文學文摘》宣布,艾爾弗雷德·蘭登將會以55比41的優勢,擊敗富蘭克林·羅斯福贏得大選,另外4%的選民則會零散地投給第三候選人。
       然而,真實的選舉結果與《文學文摘》的預測大相徑庭:羅斯福以61比37的壓倒性優勢獲勝。讓《文學文摘》臉上掛不住的是,新民意調查的開創者喬治·蓋洛普(George Gallup),僅僅通過一場規模小得多的問卷——一個3000人的問卷調查,得出了準確得多的預測結果:羅斯福將穩操勝券。蓋洛普的3000人“小”抽樣,居然挑翻了《文學文摘》240萬的“大”調查,實在讓專家學者和社會大眾跌破眼鏡。
       顯然,蓋洛普有他獨到的辦法,而從數據體積大小的角度來看,“大”並不能決定一切。民意調查是基於對投票人的大範圍采樣。這意味著調查者需要處理兩個難題:樣本誤差樣本偏差
       在過去的200多年裏,統計學家們總結出了在認知數據的過程中存在的種種陷阱(如樣本偏差和樣本誤差)。如今數據的規模更大了,采集的成本也更低了,“大數據”中依然存在大量的“小數據”問題,大數據采集同樣會犯小數據采集一樣的統計偏差。我們不能掩耳盜鈴,假裝這些陷阱都已經被填平了,事實上,它們還都在,甚至問題更加突出
       蓋洛普成功的法寶在於,科學地抽樣,保證抽樣的隨機性,他沒有盲目的擴大調查麵積,而是根據選民的分別特征,根據職業、年齡、膚色等在3000人的比重,再確定電話訪問、郵件訪問和街頭調查等各種方式所在比例。由於樣本抽樣得當,就可以做到“以小見大”、“一葉知秋”。
       《文學文摘》的失敗在於,取樣存在嚴重偏差,它的調查對象主要鎖定為它自己的訂戶。雖然《文學文摘》的問卷調查數量不少,但它的訂戶多集中在中上階層,樣本從一開始就是有偏差的(sample bias),因此,推斷的結果不準,就不足為奇了。而且民主黨人艾爾弗雷德·蘭登的支持者,似乎更樂於寄回問卷結果,這使得調查的錯誤更進了一步。這兩種偏差的結合,注定了《文學文摘》調查的失敗。
       我們可以類比一下《文學文摘》的調查模式,試想一樣,如果在中國春運來臨時,在火車上調查,問乘客是不是買到票了,即使你調查1000萬人,這可是大數據啊,結論毫無意外地是都買到了,但這個結果無論如何都是不科學的,因為樣本的選取是有偏的。
       當然,采樣也是有缺點的,如果采樣沒有滿足隨機性,即使百分之幾的偏差,就可能丟失“黑天鵝事件”的信號,因此在全數據集存在的前提下,全數據當然是首選(但從第02故事中,我們可以看到,全數據通常是無法得到的)。對針對數據分析的價值,英特爾中國研究院院長吳甘沙先生給出了一個排序:全數據>好采樣數據>不均勻的大量數據
       大數據分析技術運用得當,能極大地提升人們對事物的洞察力(insight),但技術和人誰在決策(decision-making)中起更大作用?在下麵的“點球成金”小故事,我們聊聊這個話題。
全文:深度|十個段子反思大數據

最後更新:2017-01-09 14:08:06

  上一篇:go 美國大數據產業地圖和數據科學家必備工具(1)-數據源
  下一篇:go 生意參謀如何使用:自動取數,你的數據你做主