閱讀868 返回首頁    go gooseeker集搜客


大數據的問題02:顛簸的街道——“n=All”隻是一個幻覺?

       第一個故事:《醉漢路燈下找鑰匙——大數據的研究方法可笑嗎?》 反思了大數據研究方法問題,接下來我們看看所謂的大數據和全數據,價值在哪裏?

顛簸的街道——對不起,“n=All”隻是一個幻覺
       波士頓市政府推薦自己的市民,使用一款智能手機應用——“顛簸的街道(Street Bump,網站訪問鏈接:https://www.streetbump.org/)”。這個應用程序,可利用智能手機中內置的加速度傳感器,來檢查出街道上的坑窪之處——在路麵平穩的地方,傳感器加速度值小,而在坑坑窪窪的地方,傳感器加速度值就大。熱心的波士頓市民們,隻要下載並使用這個應用程序後,開著車、帶著手機,他們就是一名義務的、兼職的市政工人,這樣就可以輕易做到“全民皆市政”。市政廳全職的工作人員就無需親自巡查道路,而是打開電腦,就能一目了然的看到哪些道路損壞嚴重,哪裏需要維修,如圖所示。



       波士頓市政府也因此驕傲地宣布,“大數據,為這座城市提供了實時的信息,它幫助我們解決問題,並提供了長期的投資計劃”。著名期刊《連線》(Wired)也毫不吝嗇它的溢美之詞:這是眾包Crowdsourcing)改善政府功能的典範之作。

       眾包是《連線》雜誌記者Jeff Howe於2006年發明的一個專業術語,用來描述一種新的商業模式。它以自由自願的形式外包給非特定的大眾網絡的做法。眾包利用眾多誌願員工的創意和能力——這些誌願員工具備完成任務的技能,願意利用業餘時間工作,滿足於對其服務收取小額報酬,或者暫時並無報酬,僅僅滿足於未來獲得更多報酬的前景。

       然而,從一開始,“顛簸的街道”的產品設計就是有偏的(bias),因為使用這款App的對象,“不經意間”要滿足3個條件:      (1)年齡結構趨近年輕,因為中老年人愛玩智能手機的相對較少;      (2)使用App的人,還得有一部車。雖然有輛車在美國不算事,但畢竟不是每個人都有;      (3)有錢,還得有閑。前麵兩個條件這還不夠,使用者還得有“閑心”, 想著開車時打開“顛簸的街道”這個App。       想象一下,很多年輕人的智能手機安裝的應用程序數量可能兩位數以上,除了較為常用的社交軟件如Facebook或Twitter(中國用戶用得較多的是微博、微信等)記得開機運行外,還有什麼公益軟件“重要地”一開車就記得打開?

       “顛簸的街道”的理念在於,它可以提供 “n=All(所有)”個坑窪地點信息, 但這裏的“n=All(所有)”也僅僅是滿足上述3個條件的用戶記錄數據,而非“所有坑窪點”的數據,上述3個條件,每個條件其實都過濾了一批樣本,“n=All”注定是不成立的。在一些貧民窟,可能因為使用手機的、開車的、有閑心的App用戶偏少,即使有些路麵有較多坑窪點,也未必能檢測出來。

      《大數據時代》的作者舍恩伯格教授常用“n=All”,來定義大數據集合。如果真能這樣,那麼就無需采樣了,也不再有采樣偏差的問題,因為采樣已經包含了所有數據。

      暢銷書《你的數字感:走出大數據分析與解讀的誤區》(Numbersense: How to Use Big Data to Your Advantage)的作者、美國紐約大學統計學教授Kaiser Fung,就毫不客氣地提醒人們,不要簡單地假定自己掌握了所有有關的數據: “N=All(所有)”常常僅僅是對數據的一種假設,而不是現實。

       微軟-紐約首席研究員Kate Crawford也指出,現實數據是含有係統偏差的,通常需要人們仔細考量,才有可能找到並糾正這些係統偏差。大數據,看起來包羅萬象,但“n=All”往往不過是一個頗有誘惑力的假象而已。
       “n=All”,夢想很豐滿,但現實很骨感!

       但即使具備全數據,就能輕易找到隱藏於數據背後的有價值信息嗎?請接著看下麵的故事。
全文:深度|十個段子反思大數據 

最後更新:2017-01-09 14:08:06

  上一篇:go 手把手教你用Python搶票
  下一篇:go 獵殺埃博拉病毒的算法[轉]