閱讀69 返回首頁    go gooseeker集搜客


大數據的問題08:穀歌流感預測是如何失效的

       這篇故事不再像上兩篇那樣言辭含有“負能量”,而是用一個案例提醒大數據工作者要注意“大數據傲慢”
穀歌流感預測:預測是如何失效的?
       2009年2月,穀歌公司的工程師們在國際著名學術期刊《自然》上發表了一篇非常有意思的論文:《利用搜索引擎查詢數據檢測禽流感流行趨勢》,並設計了大名鼎鼎的流感預測係統(Google Flu Trends,GFT,訪問網址為:www.google.org/flutrends/)。
       GFT預測H1N1流感的原理非常樸素:如果在某一個區域某一個時間段,有大量的有關流感的搜索指令,那麼,就可能存在一種潛在的關聯:在這個地區,就有很大可能性存在對應的流感人群,相關部門就值得發布流感預警信息。
       GFT監測並預測流感趨勢的過程僅需一天,有時甚至可縮短至數個小時。相比而言,美國疾病控製與預防中心(Center for Disease Control and Prevention,CDC)同樣也能利用采集來的流感數據,發布預警信息。但CDC的流感預測結果,通常需要滯後兩周左右才能得以發布。但對於一種飛速傳播的疾病(如禽流感等),疫情預警滯後發布,後果可能是致命的。
       GFT一度被認為是大數據預測未來的經典案例,給很多人打開了一扇未來的窗口。根據這個故事,大數據的布道者們給出了4個令自己滿意的結論:       1)由於所有數據點都被捕捉到,故傳統的抽樣統計的方法完全可以被淘汰。換句話說,做到了“n=All”;       2)無需再尋找現象背後的原因,隻需要知道某兩者之間的統計相關性就夠用了。針對這個案例,隻需知道“大量有關流感的搜索指令”和“流感疫情”之間存在相關性就夠了。       3)不再需要統計學模型,隻要有大量的數據就能完成分析目的,印證了《連線》主編Chris Anderson 提出的“理論終結”的論調。       4)大數據分析可得到驚人準確的結果。GFT的預測結果和CDC公布的真實結果相關度高達96%。
       但據英國《財經時報》(FT)援引劍橋大學教授David Spiegelhalter毫不客氣的評價說 ,這四條 “完全是胡說八道(complete bollocks. Absolute nonsense)”。
       針對前3條觀點的不足之處,前文故事已經涉及到了,不再贅言。針對第4條,我們有必要再解析一下——GFT預測是如何失效的?
       穀歌工程師們開發的GFT,可謂轟動一時,但好景不長,相關論文發表4年後,2013年2月13日,《自然》發文指出,在最近(2012年12月)的一次流感爆發中穀歌流感趨勢不起作用了。GFT預測顯示某次的流感爆發非常嚴重,然而疾控中心(CDC)在匯總各地數據以後,發現穀歌的預測結果比實際情況要誇大了幾乎一倍,如圖所示。

       研究人員發現,問題的根源在於,穀歌工程師並不知道搜索關鍵詞和流感傳播之間到底有什麼關聯,也沒有試圖去搞清楚關聯背後的原因,隻是在數據中找到了一些統計特征——相關性。這種做法在大數據分析中很常見。為了提高GFT的預測準確性,穀歌工程師們不斷地微調預測算法,但GFT每一次算法微調,都是為了修補之前的測不準,但每次修補又都造成了另外的誤差。
       穀歌疫情之所以會誤報,還因為大數據分析中存在“預測即幹涉”的問題。量子物理創始人之一維爾納·海森堡(Werner Heisenberg),曾在1927年的一篇論文中指出,在量子世界中,測量粒子位置,必然會影響粒子的速度,即存在“測不準原理”。也就是說,在量子尺度的微距世界中,“測量即幹涉”。如今,在媒體熱炒的“大數據”世界中,類似於“測不準原理”,即存在“預測即幹涉”悖論。
       這個“預測即幹涉”悖論和“菜農種菜”的現象有“曲藝同工”之處:當年的大白菜賣價不錯(曆史數據),預計明年的賣價也不錯(預測),於是眾多菜農在這個預測的指導下,第二年都去種大白菜(采取行動),結果是,菜多價賤傷農(預測失敗)。
       進一步分析就可發現,GFT預測失準在很大程度上是因為,一旦GFT提到了有疫情,立刻會有媒體報道,就會引發更多相關信息搜索,反過來強化了GFT對疫情的判定。這樣下去,算法無論怎麼修補,都無法改變其愈發不準確的命運。
       對GFT預測更勐烈的攻擊,來自著名期刊《科學》。2014年3月,該雜誌發表由哈佛大學、美國東北大學的幾位學者聯合撰寫的論文“穀歌流感的寓言:大數據分析中的陷阱(The parable of Google Flu: traps in big data analysis)”,他們對穀歌疫情預測不準的問題做了更為深入地調查,也討論了大數據的“陷阱”本質。《科學》一文作者認為:大數據的分析是很複雜的,但由於大數據的收集過程,很難保證有像傳統“小數據”那樣縝密,難免會出現失準的情況,作者以穀歌流感趨勢失準為例,指出“大數據傲慢(Big Data Hubris)”是問題的根源。
       《科學》一文還認為,“大數據傲慢(Big Data Hubris)”還體現在,存在一種錯誤的思維方式,即誤認為大數據模式分析出的“統計學相關性”,可以直接取代事物之間真實的因果和聯係,從而過度應用這種技術。這就對那些過度推崇“要相關,不要因果”人群,提出了很及時的警告。畢竟,在某個時間很多人搜索“流感”,不一定代表流感真的暴發,完成有可能隻是上映了一場關於流感的電影或流行了一個有關流感的段子。
       果殼網有一篇對《科學》一文深度解讀的文章:“數據並非越大越好:穀歌流感趨勢錯在哪兒了?”,感興趣的讀者可以前去圍觀。
       蘇萌、柏林森和周濤等人合著的《個性化:商業的未來》,他們強調,“個人化”服務是未來最有前途的商業模式。可這裏有個問題,提供“個人化”服務,就需要了解顧客的“個性化信息”,如果顧客許可使用個人信息的,那麼這種個性化服務是貼心的,如果沒有許可呢?
       下麵這個故事就是一則有關商品個性化推薦的,但它體現出來的是數據分析的智慧,還是愚蠢呢?
全文:深度|十個段子反思大數據

最後更新:2017-01-09 14:08:08

  上一篇:go 集微庫是集搜客GooSeeker發布的微博挖掘工具軟件
  下一篇:go 生意參謀如何使用:單品分析,打造店鋪爆款