數據說希拉裏會贏,它錯在哪裏?

對搞數字工作的人來說這是一個難熬的夜晚。同時,對商業、政治、體育、學術界等各個領域中越來越重視數據力量的人們來說也是一樣。
唐納德·特朗普的勝利幾乎和每一個主要的預測背道而馳,這讓分析大量數據便能準確預測事件的信念遭到了質疑。選民們向人們展現了預測性分析尤其是選舉預測依舊是很年輕的學科:一些人被誤導認為希拉裏·克林頓必勝,就是因為一些預測沒有考慮到可解釋潛在較大誤差的背景。
“這是對於精確性的過度吹噓,”耶魯大學醫藥信息學中心的研究者Pradeep Mutalik說道。他計算得出一些投票模型可能和實際結果偏差15到20個百分點。
幾乎所有的主要大選預測機構,包括Nate Silver的538網站,紐約時報Upshot,和普林斯頓選舉聯盟(Princeton Election Consortium),都認為希拉裏的獲勝概率在百分之70到99之間。
大選預測隻是一場正在各行業中發生深遠變化的一個小方麵,這些行業越來越“著迷”於數據、數據的價值和通過挖掘數據獲得節約成本及增加利潤的潛力。這是一個幕後的技術,無聲的驅動著一切,從人們看到的在線廣告,到數十億美元的並購交易。
從矽穀到工業腹地,例子到處都有。比如微軟付給領英260億美元,很大程度是想要它4億多人的個人檔案和商務交際網數據庫。作為美國最大的製造商,通用電氣打大賭稱產生數據的傳感器和軟件能夠提高它的噴氣發動機和其他機械的效率和收益率。
但是數據科學是個需要權衡的科技進步。它能夠看到從未有過的東西,但是也可能成為一個缺乏對大環境和細節足夠考量的粗鈍工具。很多公司和機構悄悄地在幕後應用數據來預測人們的行為,但隻是偶爾,就像周二的選舉結果一樣,消費者很少能夠理解這些公式是起什麼作用的,以及會出到什麼程度的錯誤。
比如“穀歌流感趨勢”項目看似是大數據預測的成功。它根據跟“流感”有關的搜索詞來跟蹤流感爆發。但是在2012-2013流感季,它的預測誇大了病例數量。
今年,Facebook的程序算法下架了一張挪威人拍的照片,照片上是一個裸體的9歲女孩逃離凝固汽油炸彈的場景。軟件代碼算下來認為這張照片違反了社交網絡上禁止孩童色情作品的規定,而不是展現越南戰爭和人們苦難的標誌性照片。
還有一個微軟聊天機器人,本來意圖是讓它挖掘在線文本來學習“對話理解能力”,但是今年這個機器人很快就被撤回了,因為它的機器學習算法開始生成一些種族歧視的話。
利用數據分析進行善意的嚐試,即使其出發點是好的,但不能排除事與願違的情況。兩年前,英國的一個預防自殺群體(the Samaritans),開發了一款免費的App,當自己關注的Twitter用戶發布了一些可能表露自殺傾向的短語,比如“憎恨自己”或者“厭倦了孤獨”時,可以提醒人們。但是有些人抱怨說這個軟件可以在他們最脆弱的時候被濫用來騷擾他們,這個團體很快移走了這個App。
這周選舉預測的失敗表明,急於利用數據讓我們失去了意識到它們局限性的能力。
“民調出現了以前選舉從未出現過的偏差。”普林斯頓大學神經科學教授兼普林斯頓選舉團創始人薩姆·王(Sam Wang)說。他推測民調可能沒有囊括到共和黨堅定分子,這些人一開始宣稱不投特朗普,但是在投票站改變了他們的想法。
除了選舉之夜的教訓,還有更多的教訓引起了人們對急於在經濟和社會中采用數據驅動方式做決策的疑問。
對大數據的狂熱來源於矽穀巨人在互聯網裏的成功故事,比如穀歌,亞馬遜和臉書。這些數據大亨利用智能的搜索引擎、社交網絡和在線商務,收集了大量的用戶數據。數據是燃料,人工智能工具箱裏的算法(特別是機器學習)是發動機。
該技術的早期商業用途是通過有針對性的廣告,個性化營銷和產品推薦來增加銷售機會。但是基於大數據的決策分析已經越來越被各個行業所歡迎,也被廣泛用於深切影響人們生活的高風險決策,比如幫助人們做醫療診斷,招聘選擇和貸款批準。
數據專家說,這種危險在於過度信任數據分析,但是忽視了它的局限性和構建預測模型的人們可能存在的有缺陷的假設。
數據分析這項技術可以是,而且是極其有用的。“但是我們要理解的關鍵是,數據科學是一個不一定能給你答案,而隻能給出概率的工具。”麻省理工商學院的Erick Brynjolfsson教授說道。
Brynjolfsson先生說人們常常不能意識到如果某件事情發生的可能性是70%,這表明還有30%的概率不發生。他說,選舉的結果“對數據科學和統計學來說並不是什麼令人驚訝之事。它就是這樣運作的。”
那麼,選舉數據和算法發生了什麼?看上去答案是:在數字如何呈現和如何讓公眾理解的兩個角度上,投票、分析和解讀上缺陷的結合。
538的創始人Silver先生沒有立即回複尋求意見的郵件。The Upshot的編輯Amanda Cox和普林斯頓選舉聯盟的王先生說,州級民調誤差很大程度上歸因於低估了川普的獲勝可能性。
除了民調誤差,數據科學家還說選舉模型的固有弱點可能導致一些預測錯誤。在選舉之前,預測者把曆史民調和最近的民調數據結合在一起,來預測競選者的獲勝幾率。一些人還可能考慮了其他變量,比如給在職的競選人更多的權重。
但是就算有了幾十年的民調數據去分析,也難以提前幾個月甚至幾周,精準地預測一個競選者成為總統的可能性。耶魯的Mutalik博士把選舉模型預測類比為天氣預測。
“就算有最好的模型,依舊很難提前10天預測天氣,因為有很多小變化會導致大變化,”Mutalik博士說。“在數學裏,這叫做混沌。”
但是不同於天氣預測,目前的選舉模型一般隻考慮到幾十年的數據。並且對這個數據集的參數進行微調也能極大地影響計算。
比如說538網站的模型是基於從1972年開始的選舉來校準的,這一年是州級民調開始增長的一年。Silver先生在他的博客裏寫道:在10月24日,這個模型認為希拉裏的獲勝率為85%,但是當這個網站實驗性地以最近的民調數據(追溯到2000年)作校準時,希拉裏的獲勝率漲到了95%。
分析員說在這次總統大選中另一個大問題是一些州的民調是錯誤的。比如最近的威斯康星州的民調認為希拉裏遙遙領先於川普,而大選的預測用了這個信息來做預測。英國同樣遇到了類似的差錯,就是民調錯誤地以為百姓會在6月份的投票裏選擇留在歐盟。
“如果我們能回到把對競選人和政黨的報告安排在最後的緊要關頭的時代,而不是對這些東西的風吹草動進行無止境地播報,我們都會更好。”Brookings研究院的選舉專家Thomas E. Mann說道。“它們讓人上癮,而且會讓人不再關注更重要的事情。”
原文發布時間為:2016-11-19
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-31 11:32:17