閱讀457 返回首頁    go 阿裏雲 go 技術社區[雲棲]


TED演講 | 數據濫用時代,3招教你辨別身邊不靠譜數據


0?wx_fmt=jpeg

生活中,我們隨處可見各種各樣的數據——廣告、新聞、公司會議、工作匯報中比比皆是,甚至算命和星座,也開始用數據來證明自己的真實性。

越來越多的數據引用,一方麵證明更多的行業與個人開始關注並運用統計,另一方麵,也可能會讓人迷失在錯綜紛雜的數據中。

那麼,對於眾多對數據有興趣,但非專業出身、不需要太深度複雜學習相關知識的小夥伴來說,到底如何分辨數據真假?今天我們推送的視頻《TED演講 | 數據濫用時代,3招教你辨別身邊不靠譜數據》,或許可以給大家帶來一些啟發。

開篇,Mona談到,對待統計,我們要保持客觀而開放的態度,不盲目接受或者排斥。隨後,她展示了3個基礎的問題,以便大家可以由此識別麵前統計數據的優劣——

1.你是否能發現不確定因素?

2.我能在數據中看到自己嗎?

3.這些數據是如何收集到的?

在闡述每一個問題時,Mona不僅介紹了許多相關概念,還援引了許多來自生活中的實例,使得枯燥的課本知識變的通俗易懂起來。

今天我要和大家聊聊統計,如果讓你感到一絲警惕的話,沒事,這很正常,它不會讓你變成那種瘋狂的陰謀論者,它會讓你變得多疑。

當談論數字的時候,尤其是現在,你確實應該變得多疑一點,但你應該也有能力告訴人們哪些數字是可靠的,哪些是不可靠的。今天我就是要給大家介紹下可以幹這些事的一些工具。

我們生活中有太多數據分析,我們應當拋棄盲目的接受,或盲目的拒絕。並且,我們得學些技巧去發現那些壞的統計。

當我在統計部門工作的時候,我們的工作就是統計有多少伊拉克人在戰爭中,是被迫離鄉的、以及他們需要什麼?這真的是一項非常重要的工作,但也極其困難。每一天,我們做的決定都會影響到數據的精度。比如我們應該去伊拉克的哪些地區、應該與哪些人進行溝通、應該問哪些問題。

我開始對我們的工作感到失望,因為起初我認為我們做的工作非常有意義,但是能告訴我們真實情況的是伊拉克人,他們卻幾乎沒有機會看到我們的分析,更別提質疑了,使數據更加精確的方式之一——就是讓盡可能多的人來質疑。

所以我成為了一名數據記者,我的工作是找到這些數據集,並且將它們分享給公眾。

我這兒給你們準備了三個問題,這些問題能夠幫助你們把劣質的統計數據識別出來——

第一個問題是:你能發現不確定因素嗎?

真正改變了人們和數據的關係的因素之一,甚至包括對於媒體的信任,是政治民意調查的使用。我個人對於政治民意調查有許多不同意見,因為我認為記者的真正作用是報道事實、而不是去預測,尤其是當這些預測能夠破壞民主的時候。通過向人們發出這樣的信號:“不用費心給那個人投票了、他沒有機會的!”

我們先不討論這個,來看看這樣做到底效果如何?

根據英國,意大利,以色列的大選情況,當然,還有最近的美國總統大選,用民調結果來預測選舉結果,和用月亮預測醫院住院率一樣不靠譜!沒錯,講真,我是根據一項學術研究的真實數據來畫這幅圖的。

導致民意調查嚴重失真的原因有很多,我們社會的多樣性非常突出,因此民調專家很難找到真正具有代表性的良好樣本,來代表他們進行民調的人群,人們特別不願意接聽民意調查電話,而且,特別令人震驚的是,人們可能會撒謊!但是你在從媒體上獲取信息時,可能未必知道這些事情。

我們來看那些圖表,看,許多的可視化數據會誇大可信度,事實也確實如此——這些圖表能夠麻痹我們的大腦,導致我們無法進行批評。當你聽到一個統計數據時,你可能會有所懷疑,當數據以圖表形式呈現出來時,它看上去就像是某種客觀的科學。然而事實並非如此。所以我試圖找到一些方式,把這些和大家說明白,向人們展示數據中的不確定性。我的做法就是把真實的數據集——用手繪圖的形式展現出來,這樣人們就能看到數據是多麼的不精確,人們就能夠意識到,做這些事情的是人。

有人找到了這些數據並且將它可視化,比如,與其找到在某個月得流感的概率,也許還不如看看這個流感季節大致的分布情況。二月得流感的概率非常高,但是這種數據可視化的形式更加可靠,因為如果你想要顯示確切的概率,這可能會導致人們在錯誤的時間裏,接種流感疫苗。這些彎彎曲曲的線旨在讓人們記住數據是不準確的,同時,他們也不是非得知道精確的數字,不過他們會記住那些重要的事項。

我們還應該注意一些非常重要的統計學概念,比如平均數。假設 你聽到這麼一種說法——“美國平均每個遊泳池都會有6.32個人在裏麵便便”。這並不是說 美國的每個遊泳池都不多不少有6.23份便便。

所以為了說明這一點,我找到了疾控中心的原始數據,調查範圍為47個遊泳設施,我花了一整晚來重新分布這些便便。這樣一來 你從某種意義上就能看到平均數誤導性之大。

你們應該問自己的第二個問題是——我能在數據中看到自己嗎?

從某種意義上說 ,這個問題同樣也是關於平均數的,人們飽受國家統計數據困擾的部分原因在於他們並沒有把贏家和輸家的故事原原本本地展示出來。在國家政策的層麵上,很容易理解為什麼人們對全球平均水平失落不已,因為這些數據不符合他們的個人經曆。

並不是每種數據都必須和你扯上點關係,看看你自己對應其中哪種情況。這樣做的目的是盡可能多的了解背景。所以我們要從某個數據點上抽身出來。比如失業率是5%,然後看看數據是如何隨著時間推移而變化的,或者如何隨受教育程度而改變——這就是父母一門心思讓你上大學的原因。

或者看看性別對失業率的影響,如今男性失業率高於女性失業率。直到80年代初 它是完全相反的,這是發生在美國社會中具有最大變化之一的故事。一旦你考慮平均值,所有的都在那張圖表中了。軸線就是一切。一旦你改變了刻度 你就可以改變這個故事。

好的,所以,我想讓你們在看統計數據時考慮的第三個也是最後一個問題是——如何收集數據?

到目前為止我隻談到了數據交流的方式,但收集的方式也同樣重要。我知道這很困難,因為方法可能是晦澀難懂的,實際上還會有點無聊,但是有一些簡單的步驟 你可以用它們檢查一下。

在這裏,我將使用最後一個例子,一項調查顯示,這個國家中有41%的穆斯林支持聖戰,這顯然是相當可怕的,並且這在2015年到處都有報道。當我想檢查這樣的數據時,我會先找到原始問卷。事實證明 那些報道統計數據的記者,忽略了調查中的一個問題——就是問調查對象他們是如何定義“聖戰”的?

大多數的穆斯林把它定義為——“穆斯林為了更宗教化而進行個人的、和平的鬥爭”,隻有16%的人把它定義為“對異教徒的暴力聖戰”。這是非常重要的一點!根據這些數字,調查中支持聖戰的人沒有將其定義為暴力聖戰是完全可能的!這兩個群體可能根本沒有重疊!

同樣值得一問的是,調查是如何進行的?

這被稱為選擇性調查,也就是任何人都可以在互聯網上找到該調查 並完成它。沒有辦法知道這些人是否是真正的穆斯林。最後 在該項調查中有600名受訪者,根據皮尤研究中心 大約有三百萬穆斯林在這個國家。這意味著 在這個國家每5000個穆斯林大概隻有1個參與了調查,接受了這項調查。

這是zf統計數據,往往比私人統計數據更好的原因之一,一項民意調查可能麵向幾百人 也許是一千人。

但是你如何質疑統計數據呢?

你隻要繼續檢查一切,了解他們是如何收集數據的,知道你是否在圖表上看到了你需要查看的所有內容,但是不要完全放棄數據 因為如果你放棄了,我們將會在未知中做出公共決策,隻有私人利益指導著我們。

原文發布時間為:2017-04-02

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-19 14:07:32

  上一篇:go  在 Linux 上使用 Meld 比較文件夾
  下一篇:go  在 PC 上嚐試樹莓派的 PIXEL OS