閱讀71 返回首頁    go 阿裏雲 go 技術社區[雲棲]


百餘名人辭世,剛過去的2016是被詛咒的一年嗎?MIT數據分析預測這隻是個開始……


0?wx_fmt=jpeg


2016年,數百位各領域的佼佼者辭世:

大衛·鮑伊(David Bowie,英國知名音樂人),普林斯(Prince,美國歌手), 拳王阿裏(Muhammad Ali), 菲德爾·卡斯特羅(Fidel Castro,古巴領導人), 凱瑞·費雪(Carrie Fisher,曾在《星球大戰》中飾演莉亞公主一角), 吉恩·懷爾德(Gene Wilder,美國著名製片人), 喬治·邁克爾(George Michael,英國歌手), 薇拉·魯賓(Vera Rubin,天文學家)以及托馬斯·謝林(Thomas Schelling,經濟學家)……


這隻是因為2016年年份不好麼?數據告訴你,2017年可能會更加糟糕……

大名鼎鼎的MIT媒體實驗室(MIT Media Lab)社會複雜性研究中心(Center for Research in Social Complexity)近期進行了一次有趣的數據分析,預測2017年將有多少名人去世。

0?wx_fmt=png


對於這個研究話題,首先我們需要搞清楚:誰有資格成為名人?名人數量增多是否隻是因為全球人口基數的變大?如何預估2017年哪些名人會去世?


 誰有資格成為名人?

先回答第一個問題,這裏我們用可以通過數據簡單定義一個人是否著名給“名人”賦予一個簡單的定義,我們基於某人是否能夠通過多種語言被報道進行定義。那麼,我們具體統計多少種語言?至少20種以上。我們選取了截至2016年2月為止,出現在20多個維基百科語言版本中的29,421人。

當然這些數據有其局限性。盡管過於簡單,不夠完美,然而這種基於維基百科多語言條目介紹的樣本選取,已經是當前衡量一個人的名望或紀念性(因為維基百科是文化紀念的一種形式)最靠譜的形式。比如歌手大衛·鮑伊。在維基百科上你可以讀到關於他的104種不同語言的相關介紹。演員吉恩·懷爾德呢?84種。經濟學家托馬斯•謝林呢?48種。當然,這並不意味著比起謝林,鮑伊的工作更多或更重要。簡單意味著知道鮑伊的歌的人,比知道謝林的理論的要多(這很正常,因為鮑伊的一些歌流行全世界)。


 名人數量增多 

 是否隻是因為全球 

 人口基數的變大?

第二個問題是名人變多隻是因為全球人口總數變多了我們的數據表明,情況並非如此。幾個世紀以來,名人的數量增速已超過全球人口增速。大家可以先看下這篇文章 ,還有這個視頻。印刷術的發明之前,每年名人的數量僅占全球人口的一小部分;而在那之後200年也沒太大變化 。然而17世紀後期開始,新生名人的增速是全球人口增速的平方。新生名人的數量,除以當時世界人口總數隨時間線性增加。此外,比例常數中還增加了新通信技術。短篇印刷物,比如雜誌和報紙在17世紀晚期的出現;新通訊技術的誕生,如電影、廣播和電視都使斜率變大 。這些因素使得20世紀以來名人的增速變得前所未有。

我們已對這些疑慮做了說明,因此可以沉下心來對數據進行分析,來看看到底有多少名人預計在2017年辭世。


 數據分析預測 

 有多少名人可能在2017年辭世?

圖1是自2000年以來在20個以上的維基百科不同語言版本中過世的人數。這個數字呈現了自2000年到2015年以來過世名人數從86人到195人的線性增長。而2016年,我們觀察過世的名人數實際上比預期的要少。所以我們覺得這一年過世的名人更多隻是一種錯覺。

0?wx_fmt=png

圖1:年名人過世數(縱軸:過世人數;橫軸:過世年份)

0?wx_fmt=png

圖2:年過世名人數(橫縱坐標同上)

紅色:L>20 有20種以上維基百科語言版本的名人過世數

藍色:L>35有35種以上維基百科語言版本的名人過世數

黃色:L>50 有50種以上維基百科語言版本的名人過世數

綠色:L>70 有70種以上維基百科語言版本的名人過世數

這種錯覺可能是因為今年過世的人名氣更大。畢竟,你可以在100多個語言版本的維基百科中讀到大衛·鮑伊;而圖1的樣本我們隻選取了20個。所以並不是所有過世的名人都能達到是鮑伊的知名度。圖2我們使用了更高的閾值重複之前的分析:超過20種語言,35種,50種和70種。最後一個類別(超過70種),超級巨星,那些我們可能在新聞中聽到的名人,他們的過世訊息可能會在社交媒體中交互出現。2016年有點特別。死於2016年的超級巨星(L > 70)有16人,而2015年、2014年和2013年,這個數字分別為9人、10人、14人。

2016年過世的超級巨星,按知名度(L)排列如下:

0?wx_fmt=png

那麼全球每年過世名人他們的年齡中位數,或出生年份這段時間改變了?我們觀察到了越來越多老年人的過世嗎?在某種程度上是這樣的。通過圖3我們觀察到,在2000年去世的名人他們的出生中位數是1920年,就意味著他們的死亡中位數年齡是80歲。而2015年和2016年,名人的出生中位數年份是1932年和1930年,即死亡中位數年齡為83歲和86歲。因此,已故名人的死亡年齡上升了。

這個上升是很重要的,然而,這主要是因為我們現在看到的那些過世的名人他們的黃金時期是60年代,70年代和80年代,他們的名氣主要來自電視。

0?wx_fmt=png

圖3 死亡名人年齡分布箱形圖

通過觀察2016年過世的16位超級巨星能夠幫助我們了解這些名人,他們做了什麼貢獻。這個列表包含了大量表演藝術家;但同時也有政治領導人,比如古巴領導人菲德爾·卡斯特羅,以色列總理西蒙·佩雷斯以及泰國國王普密蓬·阿杜德。為了探索這將近200人的大名單,我們對每年過世的名人的職業和出生地進行劃分。

0?wx_fmt=png

圖4 依據職業劃分的年過世名人數

黃色:表演藝術家

橙色:運動員

綠色:藝術家

淺紫色:政治家

米色:人文社科類名人

紫色:科學家

白色:其他

圖4可以看到不同職業的名人每年過世的數量。你可以點擊打開或關閉這些類別的名稱。最受歡迎的類別是表演藝術家。它的過世人數隨時間而增加了。在2000年,表演藝術家過世人數占過世名人總數的29%。2016年,他們占總數的36%。科學家,所占的比例則幾乎沒變過。他們在2000年占10.5%,而2016年為9.9%。人文社科類的名人,所占比例略有下降。他們在2000年為15%,而2016年不到11%。

我們應該預期過世的名人數將逐年增加麼?接下來幾年可能是這樣,但不會持續下去。過去六個世紀通信技術的興起,從紙媒到網絡社交媒體,能夠被大眾認可並記住的名人數量不斷增長(名氣是短暫的,也就是說並不是每個人的名氣都會被大眾永遠銘記)。總有一天,名人的數量,不再受限於傳播的方式和範圍,而是受限於社會大眾的關注度和記憶力。也許,這情況已經發生了。

原文發布時間為:2017-01-25


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-25 09:02:26

  上一篇:go  CRA簡報:計算研究與數據科學的新興領域
  下一篇:go  從洞穴壁畫說起,信息可視化圖表發展的迷人曆史