百餘名人辭世,剛過去的2016是被詛咒的一年嗎?MIT數據分析預測這隻是個開始……
2016年,數百位各領域的佼佼者辭世:
大衛·鮑伊(David Bowie,英國知名音樂人),普林斯(Prince,美國歌手), 拳王阿裏(Muhammad Ali), 菲德爾·卡斯特羅(Fidel Castro,古巴領導人), 凱瑞·費雪(Carrie Fisher,曾在《星球大戰》中飾演莉亞公主一角), 吉恩·懷爾德(Gene Wilder,美國著名製片人), 喬治·邁克爾(George Michael,英國歌手), 薇拉·魯賓(Vera Rubin,天文學家)以及托馬斯·謝林(Thomas Schelling,經濟學家)……
這隻是因為2016年年份不好麼?數據告訴你,2017年可能會更加糟糕……
大名鼎鼎的MIT媒體實驗室(MIT Media Lab)社會複雜性研究中心(Center for Research in Social Complexity)近期進行了一次有趣的數據分析,預測2017年將有多少名人去世。
對於這個研究話題,首先我們需要搞清楚:誰有資格成為名人?名人數量增多是否隻是因為全球人口基數的變大?如何預估2017年哪些名人會去世?
誰有資格成為名人?
▼
先回答第一個問題,這裏我們用可以通過數據簡單定義一個人是否著名給“名人”賦予一個簡單的定義,我們基於某人是否能夠通過多種語言被報道進行定義。那麼,我們具體統計多少種語言?至少20種以上。我們選取了截至2016年2月為止,出現在20多個維基百科語言版本中的29,421人。
當然這些數據有其局限性。盡管過於簡單,不夠完美,然而這種基於維基百科多語言條目介紹的樣本選取,已經是當前衡量一個人的名望或紀念性(因為維基百科是文化紀念的一種形式)最靠譜的形式。比如歌手大衛·鮑伊。在維基百科上你可以讀到關於他的104種不同語言的相關介紹。演員吉恩·懷爾德呢?84種。經濟學家托馬斯•謝林呢?48種。當然,這並不意味著比起謝林,鮑伊的工作更多或更重要。簡單意味著知道鮑伊的歌的人,比知道謝林的理論的要多(這很正常,因為鮑伊的一些歌流行全世界)。
名人數量增多
是否隻是因為全球
人口基數的變大?
▼
第二個問題是名人變多隻是因為全球人口總數變多了。我們的數據表明,情況並非如此。幾個世紀以來,名人的數量增速已超過全球人口增速。大家可以先看下這篇文章 ,還有這個視頻。印刷術的發明之前,每年名人的數量僅占全球人口的一小部分;而在那之後200年也沒太大變化 。然而17世紀後期開始,新生名人的增速是全球人口增速的平方。新生名人的數量,除以當時世界人口總數隨時間線性增加。此外,比例常數中還增加了新通信技術。短篇印刷物,比如雜誌和報紙在17世紀晚期的出現;新通訊技術的誕生,如電影、廣播和電視都使斜率變大 。這些因素使得20世紀以來名人的增速變得前所未有。
我們已對這些疑慮做了說明,因此可以沉下心來對數據進行分析,來看看到底有多少名人預計在2017年辭世。
數據分析預測
有多少名人可能在2017年辭世?
▼
圖1是自2000年以來在20個以上的維基百科不同語言版本中過世的人數。這個數字呈現了自2000年到2015年以來過世名人數從86人到195人的線性增長。而2016年,我們觀察過世的名人數實際上比預期的要少。所以我們覺得這一年過世的名人更多隻是一種錯覺。
圖1:年名人過世數(縱軸:過世人數;橫軸:過世年份)
圖2:年過世名人數(橫縱坐標同上)
紅色:L>20 有20種以上維基百科語言版本的名人過世數
藍色:L>35有35種以上維基百科語言版本的名人過世數
黃色:L>50 有50種以上維基百科語言版本的名人過世數
綠色:L>70 有70種以上維基百科語言版本的名人過世數
這種錯覺可能是因為今年過世的人名氣更大。畢竟,你可以在100多個語言版本的維基百科中讀到大衛·鮑伊;而圖1的樣本我們隻選取了20個。所以並不是所有過世的名人都能達到是鮑伊的知名度。圖2我們使用了更高的閾值重複之前的分析:超過20種語言,35種,50種和70種。最後一個類別(超過70種),超級巨星,那些我們可能在新聞中聽到的名人,他們的過世訊息可能會在社交媒體中交互出現。2016年有點特別。死於2016年的超級巨星(L > 70)有16人,而2015年、2014年和2013年,這個數字分別為9人、10人、14人。
2016年過世的超級巨星,按知名度(L)排列如下:
那麼全球每年過世名人他們的年齡中位數,或出生年份這段時間改變了?我們觀察到了越來越多老年人的過世嗎?在某種程度上是這樣的。通過圖3我們觀察到,在2000年去世的名人他們的出生中位數是1920年,就意味著他們的死亡中位數年齡是80歲。而2015年和2016年,名人的出生中位數年份是1932年和1930年,即死亡中位數年齡為83歲和86歲。因此,已故名人的死亡年齡上升了。
這個上升是很重要的,然而,這主要是因為我們現在看到的那些過世的名人他們的黃金時期是60年代,70年代和80年代,他們的名氣主要來自電視。
圖3 死亡名人年齡分布箱形圖
通過觀察2016年過世的16位超級巨星能夠幫助我們了解這些名人,他們做了什麼貢獻。這個列表包含了大量表演藝術家;但同時也有政治領導人,比如古巴領導人菲德爾·卡斯特羅,以色列總理西蒙·佩雷斯以及泰國國王普密蓬·阿杜德。為了探索這將近200人的大名單,我們對每年過世的名人的職業和出生地進行劃分。
圖4 依據職業劃分的年過世名人數
黃色:表演藝術家
橙色:運動員
綠色:藝術家
淺紫色:政治家
米色:人文社科類名人
紫色:科學家
白色:其他
圖4可以看到不同職業的名人每年過世的數量。你可以點擊打開或關閉這些類別的名稱。最受歡迎的類別是表演藝術家。它的過世人數隨時間而增加了。在2000年,表演藝術家過世人數占過世名人總數的29%。2016年,他們占總數的36%。科學家,所占的比例則幾乎沒變過。他們在2000年占10.5%,而2016年為9.9%。人文社科類的名人,所占比例略有下降。他們在2000年為15%,而2016年不到11%。
我們應該預期過世的名人數將逐年增加麼?接下來幾年可能是這樣,但不會持續下去。過去六個世紀通信技術的興起,從紙媒到網絡社交媒體,能夠被大眾認可並記住的名人數量不斷增長(名氣是短暫的,也就是說並不是每個人的名氣都會被大眾永遠銘記)。總有一天,名人的數量,不再受限於傳播的方式和範圍,而是受限於社會大眾的關注度和記憶力。也許,這情況已經發生了。
原文發布時間為:2017-01-25
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-25 09:02:26
上一篇:
CRA簡報:計算研究與數據科學的新興領域
下一篇:
從洞穴壁畫說起,信息可視化圖表發展的迷人曆史
2017阿裏雲雙11-雲服務器ECS優惠活動最強解讀
[LeetCode]26.Remove Duplicates from Sorted Array
Object-C中的字符串對象1-不可變字符串
HTAP數據庫 PostgreSQL 場景與性能測試之 16 - (OLTP) 文本特征向量 - 相似特征(海明...)查詢
svn插件安裝
android之listview緩存圖片(緩存優化)
演講實錄丨祖昆侖 VR一體機是過渡產品形態麼?
Terraform/Ansible on Cloud--基礎設施和應用管理實踐
J2EE的web.xml中filter-mapping的位置導致的亂碼問題
使用github管理iOS分布式項目開發