閱讀255 返回首頁    go 阿裏雲 go 技術社區[雲棲]


AI眼中的曆史:用人工智能挖掘舊報紙裏的英國現代史


0?wx_fmt=jpeg

試問,哪位曆史學家有時間閱讀跨越一個多世紀英國曆史的數千萬份報紙?沒人可以。所以,計算機科學家和曆史學家一起,教會了計算機做這件事——分析新聞報道中的數十億個詞,讓我們重新認識19世紀到20世紀初的英國曆史。

這項研究發表在PNAS上(https://www.pnas.org/content/early/2017/01/03/1606380114),是對“文化組學”這一新興學科的實踐。

注:

文化組學culturomics,指通過數字化文本的定量分析研究人類行為和文化趨勢的計算詞匯學

計算機分析了1800年至1950年間的3500萬份英國地區新聞報道中的286億詞匯,約占該時期英國地區報刊總量的14%。

作為對比,一個成年人的平均閱讀速度為大約每分鍾300字。按照這個速度,一個人需要整整180年來完成所有的閱讀。如果算上人類的休息時間,閱讀需要的時間就更長了。而計算機算法用大約8周完成了所有的工作,該項目研究員英國布裏斯托大學計算機科學家Nello Cristianini稱。

這項研究的第一步是人工檢查,以確保計算機可以從報紙中提取真實的曆史事件。檢查的內容為計算機是否能準確地找到諸如加冕,已知的疾病流行和戰爭等事件。

有趣的部分發生在下一步:研究計算機算法是否可以找到曆史學家使用傳統方法不能找到的曆史事件。

我們正在尋找一些不太明顯的曆史進程——例如,技術的興起,”Cristianini說。“我們看到1900年左右,技術發生了變化。我們還能進一步解讀更微妙的信號:我們可以看到電報,電話和廣播被公眾接受的速度有多快。這個速度在不斷加快。現在,人們接受Twitter或Facebook隻需要一年。”

人工智能分析不僅僅是簡單的字數統計(這是曾經大量數字化文學研究的做法)。這一次,研究人員使用AI技術,如自然語言處理,以獲得對上下文和文本含義的理解。你可以認為它是終極的快速閱讀。

他們發現了什麼?這是AI眼中的英國曆史:


 電力什麼時候趕超了蒸汽?

1898年。這一年,電在新聞中出現的頻率開始超過蒸汽,電能逐漸取代了蒸汽。

0?wx_fmt=png

圖:20世紀來臨時,電力取代了蒸汽(來源Nello Cristianini / PNAS)


 火車什麼時候趕超了馬車?

 僅僅四年後的1902年。火車的時代開始於19世紀40年代,那時英國開始發展國家鐵路係統。但就新聞方麵而言,火車在半個多世紀後才變得比馬車更重要。

0?wx_fmt=png

圖:“鐵馬”(來源New York Public Library / Flickr)

 人們什麼時候開始 

 不再討論奴隸製?

 對奴隸製的報道高峰出現於1830-1870年廢奴運動時期和1861-1865年美國南北戰爭期間。1870年後,報紙幾乎不再提及奴隸製。

0?wx_fmt=png

圖:1830年到1870年,奴隸製出現在新聞中(來源Nello Cristianini / PNAS)

 記者什麼時候開始 

 報道婦女參政權運動?

1906年。一個戲劇性的報道高峰出現在1913年,在女性參政倡議者Emily Wilding Davison試圖在賽馬會上阻攔英國國王的馬之後。

0?wx_fmt=png

圖:Emily Davison倒在英國國王的馬前,四天後她死於頭部創傷(來源Hulton Archive)

注:

女權運動還有這段曆史!今天的一切來之不易啊


 女性什麼時候得到了 

男性相同數量的報道?

從來沒有過。20世紀開始,對女性的報道率有上升趨勢,且在二戰時期突然增加。但在整個分析覆蓋的時期,新聞中每提到一個女性大約會提到三個男性。在21世紀,這個數字更接近男女比2:1,但這種轉變並不大。

0?wx_fmt=png

圖:戰爭時期,女性得到了更多的報道(來源Wikime)


 勇氣什麼時候最重要?

毫不意外,在第一次和第二次世界大戰期間勇氣被提到最多。維多利亞時代的價值觀,例如毅力,在整個分析覆蓋時期表現出報道頻率的穩步下降。但在戰爭年代,對耐力和勇氣等價值觀的報道出現了明顯的增加。


 英國和英國人的概念

(Britishness)是何時出現的?

注:

英國全稱為大不列顛及北愛爾蘭聯合王國United Kingdom of Great Britain and Northern Ireland。不列顛Britain/British是對英國和英國人的統稱,相較於對英國某部分的特指例如England/English是指英格蘭和英格蘭人,或Scotland/Scottish是指蘇格蘭和蘇格蘭人。

對“不列顛”的報道出現於20世紀早期,1900年左右出現第一個峰值,一戰和二戰期間出現了兩個更大的峰值。這個發現和很多曆史學家的觀點不同——很多曆史學家認為“不列顛”在更早前就已經是一個活躍的概念了。

0?wx_fmt=png

圖:“不列顛”的概念在20世紀早期開始活躍,而傳統上,曆史學家認為“不列顛”出現得更早(來源Nello Cristianini / PNAS)


 經濟什麼時候成為了口號?

與“經濟”相比,“政治經濟”一直是更為常用的術語,直到1900年左右,這兩個詞的用法變得更加模煳。20世紀初,這兩個術語在約十年間的使用頻率大致相似,之後,“經濟”開始成為更受歡迎的用語,在幾個劇烈的峰值後使用頻率開始穩步上升。

0?wx_fmt=png

原文發布時間為:2017-01-17


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-26 09:01:49

  上一篇:go  如何在 KDE Plasma 5.9 中激活全局菜單
  下一篇:go  5 個讓你的 WordPress 網站安全的技巧