閱讀116 返回首頁    go 阿裏雲 go 技術社區[雲棲]


可視化1300個故事 揭秘6種情節套路


0?wx_fmt=jpeg

伯靈頓佛蒙特大學故事計算實驗室的安德魯·裏根(Andrew Reagan)和他的研究團隊用情緒分析繪製了約1300多個故事的情感線,然後使用數據挖掘技術來揭示最常見的情感線是什麼樣子。研究中,安德魯·裏根和他的研究團隊發現,形成複雜敘事的基石僅僅源自於六種核心故事線。


 ◆ 

導言


人們天生喜歡去尋找並轉述各類故事。我們所擁有的那種分享信息並定義自身存在性的能力就可以很好地解釋為什麼我們天生沉迷於此。


而現在,隨著計算能力、語言處理和文本數字化三種技術方麵的改善,以文字“大數據”來研究某種文化成為了可能。


正如美國作家庫爾特·馮內古特(Kurt Vonnegut)曾經說過的那樣:“這些故事都有著美麗而方便計算的格式,沒有理由說我們不能把它們套進計算機的算法裏去。”


0?wx_fmt=png圖1 J.K.羅琳所著的《哈利·波特與死亡聖器》的情感線

(注:整個係列共七部書可以被定義為一個複雜的“殺死怪物”情節。數據分析:Hedonometer / Andy Reagan / Kirsch)



伯靈頓佛蒙特大學故事計算實驗室的安德魯·裏根(Andrew Reagan)和他的研究團隊用情緒分析繪製了約1300多個故事的情感線,然後使用數據挖掘技術來揭示最常見的情感線是什麼樣子。研究中,安德魯·裏根和他的研究團隊發現,形成複雜敘事的基石僅僅源自於六種核心故事線。


這項研究令人著迷的奇妙之處就在於首次提出了基本故事線的確存在的實驗性依據,並由此解開了講故事之所以能夠吸引人們的本質特征。


 ◆ 

實驗展示

 

科學家收集了1327本書作為樣本,這些樣本書絕大多數采用了收錄進古登堡計劃中的元數據來虛構故事(P.S.古登堡計劃是於1971年發起的世界上第一個數字圖書館。其中所有書籍的輸入都是由誌願者完成的)。為了生成樣本書的情感線,研究者將文本分為了一個個10000的小塊,並分析每個小塊裏的所表達的感情。(如圖2所示)

   

0?wx_fmt=png

圖2


研究中所有樣本書的故事線和相應的數據可視化如圖3所示。

 

六種基本故事線形態分別為:


  1. “白手起家”(故事線主要特征形態為:上升)

  2. “悲劇”或“鳳凰變麻雀”(故事線主要特征形態為:下降)

  3. “陷入困境的人”(故事線主要特征形態為:先降後升)

  4. “伊卡洛斯” (故事線主要特征形態為:先升後降)(P.S.希臘神話中代達羅斯的兒子。在用蠟和羽毛做的翅膀逃離克裏特島時,因飛得太高,雙翼上的蠟遭太陽融化跌落水中喪生,被埋葬在一個海島上。)

  5. “灰姑娘”(故事線主要特征形態為:先升後降再升)

  6. “俄狄浦斯”(故事線主要特征形態為:先降後升再降)(P.S. 俄狄浦斯是外國文學史上典型的命運悲劇人物。他在不知情的情況下,殺死了自己的父親並娶了自己的母親。)


0?wx_fmt=jpeg
圖3 六種基本故事線的形態展示

(點擊查看高清圖片)

(注:從左至右從上到下依次為:“白手起家”、“陷入困境的人”、“灰姑娘”、“悲劇”、“俄狄浦斯”、“伊卡洛斯”。數據分析:Reagan et. al/ University of Vermont)


 ◆ 

結論

 

當研究團隊確定了六種基本的情感故事線之後,又進一步觀察了情感線與其故事下載量之間的關係,並據此探索最受歡迎的情感故事線類型。最終的研究結果顯示,最受歡迎的故事往往遵循“伊卡洛斯”和“俄狄浦斯”兩種類型的情感故事線。

 

另外,把眾多感情線揉到一起的那些更複雜的故事同樣受到追捧。事實上,研究結果顯示,最受歡迎的故事往往是連續兩次出現“陷入困境的人”的,還有“灰姑娘”緊接一個“悲劇”的故事。

原文發布時間為:2016-10-28


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-06-01 13:31:56

  上一篇:go  英國科學期刊選出了世界上最美麗的10個公式
  下一篇:go  誕生於納粹集中營裏的黑科技:科塔計算器