閱讀459 返回首頁    go 阿裏雲 go 技術社區[雲棲]


文學,大數據的終極挑戰

幾十年來,文學作品中的統計分析已經從單純的破譯理論發展到尖端研究

abde22bef8b8d60ca9d6f45be45ed815741e0440

1993年,Tom Stoppard的戲劇《世外桃源》(Arcadia正式上演在這部腦洞大開的戲劇中那些用數據統計進行文學評論的橋段成為圈內人的笑料。劇中位傻乎乎的詩歌教師,Bernard Nightingale嘲笑他的同事用計算機程序來斷定一個沒有署名的故事出自於勞倫斯(D.H. Lawrence)之手並且還得意的指出“在同樣的統計基礎上,竟然有百分之九十的可能性,Lawrence還撰寫了《淘氣小威廉》(“Just William”.作者是裏奇馬爾Richmal Crompton)這本書以及前一天的《百眼巨人報(英國布萊頓市的一份地方報紙)雖然這隻是該劇中的幾個笑話,但現在突然變得令人“細思恐極”了 隨著《新牛津莎士比亞》係列的出版,人們開始了一場關於伊麗莎白時期劇作家身份的討論


新牛津莎士比亞全集的最新版登上了去年10月份的頭條新聞。因為書中指出莎士比亞的44部戲劇作品有17部是和別人共同完成的(相比之下,1986僅列出了8)。 而其中一個出現的人名,馬洛(Christopher Marlowe),更讓人們興奮不已這個名字的出現似乎佐證了之前一些關於作者身份被駁回的陰謀論 然而,更吸引人眼球的是得出這個論斷背後的技術。人們已不再是根據編輯觀察等傳統的方式,而是通過計算分析來做出這樣的結論。 那麼今天的數據語言學家是如何在不受作者影響力的前提下,弄清楚作者與作品的關係的呢 同時我們更需要思考為什麼做到這點很重要


計算機和人類可以通過一些“附加詞”來識別是不是莎士比亞的作品,如他會經常在自己的作品中使用 “gentle”, “answer”, “beseech”, “tonight” 顯然這種方法來判斷是不是莎翁作品已經變得不那麼準確了,因為那時候的作家常常會模仿其他人的行文風格 早期的劇作家是非常緊密的一個團體,而與此同時16世紀的觀眾似乎並不是很在意作品的獨創性《帖木兒》(Tamburlaine),馬洛的一部非常受歡迎的戲劇,當時被許多人模仿衍生出各種續作。以至於當時著名的劇作家本·瓊森(Ben Jonson)對該劇被無休止的模仿而發出了哀歎。 莎士比亞也和其他人一樣沒能免俗。 《馬耳他島的猶太人》(“The Jew of Malta” ,1589)中, 馬洛筆下的巴拉巴斯將他的女兒阿比蓋爾隔離在一個陽台上:

“But stay! What star shines yonder in the east?

The lodestar of my life, if Abigail!”

(“看! 哪顆星星在東方發光?就是我生命中北極星,阿比蓋爾!“)


如果這段台詞聽起來很熟悉那是因為十年後莎士比亞筆下的羅密歐有著類似的台詞

“But soft! What light through yonder window breaks?

It is the East, and Juliet is the sun!” (“輕聲!那邊窗子裏亮起來的是什麼光?這是東方,而朱麗葉就是太陽!“)


在這種相互影響的情況下,電腦如何能夠分辨出馬洛和莎士比亞本人的作品以及他們作品中相互借鑒的區別?根據《新牛津莎士比亞》的編輯,其中的關鍵在於“功能詞”, 就是 to”或“a”這類能夠為句子提供語法支撐的單詞。 他們的理論認為作家們都會無意識地以自己獨特的方式使用這些詞。 例如,莎士比亞經常把“and”與 with”連在一起用 - 克勞狄斯與喬特魯德婚禮中的“With mirth in funeral and with dirge in marriage” (“葬禮中的挽歌和婚禮中有歡歌”),老哈姆雷特的鬼魂說到“緩慢而莊嚴得出現在他們麵前”( “Appears before them, and with solemn march。Goes slow and stately”) 因此即使作家們試圖模仿他人的寫作風格,功能詞的使用仍然能夠揭示他們真實的身份。 通過分析作家如何使用那些功能詞,計算機可以初步地識別他們獨特的語言指紋。


在莎士比亞作品的研究中,能夠獲知作品作者,作品內容以及寫作時間是非常關鍵的,通過這些信息能有助於說服那些唯莎士比亞論者,因為在他們眼裏莎翁就是一個孤傲的天才。 之前之所以人們會認為莎士比亞少有與人合作,主要原因還是那些與他合作的作家並不是非常出色。盡管計算機模型不是絕對準確的,但是以證據而非作品質量來判定作品的歸屬還是令人信服的。


其次,正確的作品歸屬讓我們更好的了解戲劇作品本身。 當我們打開一部曆史戲劇作品的第一頁,就像開始了一部關於這段曆史的電影。 由於《亨利六世》第二章的大部分可能是馬洛撰寫的,這就打破了這個曆史劇作的統一性。 馬洛更多的表現出對普通百姓角色(比如低調的傑克·凱德)的興趣,而不是那些無所不能的君主;相反, 莎士比亞更喜歡“國王之死”類似的故事。 知道同一部作品出自他們兩人之手,了解到其中的爭議和共生,我們可以更好地理解戲劇本身。


據《新牛津莎士比亞》編輯之一加布裏埃爾·埃根(Gabriel Egan)所說,歸因模型越來越準確,主要的原因就是“計算機研究人員越來越多地將研究精力轉向自然語言,而自然語言研究是計算機發展方向中最難的問題之一 。“在《世外桃源》中,Bernard Nightingale曾堅持認為”你不能把拜倫的思想放進筆記本電腦裏“。但就現在的情況來看,他的觀點仍然可能是正確的。 在控製測試中,即使像《新牛津莎士比亞》所使用的高級模式,有時也會有明顯的誤判,把作品張冠李戴。統計分析仍將是重要的分析工具之一。因為它有著學術的客觀性,隻是之前人們在莎士比亞研究領域很少用到。


以上為譯文

本文由北郵@愛可可-愛生活 老師推薦,阿裏雲雲棲社區組織翻譯。

文章原標題《Revenge of the maths mob - 發布。

譯者:friday012 ;審校:

文章為簡譯,更為詳細的內容,請查看原文

最後更新:2017-04-10 11:00:02

  上一篇:go Nginx學習之location匹配規則
  下一篇:go Nginx學習之安裝篇