閱讀671 返回首頁    go 技術社區[雲棲]


自然語言處理透析希拉裏和特朗普各自的“演講範兒”


0?wx_fmt=png

◆ ◆ 


數據科學可以應用到很多領域。從圖像處理到人工智能,無所不能。其中之語義分析(semantic analysis),在社交媒體監測中非常有用。本文聚焦於政治,而非推特或臉書的評論分析。


今年7月21日,唐納德•特朗普,在俄亥俄州的克利夫蘭舉行的共和黨全國代表大會的最後一天接受了共和黨總統候選人提名。一周之後的28日,希拉裏•克林頓在費城接受了民主黨總統候選人提名。


在家人和成千上萬粉絲的支持下,他們發表了各自的提名演講。本文對此進行了分析,以期更好地理解這份政治通訊背後隱藏的深意。本文集中在三個特征上:詞匯、風格和節奏。


◆ ◆ 

深扒詞匯


評價誰使用的詞匯量最大的方法之一是看演講者用了有多少獨特的詞。為此需要先去除英語中沒有“意義”的那些詞(如“the”,“a”,“of”等)。這些詞也叫停用詞:具體名單可參照此鏈接https://www.ranks.nl/stopwords。其次,重複詞隻能計算一次。英語中的名詞單複數,動詞不同人稱時態也用Snowball Stemmer算法做相應處理: 比如Leaders和Leader算一個詞,Am和Are也算一個詞。


注:

想更多了解Snowball Stemmer算法可以參照這裏https://snowball.tartarus.org/texts/introduction.html


我們發現特朗普的演講大概13%的詞匯是獨特的(全文7460個單詞中有965個不同的主幹詞)。平均每個詞重複7.7次。而希拉裏有17%的獨特詞,每個詞平均重複約6次。區別很明顯:特朗普的演講之80%隻需要480個詞,而希拉裏需要665個詞!多出來38%,意味著我們開始得到一些結果了。


0?wx_fmt=jpeg 


構成候選人演講搞80%的詞匯量


演講的效率部分依賴於演講者的風格。本文試圖找出兩名候選人最心愛的詞。尋找“特朗普範兒”或者“希拉裏範兒”的詞,即找出一個候選人中使用最頻繁而在其競爭對手那使用最少的詞。比如,“really”這個詞,在特朗普的演講中出現了15次,在希拉裏的演講中僅出現1次。計算的方法之一是計算每個詞的“比值比(odds ratio)”。公式如下:


0?wx_fmt=jpeg 


分子是某個詞在特朗普詞匯表中出現的概率,分母為同樣的詞在希拉裏文中出現的概率。取對數使得我們可以高效的進行排序:當二者旗鼓相當時,對數值為0。否則要麼為負(希拉裏範兒)或為正(特朗普範兒)。結果如下:

0?wx_fmt=jpeg 幾乎僅見於唐納德•特朗普的詞

0?wx_fmt=png 幾乎僅見於希拉裏•克林頓的詞


我們注意到的第一件事是,特朗普喜歡用短而常見的詞,反複使用:真的(really),很好(nice),非常好(great),問題(problem)。還有一點,我們可以感覺到這位共和黨候選人的某種成見:墨西哥,中國,伊朗。總體而言,特朗普關注的似乎更偏向於國際問題。大部分他所提及的外務,旨在煽動恐懼,尋找替罪羊。


而希拉裏一方,詞匯的範圍更廣。“希拉裏範兒”的詞傾向於較為罕見的詞。希拉裏•克林頓提到“美國”的次數大大多於特朗普:27:5。“希拉裏範兒”的詞表提示,希拉裏的演講更加著眼於國內事物。她典型的詞包括:一起(together),運動(campaign)和努力(hard)。唐納德•特朗普的名字也多次出現在她的演講中。


認真的讀者會發現,“特朗普”這個詞並沒有出現在“希拉裏範兒”的詞表中,這是因為特朗普在他的演講中,多次提到他自己的名字(10次),因此把比值比拉下來了。作為對比,希拉裏的名字隻提到了2次:一次在希拉裏自己的演講中(提到她的丈夫比爾•克林頓),一次被特朗普提到。並且,“希拉裏範兒”的詞“想要(wants)”出現在批評她的對手時(“他想要分裂我們”,“他想要我們懼怕未來,懼怕彼此”)顯然,希拉裏談論了特朗普,而特朗普談論的是…他自己!


0?wx_fmt=jpeg


所有人都在談論特朗普


我們也可以來看看雙方都在用的詞。它們代表了二者的共識。不出意料,它們是“工作(jobs)”、“國家(country)”、“思考(thinking)”。他們都說了很多次“謝謝”,但方式不同:希拉裏特別感謝了一些人,而特朗普主要是在觀眾鼓掌的時候致謝。


0?wx_fmt=jpeg


0?wx_fmt=jpeg 


◆ ◆ 

演講節奏


由於背景的不同,兩位候選人都有自己的節奏。評價語言的內在節奏,一個好的開端是:把演講分割為很多句子,句子再分割成單詞。我們發現,特朗普的演講較長:有625個句子和7460個單詞。而希拉裏隻用到405個句子和6088個單詞。就是說,特朗普比他的對手,多用了54%的句子,長了23%。


特朗普的平均句子長度是12個單詞,希拉裏的句子稍長,平均每句15個詞。大部分特朗普的句子都很短:演講21%由5-6個單子的短句組成。希拉裏的句子長度更均勻,12個單詞的是最常見的。



0?wx_fmt=jpeg


奧巴馬的句子長度是特朗普和希拉裏之和


我們看到了特朗普和希拉裏的一個明顯區別:特朗普演講簡單明快,而希拉裏更加多樣、冷靜。但是等等!她並不是非同尋常:奧巴馬在他的第一次提名演講中,平均每句話用到25.7個單詞,幾乎是希拉裏和特朗普之和。奧巴馬的重複用詞也比希拉裏少了24%,比特朗普少了42%。我想,這說明,雖然希拉裏的節奏要慢一點兒,句子結構要複雜點兒,她的演講風格與對手仍然非常接近。


◆ ◆ 

寫在最後


自然語言處理不是一門精確的科學。隻能給我們一些線索和元件,據此來理解演講。語料庫也很短,需要更多的分析來提取更精確的特征。但是從本文的分析,我們發現了什麼?


  1. 特朗普談論所有的事情是“真的”,“很好”,“非常好”,而希拉裏談論的是如何“為美國”“一起”“工作”。

  2. 特朗普談論的是他自己,希拉裏談論的是特朗普。雖然希拉裏用到了更大的詞匯表,更複雜的句子結構,看起來她或多或少采用了特朗普的說話方式。

  3. 奧巴馬的提名演講(兩次均是)采用了更大的詞匯表,複雜得多的句子結構,表明特朗普顛覆性地簡化了這樣國家級的演講。

原文發布時間為:2016-10-10


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-06-02 19:33:49

  上一篇:go  13張圖看6年來數據科學概念之爭
  下一篇:go  MIT新研究|如何讓自動駕駛汽車做出道德選擇