閱讀321 返回首頁    go 阿裏雲 go 技術社區[雲棲]


文本挖掘林夕、黃偉文的43萬字歌詞,他們到底在唱些什麼?


0?wx_fmt=gif

在我十幾年的聽歌生涯裏,熟悉的歌曲可以說有80%以上的作詞,都是出自香港兩大金牌詞人——林夕和黃偉文之手,粉絲界也出了不少文章從二人的韻腳使用、意識形態、選材議題尤其是愛情觀等角度做分析,甚至網絡上還有流傳"林夕引進門,皈依黃偉文"的說法。作為他們的迷妹,並且最近恰好在看一些關於文本挖掘的文章,忍不住從文本挖掘的角度對他們的歌詞做了一個頗粗淺的分析。

首先我通過Python爬蟲在蝦米音樂上抓取了所有他們的歌詞文本,對比了蝦米、網易雲和QQ三大音樂門戶,蝦米上收錄的比較全,但是抓取下來的數據也不能保證囊括了兩人出道來所有的作品,所以呢結果僅作參考。

0?wx_fmt=gif

對抓取結果進行去重和去空文本後,約43萬字,其中夕爺跟歪悶字數比例7:1左右,從文本歌曲數來看,夕爺跟歪悶大約一個8:1的比例,看來歪悶單曲平均字數更豐富(話嘮)?夕爺年均產量63首,歪悶年均產量11首。可以說夕爺絕對屬於天道酬勤自帶天賦的努力型選手,這應該也是夕爺在大陸知名度更高的主要原因,生產力帶動了市場覆蓋率,雖然歪悶沒有夕爺那麼高產,不過在含金量方麵應該是更勝一籌的多金型選手,畢竟分母更小。

接下來是對他們兩人所有的歌詞文本通過Python庫(主要是jieba、snownlp)作分詞、詞性處理和情緒分析。我把每個文本裏的"你、我、他"等單字和oh yeah之類的語氣詞去掉後,用剩下的詞語分別生成了兩人肖像字符雲,上圖是夕爺,下圖是歪悶(排名不分先後)


"沒有"是兩人詞雲裏最突出的詞

"沒有"是兩人詞雲裏最突出的詞,前段時間有篇文章分析了香港四十年來歌曲關鍵字的變化,說在90年代後,歌壇關鍵詞從以前的"相思、鴛鴦、我心"切換成了"沒有",詞雲的結果就剛好對應上了這個結論,90年代後,夕爺和歪悶包攬了香港歌壇絕大部分傳唱度高的詞作,而這兩人使用頻度最高的詞就是"沒有"。

0?wx_fmt=jpeg

夕爺的重點關鍵詞:沒有、一個、為何、怎麼、什麼、我們……

相聚離開都有時候,沒有什麼會永垂不朽——《紅豆》

如果對於明天沒有要求,牽牽手就像旅遊——《十年》

沒理由,相戀可以沒有暗湧——《暗湧》

沒有得你的允許我都會愛下去——《鍾無豔》

一百年後沒有你也沒有我——《百年孤寂》


0?wx_fmt=jpeg

歪悶的重點關鍵詞:沒有、一個、如何、什麼、可以、為何……

問我有沒有,確實也沒有,一直躲避的借口,非什麼大仇——《最佳損友》

其實沒有一種安穩快樂永遠也不差——《喜帖街》

沒有心別再拖,好心一早放開我——《好心分手》

沒有溫柔,唯獨有這點英勇——《勇》

笑我這個毫無辦法管束的野孩子,連幸福都不介意——《野孩子》

從詞性方麵看兩人平常慣用的招式

下圖分別是夕爺和歪悶的詞性使用頻度

0?wx_fmt=jpeg

0?wx_fmt=jpeg

從詞性來看兩人慣用的前9招幾乎是一模一樣的:動詞>名詞>副詞>形容詞>代詞>數詞連詞>人名>時間詞一直到地名、其他名動詞和方位詞等才開始有所差別。

為了看兩人具體用詞的差別,我對動詞,名詞等常用詞接著做細分,上圖夕爺,下圖歪悶

0?wx_fmt=jpeg

0?wx_fmt=jpeg

兩人動詞排名靠前的也很接近:沒有、得到、需要,知道。在沒有之後,有"需要",想"得到",也有領會("知道"),區別似乎是夕爺的在沒有之後是"不會""戀愛"還念著"擁抱"("靠擁抱亦難任你擁有"——《富士山下》),歪悶的是"繼續""戀愛"但是"害怕""沒法"子("害怕一直也再沒法戀愛"——《耿耿於懷》)。

再看看名詞方麵,依然上圖夕爺,下圖歪悶

0?wx_fmt=jpeg

0?wx_fmt=jpeg

兩人一起提到最多的就是"世界",還有"情人"、"眼淚"、"時間",有情兩個人就是世界,沒有情世界就隻剩一個人。

世界將我包圍,誓死都一起——《飛女正傳》

一個人失眠,全世界失眠——《全世界失眠》

這個世界最壞罪名,叫太易動情,但我喜歡這罪名——《無人之境》 

世界遺棄不可怕,喜歡你有時還可怕——《垃圾》

相對夕爺念叨的"伴侶"(我愛的人不愛我),歪悶有一個比較對立的詞是"無人"(有誰來愛我)

我信我有這一日,伴侶肯專注待我——《姊妹》

愛若能夠永不失去,何以你今天竟想找尋伴侶——《人來人往》

有人問我,我就會講,但是無人來——《浮誇》

要是可愛,為何無人愛我——《可人兒》

接著是形容詞,上圖夕爺,下圖歪悶

0?wx_fmt=jpeg

0?wx_fmt=jpeg

"快樂"、"幸福"、"寂寞"占比最高,隻是夕爺的寂寞似乎更多。然後除了一些快樂寂寞類的抒情形容詞,歪悶還多出了一些像"頑強"、"有趣"、"無聊"不那麼主流的詞,當然從夕爺年產63首的勤奮勁看對"無聊"的青睞也應該要少的多。《浮誇》如歪悶當然要"著最閃的衫",要"有趣"不要"無聊"。


從時間詞方麵看兩人更多地是偏愛什麼時間狀態

前兩圖夕爺,後兩圖歪悶

夕爺是"過去">"現在">"未來"

0?wx_fmt=jpeg

0?wx_fmt=jpeg

歪悶是"現在">"過去">"未來"

0?wx_fmt=jpeg

0?wx_fmt=jpeg

兩人似乎都不怎麼喜歡展望未來,區別是夕爺更緬懷過去:

還記得當天旅館的門牌,還留住笑著離開的神態——《約定》

十年之前,我不認識你,你不屬於我——《十年》

陪著我像最初相識我當時未怕累——《假如讓我說下去》

歪悶是活在當下:

霎眼已二十七歲,時日無多,方不敢偷懶——《陀飛輪》

想不到當初我們也討厭吃苦瓜,今天竟吃得出那睿智愈來愈記掛——《苦瓜》

今天雖然長高了,牆上繼續掛的還是我六歲的畫——《黃色大門》

關於最愛的季節


在春夏秋冬裏,夕爺跟歪悶都是更愛春秋,自古詩人多傷春悲秋,不同的是夕爺的春秋隻相差了10個百分點,而歪悶對春天屬於壓倒性寵愛,在四個季節裏占了一半的比重。

0?wx_fmt=jpeg

0?wx_fmt=jpeg

對植物的使用上


夕爺喜歡"玫瑰"、"薔薇"、"櫻花"、"曇花"、"葡萄"、"滿天星"、"百合"、"薄荷"等多是觀賞性植物,重在營造意境。

0?wx_fmt=jpeg

歪悶除了"薔薇"、"百合"以外更多喜歡用"葡萄"、"苦瓜"、"洋蔥"、"蘋果"這些食用類的來描述人生個中滋味。

0?wx_fmt=jpeg

地名詞,看看哪些地方是兩人各自的根據地

夕爺的是:"天國"、"深海"、"城市"、"香港"、"愛河"、"東京"

0?wx_fmt=jpeg

歪悶的是:"天國"、"滿街"、"都市"、"花都"、"東京"、"冰島"

0?wx_fmt=jpeg

兩人最大的共同點——"天國",然後是城市和東京,不過夕爺看來更喜歡水相關的像"深海"、"愛河",歪悶相對來說還是更喜歡在"滿街","花都的"陸地。        

再看看他們暢遊的世界板塊


0?wx_fmt=jpeg

從世界板塊來說,兩人都最喜歡亞洲,不過夕爺的亞洲比例是要遠遠超出其他洲的,更多的是喜歡說香港,北京,日本(突然想起了夕爺的神作《北京歡迎你》);夕爺關於日本也有不少熱門曲目,像《富士山下》、《再見二丁目》、《如果東京不快樂》、《黑擇明》等等

0?wx_fmt=jpeg

歪悶則是從亞洲衝出歐洲,從香港東京,到冰島巴黎蒙馬特,這可能是他偏愛時尚,喜歡時裝展的關係。

當我看到南美洲這個地名的時候,突然想起了一首經典,就是歪悶作詞,張國榮作曲和旁白,黃耀明演唱的《這麼遠那麼近》,下麵是一大段張國榮性感的獨白:

我由布魯塞爾坐火車去阿姆斯特丹, 望住窗外,飛越過幾十個小鎮,幾千裏土地,幾千萬個人。我懷疑,我們人生裏麵,唯一可以相遇的機會,已經錯過了

而歪悶的世界板塊也真的像這首歌寫的:

我由亞洲一直飄到,南美洲


兩人的情感曲線分析



我把情感分數高於0.6的歌詞文本定義為整體用詞是比較正麵的,反之則是比較負麵,先來看看夕爺的:

0?wx_fmt=jpeg

0?wx_fmt=jpeg

可以看到夕爺的大部分是過了正麵及格線的,並且很多剛好是踩線及格。

0?wx_fmt=jpeg

0?wx_fmt=jpeg

歪悶的呢則是參差不齊,大起大落,有高有低,可以說正負兩麵一半一半吧。

平日裏聽歌的時候,總覺得夕爺的歌詞裏滿是慘兮兮惹人憐的情緒,而歪悶的相對是直麵瘡疤手起刀落的感覺,為什麼文本情緒分析出來夕爺的歌詞的正麵意義高達70%,而歪悶的則是正負意義不相上下呢?

我仔細想了一下,夕爺是引佛入詞,雖然世事無常但是要從中解脫要包容要寬宏,雖然我愛的人不愛我但是"我們是朋友還可以問候","你掌心的痣我總記得在哪裏","離開你六十年但願能認得出你的子女"。所以正麵的歌詞文本是要遠遠超過負麵,別忘了,夕爺還有《快樂崇拜》、《wuha》、《北京歡迎你》之類積極向上的歌曲(扶額)。而歪悶呢,更注重坦白內心的瘡疤,雖然血跡斑斑但是要迎刃而解,我愛的人不愛我所以我"渡日月穿山水仍在恨那誰","你沒有好結果,來讓你一生最喜歡和珍惜那人也摧毀你一生完全沒半點惻隱"但是"我為我生存""明日我必須振作","活得比你好",因此可以說表達的正負麵意義是一半一半。

好了,先收工。下回再看看更深入的挖掘。

----------------------------------

其實,當我們拋開文本挖掘去探討音樂,每個人都能從不同角度理解他們的歌詞,而目可能中文分詞算法做不到。

以林、黃二人的代表作來舉例——

林夕的《少女的祈禱》:

“祈求天父做十分鍾好人,賜我他的吻如憐憫罪人”。

黃偉文的《可惜我是水瓶座》:

“別說這種行話,哪裏留得住我,到底是為什麼分手你很清楚”

都是分手,都是失戀,表麵都是傷感,林夕說“老天我求你了別離開我”!! 黃偉文說“別磨嘰了是你自己要分手的”。一個卑微,一個理性。這些都是人可以感受到的完全不同的音樂脈搏,我們甚至可以通過他們的作品,去猜猜兩位作詞人是什麼樣的。

而以文本挖掘音樂,情感分析/中文分詞的前提是“所見即所得”,把一句話拆開,然後拿到語料庫比對。而音樂作品包含的豐富信息,可能不是目前簡單算法可以窮盡的。

再看一首黃偉文給容祖兒的《黃色大門》

“窗紗外小鹿給我送枝花,梳化上下凡天使共我喝著茶”,“心儀男孩長駐於身邊,夢要變真也沒那樣遠”,“在我堅持的黃色門裏,珍藏著自製那冠冕”

“小鹿”,“送花”,“天使”,“心儀男孩”,“夢想”,“身邊”

字麵上看的話,程序應該分析不出來《咬唇》是一首經常用在婚禮上的歌,而每次現場唱《黃色大門》的容祖兒都會哭到花了妝,有人說她可能在想何韻詩,我覺得她也有可能在想劉浩龍。不管怎樣,這絕對不是一首童話歌,更不是一首輕鬆歡快的歌。

原文發布時間為:2017-03-29

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-19 14:32:41

  上一篇:go  Java實現 二叉搜索樹算法(BST)
  下一篇:go  《Jersey用戶指南》–序言