閱讀473 返回首頁    go 阿裏雲 go 技術社區[雲棲]


還敢說自己是TED粉嗎? 連哪個演講最爆款都不知道!

當我看到Kaggle上的TED數據集時,竟然發現觀看次數極為分散:從五萬到四千七百萬多(平均數為100萬左右)。到底是什麼原因使得某些演講獨占鼇頭, TED組織者和演講者能否抓住這個秘訣製造下一個"爆款"呢?

下文中,我們嚐試著從預測TED演講的受歡迎程度出發,來分析最具影響力的因素。

數據

8b27832eb3d6e150fc5ff804881da059412f8732

從文本字段中,我們可以檢查標簽雲中的單詞頻率

標題中最常用的詞語是“世界”、“生活”和“未來”。

64698bc098687aeb0506b801e00848827c439ed1

數據涵蓋的特征主要有兩大類:

1.告訴我們演講造成的影響(評論、演講語言和觀看次數[我們的目標字段]);

2.描述演講本身特點(標題、內容介紹、字幕、演講者、時長等)。

除了原有的特征外,我們還提煉出兩個額外的特征:

視頻創作和發布相差天數;

發布和數據收集(2017年9月21日)相差天數。

BigML的主題模型(Topic Models)解決方案最酷的地方在於大家不需要擔心文本的預處理。 BigML特別之處在於能自動清理標點符號,統一大小寫,排除停用詞,並在主題模型創建過程中應用詞幹,非常方便。還可以通過預先配置主題模型微調設置,並且引入二元語法(bigrams)。

e2d7e66d6f53ab6cbf6a17dcaba995f819076444

我們從建好的主題模型中可以看到,BigML在我們的TED演講數據裏發現了40個不同的主題,其中包括技術、教育、商業、宗教、政治和家庭等等。

所有的主題如下圓圈圖所示,每個圓圈代表一個主題。圓圈的大小表示數據集中該主題的重要性,相關主題在圖中位置更為接近。每個主題圓圈都包含術語的概率分布。如果將鼠標懸停在某個主題上,可以看到該主題內頻率排名前20的術語及其概率。

BigML還提供了另一個可視化工具,大家可以看到橫條顯示的每個主題中的所有高頻術語。也可以在下圖中看到兩個視圖,或者也可以由此查看模型。

a1f77730344707f5f7cce1d601e7fafbede6c710

BigML主題模型是潛在狄利克雷分配模型(Latent Dirichlet allocation

,LDA)的優化實現。LDA是主題建模中最流行的概率學方法之一。

8b4cffeed61063a970a18032c38057db964ad015

現在,我們想要對TED演講數據做同樣處理。要計算每個TED 演講的主題概率,我們首先要使用一鍵操作菜單中的批量主題分布(Batch Topic Distribution)選項。然後,選擇TED演講數據集。與此同時,還要確保“通過主題分布創建新數據集”的選項已啟用。

e38005b3c2f5cbe384e9644d5bcf758e960d405f

創建批量主題分布時,我們可以得到新增了數字字段的新數據集。新數據集包含:針對每個TED演講的各個主題出現的概率。這些字段將替換掉字幕、標題、內容介紹和標簽,作為輸入值來幫助我們預測觀看次數。

dd4267d35577b15fcce856ae8995dd49d48d7132

15e88c934ac796743a53bae26df5130b0b38e6ec

隨後,我們點擊按鈕來創建一個新的數據集。

這個數據集包含一個類別新字段,其中的值作為兩個類別體現。

觀看次數低於中值的演講(觀看次數小於100萬)屬於類別一;

觀看次數高於中值的演講(觀看次數大於100萬)屬於類別二。

e97d355606e1bd9f7f883721880317f362ea0fde

在創建我們的分類模型之前,我們需要將我們的數據集分成兩個子集:

一個子集包括80%的數據,用於訓練;

另一個子集包括剩下的20%的數據,用於測試。

這是為了確保我們的模型能夠很好地推廣出以前模型從未見過的數據。在BigML中,我們可以使用一鍵操作菜單中的相應選項來輕鬆完成這一步,如下圖所示。

dfecab2d49c2a5e99240486d9814b11f68f9aa1b

我們接著用原數據集中80%的數據,來創建預測模型。

為了比較不同的算法的結果,我們創建了一個單一決策樹模型,一個集成模型 (隨機決策森林),一個邏輯回歸模型,以及BigML新增的Deepnet模型(現在很流行的深度神經網絡的優化實現)。

我們可以從數據集菜單中輕鬆創建這些模型。BigML自動選擇數據集中的最後一個字段作為目標字段。在這個數據集中目標字段選擇的是觀看次數(已經轉化為類別)。我們不需要對其進行單獨配置,就可以使用一鍵操作菜單輕鬆創建我們的模型了。

12e5b58837ede11e94f062eb8f84d473bf570902

一鍵Deepnet使用一個名為“結構建議”(Structure Suggestion)的自動參數優化選項。除了一鍵Deepnet之外,我們還可以通過配置另一個名為“網絡搜索”(Network Search)的自動參數優化選項來創建另一個Deepnet。BigML提供這個獨特的自動參數優化功能,能幫助大家省略手動調整Deepnet參數這項既困難又耗時的工作。(開心)

3cd073ff43b2dfd3361e4b869606e6bca849ab4c

經過一些迭代後,我們注意到與演講者相關的特征對觀看次數沒有影響。因此,我們去掉了相應的字段。“事件”字段似乎會造成過擬合,所以我們把“事件”字段也移除了。最後,模型輸入的自變量字段為: 主題、演講發表年份、演講時長,以及我們計算的演講發布日期到數據收集日期(2017年9月21日)天數。

用這些選定特征創建了所有的模型之後,我們需要用之前剩餘的20%的數據來評估每個模型的表現。BigML評估比較工具可以同時分析幾個模型的結果,利用這個工具,我們可以輕鬆的比較幾個模型的表現。

如下圖所示,結果AUC(Area under the curve,曲線下麵積

)最高的模型獲勝

獲勝者(AUC為0.776)是使用自動參數化選項“網絡搜索”的Deepnet;

表現第二好的模型是另一個使用自動選項“結構建議”的Deepnet,它的AUC值是0.7557。

第三名的是集成模型(AUC為0.7469);

第四名是邏輯回歸模型(AUC為0.7097);

最後一名是單一決策樹模型(AUC為0.6781)。

5c8415c5af0f89d45de5d3b407ab1d81686c1093

讓我們看到表現最好的Deepnet模型的混淆矩陣中,對於目標字段的兩個類別我們的預測都達到了70%的精度。

a7674165e36eb4edfd68fadafc419de419b1665c

通常情況下,深度神經網絡的預測很難分析。因此,BigML提供了一些工具來讓大家能更容易理解模型預測得到某個特定值從而何來。

e49a87cf2af75ef65c8d35686cc76ea6423018f6

圖表標題:特征的重要性

經Deepnet模型的分析之後,我們得知演講主題與觀看次數相關,並且還可以用來預測觀看次數。但是演講主題究竟是如何影響預測值的呢?心理學相比科學而言,受眾觀看的次數是多還是少呢?為了回答這個問題,BigML提供了一個”部分相關圖”(Partial Dependence Plot)視圖,在這個視圖中我們可以分析輸入字段來看對目標字段的邊際影響。下文舉出了一些例子(如果您有時間可以嚐試這個可視化工具)。

舉例來說,請看下圖中“娛樂”和“心理”這兩個主題的組合如何對觀看次數產生積極的影響。

這兩個主題中的概率較高的演講,被預測得到的觀看次數為第二類(藍色),即觀看次數超過100萬。

4dac3915d1a1c047d38e90e5dcfcbe1190384630

相反,如果我們選擇健康主題,我們就可以看到這個話題的概率越高,預測值為第一類的概率就越高(低於100萬次觀看的類別)。

e86d5caea8b4cf0eb56bb81adfab5efeca8a41cc

我們也可以看到一些主題的熱度隨著時間而改變。

如下圖所示,2012年至2017年期間,心理學主題超過100萬次觀看的概率逐年增加。

94c7110fa182350df9a9cce5305b6bf870c69dc2

總而言之,我們發現演講主題對觀看次數有著顯著性的影響。在分析每個主題對預測值的影響之後,我們觀察到:

關於娛樂、啟發等“積極”的話題,觀看次數較高的可能性更大;

疾病、全球性問題,戰爭等“負麵”的主題觀看次數較少的可能性更大;

個人為中心的主題:如心理學或人際關係等的關注度在過去幾年中有所增加

廣泛的社會問題:如健康或發展等的關注度則有所下降

TED始於1984年,它最初是以技術、教育和設計為主題而舉辦的係列會議。可以說TED演講的本質目的就是使知識民主化。如今,TED每年會舉辦超過200多場演講,內容涵蓋幾十個不同的主題。盡管有人士批評過,TED演講不應該把複雜的思想僅近縮減為20分鍾的自傳式啟發式故事來表達,但是它對我們社會中知識傳播的巨大影響仍是不容置疑的。


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“大數據文摘

最後更新:2017-11-16 15:34:56

  上一篇:go  Radware攻擊緩解措施成功抵禦DDoS攻擊
  下一篇:go  梆梆安全的金磚夢想:安全聯結世界