1041 人物

新聞分類案例__案例_機器學習-阿裏雲

（本文數據為虛構，僅供實驗。本實驗擬在介紹文本類組件，具體有意實現效果的提升請聯係我們，我們提供完整解決方案和商業合作。）

一、背景

新聞分類是文本挖掘領域較為常見的場景。目前很多媒體或是內容生產商對於新聞這種文本的分類常常采用人肉打標的方式，消耗了大量的人力資源。本文嚐試通過智能的文本挖掘算法對於新聞文本進行分類。無需任何人肉打標，完全由機器智能化實現。

本文通過PLDA算法挖掘文章的主題，通過主題權重的聚類，實現新聞自動分類。包括了分詞、詞型轉換、停用詞過濾、主題挖掘、聚類等流程。

具體字段如下：

數據截圖：

首先，實驗流程圖：

實驗可以大致分為五個模塊，分別是增加序號列、停用詞過濾、分詞及詞頻統計、文本主題挖掘、結果分析和評估。

本文的數據源輸入是以單個新聞為單元，需要增加ID列來作為每篇新聞的唯一標識，方便下麵的算法進行計算。

這兩步都是文本挖掘領域最常規的做法，首先利用分詞控件對於content字段，也就是新聞內容進行分詞。去除過濾詞之後（過濾詞一般是標點符號及助語），對於詞頻進行統計。如下圖：

停用詞過濾功能用於過濾輸入的停用詞詞庫，一般過濾標點符號以及對於文章影響較少的助語等。

使用PLDA文本挖掘組件需要先將文本轉換成三元形式，append_id是每篇新聞的唯一標識，key_value字段中冒號前麵的數字表示的是單詞抽象成的數字標識，冒號後麵是對應的單詞出現的頻率。三元組組件生成結果如下：

在上一步完成了文本轉數字的過程，下一步數據進入PLDA算法。PLDA算法又叫主題模型，算法可以定位代表每篇文章的主題的詞語。本次試驗設置了50個主題，PLDA有六個輸出樁，第五個輸出樁輸出結果顯示的是每篇文章對應的每個主題的概率。如圖：

上一步把文章從主題的維度表示成了一個向量。接下來就可以通過向量的距離實現聚類，從而實現文章分類。我們這裏可以簡單看一下分類的結果。查看K均值聚類組件的結果，cluster_index表示的是每一類的名稱。找到第0類，一共有docid為115，292，248，166四篇文章。

通過過濾與映射組件查詢115，292，248，166四篇文章。結果如下：

效果並不十分理想，將一篇財經、一篇科技的新聞跟兩個體育類新聞分到了一起。主要原因是細節的調優沒有做，也沒有做特征工程，同時數據量太小也是一個主要的因素。本文隻是一個簡單的案例，商業合作可以私下聯係我們，我們在文本方麵我們有較完善的解決方案。

聯係我們: aohai.lb@alibaba-inc.com

往期文章：

最後更新：2016-08-17 16:01:44