1041
人物
新聞分類案例__案例_機器學習-阿裏雲
(本文數據為虛構,僅供實驗。本實驗擬在介紹文本類組件,具體有意實現效果的提升請聯係我們,我們提供完整解決方案和商業合作。)
一、背景
新聞分類是文本挖掘領域較為常見的場景。目前很多媒體或是內容生產商對於新聞這種文本的分類常常采用人肉打標的方式,消耗了大量的人力資源。本文嚐試通過智能的文本挖掘算法對於新聞文本進行分類。無需任何人肉打標,完全由機器智能化實現。
本文通過PLDA算法挖掘文章的主題,通過主題權重的聚類,實現新聞自動分類。包括了分詞、詞型轉換、停用詞過濾、主題挖掘、聚類等流程。
二、數據集介紹
具體字段如下:
字段名 | 含義 | 類型 | 描述 |
---|---|---|---|
category | 新聞類型 | string | 體育、女性、社會、軍事、科技等 |
title | 標題 | string | 新聞標題 |
content | 內容 | string | 新聞內容 |
數據截圖:
三、數據探索流程
首先,實驗流程圖:
實驗可以大致分為五個模塊,分別是增加序號列、停用詞過濾、分詞及詞頻統計、文本主題挖掘、結果分析和評估。
1.增加序號列
本文的數據源輸入是以單個新聞為單元,需要增加ID列來作為每篇新聞的唯一標識,方便下麵的算法進行計算。
2.分詞及詞頻統計
這兩步都是文本挖掘領域最常規的做法,首先利用分詞控件對於content字段,也就是新聞內容進行分詞。去除過濾詞之後(過濾詞一般是標點符號及助語),對於詞頻進行統計。如下圖:
3.停用詞過濾
停用詞過濾功能用於過濾輸入的停用詞詞庫,一般過濾標點符號以及對於文章影響較少的助語等。
4.文本主題挖掘
使用PLDA文本挖掘組件需要先將文本轉換成三元形式,append_id是每篇新聞的唯一標識,key_value字段中冒號前麵的數字表示的是單詞抽象成的數字標識,冒號後麵是對應的單詞出現的頻率。三元組組件生成結果如下:
在上一步完成了文本轉數字的過程,下一步數據進入PLDA算法。PLDA算法又叫主題模型,算法可以定位代表每篇文章的主題的詞語。本次試驗設置了50個主題,PLDA有六個輸出樁,第五個輸出樁輸出結果顯示的是每篇文章對應的每個主題的概率。如圖:
5.結果分析和評估
上一步把文章從主題的維度表示成了一個向量。接下來就可以通過向量的距離實現聚類,從而實現文章分類。我們這裏可以簡單看一下分類的結果。查看K均值聚類組件的結果,cluster_index表示的是每一類的名稱。找到第0類,一共有docid為115,292,248,166四篇文章。
通過過濾與映射組件查詢115,292,248,166四篇文章。結果如下:
效果並不十分理想,將一篇財經、一篇科技的新聞跟兩個體育類新聞分到了一起。主要原因是細節的調優沒有做,也沒有做特征工程,同時數據量太小也是一個主要的因素。本文隻是一個簡單的案例,商業合作可以私下聯係我們,我們在文本方麵我們有較完善的解決方案。
四、其它
參與討論:雲棲社區公眾號
免費體驗:阿裏雲數加機器學習平台
聯係我們: aohai.lb@alibaba-inc.com
往期文章:
【玩轉數據係列二】機器學習應用沒那麼難,這次教你玩心髒病預測
【玩轉數據係列四】聽說啤酒和尿布很配?本期教你用協同過濾做推薦
最後更新:2016-08-17 16:01:44
上一篇:
心髒病預測案例__案例_機器學習-阿裏雲
下一篇:
協同過濾做商品推薦__案例_機器學習-阿裏雲
三大論文入圍ACMMM,阿裏雲的城市大腦會是AI的未來嗎?
查詢流量數據__資源監控接口_API 手冊_CDN-阿裏雲
API使用__錄音文件識別_語音識別(ASR)_智能語音交互-阿裏雲
數據推送__性能篇_最佳實踐_開放搜索-阿裏雲
UDF開發插件介紹__Eclipse開發插件_工具_大數據計算服務-阿裏雲
阿裏雲胡曉明:服務100萬家客戶不算什麼,服務1000萬家才是能力
作業日期設置__作業_用戶指南_E-MapReduce-阿裏雲
申請資源__快速入門_消息隊列 MQ-阿裏雲
設備狀態__產品管理_控製台使用手冊_阿裏雲物聯網套件
為磁盤設置自動快照策略__快照_用戶指南_雲服務器 ECS-阿裏雲
相關內容
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲