閱讀778 返回首頁    go 阿裏雲 go 技術社區[雲棲]


MaxCompute在網絡輿情監控係統中的應用

背景介紹

根據中國互聯網絡信息中心(CNNIC)報告顯示,我國的網民規模增長迅勐,截至2016年12月,我國網民規模達7.31億,較2015年底提升了6.52個百分點。互聯網成為反映社會輿情的一個重要載體。隨著以社交媒體為主的互聯網應用的普及和深入,網絡輿情熱點層出不窮,特別是當前微博、微信、新聞客戶端等新媒體發展極為迅勐,其強大的輿論號召力與傳播力讓任何人都無法輕視。互聯網已經成為政府了解民情的直接渠道,同時也成為企業接觸客戶、宣傳營銷的重要陣地。

國內某汽車企業所搭建的網絡輿情監控平台,通過建設互聯網媒體輿情綜合監測分析係統,對新聞、論壇、博客、微博、視頻、APP、傳統紙媒等進行全麵的覆蓋,客戶可以及時獲取與自己關心的網絡輿情信息,及時挖掘出網絡輿情熱點信息和背後的網絡推手並進行持續的監控和跟蹤,對輿情信息進行深度挖掘,發現潛在的輿情熱點,對於特定的輿情事件可以及時提供分析報告。

需求概要

業務部門對輿情監控平台要求的高實時性(刷新頻率在5分鍾以內),方便的自行添加監控內容,能監控媒體及不同編輯對品牌和產品的友好度,並且內快速的形成相關的輿情報告。基於業務部門的要求情況,係統沒有采用阿裏雲現有的輿情監控服務,而是使用阿裏雲ECS和MaxCompute服務搭建了一套基於爬蟲和自然語言分析的輿情係統,已滿足業務部門個性化的需求。

係統設計

3177bf1d1f1e9722f40e9acc034fec53a5e5a084

係統架構圖

02fdc6e9eeac304330c8274f90c2777e1c4ce36a

業務架構

8a4731b36b55dfe0fef3eb649c568559c7b2db20

係統拓撲圖

前端請求SLB進行負載均衡,下發到2個Web子係統,主要的數據處理工作由MaxCompute完成,搜索引擎使用3台ECS部署了ES來承載,數據收集則由多個爬蟲係統完成,同時也有一台ECS用戶自然語言處理,相關的結構化數據存儲則由RDS提供。

爬蟲係統和自然語言處理不在本文中詳細介紹,主要介紹MaxCompute中數據處理的相關內容。

 

相關MaxCompute任務根據功能分為幾類:模型訓練、競品分析、輿情監控、媒體分析、預警中心和事件分析等。

相關任務截圖:

f3e9dc3ad5d31db81f15982f17b6680786438ebb

主要的幾類任務介紹

模型訓練任務

關鍵詞監控:主要是通過使用MR任務使用TF-IDF的統計方法,同時使用MR進行去過濾。

計算詞向量:通過數加平台的機器學習功能,將相關關鍵字進行數字化的工作。

6af808434aeea1460df01e2528c9998d46187d32

關鍵詞監控工作流

輿情監控任務

包含信息去重、去水軍信息、計算統計數據等任務

9115822ee13823694e4fd3f7c60bf28c06af50db

計算統計數據工作流

媒體分析類:活躍媒體統計、媒體品牌統計、去重過濾類等任務,其他任務包括熱詞統計、關鍵詞同步、熱點新聞統計等,通過DataIDE進行自動調度

938db842022ee414034ef995c487369545df3100

任務運行概覽

監控結果

6c706eb93d5fc76c2806efe624ef8671d7dea55b

監控概覽

c74aeb7bcd4a4d27040080173e084e39e1d6e3bc

輿情監控

bc3f2bea6cbcdda1e6ba3c6080dc354e72fe49df

媒體分析

目前該係統已上線3個月,滿足的業務部門目前的監控需求,而且在時效性和精準性方麵明顯優於第三方監測公司的報告。

 

最後更新:2017-07-20 14:02:31

  上一篇:go  遊戲測試怕踩坑?快來圍觀最佳實踐!
  下一篇:go  為什麼處處以數據為重 企業反而徒勞無功?