MaxCompute在網絡輿情監控係統中的應用
背景介紹
根據中國互聯網絡信息中心(CNNIC)報告顯示,我國的網民規模增長迅勐,截至2016年12月,我國網民規模達7.31億,較2015年底提升了6.52個百分點。互聯網成為反映社會輿情的一個重要載體。隨著以社交媒體為主的互聯網應用的普及和深入,網絡輿情熱點層出不窮,特別是當前微博、微信、新聞客戶端等新媒體發展極為迅勐,其強大的輿論號召力與傳播力讓任何人都無法輕視。互聯網已經成為政府了解民情的直接渠道,同時也成為企業接觸客戶、宣傳營銷的重要陣地。
國內某汽車企業所搭建的網絡輿情監控平台,通過建設互聯網媒體輿情綜合監測分析係統,對新聞、論壇、博客、微博、視頻、APP、傳統紙媒等進行全麵的覆蓋,客戶可以及時獲取與自己關心的網絡輿情信息,及時挖掘出網絡輿情熱點信息和背後的網絡推手並進行持續的監控和跟蹤,對輿情信息進行深度挖掘,發現潛在的輿情熱點,對於特定的輿情事件可以及時提供分析報告。
需求概要
業務部門對輿情監控平台要求的高實時性(刷新頻率在5分鍾以內),方便的自行添加監控內容,能監控媒體及不同編輯對品牌和產品的友好度,並且內快速的形成相關的輿情報告。基於業務部門的要求情況,係統沒有采用阿裏雲現有的輿情監控服務,而是使用阿裏雲ECS和MaxCompute服務搭建了一套基於爬蟲和自然語言分析的輿情係統,已滿足業務部門個性化的需求。
係統設計
係統架構圖

業務架構
係統拓撲圖
前端請求SLB進行負載均衡,下發到2個Web子係統,主要的數據處理工作由MaxCompute完成,搜索引擎使用3台ECS部署了ES來承載,數據收集則由多個爬蟲係統完成,同時也有一台ECS用戶自然語言處理,相關的結構化數據存儲則由RDS提供。
爬蟲係統和自然語言處理不在本文中詳細介紹,主要介紹MaxCompute中數據處理的相關內容。
相關MaxCompute任務根據功能分為幾類:模型訓練、競品分析、輿情監控、媒體分析、預警中心和事件分析等。
相關任務截圖:
主要的幾類任務介紹
模型訓練任務
關鍵詞監控:主要是通過使用MR任務使用TF-IDF的統計方法,同時使用MR進行去過濾。
計算詞向量:通過數加平台的機器學習功能,將相關關鍵字進行數字化的工作。
關鍵詞監控工作流
輿情監控任務
包含信息去重、去水軍信息、計算統計數據等任務
計算統計數據工作流
媒體分析類:活躍媒體統計、媒體品牌統計、去重過濾類等任務,其他任務包括熱詞統計、關鍵詞同步、熱點新聞統計等,通過DataIDE進行自動調度
任務運行概覽
監控結果
監控概覽
輿情監控
媒體分析
目前該係統已上線3個月,滿足的業務部門目前的監控需求,而且在時效性和精準性方麵明顯優於第三方監測公司的報告。
最後更新:2017-07-20 14:02:31