閱讀926 返回首頁    go gooseeker集搜客


網絡新聞輿情分析係列之熱點話題

1.引言

新聞具有及時性、真實性和準確性等特點,而網絡新聞比報紙更具有及時性,並且人們可以在網絡新聞下自由發表自己的評論(敏感詞匯除外),所以對一個主題的輿情分析報告不可缺少網絡新聞這一數據。網絡新聞輿情分析涵蓋的範圍很廣,應用場景多種多樣,本文介紹的方案可用於營銷活動效果分析,商業事件的傳播分析,比如華為P8手機發布會相關的話題傳播熱度分析。本方案推薦采用最易用的工具方法,比如excel,這類輕量級軟件工具在集搜客GooSeeker網頁抓取軟件的配合下,最適合靈活及時地對熱點事件進行觀察。

                                       


2.確定數據源

各大搜索引擎(百度、穀歌、搜狗等)搜索主題得到的新聞,以及五大新聞門戶網(騰訊、新浪、網易、搜狐、鳳凰)的熱門新聞跟評。


3.數據采集

用集搜客GooSeeker對需要分析的輿情頁麵進行數據采集。

  • 搜索引擎搜索的新聞列表需采集

新聞標題、新聞詳細網址、新聞來源網站、新聞發表時間、新聞摘要、相同新聞條數

  • 新聞門戶網熱門新聞跟評列表需采集

評論者名稱、評論時間、評論內容


4.數據預處理

將采集到的新聞數據轉換成excel格式數據後,要從這些數據中進行更多的分析工作還必須對這些數據進行一些處理,包括數據的去重,刪除無效數據、格式的處理等等。


5.數據分析

  • 熱門新聞(或跟評)

由新聞標題的關鍵詞統計相關新聞的數量(或由新聞跟評的點讚數回複數等總和),得到排名前N位(一般取前10)的新聞(或新聞跟評)。

  • 熱度曲線

選擇時間段將采集到的數據按照日期統計數量,繪製出該時間段內新聞量(或新聞跟評量)隨著日期的變化曲線,觀察其變化趨勢。

  • 中文分詞

分詞是中文信息處理的基礎,輿情監測首先要將采集到的文本信息進行提取再做分析,那就需要對文本信息進行分詞處理。

  • 關鍵詞

對文本信息分詞後就得到一個個的自然詞,但不是所有的自然詞都有意義,所以需要從中提取關鍵詞,縮小人們關注的範圍,同時還可以對關鍵詞進行分類。

  • 詞頻統計

通過對關鍵詞(或分類後的關鍵詞)出現的頻數進行統計,可以觀察得到人們的關注話題範圍,還可以按照時間段分別統計不同時間段的關鍵詞出現頻數,觀察人們在不同時間段的關注話題範圍變化。


6.運用拓展

上述網絡新聞輿情分析還可以應用到其他方麵如論壇、微博等的輿情分析,具體采集信息根據具體網頁而定,如能在網頁上抓取到人們的個人信息(如性別、年齡、地域、工作、興趣愛好等)時,還可以對人們的個人信息進行分析,觀察關注該主題的人們群體特征。


7.參考文獻

[1]錢愛兵.基於主題的網絡輿情分析模型及其實現[J].現代圖書情報技術,2008,(4):49-55.

[2]李婷.校園BBS輿情分析係統的設計和實現[D].湖北:華中科技大學,2009.

若有疑問可以或集搜客網絡爬蟲

最後更新:2017-01-09 14:08:05

  上一篇:go 美國數據科學家帶你看看大數據的未來
  下一篇:go Uber:顛覆行業的“大數據”公司