閱讀522 返回首頁    go gooseeker集搜客


獲取微博原始數據,研究模型自己任意定

【編者注】集搜客GooSeeker集微庫-微博采集工具箱在3月份推出之後,受到很多用戶的喜愛,我們希望更多的用戶在使用的過程中將問題反饋給集搜客,一起改進軟件,使集微庫更加易用。PS:應用戶反饋需求,集微庫微博采集工具箱將在本周推出第6個小工具(微博博主詳細信息采集工具)。

近年來,對社媒的分析,首選Facebook、推特、微博等社交平台的數據切入,在我身邊,說到對微博數據的挖掘分析,躍躍欲試,但著手開始,問題撲麵而來。一是論文方向確定的煩惱,二是確定後足夠的樣本數據的獲取問題,三就是真正分析了,結果是沒有結論,再試沒有結論,最後還是沒有結論,這樣對研究者來說是極其痛苦的,同時也很容易陷入為了分析而分析的窘境。

互聯網不乏一些對微博數據分析的工具,比如:

  • 知微,微博傳播分析、社會網絡分析。
  • KMSOCIAL,內容運營、客戶管理、數據分析(傳播分析、賬號分析、行業報告)、輿情分析等。

... ...

百度一搜一籮筐,但真正符合我需求的還沒有,不是挑剔,是實話實說。

按我的理解,這些微博數據分析工具相當於是一個已經確定分析模型與算法的輸出工具,輸入微博或是網址之後,諸如用戶情感值、粉絲質量、水軍分析、傳播視圖等分析報告新鮮出爐,作為一名比較死磕的研究僧,結論很重要,但過程更重要。所以,先選好論文方向,再建立分析模型,最後得出結論。

結合自己的經曆,下麵說說微博論文方向和用到的工具。

(1)論文方向

搜搜知網,微博數據挖掘的研究方向五花八門,中國對微博最早的研究出現在2009年,不過對微博數據的挖掘,是從10年才開始熱起來的,這要結合當時微博的發展背景,一個產品,使用人數多到一定的程度便會引起更多的人去關注。

抓了在知網上有收錄的快兩千篇微博數據挖掘的論文信息,對研究主題進行分類統計,大概可以看出:

  • 社會網絡關係分析12.8%
  • 輿情分析6.0%
  • 信息檢索和推薦6.8%
  • 用戶情感分析7.2%
  • 信息管理、組織等13.7%
  • 信息傳播12.6%
  • 影響力分析5.5%
  • 話題事件分析9.8%
  • 文本挖掘8.8%
  • 其他16.7%

研究方向萬花筒般,本人的研究方向傾向於文本挖掘,曾經參加過微博的一個商業項目(給XX公司做手機人群研究),由發布終端來判斷用戶的手機型號,從這些用戶的博文中挖掘不同手機用戶群體的差異。

以目標手機為關鍵詞,高級搜索出博文,提出無效樣本博文後,將這些樣本數據進行分詞打標,然後對不同機型的用戶博文差異詞進行分類匹配,統計不同機型的匹配度樣本數占比,標簽詞對哪種機型較為匹配,則通過匹配度距離來衡量。

沒有用到複雜的分析工具,明確分析思路後建立分析框架就較為順手了,最後從中可以看到一些有趣的結論,XX手機的用戶相對XX手機的用戶具有更寬泛的話題(營銷傳播觸達難度更大),XX手機用戶討論的更多的是時政話題,而XX手機用戶較為關注網絡購物,又或者是XX手機用戶相對XX手機更為年輕等等。因為涉及到商業協議,具體的分析結論不貼出了。

明確研究方向很重要,隻是一個大概的方向還不行,這樣很容易像無頭的蒼蠅樣亂飛亂撞。

(2)工具

對於微博的挖掘分析,研究者首先最需要的應該是微博的原始數據。

程序員出生的話,自己動手寫寫爬蟲,當作編程作業,抓成後還可以收獲滿滿的成就感。不過也有像我同學一樣接近畢業著急趕論文耗不起搗鼓程序或者是對編程門外漢的朋友,這種情況就要借助於一些數據獲取工具,對爬蟲術業有專攻的一些大牛研發的工具足夠解決微博的數據獲取問題了,所以不妨借助它們。

  • PKUVIS,傳播分析,可以抓取微博數據,好像也可以對接API接口。

這個工具知乎上也有人做過推薦,本著沒有使用就沒有發言權的原則,對於這個微博可視化分析工具不多做說明,有興趣的可以試試,我主要講下下麵一個微博數據抓取工具箱。

因為我有自己的研究模型,所以在研究階段最讓我頭疼的應該是原始數據的獲取了,這個工具確實幫了大忙。

微博對抓取數據量和頻率做了限製,自己寫過爬蟲的人來說應該深有體會,采集的數據多了,必定會被封賬號,被封後還得清緩衝換ID換賬號,最終抓到的數據也不一定全。

這個工具GooSeeker集微庫,測試之後,效果還好,能夠獲取微博的原始數據,適合論文分析使用,不會編程,那就試試,它不需要任何一點程序知識。

測試可以先指定了一個明星的微博賬號,鄧超學霸~

鄧超學霸發了729條微博,它這個工具抓了大概10分鍾。

最後導出數據後是這樣的,有651條數據,雖然沒有729條但比我自己寫爬蟲抓的要全。

這個工具箱有5個小工具,分別是:

  • 博主主頁內容采集
  • 關鍵詞搜索結果
  • 熱門在博文轉/評信息
  • 話題廣場輿論
  • TA的粉絲與關注者

基本上覆蓋微博的所有數據,這個工具箱對需要微博數據的研究僧算是福音了。

或者你有沒有想過(這是我看到的一個知友提過的想法):

從指定用戶開始,抓取他所有的微博信息及每條微博下麵評論、轉發、點讚用戶的相關屬性信息(包括id、用戶名、所在地、粉絲數、關注數、標簽等等),然後進行迭代,抓取剛才抓到用戶(即剛才評論、轉發、點讚的所有用戶)的所發布的所有(可以自己設置抓取頁數)微博信息,在抓他每條微博下麵評論、轉發、點讚用戶的相關屬性信息,以此類推…...

你有興趣的話,可以試試。

若有疑問可以或集搜客網絡爬蟲

最後更新:2017-01-09 14:08:09

  上一篇:go 翻頁采集列表
  下一篇:go Python編程規範