閱讀869 返回首頁    go gooseeker集搜客


推薦一款簡單易用的在線中文分詞工具

最近要對微博和京東的手機評論分別做分析,類似語義研究,需要對文本數據進行分詞,再找出有用的詞語,進行標簽分類,後麵還有一堆的處理步驟,此處省略一萬字,但是,單單前麵分詞這裏就弄得頭大,原因是本人小白不太懂編程。

在網上隨便搜索一下的確能找到不少分詞工具,但都是基於java和python語言,對於沒有編程基礎的人來說就用不了,所以,費了很大勁,終於找到了一款免編程的在線分詞工具,叫做集搜客文本分詞標注工具,非常簡單易用,又剛好滿足了我的這種需求,所以,想把這款工具介紹給有相同需求的人!

就拿我的研究為例吧,我把20萬條京東的手機評論導入到工具裏,它就會自動切分詞語,統計出詞頻,並且按照降序展示出來,我隻要把手機相關的詞語選出來就行,包括手機外觀硬件和買家的體驗感受等等詞語。


20萬條評論數據分詞得到了2萬個詞語,因為是降序瀏覽的,並且這個工具支持過濾英文、數字、單個詞、網址等,選擇了過濾條件後,我瀏覽了大約4千個詞語後,就完成選詞工作了,得到總共989個詞語,也可以看到它的詞雲圖,最後把數據直接下載下來就搞定了。我也把京東評論的989個標簽詞發布出來,有需要的可以下載。


比較特別的一點就是,這個工具還可以對選出的標簽詞再次打標,就是找出跟標簽詞組合在一起並且具有情感色彩的詞語,例如:信號是標簽詞,評論數據有人說手機的信號很好,也有人說手機的信號很差,這裏的很好和很差就是情感詞。挺適合做深入語義分析的人。

集搜客文本分詞標注工具的分詞速度還可以,導入20萬條數據大約花了10分鍾,並且分詞精度高,同時支持中英文分詞,分詞結果和選詞結果都可以下載下來,雖然是個收費軟件,一個月是20元,但是有7天的免費試用期,小白可以嚐試一下。


若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:11

  上一篇:go 飛掠模式:追蹤彈窗網頁采數據——以百度百家網為例
  下一篇:go 功能按鈕介紹