614
gooseeker集搜客
集搜客文本分詞標注工具使用指南5-如何使用打標結果
六、如何使用打標結果
用文本分詞標注工具可以輸出下麵四個表,可能對於一些人來說,這樣的數據會比較陌生以及不知如何做計算,下麵就說說一些思路,但實際的用途不限於這些。
1、標簽詞庫
統計頻數,計算權重,進行特征抽取,找出能夠反映主題的特征。注意:輸出的詞頻是計算原數據分詞後該詞語出現的次數,是按詞語為單位的,如果想統計在原數據中包含該詞的數據條數,即以文本數據為單位,就需要重新計算頻數;大家可以對標簽詞做進一步的文本分類,可以形成某領域內的分類器,也有利於特定主題的統計分析;
2、情感詞庫
標簽詞+情感詞+調性的組合通常可以結合原數據來分析用戶態度,會涉及到一些計算甚至是數學建模,具體計算是要根據研究目的進行,這裏就不詳述,這也是研究用戶偏好、精確量化用戶意見及潛在意願的有效辦法,也是支持產品改進、商業決策的有效途徑。
3、打標結果表
這個是把標簽詞和情感詞與原數據匹配的結果,不包括沒有匹配到的原數據。一個標簽詞會對應多條文本數據,一條文本數據也可能會包含多個標簽詞,有的文本數據隻匹配到標簽詞,卻沒有情感詞。可以用來計算用戶態度。
4、分詞結果表
這是把原數據做詞語切分後的結果,以空格為間隔,可以研究分詞效果以及詞頻統計。

最後更新:2017-01-09 14:08:11