閱讀155 返回首頁    go 阿裏雲 go 技術社區[雲棲]


中文分詞組件

  中英文分詞組件。完全C#托管代碼編寫,獨立開發。

  技術特點

  =========

  1. 識別率接近90%。

  雖然和專業分詞係統相比有一定的差距,但對於搜索引擎等小型分詞需求而言足夠了。

  2. 多元歧義自動識別。

  對於前後歧義有較好的識別效果。

  如:

  長春市長春節致詞 -- 長春/市長/春節/致詞/

  長春市長春藥店 -- 長春市/長春/藥店

  3. 常用及敏感詞過濾功能。

  通過一個簡單的屬性設置就可以完成針對常用詞、標點和敏感詞匯的過濾。係統內置了常用無意字詞和標點的過濾。當然針對文章等分詞時可以屏蔽過濾功能。

  4. 控製符過濾功能。

  可以設置屬性值,在分詞結果中保留回車換行等控製字符,從而保留原來的顯示結構。

  5. 內置10萬多條基本詞庫。

  係統內置包含10萬多條優選詞匯的基本詞庫,並提供編程接口任意擴充。

  6. 全角字符識別能力。

  如:IBM和HP都是世界級的PC製造商。-- IBM/和/HP/都/是/世界級/的/PC/製造商/。

  7. 輕量級的分詞組件,僅1個DLL文件,無需安裝注冊,發布簡便。


最後更新:2017-04-02 00:06:27

  上一篇:go C# 方法參數 ref 詳述
  下一篇:go 四層體係結構介紹