中文分詞組件
中英文分詞組件。完全C#托管代碼編寫,獨立開發。
技術特點
=========
1. 識別率接近90%。
雖然和專業分詞係統相比有一定的差距,但對於搜索引擎等小型分詞需求而言足夠了。
2. 多元歧義自動識別。
對於前後歧義有較好的識別效果。
如:
長春市長春節致詞 -- 長春/市長/春節/致詞/
長春市長春藥店 -- 長春市/長春/藥店
3. 常用及敏感詞過濾功能。
通過一個簡單的屬性設置就可以完成針對常用詞、標點和敏感詞匯的過濾。係統內置了常用無意字詞和標點的過濾。當然針對文章等分詞時可以屏蔽過濾功能。
4. 控製符過濾功能。
可以設置屬性值,在分詞結果中保留回車換行等控製字符,從而保留原來的顯示結構。
5. 內置10萬多條基本詞庫。
係統內置包含10萬多條優選詞匯的基本詞庫,並提供編程接口任意擴充。
6. 全角字符識別能力。
如:IBM和HP都是世界級的PC製造商。-- IBM/和/HP/都/是/世界級/的/PC/製造商/。
7. 輕量級的分詞組件,僅1個DLL文件,無需安裝注冊,發布簡便。
最後更新:2017-04-02 00:06:27