靈玖NlpirParser智能挖掘平台文本分類過濾係統
由於文檔往往采用高頻的詞語來強調需要表達的特征涵義,而句子中往往是單一的詞語,因此在句子檢索中需要進一步選擇更有區分能力的特征詞。為此引入了文本分類過濾中常用的特征選擇過程。
靈玖Nlpir Parser智能挖掘平台文本分類過濾係統能夠根據文獻內容進行類別的劃分,可以用於新聞分類、簡曆分類、郵件分類、辦公文檔分類、區域分類等諸多應用。
文本過濾功能能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應用於品牌報道監測、垃圾信息屏蔽、敏感信息審查等領域。
靈玖采用基於內容的文本自動分類過濾和基於規則的文本分類過濾兩種方式,並支持兩種方式的混合分類。能夠進行多級分類,分類速度每秒100篇以上,平均準確率90%以上,能夠進行中英文分類和中英文的混合分類。用戶可以靈活、方便的更換模板,來實現對不同的主題的分類過濾。
主要接口:
// 功能: 文件方式初始化
// 返回值:成功/失敗
CLASSIFIER_API bool classifier_init(const char conf="rulelist.xml", const char *sLicenseCode=0);
// 功能:對輸入的文章結構進行分類
// 參數:d:文章結構指針
// iType=0: 輸出類名,各類之間用\t隔開 內容格式舉例:“要聞 敏感 訴訟”
// iType=1: 輸出類名和置信度,各類之間用\t隔開,類名和權重用“ ”隔開 內容格式舉例:“要聞 1.00 敏感訴訟 0.82”
// 返回值:主題類別串 各類之間用\t隔開,類名按照置信度從高到低排序
CLASSIFIER_API const char classifier_exec(stDoc* d, int iType=0);
// 功能:對於當前文檔,輸入類名,取得結果明細
// 參數:classname:結果類名
// 返回值:結果明細 例如:
/* RULE3:
SUBRULE1: 內幕 1
SUBRULE2: 股市 1 基金 3 股票 8
SUBRULE3: 書摘 2 /
CLASSIFIER_API const char classifier_detail(const char *classname);
// 功能:退出,釋放資源
CLASSIFIER_API void classifier_exit();
最後更新:2017-05-31 15:31:34