靈玖Nlpir Parser語義智能係統精準漢語分詞
詞是最小的能夠獨立活動的有意義的語言成分。在漢語中,由於詞與詞之間不存在分隔符,詞本身也缺乏明顯的形態標記,因此漢語淺層分析的特有問題就是如何將漢語的字串分割為合理的詞語序列。
實際上,漢語分詞的主要瓶頸是“切分排歧”和“未登錄詞識別”。由於切分歧義和未登錄詞的存在,降低了自身正確切分的可能性,也幹擾了其相鄰詞的處理。如果未登錄詞和切分歧義交織在一起,就會進一步增加處理難度。
靈玖軟件Nlpir Parser語義智能挖掘平台是針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,提供了用於技術二次開發的基礎工具集。開發平台由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類複雜應用係統之中,也可以作為小規模數據的處理加工工具。用戶可以使用該軟件對自己的數據進行處理。
靈玖軟件Nlpir Parser語義智能挖掘平台漢語詞法分析係統能對漢語語言進行拆分處理,是中文信息處理必備的核心部件。靈玖綜合了各家所長,采用條件隨機場(Conditional Random Field,簡稱CRF)模型,分詞準確率接近99%,具備準確率高、速度快、可適應性強等優勢;特色功能包括:切分粒度可調整,融合20餘部行業專有詞典,支持用戶自定義詞典等。
詞性標注能對漢語語言進行詞性的自動標注,它能夠真正理解中文,自動根據語言環境將詞語諸如“建設”標注為“名詞”或“動詞”。靈玖采用條件隨機場(Conditional Random Field,簡稱CRF)模型,一級詞性標注準確率接近99%,具備準確率高、速度快、可適應性強等優勢。
人名地名機構名識別能夠自動挖掘出隱含在漢語中的人名、地名、機構名,所提煉出的詞語不需要在詞典庫中事先存在,是對語言規律的深入理解和預測。采用條件隨機場(Conditional Random Field,簡稱CRF)模型,識別準確率達到97%,速度達到10M/s,可在此基礎上搭建各種多樣化的統計和應用。
目前,漢語分詞的精度不斷提高,已進入實用階段,而與此同時,信息抽取、文本分類、聚類等文本挖掘技術也取得了巨大的進展,成為大數據分析與網絡信息檢索的有效手段。在這種情況下,人們已不滿足於對語言本身進行分析,而是希望利用語言分析的手段來從大數據中挖掘一些感興趣的抽象對象(如事件、人物、地點、機構、音樂、軟件等)。
最後更新:2017-06-21 16:32:55