NLPIR技術助力中文智能數據挖掘
隨著數據技術的飛速發展以及廣泛應用,許多企業和部門建立了自身的數據管理係統,經過長年努力,已經積累了越來越多的數據。於是,人們開始渴望通過對這些龐大的數據分析得到更多的有助於決策的信息。雖然,目前的數據係統可以高效率地實現數據的錄入、查詢、統計等功能,但由於數據量龐大以及數據庫係統中分析方法的嚴重缺乏,使得它無法發現數據中隱藏的相互聯係,更無法根據當前和曆史的數據去預測未來的發展趨勢。因此,出現了所謂“數據多,知識少”的現象,造成了嚴重的資源浪費。
建立在數據係統之上的計算機決策支持係統出現,為進行高層次的數據決策分析提供了良好的思路和方法。但由於決策支持係統在數據的采集、分析方法上的靈活性等方麵存在局限性,使得人們不得不尋求更有效的途徑去開拓數據決策分析的思路。計算機人工智能為此作出了巨大貢獻。人工智能經曆了博奕、自然語言理解、知識工程等階段,已經進入了機器學習的熱點階段。
NLPIR文本搜索與挖掘係統針對互聯網內容處理的需要,融合了自然語言理解、網絡搜索和文本挖掘的技術,專門針對原始文本集進行處理和加工,提供了用於技術二次開發的基礎工具集。開發平台由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類複雜應用係統之中,適應於眾多應用場景。
NLPIR文本搜索與挖掘開發平台的十二大功能:
1. 全文精準檢索:支持文本、數字、日期、字符串等各種數據類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。可以無縫地與現有文本處理係統與數據庫係統融合。
2. 新詞發現:從文件集合中挖掘出內涵的新詞語列表,可以用於用戶專業詞典的編撰;還可以進一步編輯標注,導入分詞詞典中,從而提高分詞係統的準確度,並適應新的語言變化。
3. 分詞標注:對原始語料進行分詞、自動識別人名地名機構名等未登錄詞、新詞標注以及詞性標注。並可在分析過程中,導入用戶定義的詞典。
4. 統計分析與術語翻譯:針對切分標注結果,係統可以自動地進行一元詞頻統計、二元詞語轉移概率統計(統計兩個詞左右連接的頻次即概率)。針對常用的術語,會自動給出相應的英文解釋。
5. 文本聚類及熱點分析:能夠從大規模數據中自動分析出熱點事件,並提供事件話題的關鍵特征描述。同時適用於長文本和短信、微博等短文本的熱點分析。
6. 分類過濾:針對事先指定的規則和示例樣本,係統自動從海量文檔中篩選出符合需求的樣本。
7. 正負麵分析:針對事先指定的分析對象和示例樣本,係統自動從海量文檔中篩選出正負麵的得分和句子樣例。
8. 自動摘要:能夠對單篇或多篇文章,自動提煉出內容的精華,方便用戶快速瀏覽文本內容。
9. 關鍵詞提取:能夠對單篇文章或文章集合,提取出若幹個代表文章中心思想的詞匯或短語,可用於精化閱讀、語義查詢和快速匹配等。
10. 文檔去重:能夠快速準確地判斷文件集合或數據庫中是否存在相同或相似內容的記錄,同時找出所有的重複記錄。
11. HTML正文提取:自動剔除導航性質的網頁,剔除網頁中的HTML標簽和導航、廣告等幹擾性文字,返回有價值的正文內容。適用於大規模互聯網信息的預處理和分析。
12. 編碼自動識別與轉換:自動識別內容的編碼,並把編碼統一轉換為GBK編碼。
數據挖掘是一門交叉學科,它匯聚了數據庫、人工智能、統計學、可視化、並行計算等不同學科和領域,近年來受到各界的廣泛關注。
最後更新:2017-11-13 16:34:40