154
火車采集器
火車頭網頁正文提取演示程序
火車頭網頁正文提取演示程序
作者:火車頭 發布於:2010-12-21 17:40 Tuesday 分類:開發計劃
信息抽取技術是一種廣泛運用於互聯網的數據挖掘技術。其目的是從互聯網海量數據中抽取有意義、有價值的數據和信息,從而能更好的利用互聯網資源。
正文提取就是將網頁中的正文部分抽取出來。合肥樂維信息技術公司根據此前的技術積累,做成此演示程序供大家測試。希望大家積極提供寶貴的測試意見,以便我們應用到在正進行的站群軟件開發中,服務廣大站長。
該演示程序支持 任意網頁(當然最好是內容正文頁),自動識別編碼,支持中英文等內容主體識別,經簡單測試,正確率在90%以上,歡迎大家試用。
該功能的測試請下載V8版本火車采集器,在高級菜單的“正文提取測試”中測試該功能。
評論:

謝遠熙
2011-05-14 12:01
2011-05-14 12:01
你好,我是一個大學生,因為要做畢業設計,所以需要網頁淨化,也是網頁正文提取這塊的輔助,我是做網頁去重的,希望能夠直接調用別人的接口來提取網頁正文,請問下你們可以給我嗎?希望能得到你們的回答,萬分感謝
最後更新:2017-05-09 01:05:54