閱讀154 返回首頁    go 火車采集器


火車頭網頁正文提取演示程序

火車頭網頁正文提取演示程序

作者:火車頭 發布於:2010-12-21 17:40 Tuesday 分類:開發計劃

信息抽取技術是一種廣泛運用於互聯網的數據挖掘技術。其目的是從互聯網海量數據中抽取有意義、有價值的數據和信息,從而能更好的利用互聯網資源。

正文提取就是將網頁中的正文部分抽取出來。合肥樂維信息技術公司根據此前的技術積累,做成此演示程序供大家測試。希望大家積極提供寶貴的測試意見,以便我們應用到在正進行的站群軟件開發中,服務廣大站長。

該演示程序支持 任意網頁(當然最好是內容正文頁),自動識別編碼,支持中英文等內容主體識別,經簡單測試,正確率在90%以上,歡迎大家試用。

點擊查看原圖

該功能的測試請下載V8版本火車采集器,在高級菜單的“正文提取測試”中測試該功能。

標簽: 正文提取 網頁正文提取 text extract

相關日誌:

將采集器運行中的所有日誌保存到文本中

2013.6月份的一些擴展插件開發計劃

v7版本采集器將增加自動鏈接功能

http二級代理處頁麵緩存功能開發

火車采集器相關輔助工具的開發

« 論壇數據采集專家1.1版本發布 | 論壇數據采集專家1.0beta build 20101125 發布»

評論:

www.ad0537.com
2012-03-29 09:02
很給力的專業文章!!我頂!頂!頂!
www.qiawei.com
2011-12-30 10:02
不錯,支持下!
oooo
2011-09-05 15:51
我喜歡采集。。。。。。
淘寶特賣網
2011-08-29 14:08
很強大,,,,,,,,,,,
www.ad-mart.cn
2011-08-11 10:21
很好很強大!
香港
2011-06-05 01:49
不錯,下載先
便民商城
2011-05-19 12:50
非常不錯的,支持
謝遠熙
2011-05-14 12:01
你好,我是一個大學生,因為要做畢業設計,所以需要網頁淨化,也是網頁正文提取這塊的輔助,我是做網頁去重的,希望能夠直接調用別人的接口來提取網頁正文,請問下你們可以給我嗎?希望能得到你們的回答,萬分感謝
小文
2011-05-14 13:03
@謝遠熙:該軟件目前還在完善,以後將做為公司的一個產品模塊。目前的功能可以滿足小型的應用。我們公司暫時還無開放代碼的意向。如果你有這方麵興趣,我們可以共同探討一下。
www.lyjgj.com
2011-04-10 07:51
不錯支持
電影百事通
2011-02-23 12:43
百事通電影強烈支持
www.007sjzt.com
2011-02-22 13:32
看起來到是很強大。支持一個····
nod32
2011-02-17 12:00
nod32報毒
wakagekaka
2011-01-30 13:42
可能又要是要錢的了
meego
2010-12-23 12:41
確實比較強大哈。定一個。

發表評論:

最後更新:2017-05-09 01:05:54

  上一篇:go 新浪微博評論及轉發數采集插件(C#)
  下一篇:go 使用Post方法采集獲取網址列表(2010.11.16)