閱讀598 返回首頁    go 火車采集器


火車采集器插件功能詳解

火車采集器插件功能詳解

作者:小文 發布於:2010-9-24 11:29 Friday 分類:軟件培訓

火車采集器2010版增加了多處插件處理點,可以更方便用戶的二次開發.

點擊查看原圖

對於各部分插件的說明及使用方法如下:

1.采網址:

該處的插件可以對1級,2級網址的采集起作用(也就是說0級網址的采集不會使用插件).插件會對火車采集器0級,1級網址請求回來的html代碼進行處理,處理完的html代碼交給采集器,采集器再進行網址提取和過濾.

需要注意的問題是如果您使用了2級網址采集,在插件處理0級或是1級網址所請求回來的代碼時,您需要自己分析請求的網址和內容,從而知道您到底是處理0級還是1級html內容處理.

2.采內容:

該處的插件是采集器將默認頁源代碼下載完成後,將整個html代碼交給插件處理.插件可以對html代碼進行添加,刪除等操作.比如默認頁中有js腳本生成動態網址,您需要多頁采集這個動態網址內的內容,則可以寫程序生成 多頁地址,然後用采集器去獲取其中的地址,然後用采集器的多頁功能處理.比如有些動態生成的下載地址,您可以寫程序生成,然後用采集器獲取並下載.

3.采多頁:

該處的插件是采集器將多頁代碼下載完成後,將整個html代碼交給插件處理.然後采集器再從處理後的代碼中分析獲取標簽內容,下載文件等操作.

需要注意的一點是,如果有多個多頁,每個多頁地址采集器都會處理.對於插件如何知道自己在處理哪個多頁,請根據傳入的網址及內容由開發者寫代碼判定.

4.保存時:

該處的插件是采集器已完成標簽的提取,文件的下載,然後在保存到數據庫之前所做的處理.該插件傳入的參數和其它三個插件不是,它是一個數組,是標簽名對應標簽值的組合.用戶可以在這裏對標簽的值進行處理,比如價格的計算,單位的轉化.該插件的操作位於火車采集器標簽的不符合內容處理前,因此,您也可以設定標簽的值為特定的值,從而實現不保存或是刪除該記錄的功能.如果您設置了數據庫中不得有重複記錄,也可以使用該插件,實現有不得重複的數據的處理.

 

一個插件可以同時包含其它的頁麵的代碼.如可以有處理列表網址頁的代碼,也可以有處理保存時的代碼.具體的調用請參見開發示例.

 

PHP插件及C#插件的開發非常簡單,具體請參見默認的開發示例.在插件管理器中,選擇新建插件,即可以看到默認的開發環境及說明.

標簽: 插件

相關日誌:

火車瀏覽器開發SDK下載

分頁的采集培訓

火車頭數據采集平台Web發布模塊插件的開發文檔

一個腳本網址的采集辦法(11.24)

YY語音火車采集器V7版本特性介紹(3.8)

« Wordpress 2.9.2,3.0.1 免登陸發布接口 | 百度相關搜索隨機加標題前綴»

評論:

good
2011-11-19 22:40
不錯
gucci
2010-09-29 00:07
弱弱地問一下:插件管理器  這個功能是在哪裏調用出來的?
小文
2010-09-29 01:09
@gucci:插件管理器就是在采集器界麵上有一個插件按鈕,你點那個就可以了

發表評論:

最後更新:2017-05-09 01:05:53

  上一篇:go Mysql Field * doesn't have a default value解決方法
  下一篇:go 重新安裝MDAC的方法