785
gooseeker集搜客
XML文件結構
相信大家在采集數據後都會發現,集搜客的爬蟲軟件抓取的網頁數據是以XML格式保存下來的,可能有一部分人看不懂XML數據文件。所以本文以一個XML文件為例子,給大家講講XML文件結構內各個標簽(紫色字體)的意思。
XML文件是由成對的標簽組成的,分為係統標簽和自定義標簽,首先講解一下係統標簽的含義和作用(紅框部分):
- extraction:提取信息的操作,包含采到的所有標簽信息。
- clueid:指當前網址的線索編號,每條網址都具有唯一的編號。如果是涉及自動翻頁的情況,它的clueid就不變了,我們可以根據這個找到所有頁碼的數據。
- fullpath:指線索網址,就是添加到規則中的初始網址。
- realpath:指實際訪問的網址。有些網址通過瀏覽器訪問會發生變化,所以fullpath和realpath分別記錄變化前和變化後的網址。
- theme:指主題名,即製作規則時輸入的主題名。
- middle:指規則編號,默認為規則_1,做規則時也可以自定義。
- createdate:記錄數據抓取下來的日期。
- pageno:記錄翻頁次數。如有,則默認從0開始。
- actionno:記錄規則中連續動作的各層動作的完成次數,識別-+-符號就能分割出相應層次動作的執行次數。如有,則默認從0開始。
- actionvalue:記錄特定動作類型執行後的結果,識別-+-符號就能分割出相應層次動作的執行結果。比如關鍵詞自動搜索的話,輸入的關鍵詞就會在actionvalue裏。
- prestamp:記錄抓取上級線索時的爬蟲名稱、窗口名稱和時間戳,中間用-+-符號分割,用於連續輸入和飛掠模式的上下級主題之間的關聯。
- currentstamp:記錄抓取當前結果文件的爬蟲名稱、窗口名稱和時間戳,中間用-+-符號分割,用於連續輸入和飛掠模式的上下級主題之間的關聯。
- bucketName:指整理箱的名字,由用戶自擬。
- uri:即統一資源標識符,表示請求服務器的路徑。
下麵是自定義標簽部分,即整理箱的標簽,都是做規則時自己建立和命名的。
- 商品:即整理箱的名字,與bucketName裏記錄的是一樣的。
- item:如果做了樣例複製或有多個樣例的話,xml中會出現多個
- item對。一對
- item代表一個樣例的內容。 底層標簽:標題、價格、累計標簽、顏色、版本、購買方式,這些標簽裏麵就是采集到的網頁信息了。
若有疑問可以或

最後更新:2017-01-09 14:08:12