閱讀785 返回首頁    go gooseeker集搜客


XML文件結構

相信大家在采集數據後都會發現,集搜客的爬蟲軟件抓取的網頁數據是以XML格式保存下來的,可能有一部分人看不懂XML數據文件。所以本文以一個XML文件為例子,給大家講講XML文件結構內各個標簽(紫色字體)的意思。

XML文件是由成對的標簽組成的,分為係統標簽和自定義標簽,首先講解一下係統標簽的含義和作用(紅框部分):

  • extraction:提取信息的操作,包含采到的所有標簽信息。
  • clueid:指當前網址的線索編號,每條網址都具有唯一的編號。如果是涉及自動翻頁的情況,它的clueid就不變了,我們可以根據這個找到所有頁碼的數據。
  • fullpath:指線索網址,就是添加到規則中的初始網址。
  • realpath:指實際訪問的網址。有些網址通過瀏覽器訪問會發生變化,所以fullpath和realpath分別記錄變化前和變化後的網址。
  • theme:指主題名,即製作規則時輸入的主題名。
  • middle:指規則編號,默認為規則_1,做規則時也可以自定義。
  • createdate:記錄數據抓取下來的日期。
  • pageno:記錄翻頁次數。如有,則默認從0開始。
  • actionno:記錄規則中連續動作的各層動作的完成次數,識別-+-符號就能分割出相應層次動作的執行次數。如有,則默認從0開始。
  • actionvalue:記錄特定動作類型執行後的結果,識別-+-符號就能分割出相應層次動作的執行結果。比如關鍵詞自動搜索的話,輸入的關鍵詞就會在actionvalue裏。
  • prestamp:記錄抓取上級線索時的爬蟲名稱、窗口名稱和時間戳,中間用-+-符號分割,用於連續輸入和飛掠模式的上下級主題之間的關聯。
  • currentstamp:記錄抓取當前結果文件的爬蟲名稱、窗口名稱和時間戳,中間用-+-符號分割,用於連續輸入和飛掠模式的上下級主題之間的關聯。
  • bucketName:指整理箱的名字,由用戶自擬。
  • uri:即統一資源標識符,表示請求服務器的路徑。


下麵是自定義標簽部分,即整理箱的標簽,都是做規則時自己建立和命名的。

  • 商品:即整理箱的名字,與bucketName裏記錄的是一樣的。
  • item:如果做了樣例複製或有多個樣例的話,xml中會出現多個item對。一對item代表一個樣例的內容。 底層標簽:標題、價格、累計標簽、顏色、版本、購買方式,這些標簽裏麵就是采集到的網頁信息了。

若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:12

  上一篇:go 【第32期】美團網店鋪信息采集
  下一篇:go 連續動作概念:掌握JS動態網頁信息采集