785 gooseeker集搜客

XML文件結構

相信大家在采集數據後都會發現，集搜客的爬蟲軟件抓取的網頁數據是以XML格式保存下來的，可能有一部分人看不懂XML數據文件。所以本文以一個XML文件為例子，給大家講講XML文件結構內各個標簽（紫色字體）的意思。

XML文件是由成對的標簽組成的，分為係統標簽和自定義標簽，首先講解一下係統標簽的含義和作用（紅框部分）：

extraction：提取信息的操作，包含采到的所有標簽信息。
clueid：指當前網址的線索編號，每條網址都具有唯一的編號。如果是涉及自動翻頁的情況，它的clueid就不變了，我們可以根據這個找到所有頁碼的數據。
fullpath：指線索網址，就是添加到規則中的初始網址。
realpath：指實際訪問的網址。有些網址通過瀏覽器訪問會發生變化，所以fullpath和realpath分別記錄變化前和變化後的網址。
theme：指主題名，即製作規則時輸入的主題名。
middle：指規則編號，默認為規則_1，做規則時也可以自定義。
createdate：記錄數據抓取下來的日期。
pageno：記錄翻頁次數。如有，則默認從0開始。
actionno：記錄規則中連續動作的各層動作的完成次數，識別-+-符號就能分割出相應層次動作的執行次數。如有，則默認從0開始。
actionvalue：記錄特定動作類型執行後的結果，識別-+-符號就能分割出相應層次動作的執行結果。比如關鍵詞自動搜索的話，輸入的關鍵詞就會在actionvalue裏。
prestamp：記錄抓取上級線索時的爬蟲名稱、窗口名稱和時間戳，中間用-+-符號分割，用於連續輸入和飛掠模式的上下級主題之間的關聯。
currentstamp：記錄抓取當前結果文件的爬蟲名稱、窗口名稱和時間戳，中間用-+-符號分割，用於連續輸入和飛掠模式的上下級主題之間的關聯。
bucketName：指整理箱的名字，由用戶自擬。
uri：即統一資源標識符，表示請求服務器的路徑。

下麵是自定義標簽部分，即整理箱的標簽，都是做規則時自己建立和命名的。

商品：即整理箱的名字，與bucketName裏記錄的是一樣的。
item：如果做了樣例複製或有多個樣例的話，xml中會出現多個item對。一對item代表一個樣例的內容。底層標簽：標題、價格、累計標簽、顏色、版本、購買方式，這些標簽裏麵就是采集到的網頁信息了。

若有疑問可以或

最後更新：2017-01-09 14:08:12

XML文件結構

上一篇：【第32期】美團網店鋪信息采集

下一篇：連續動作概念：掌握JS動態網頁信息采集

相關內容

熱門內容

最新內容

XML文件結構

上一篇： 【第32期】美團網店鋪信息采集

下一篇： 連續動作概念：掌握JS動態網頁信息采集

相關內容

熱門內容

最新內容

上一篇：【第32期】美團網店鋪信息采集

下一篇：連續動作概念：掌握JS動態網頁信息采集