317 gooseeker集搜客

飛掠模式：追蹤彈窗網頁采數據——以百度百家網為例

一、操作步驟

集搜客的“飛掠模式”是專門針對那些沒有獨立網址的彈窗網頁，就是指點擊之後會彈出一個新頁簽但網址卻不變。而“飛掠模式”可以模擬人的操作，打開一個彈窗采集完之後再打開下一個彈窗繼續采集，從而把彈窗網頁信息都采集下來。

下麵用百度百家為案例，雖然它的彈窗網頁是有獨立網址的，這種情況最簡單的采集方法就是做層級采集，但是為了給大家演示飛掠采集，我們就把它當做是網址不變吧。操作步驟如下：

二、案例規則+操作步驟

第一級規則：百度百家列表（點擊可下載）
第一級樣本網址：https://baijia.baidu.com/
第一級采集內容：標題
第二級規則：百度百家文章采集（點擊可下載）
第二級樣本網址: https://jincuodao.baijia.baidu.com/article/652161
第二級采集內容：標題、作者、發布時間、閱讀數、正文

第一步：打開網頁

1.1，打開GS爬蟲瀏覽器，輸入網址等待網頁加載完成，再點擊“定義規則”，然後輸入主題，最後查重一下，主題名不能重複。

第二步：定義第一級規則

2.1，雙擊想采的信息，打勾確認。第一級規則可以隨意標注一條信息，目的是讓爬蟲判斷是否執行采集。

2.2，本案例是點擊每一篇文章標題，然後追蹤彈出的網頁來采數據，需要寫出定位到每個點擊對象的xpath表達式。我們可以用“顯示xpath”功能來自動定位，找到能夠定位到每一個動作對象的xpath。但是對於不太結構化的網頁，“顯示xpath”就定位不到全部動作對象了，需要自己編寫合適的xpath，可以看看xpath教程來掌握。