317
gooseeker集搜客
飛掠模式:追蹤彈窗網頁采數據——以百度百家網為例
一、操作步驟
集搜客的“飛掠模式”是專門針對那些沒有獨立網址的彈窗網頁,就是指點擊之後會彈出一個新頁簽但網址卻不變。而“飛掠模式”可以模擬人的操作,打開一個彈窗采集完之後再打開下一個彈窗繼續采集,從而把彈窗網頁信息都采集下來。
下麵用百度百家為案例,雖然它的彈窗網頁是有獨立網址的,這種情況最簡單的采集方法就是做層級采集,但是為了給大家演示飛掠采集,我們就把它當做是網址不變吧。操作步驟如下:
二、案例規則+操作步驟
- 第一級規則:百度百家列表(點擊可下載)
- 第一級樣本網址:https://baijia.baidu.com/
- 第一級采集內容:標題
- 第二級規則:百度百家文章采集(點擊可下載)
- 第二級樣本網址: https://jincuodao.baijia.baidu.com/article/652161
- 第二級采集內容:標題、作者、發布時間、閱讀數、正文
第一步:打開網頁
1.1,打開GS爬蟲瀏覽器,輸入網址等待網頁加載完成,再點擊“定義規則”,然後輸入主題,最後查重一下,主題名不能重複。
第二步:定義第一級規則
2.1,雙擊想采的信息,打勾確認。第一級規則可以隨意標注一條信息,目的是讓爬蟲判斷是否執行采集。
2.2,本案例是點擊每一篇文章標題,然後追蹤彈出的網頁來采數據,需要寫出定位到每個點擊對象的xpath表達式。我們可以用“顯示xpath”功能來自動定位,找到能夠定位到每一個動作對象的xpath。但是對於不太結構化的網頁,“顯示xpath”就定位不到全部動作對象了,需要自己編寫合適的xpath,可以看看xpath教程來掌握。
2.3,在連續動作裏新建“點擊”動作,填入下級主題名“百度百家文章采集”,勾上“飛掠模式”,填上xpath表達式和動作名稱
2.4,點擊“存規則”
第三步:定義第二級規則
3.1,再次點擊“定義規則”,恢複到普通網頁模式,然後點擊第一篇文章標題會彈出一個新窗口,在新窗口裏定義第二級規則
3.2,雙擊想采的信息進行標注,做上定位標誌映射可以精確采集範圍
3.3,點擊“測試”,輸出結果沒有問題就點擊“存規則”
第四步:抓數據
4.1,在DS打數機裏搜索出第一級規則並運行,點擊成功就會彈出一個新窗口采集第二級的網頁,采集完彈窗網頁就會自動關閉,再點擊下一個繼續采集。這就是飛掠模式,智能追蹤彈窗采數據。
注意:第一級規則的連續動作執行成功後會自動采集下級規則,所以不用單獨運行下級規則,特別是下級規則如果沒有獨立網址,運行時采不到目標數據就會失敗。
注意:以上是對案例網站做的采集規則,請根據目標網站的實際情況來定義規則。另外,飛掠模式是旗艦版功能,請先去購買再來做規則采數據。
Tips:沒有獨立網址的網頁,要如何加載和修改規則?
對於沒有獨立網址的網頁,需要先點擊到那個頁麵,然後搜規則,右擊選擇“僅加載規則”,點擊“規則”菜單->“後續分析”完成加載操作,就可以修改規則了。
例如,本案例的第二級規則是沒有獨立網址,需要先加載出第一級規則,恢複到普通網頁模式,點擊文章標題,彈出新窗口後,(建議把操作寫在第一級規則的備注裏,方便查閱),再對第二級規則右擊選“僅加載規則”。
若有疑問可以或

最後更新:2017-01-09 14:08:12