794
gooseeker集搜客
連續動作:滾屏采集瀑布流網頁—以頭條新聞為例
常見的網頁大多數在頁麵下方會有翻頁的按鈕,比如“下一頁”、“加載更多”,這類網頁設置翻頁就可以搞定,但是瀑布流網頁沒有這些按鈕,而是隨著鼠標滾動會不停的加載更多內容,這種很長很長的沒有翻頁按鈕的網頁就是瀑布流網頁。
爬蟲隻能采集網頁上已經加載顯示的內容,而瀑布流網頁的內容不是一次性加載的,每滾屏一次才會顯示更多的內容,所以采集瀑布流網頁需要用到滾屏動作。
一、操作步驟
下麵用今日頭條網作為案例,給大家演示一遍用滾屏動作采集瀑布流網頁,操作步驟如下:
Tips:本文講解的滾屏動作和滾輪動作是有區別的,滾屏相當於滾動網頁最右邊的滾動條;而滾輪是仿真鼠標輪子的滾動,所以滾輪動作可以實現一些特殊需求,如下:
- 網頁內部局部區域的滾動條
- 翻頁無法激發加載的網頁隻能用滾輪仿真
二、案例規則+操作步驟
- 采集規則:今日頭條_推薦
- 樣本網址:https://www.toutiao.com/
- 采集內容:每一條新聞的新聞標題、評論數、發布時間、鏈接
第一步:打開網頁
1.1打開GS爬蟲瀏覽器,輸入網址並Enter,加載出網頁後再點擊“定義規則”按鈕,看到一個浮窗顯示出來,稱為工作台,在上麵定義規則;
注意:這裏的截圖和文字說明都是GS爬蟲瀏覽器版 ,如果您安裝的是火狐插件版,那麼就沒有“定義規則”按鈕,而是應該運行MS謀數台
1.2,在工作台中輸入主題名,再點擊“查重”,提示“該名可以使用”或“該名已被占用,可編輯:是”,就可以使用這個主題名,否則請重命名。
Tips:為了能準確定位網頁信息,點擊定義規則會把整個網頁定格住,不能跳轉網頁鏈接,再次點擊定義規則,才會恢複回普通的網頁模式。
第二步:標注信息
2.1標注是針對網頁的文本信息來操作的,雙擊目標信息就會選中它,在彈出小窗中輸入標簽名,打勾確認或Enter。首次標注還要輸入整理箱名稱,即存數據的表名。這也是標簽與網頁信息建立映射關係的過程。
2.2 鏈接因為是屬性節點,不是文本節點,無法直接在頁麵上標注,所以要手動做內容映射
2.3“標題”勾選“關鍵內容”,一般是對必然顯示的信息勾選關鍵內容,用於給爬蟲判斷是否執行采集,防止數據抓取不完全。
第三步:樣例複製
3.1 設置樣例複製,是為了把頁麵上結構相同的信息全部抓取下來,首先選中容器節點“新聞列表”,勾選“啟用”,找到新聞列表的第一條和第二條新聞節點分別映射給樣例1和樣例2。詳細操作可以看文章《采集列表數據》來掌握。
第四步:設置連續動作—滾屏
4.1在連續動作工作台新建一個滾屏動作,因為滾屏後結構沒有變化,仍然可以用當前規則采集,所以這裏的目標主題名就填寫當前規則本身的主題名。
4.2滾屏動作的參數可以根據自己的需要調試。滾屏動作的高級設置一般保持默認就行,滾屏參數說明如下:
- 每次滾屏次數:每次執行滾屏動作,瀏覽器往下翻多少頁;
- 總共滾屏數:執行滾屏操作的次數,達到總共滾屏數就會停止滾屏,-1表示無限製;
注意:設置了滾屏動作, DS打數機就要做如下兩個設置:
(1)必須關閉DS打數機的自動滾屏功能
因為DS打數機的自動滾屏會讓爬蟲一口氣滾到底,但真正的瀑布流是滾不到底的,而滾屏動作是要滾一下抓一下,所以如果不關閉自動滾屏,就不會執行滾屏動作。設置方法:點擊DS打數機的配置菜單->滾屏參數,然後把滾屏次數設置成 0 就可以關閉自動滾屏。
(2)根據需要設置重複內容強製中斷
DS打數機不斷地企圖往下滾屏,必須告訴它什麼時候停止,在MS謀數台的滾屏動作裏,可以通過總共滾屏數來限定滾多少屏就停止。
如果總共滾屏數設置成-1,就會一直滾屏停不下來,這時就必須在DS打數機上打開重複內容,這樣當爬蟲發現抓到的都是重複內容,就會停止滾屏動作。設置方法:點擊DS打數機的高級菜單->終點標誌->勾上重複內容。
第五步:存規則,抓數據
5.1 點擊測試,看到輸出的結果都正常,說明規則沒有問題,可以使用了,然後點擊“存規則”來保存規則,然後就可以點擊“爬數據”來采集數據了。
上篇文章:《連續動作:自動選擇下拉菜單采集數據》 下篇文章:《把信息與連續動作步驟對應起來》
若有疑問可以或

最後更新:2017-01-09 14:08:12