65
gooseeker集搜客
翻頁采集列表
一、操作步驟
采集具有一頁以上的列表網頁就要設置翻頁,這樣DS打數機才能自動翻頁采數據。選取一個具有翻頁的樣本網址來做規則,就可以用這個規則來批量采集同類網址(一頁或多頁都適用)。下麵用大眾點評網作為案例,操作步驟下:
二、案例規則+操作步驟
- 采集規則:大眾點評采集(可點擊下載)
- 樣本網址:https://www.dianping.com/search/category/7/10/g103r6013
- 采集內容:每一個店鋪的名稱、評論數、人均消費、地理位置、菜係、口味、環境和服務,並自動翻頁采集。
本案例是在上一篇文章《采集列表數據》的基礎上,直接增加翻頁設置,所以,前三步操作就不重複講了,下麵就直接講第四步操作。
第四步:設置翻頁
4.1,新建記號線索:選擇“爬蟲路線”,點擊“新建”,選擇“記號線索”,勾上“連貫抓取”,“目標主題名”會自動填上當前主題名,指循環調用這個規則。
4.2,設置記號線索是要做兩次映射的,第一次是映射翻頁區塊的範圍,第二次是映射翻頁記號。
4.2.1,第一次映射翻頁區塊的範圍:點擊翻頁標誌定位到對應的網頁節點,這裏指“下一頁”、“加載更多”等翻頁按鈕,右擊節點選擇“線索映射”->“定位”->“線索*”,爬蟲路線就會的“定位編號”就會映射上該節點的編號。
4.2.2,第二次映射翻頁記號:雙擊翻頁區塊節點展開下層,找到翻頁記號所在的節點,這裏指翻頁按鈕的文本節點或屬性值,右擊節點選擇“線索映射”->“記號映射”。
4.3,定位選項的默認項是偏好id,由於不同頁碼的翻頁區id值可能會變化,而class值通常不變,所以,最好改為偏好class。
第五步:存規則,抓數據
5.1,點擊存規則、抓數據,在DS打數機裏看翻頁是否成功,翻頁采集成功的話,在本地DataScraperWorks文件夾中會生成多個xml文件,詳情見文章《查看數據結果》。
上篇文章:《采集列表數據》 下篇文章:《層級網頁采集》
若有疑問可以或

最後更新:2017-01-09 14:08:09