443
gooseeker集搜客
采集網頁數據
一、操作步驟
下麵用大眾點評網作為案例,給大家演示如何使用直觀標注的功能采集網頁數據,操作步驟如下:
二、案例規則+操作步驟
- 采集規則:大眾點評店鋪信息(可點擊下載)
- 樣本網址:https://www.dianping.com/shop/32656893
- 采集內容:店鋪名稱、地址、電話
第一步:打開網頁
1.1,打開GS爬蟲瀏覽器,輸入網址並Enter,加載出網頁後再點擊“定義規則”按鈕,看到一個浮窗顯示出來,稱為工作台,在上麵定義規則;
注意:這裏的截圖和文字說明都是GS爬蟲瀏覽器版 ,如果您安裝的是火狐插件版,那麼就沒有“定義規則”按鈕,而是應該運行MS謀數台
1.2,在工作台中輸入主題名,再點擊“查重”,提示“該名可以使用”或“該名已被占用,可編輯:是”,就可以使用這個主題名,否則請重命名。
Tips:為了能準確定位網頁信息,點擊定義規則會把整個網頁定格住,不能跳轉網頁鏈接,再次點擊定義規則,才會恢複回普通的網頁模式。
第二步:標注需要采集的信息
2.1,標注是針對網頁的文本信息來操作的,雙擊目標信息就會選中它,在彈出小窗中輸入標簽名,打勾確認或Enter。首次標注還要輸入整理箱名稱,即存數據的表名。這也是標簽與網頁信息建立映射關係的過程。
2.2,重複上一步操作來標注地址、電話信息。
2.3,最好設置“關鍵內容”選項,這樣爬蟲才能判斷出采集規則是否合適。在整理箱裏選一個網頁上必然能采到的標簽,勾上“關鍵內容”。
第三步:存規則,抓數據
3.1,點擊“測試”,檢查信息完整性。不完整的話,重新標注就可以覆蓋之前的內容。
3.2,點擊“存規則”。規則不僅可以隨時加載修改,還可以批量采集同類型網頁。
3.3,點擊“爬數據”,彈出DS打數機開始采集數據,測試采集規則是否有效。
第四步:查看數據
4.1,采集成功的數據會以xml文件的形式保存在DataScraperWorks文件夾中,詳情見文章《查看數據結果》
若有疑問可以或

最後更新:2017-01-09 14:08:09