443 gooseeker集搜客

采集網頁數據

一、操作步驟

下麵用大眾點評網作為案例，給大家演示如何使用直觀標注的功能采集網頁數據，操作步驟如下：

二、案例規則+操作步驟

第一步：打開網頁

1.1，打開GS爬蟲瀏覽器，輸入網址並Enter，加載出網頁後再點擊“定義規則”按鈕，看到一個浮窗顯示出來，稱為工作台，在上麵定義規則；

注意：這裏的截圖和文字說明都是GS爬蟲瀏覽器版 ，如果您安裝的是火狐插件版，那麼就沒有“定義規則”按鈕，而是應該運行MS謀數台

1.2，在工作台中輸入主題名，再點擊“查重”，提示“該名可以使用”或“該名已被占用，可編輯：是”，就可以使用這個主題名，否則請重命名。

Tips：為了能準確定位網頁信息，點擊定義規則會把整個網頁定格住，不能跳轉網頁鏈接，再次點擊定義規則，才會恢複回普通的網頁模式。

第二步：標注需要采集的信息

2.1，標注是針對網頁的文本信息來操作的，雙擊目標信息就會選中它，在彈出小窗中輸入標簽名，打勾確認或Enter。首次標注還要輸入整理箱名稱，即存數據的表名。這也是標簽與網頁信息建立映射關係的過程。

2.2，重複上一步操作來標注地址、電話信息。

2.3，最好設置“關鍵內容”選項，這樣爬蟲才能判斷出采集規則是否合適。在整理箱裏選一個網頁上必然能采到的標簽，勾上“關鍵內容”。

第三步：存規則，抓數據

3.1，點擊“測試”，檢查信息完整性。不完整的話，重新標注就可以覆蓋之前的內容。

3.2，點擊“存規則”。規則不僅可以隨時加載修改，還可以批量采集同類型網頁。

3.3，點擊“爬數據”，彈出DS打數機開始采集數據，測試采集規則是否有效。

第四步：查看數據

4.1，采集成功的數據會以xml文件的形式保存在DataScraperWorks文件夾中，詳情見文章《查看數據結果》

上篇文章：《集搜客網絡爬蟲的核心名詞》下篇文章：《采集列表數據》
若有疑問可以或集搜客爬蟲軟件

最後更新：2017-01-09 14:08:09