閱讀443 返回首頁    go gooseeker集搜客


采集網頁數據

一、操作步驟

下麵用大眾點評網作為案例,給大家演示如何使用直觀標注的功能采集網頁數據,操作步驟如下:


二、案例規則+操作步驟

  • 采集規則:大眾點評店鋪信息(可點擊下載)
  • 樣本網址:https://www.dianping.com/shop/32656893
  • 采集內容:店鋪名稱、地址、電話

第一步:打開網頁

1.1,打開GS爬蟲瀏覽器,輸入網址並Enter,加載出網頁後再點擊“定義規則”按鈕,看到一個浮窗顯示出來,稱為工作台,在上麵定義規則;

注意:這裏的截圖和文字說明都是GS爬蟲瀏覽器版 ,如果您安裝的是火狐插件版,那麼就沒有“定義規則”按鈕,而是應該運行MS謀數台

1.2,在工作台中輸入主題名,再點擊“查重”,提示“該名可以使用”或“該名已被占用,可編輯:是”,就可以使用這個主題名,否則請重命名。

Tips:為了能準確定位網頁信息,點擊定義規則會把整個網頁定格住,不能跳轉網頁鏈接,再次點擊定義規則,才會恢複回普通的網頁模式。


第二步:標注需要采集的信息

2.1,標注是針對網頁的文本信息來操作的,雙擊目標信息就會選中它,在彈出小窗中輸入標簽名,打勾確認或Enter。首次標注還要輸入整理箱名稱,即存數據的表名。這也是標簽與網頁信息建立映射關係的過程。


2.2,重複上一步操作來標注地址、電話信息。


2.3,最好設置“關鍵內容”選項,這樣爬蟲才能判斷出采集規則是否合適。在整理箱裏選一個網頁上必然能采到的標簽,勾上“關鍵內容”。


第三步:存規則,抓數據

3.1,點擊“測試”,檢查信息完整性。不完整的話,重新標注就可以覆蓋之前的內容。

3.2,點擊“存規則”。規則不僅可以隨時加載修改,還可以批量采集同類型網頁。

3.3,點擊“爬數據”,彈出DS打數機開始采集數據,測試采集規則是否有效。


第四步:查看數據

4.1,采集成功的數據會以xml文件的形式保存在DataScraperWorks文件夾中,詳情見文章《查看數據結果》


上篇文章:《集搜客網絡爬蟲的核心名詞》                                                            下篇文章:《采集列表數據》
若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:09

  上一篇:go Python爬蟲實戰(1):爬取Drupal論壇帖子列表
  下一篇:go 百度拓詞工具應用(2):消除信息不對稱,調對話語頻