閱讀747 返回首頁    go gooseeker集搜客


采集列表數據

一、操作步驟

采集列表時,可以看到多條結構相同的信息,我們把一條信息稱為一個樣例,例如,表格中的每一行就是一個樣例,又如,百度搜索結果中的每個結果也是一個樣例。具有兩個樣例以上的網頁,做樣例複製映射就能把整個列表都采集下來。下麵用大眾點評網作為案例,操作步驟下:


二、案例規則+操作步驟

  • 采集規則:大眾點評采集(可點擊下載)
  • 樣本網址:https://www.dianping.com/search/category/7/10/g103r6013
  • 采集內容:每一個店鋪的名稱、評論數、人均消費、地理位置、菜係、口味、環境和服務

第一步:打開網頁

1.1,打開GS爬蟲瀏覽器,輸入網址並Enter,加載出網頁後再點擊“定義規則”按鈕,可以看到一個浮窗顯示出來,稱為工作台,在上麵定義規則;

1.2,在工作台中輸入主題名,可以點擊“查重”看看名字是否被占用。


第二步:標注信息

2.1,在瀏覽器窗口雙擊要采集的內容,在彈出小窗中輸入標簽名,打勾確認或Enter,即完成了一個標注操作。首次標注還要輸入整理箱名稱。這也是標簽與網頁信息建立映射關係的過程。

2.2,重複上一步驟,對其他信息進行標注。

2.3,最好設置“關鍵內容”選項,這樣爬蟲才能判斷出采集規則是否合適。在整理箱中選一個網頁上必然能采到的標簽,勾上“關鍵內容”。本例中對“店鋪名稱”勾選(如下圖)。


第三步:樣例複製

3.1,在工作台上選中容器“列表”(所謂容器,就是包含子內容),如下圖啟用樣例複製功能;


3.2,在瀏覽器上找到第一個樣例所在的網頁區域。過程是:點擊網頁上第一個樣例(藍色框)的某個文字,可以看到在DOM樹(窗口的下部窗口,網頁標簽用一個層次化的樹狀結構表示)上定位到了某個html標簽。往上逐層找到能框住整個樣例的標簽,隻要注意觀察,就能發現往上找標簽的時候,瀏覽器區域變成黃色背景,而且逐步擴大,等黃色背景能框住所有抓取內容的時候,這就是第一個樣例的潛在區域,它是用一個HTML節點代表的。注意這隻是一個“潛在”的可用節點,還要觀察一下它的兄弟節點,如上圖,第一個LI下麵的兄弟全部是一樣的LI,那麼這個潛在區域就是我們要的。每個樣例都是相同類型的“兄弟”節點所代表的。如果找不到相同的兄弟,還應該繼續往DOM樹的上層找;

3.3,右擊代表第一個樣例的HTML節點,選擇“樣例複製”->“第一個”,在樣例複製管理框中就會看到樣例1被映射了一個節點編號。

3.4,同理,選中相鄰的下一個HTML節點(紅色框),右擊選擇“樣例複製”->“第二個”。


第四步:存規則,抓數據

4.1,規則測試成功後,點擊“存規則”;

4.2,點擊“爬數據”,彈出DS打數機,開始抓取數據。

4.3,采集成功的數據會以xml文件的形式保存在DataScraperWorks文件夾中,可更改存儲路徑,詳情見文章《查看數據結果》。


上篇文章:《采集網頁數據》                                                                       下篇文章:《翻頁采集》


若有疑問可以或集搜客爬蟲軟件

最後更新:2017-01-09 14:08:11

  上一篇:go Python: xml轉json
  下一篇:go Python爬蟲使用Selenium+PhantomJS抓取Ajax和動態HTML內容