采集列表數據

一、操作步驟

采集列表時，可以看到多條結構相同的信息，我們把一條信息稱為一個樣例，例如，表格中的每一行就是一個樣例，又如，百度搜索結果中的每個結果也是一個樣例。具有兩個樣例以上的網頁，做樣例複製映射就能把整個列表都采集下來。下麵用大眾點評網作為案例，操作步驟下：

二、案例規則+操作步驟

采集規則：大眾點評采集（可點擊下載）
樣本網址：https://www.dianping.com/search/category/7/10/g103r6013
采集內容：每一個店鋪的名稱、評論數、人均消費、地理位置、菜係、口味、環境和服務

第一步：打開網頁

1.1，打開GS爬蟲瀏覽器，輸入網址並Enter，加載出網頁後再點擊“定義規則”按鈕，可以看到一個浮窗顯示出來，稱為工作台，在上麵定義規則；

1.2，在工作台中輸入主題名，可以點擊“查重”看看名字是否被占用。

第二步：標注信息

2.1，在瀏覽器窗口雙擊要采集的內容，在彈出小窗中輸入標簽名，打勾確認或Enter，即完成了一個標注操作。首次標注還要輸入整理箱名稱。這也是標簽與網頁信息建立映射關係的過程。

2.2，重複上一步驟，對其他信息進行標注。

2.3，最好設置“關鍵內容”選項，這樣爬蟲才能判斷出采集規則是否合適。在整理箱中選一個網頁上必然能采到的標簽，勾上“關鍵內容”。本例中對“店鋪名稱”勾選（如下圖）。

第三步：樣例複製

3.1，在工作台上選中容器“列表”（所謂容器，就是包含子內容），如下圖啟用樣例複製功能；

3.2，在瀏覽器上找到第一個樣例所在的網頁區域。過程是：點擊網頁上第一個樣例（藍色框）的某個文字，可以看到在DOM樹（窗口的下部窗口，網頁標簽用一個層次化的樹狀結構表示）上定位到了某個html標簽。往上逐層找到能框住整個樣例的標簽，隻要注意觀察，就能發現往上找標簽的時候，瀏覽器區域變成黃色背景，而且逐步擴大，等黃色背景能框住所有抓取內容的時候，這就是第一個樣例的潛在區域，它是用一個HTML節點代表的。注意這隻是一個“潛在”的可用節點，還要觀察一下它的兄弟節點，如上圖，第一個LI下麵的兄弟全部是一樣的LI，那麼這個潛在區域就是我們要的。每個樣例都是相同類型的“兄弟”節點所代表的。如果找不到相同的兄弟，還應該繼續往DOM樹的上層找；

3.3，右擊代表第一個樣例的HTML節點，選擇“樣例複製”->“第一個”，在樣例複製管理框中就會看到樣例1被映射了一個節點編號。

3.4，同理，選中相鄰的下一個HTML節點（紅色框），右擊選擇“樣例複製”->“第二個”。